PARIS SCIENCES & LETTRES (PSL)
Merci ! Votre abonnement a bien été enregistré !
il y a un soucis. Merci de vérifier votre saisie.

Réalité virtuelle: qu’attendre des 20 prochaines années?

Les technologies immersives ont fait leur entrée dans de nombreux secteurs professionnels. Viendront-elles, au-delà de quelques applications de loisirs, réinventer notre vie quotidienne? À l’horizon de vingt ans, un certain nombre d’évolutions techniques pourraient accélérer leur adoption. Mais il ne faut pas imaginer que la réalité virtuelle déferle à la vitesse qui fut celle de la vague numérique, car ses usages impliquent fortement le comportement sensorimoteur de l’être humain.

Friday
30
March 2018
read in english
read in english
Lire le résumé

Avec la démocratisation de la réalité virtuelle (RV) et des réalités augmentée (RA) et mixte, les usages ne sont plus réservés aux professionnels. Il y a de nouvelles applications pour des activités ludiques ou artistiques. Les applications personnelles et quotidiennes sont également envisageables, mais moins évidentes. Les prévisions les concernant semblent très optimistes, surtout celle sur le futur usage en réalité augmentée du port d’une paire de lunettes RA ou d’un visiocasque RA. Concernant les activités ludiques, elles vont sans difficulté exploiter les techniques RV+ dans les parcs d’attraction et dans les salles d’arcades (RV+ : réalité virtuelle, réalité augmentée et réalité mixte). En revanche, les jeux vidéo en réalité virtuelle seront en concurrence avec les jeux vidéo classiques, même quand les visiocasques seront peu onéreux et accessibles. On peut penser qu’il en sera de même pour les usages des réseaux sociaux immersifs par rapport aux utilisations actuelles des réseaux sociaux standard.

Les usages des techniques RV+ dans les domaines professionnels (Industrie, Santé, Formation, Education, Urbanisme, Architecture, etc.) sont bien référencés et établis depuis au moins dix ans. L’effervescence médiatique va inciter toutes les entreprises des secteurs précités et celles de nouveaux secteurs (marketing, commerces, loisirs, médias, etc.) à, au moins, se poser la question d’envisager d’exploiter ces techniques, dont le coût en investissement est plus modeste qu’il y a dix ans.

Que peut-on attendre des dix ou vingt prochaines années des évolutions technologiques, permettant d’élargir le spectre des usages ?

Nous résumons ici les principales évolutions techniques que l’on peut espérer d’ici 20 ans, permettant d’améliorer les applications ou de proposer de nouveaux usages qui ne sont pas encore envisageables actuellement.

Interfaçage visuel

Les futurs visiocasques doivent être améliorés sur leurs cinq faiblesses principales :

                -  avoir une meilleure qualité visuelle des écrans, avec une résolution nettement plus grande (le principal défaut actuel) ; 


                -  avoir des champs de vision horizontal et vertical identiques à la vision humaine ; 


                -  avoir le tracking des yeux ; 


                -  avoir une accommodation adaptative au niveau de chaque pixel ; 


                -  améliorer la liberté de mouvement en supprimant les câbles reliés à l’ordinateur.

Pour disposer de visiocasques qui répondent à toutes ces améliorations simultanément, il faudra attendre au moins un quart de siècle. On a déjà patienté la même durée pour que les prix des visiocasque baissent ! Concernant les visiocasques RA, on peut espérer des améliorations avec les produits Magic Leap et Hololens. Leur principal progrès n’est pas dans la restitution visuelle à accommodation adaptative, mais dans leur « scanner 3D », réalisant en temps réel la reconstruction 3D et l’analyse de cet environnement. L’objectif des scans temps réel est de permettre une correcte intégration visuelle des entités virtuelles (les soi-disant « hologrammes ») avec le monde réel.

Actuellement, il y a des restrictions bien compréhensibles et la reconstruction 3D est limitée à des environnements structurés géométriquement et peu complexes, composés de primitives géométriques simples : plan, cylindre, etc. On n’est pas près de pouvoir simuler en réalité augmentée un oursin virtuel rentrant en contact avec un hérisson réel... La paire de lunettes Magic Leap va proposer une accommodation adaptative sur trois plans à différentes profondeurs dans un premier temps, d’après les dernières informations. Son champ de vision horizontal sera a priori un peu plus grand que celui du Hololens pour l’affichage des entités virtuelles, mais cela reste trop faible pour certaines applications. À l’inverse du Hololens qui est un visiocasque à visière, la paire de lunettes Magic Leap a l’inconvénient d’avoir des montures qui occultent totalement la vision périphérique sur le monde réel. 


Il existe des projets de visiocasques haute résolution. Google a un projet pour avoir 20 Megapixels par œil. La start-up finlandaise Varjo Technologies est en train de développer une technologie d’affichage pour avoir 70 Megapixels, qui exploite des micro-écrans OLED Full HD. Le casque disposerait de deux types d’affichage par 
œil : un affichage classique en fond d’écran, de 1080×1200 pixels à fréquence de 90 Hz, et un micro-écran de 1920×1080 pixels, qui afficherait une image à haute résolution à l’endroit où pointeraient les axes optiques des yeux en mouvement. La solution optique n’est pas connue et est peut-être réalisée à base de micro-miroirs. La difficulté est de réaliser cette restitution visuelle avec très peu de temps de latence car les mouvements des yeux sont extrêmement rapides. Les visiocasques réalisés à partir de smartphones n’ont pas d’avenir à moyen terme.

Concernant les composants, des recherches sont entreprises pour avoir des lentilles optiques plus efficaces, tout en étant moins encombrantes en épaisseur. On sait que la principale difficulté de la conception d’un visiocasque concerne le système optique, plus que la qualité des écrans. Des lentilles à surface plane et à base de nanostructures permettent de concentrer la lumière. L’équipe de l’École d’Ingénierie et de Sciences Appliquées John A Paulson de Harvard a développé des prototypes. Pour les futurs visiocasques, il faudra augmenter la puissance des cartes graphiques pour afficher des images à plus haute résolution. Les constructeurs de cartes graphiques, tel que Nvidia, y travaillent et devraient fournir sans trop de difficultés les corrects affichages, en fonction de l’augmentation de la résolution des écrans. Des constructeurs développent des visiocasques autonomes ou, au moins, sans câble de liaison avec une communication sans fil à débit suffisant. D’autres constructeurs développent des visiocasques pour voir un film classique, en exploitant des écrans souples d’assez haute résolution (densité de 3000 pixels per inch), telle que la société Royole Corporation. L’usage peut être justifié en mobilité, comme proposé aux passagers des compagnies aériennes par l’entreprise Skylight, qui permet de visionner des longs-métrages individuellement durant le vol.

Concernant l’évolution des smartphones par rapport à la réalité augmentée, l’entreprise Red, fabricant d’appareils photos et de caméras, a développé, grâce à des composants de nanotechnologie, un smartphone avec un écran holographique : par rapport à un smartphone classique, l’observateur voit mieux en trois dimensions les objets grâce à la vision binoculaire et surtout, grâce au changement au point de vue de l’observateur, lors de rotation de l’écran (indice monoscopique : changement de parallaxe). Concernant les interfaces visuelles pour la réalité augmentée, il est illusoire d’espérer avoir des lentilles de contact à poser sur les yeux et qui afficheraient dynamiquement des images de synthèse avec le bon point de vue, comme dans le film de science-fiction Minority Report. Même si une entreprise a déposé des brevets pour cet objectif, il y a trop de difficultés technologiques insurmontables, avec en plus, les très fortes contraintes des yeux en mouvement par saccades très rapides et en micro-mouvements continus quand ils pointent une zone précise.

Concernant l’évolution des CAVEs (cubes immersifs 3D) et autres dispositifs sur grand écran, il ne faut pas s’attendre à une baisse rapide des prix de ces dispositifs, même si des entreprises commercialisent des CAVES à quelques dizaines de milliers d’euros, permettant à des PME d’investir dans de tels matériels. Il faudra peut-être attendre, à moyen ou à long terme, la fin de la technique de vidéo-projection, remplacée par celle exploitant des grands écrans plats, rigides ou éventuellement souples, pour obtenir une baisse significative des prix.

Captation d’un environnement réel

Il y a des recherches et des développements sur les caméras 360° volumétriques qui permettent une reconstruction partielle 3D. Ce type de captation permet à l’observateur de mieux voir la scène, en se déplaçant légèrement, de gauche à droite, de bas en haut, par rapport à sa position d’origine. Si on veut avoir les mêmes possibilités de déplacement et de manipulation d’objets qu’avec un environnement virtuel créé en images de synthèse, il faut passer par une reconstruction 3D de l’environnement réel qui a été filmés par la caméra 360°. Il y a plusieurs solutions, dont une consiste à coupler à la caméra 360° un scanner laser 3D. Mais cela permet seulement de se déplacer dans l’environnement 3D, non peuplé d’acteurs filmés ou de personnages virtuels modélisés en 3D, ce qui est une autre grande difficulté (voir paragraphe suivant).

Modélisation et animation d’avatars ou de personnages virtuels

Le terme avatar ne désigne en réalité virtuelle que la représentation de l’usager immergé dans l’environnement virtuel. Le rôle d’un avatar peut être exploité pour permettre à l’usager de :

                -  interagir plus aisément dans l’environnement, car l’usager, voyant son avatar, a un retour visuel de ses actions sensorimotrices. En conséquence, la visualisation de l’avatar peut aider la personne à mieux exécuter ses actions, quand l’usager n’est pas colocalisée avec son avatar ; 


                -  mieux communiquer avec d’autres personnes également immergées et représentées elles aussi par leur avatar ; 


                -  fournir à la personne immergée une représentation de son corps, de son schéma corporel, en vue d’effets psychologiques, en particulier lors de la mise en œuvre de thérapies virtuelles, où le schéma corporel a un impact psychologique important pour la rééducation. 
La modélisation d’un avatar ou d’un personnage virtuel n’est pas simple. Il reste encore beaucoup de travaux de recherche et de développement, avant d’avoir accès pour tout développeur à une bibliothèque de personnages virtuels « prêt à l’emploi ». 


Les difficultés de modélisation et d’animation d’un personnage virtuel sont à quatre niveaux : la modélisation biomécanique (sensorimotrice), la modélisation cognitive fournissant une certaine intelligence artificielle pour comprendre une situation, la modélisation comportementale permettant la création de personnage autonome pour réaliser des actions de lui-même (déplacement, manipulation et communication via un dialogue artificiel), ainsi que la modélisation d’émotions, retranscrites par le visage et des gestes. Avec une telle liste, on comprend aisément que les difficultés sont très grandes et qu’il faudra encore des années pour avoir des personnages modélisés et animés en temps réel, ayant les caractéristiques requises pour toute application RV. Ils devront aussi être autonomes dans leurs actions, face aux comportements de l’usager, grâce aux développements d’algorithmes basés sur les techniques d’Intelligence Artificielle.

Pour la modélisation biomécanique, il y a maintenant des solutions efficaces, mais qui demandent des moyens et du temps pour faire l’avatar d’une ou deux personnes en même temps, comme réalisé par Microsoft. Concernant la modélisation et l’animation d’un visage, la société française Eisko avec son dispositif technique composé d’un grand nombre de caméras, montre ce qui peut être réalisé à ce jour : en temps réel, les expressions du visage sont maintenant photoréalistes. Un personnage peut être ensuite animé en temps réel dans un logiciel de réalité virtuelle. À l’opposé, avec de faibles moyens techniques, il est possible de faire la modélisation d’un visage ou de simples objets, avec seulement un smartphone. Le résultat est évidemment de moins bonne qualité visuelle, à cause, entre autres, du manque de contrôle de l’éclairage. Cette solution est proposée sur certains smartphones, dont ceux de Sony, pour des usages en réalité augmentée.

Interfaces comportementales

Au-delà des visiocasques, l’évolution des autres interfaces sensorielles, motrices ou sensorimotrices va être lente, comme cela a été le cas depuis un quart de siècle. Non, l’évolution des technologies ne va pas de plus en plus vite... Les verrous technologiques sont maintenant bien référencés. Les prix de certains types d’interfaces vont baisser progressivement, sauf pour les interfaces à retour d’effort et les interfaces à stimulation de mouvements, qui vont rester hors de la portée d’achat personnel pour un usage à domicile.

Il ne faut pas confondre les interfaces à retour d’effort capables de fournir des efforts sur le corps de l’usager (les mains principalement), permettant de bloquer les mouvements, avec les « combinaisons haptiques », à enfiler par l’usager, qui créent des sensations d’effort sur les muscles par électrostimulation. Ce type de combinaison ne procure pas d’efforts externes au corps et, en conséquence, ne permet pas de bloquer les mouvements, telle la combinaison Tesla en développement.

La manipulation d’un objet virtuel se réalise aisément avec toute manette. En revanche, si on veut une manipulation ne avec les doigts, créant les vraies sensations haptiques (tactile et retour d’efforts internes et externes), les difficultés en mécatronique pour réaliser un tel gant à retours tactiles et d’efforts réalistes sur tous les doigts, sont illimitées. Il ne sera jamais possible de faire un gant parfait, quelle que soit l’évolution des techniques. Il faudra toujours faire des compromis techniques. En revanche, les gants tactiles qui fournissent seulement des retours de toucher mécanique, et éventuellement de variation thermique, sont concevables aisément et efficaces, même si les stimuli tactiles sont approximatifs et peu réalistes. Ils doivent trouver leur marché économique pour être vendus en plus grand nombre, ce qui n’est pas évident car leurs usages effectifs sont limités.

Certains rêvent d’exploiter des Interfaces Cerveau-Machine (ICM), fournissant un effet spectaculaire pour manipuler par la pensée des objets virtuels ou pour se déplacer virtuellement. Mais, au-delà de cet effet étonnant, les ICM ne seront guère utiles pour les applications RV+, car elles imposent une surcharge cognitive inappropriée et inefficace pour l’usager.

Les interfaces olfactives ont déjà été développées, mais n’auront pas un essor commercial important car elles ne sont pas indispensables dans beaucoup d’applications grand public. De plus, elles sont très contraignantes à gérer puisqu’il faut matériellement en stock toutes les odeurs que l’on veut faire ressentir à l’usager.

Conditions et limites anthropo-technico-économiques

Le temps d’adoption des innovations technologiques par un grand nombre de consommateurs a été de plus en plus court durant le dernier siècle et jusqu’à aujourd’hui : plus de cinquante ans environ pour démocratiser l’avion et le téléphone, quarante ans pour la radio, vingt ans pour que la plupart des gens possède un téléviseur ; quinze ans pour une pratique quotidienne de l’ordinateur portable, moins de dix ans pour surfer sur Internet et trois ans environ pour la diffusion de l’iPod. Mais il n’en sera pas de même avec la réalité virtuelle, car ses usages impliquent fortement le comportement sensorimoteur de l’être humain, ce qui n’a pas été le cas pour l’introduction des autres innovations technologiques précitées.

Cela ne signifie pas à l’opposé qu’il faudra attendre un demi-siècle pour que les techniques RV+ soient utilisées par le plus grand nombre de personnes. Certaines applications RV+ seront exploitées quotidiennement tandis que d’autres le seront temporairement dans des situations particulières. L’évolution technico-économique sera plus lente que ce que certains prédisent, mais elle s’accomplira progressivement, quoi qu’il advienne. Les techniques RV+ reposent en partie sur l’informatique. Ce n’est donc pas l’évolution de l’informatique, toujours très rapide, qui sera un frein pour l’essor des applications RV+. Comme nous l’avons précisé, il ne s’agit pas seulement de traiter des données. Il s’agit d’agir, de vivre, dans un environnement artificiel avec toutes les contraintes et limites anthropo-technico-économiques.

Le passage de l’analogie au numérique est un vrai bouleversement pour des secteurs d’activités qui fonctionnaient avec des dispositifs analogiques: la télévision, la radio, le cinéma, la photographie, etc. Le bouleversement n’est pas que dans la transformation technique du matériel et des méthodes de travail de ses secteurs. Il est aussi dans l’ouverture de nouveaux usages. Un des plus emblématiques est le passage matériel de caméra classique à caméra 360° (impossible à réaliser en analogique), débouchant sur un nouvel art : les longs-métrages VR ! Pour l’instant, toutes les potentialités du numérique n’ont pas été exploitées en RV+, vu les difficultés de modélisation et d’animation de l’environnement artificiel et de personnages virtuels devant avoir une certaine autonomie d’action. Une autre difficulté est de modéliser en temps réel le comportement de l’usager, les actions qu’il entreprend pour l’assister ou pour lui proposer une œuvre artistique adaptée à son attitude. Cela ne sera possible qu’avec le développement d’algorithmes basés sur l’Intelligence Artificielle.

À propos du comportement de l’usager, les risques d’inconfort, voire de malaise jusqu’à la cinétose, ne sont pas un frein économique pour tout concepteur qui sait maîtriser, non pas une seule incohérence sensorimotrice, induisant «le mal de la réalité virtuelle » (cybersickness), mais toutes les incohérences sensorimotrices de son application, induisant « les maux de la réalité virtuelle ».

Les trois principales sont, pour rappel, la latence induite par le visiocasque, l’incohérence oculomotrice et l’incohérence visuo-vestibulaire. La suppression des impacts négatifs sanitaires sont pour la première, sous la responsabilité des constructeurs des visiocasques, pour la deuxième, sous la responsabilité du développeur, tant que les constructeurs de visiocasques ne proposent pas des affichages à accommodation adaptative, et pour la troisième, sous la responsabilité du développeur. Si ce dernier crée d’autres incohérences sensorimotrices, en particulier pour des ACV irréalistes, il doit maîtriser les incohérences correspondantes. Tout usager aura une sensibilité plus ou moins importante face à ces incohérences. Le développeur devra tester son application, au minimum sur un panel d’usagers (et non sur lui-même !). Il sera préférable pour des raisons sanitaires et économiques que l’application RV soit adaptable en fonction de la sensibilité de chaque individu. Il est illusoire qu’à moyen ou à long terme tous les individus s’adaptent à tous les types d’incohérences sensorimotrices. Notons que l’homme navigue depuis 130 000 ans et certains ont toujours le mal de mer !

Tous les domaines des médias, des arts, de la culture et de la communication sont impactés par le passage au numérique. Avant celui-ci, les secteurs d’activité étaient nettement séparés techniquement et donc économiquement. Ce n’est plus le cas maintenant et tous les secteurs d’activité peuvent empiéter sur les autres. Depuis que tous les médias sont digitaux, il n’y a plus de frontières infranchissables, au moins au niveau technique, entre la télévision, les jeux vidéo, les réseaux sociaux, le cinéma, et les futures applications RV+ grand public : Internet propose des films et des vidéos, les réseaux sociaux et les moteurs de recherche se sont emparés de la majorité des annonces publicitaires, la télévision peut se regarder sur un smartphone ou sur un  ordinateur, sur lesquels on peut consulter les journaux ou lancer un jeu vidéo, dont certains permettent de se former ou de faire des expériences interactives artistiques, etc.

Globalement, toutes les activités sensorimotrices, et pas seulement l’activité bi-sensorielle « voir et écouter », peuvent se réaliser sur bien des appareils numériques accessibles et utilisés par tous. Dans ce nouveau contexte technico-économique, comment les applications RV+, professionnelles ou non, vont-elles se développer, sachant que, aujourd’hui, les grandes entreprises internationales, GAFAM et autres, ont une très grande puissance financière pour répondre à tous les usages (médias, arts, culture, activités ludiques, éducation et communication), voire les imposer, au niveau mondial ? Les écosystèmes économiques peuvent-ils se rejoindre, ou certains vont-ils absorber d’autres ? Il est au moins sûr que les usages de la RV+ seront aussi variés que les usages de l’informatique, même si actuellement ce n’est pas encore le cas.

Ce texte est extrait du nouveau livre de Philippe Fuchs, Théorie de la réalité virtuelle. Les véritables usages, à paraître aux Presses des Mines en mai 2018.

Philippe Fuchs
Professeur de réalité virtuelle, titulaire de la chaire Robotique et Réalité Virtuelle de PSA Peugeot-Citroën / Mines ParisTech - PSL