Caméra portée et images de synthèse : vers une « portabilité augmentée » ? Le cas de la SimulCam d’Avatar de James Cameron

Massuet, Jean-Baptiste

doi:https://doi.org/10.7202/1092308ar

Parler de caméra portée dans le domaine de l’imagerie de synthèse peut passer, a priori, pour quelque chose d’assez saugrenu. La notion même de portabilité pose question dans un univers intégralement conçu par ordinateur, où nul appareil de prise de vues n’est physiquement présent au moment de la conception des images : ces dernières reposent en effet tout autant sur la simulation informatique des éléments de la représentation à venir (décors, personnages) que sur celle du point de vue à partir duquel ces éléments sont perçus. Benoît Mélançon, praticien et formateur dans le domaine de la production infographique, caractérise de manière assez claire cette caméra « virtuelle » : « Il importe de comprendre qu’il ne s’agit pas à proprement parler d’une caméra, ni même d’un modèle en 3D : ce que le logiciel nomme “caméra” n’est en fait qu’un point de vue dans l’espace d’après lequel la scène est calculée pour obtenir une image » (2006, 85). De fait, comme le présente l’auteur, « parce qu’elle est insensible à toute forme d’inertie, la caméra virtuelle paraît artificielle lorsqu’on veut lui faire accomplir certains mouvements. Un effet de “caméra à l’épaule” peut ainsi devenir compliqué à transposer de manière réaliste dans un univers 3D ». On comprend alors qu’un hiatus puisse s’observer entre la production d’images de synthèse et une éventuelle esthétique de la portabilité. Ceci explique que cette dernière soit aussi rare au moment de l’émergence des premières formes infographiques dans les années 1970 – ces images singulières étaient alors conçues dans un circuit parallèle au cinéma (Prince 2012, 12-18 ; Welker 2015) –, mais également qu’elle se développe à l’aune de l’intégration de plus en plus importante d’images informatiques dans certaines formes cinématographiques usant d’effets visuels à partir des années 1990 (North 2008 ; Whissel 2014).

Alors qu’il évoque le deuxième épisode de la « prélogie » Star Wars (Star Wars, épisode II : L’Attaque des clones, George Lucas, 2002), Laurent Jullier fait par exemple référence à un

tic de programmeur, le tremblement de la « caméra » lors d’une explosion ou du passage d’un monstre ou d’un gros engin roulant tout près du « pie » – les guillemets à « caméra » et à « pied » puisque ces appareils n’étaient pas présents pour enregistrer l’empreinte de ce que nous voyons. Tout se passe comme si les programmeurs voulaient dissimuler la disparition de l’objet-caméra en soulignant de manière exagérée ses imperfections.
2005, 59

Il est intéressant de constater que cette esthétique du « tremblement », héritée de la portabilité, fait très clairement écho à un certain imaginaire de la mise en scène développé dans le courant des années 1970 dans le cadre de plusieurs blockbusters, et traduisant une perception particulière des images que l’on a rapidement rattachée à un effet de « réalisme ». Julie A. Turnock développe notamment cet aspect dans ses réflexions consacrées à l’esthétique des effets spéciaux d’ILM[1] dans le cadre de la saga Star Wars :

Au-delà de la reproduction d’effets de lumière cinématographiques, les artistes des effets spéciaux évoquent souvent le photoréalisme en faisant référence aux plans tournés en caméra portée ou au Steadicam dans les années 1970. Comme l’addition de lens flares le suggère, une importante stylisation est requise pour que les effets soient lus comme « réalistes ». […] [L]es praticiens des effets spéciaux à ILM […] ont depuis longtemps reconnu qu’aucun algorithme informatique ne pouvait générer, seul, un effet spécial ou un artefact de synthèse photoréaliste, ce dernier étant quasiment toujours reçu comme « trop parfait » et donc « incorrect pour l’oeil ».
Turnock 2012, 162[2]

On le voit, le « réalisme » ici convoqué se fonde entre autres sur un imaginaire du cinéma reposant sur la mise en avant des caractéristiques techniques de l’appareil de prise de vues au sein de l’imagerie produite, accentuant l’effet de « présence » du cadreur sur les lieux de l’action et donc l’immersion désirée du spectateur dans un univers qu’on lui présente comme étant bien réel.

Cependant, le concept de caméra portée pose question dans ce cas précis : étant rattaché à une vision presque hasardeuse, imparfaite, ou encore chaotique du cadre cinématographique, il serait légitime d’interroger sa pertinence au sein d’un imaginaire du contrôle véhiculé, pour sa part, par les « nouvelles images » depuis leur émergence dans les années 1970. Cette contradiction s’incarne, selon nous, de manière assez exemplaire dans les tournages contemporains de films en performance capture[3], reposant sur une imagerie de synthèse, mais convoquant des techniques de prise de vues qui impliquent bien la présence d’un cadreur sur le plateau[4]. Avatar de James Cameron (2009) en est un exemple probant de par son utilisation d’une caméra spéciale construite pour l’occasion, la SimulCam. Celle-ci permet au cinéaste d’accompagner ses comédiens dans le « Volume » et de les voir, en temps réel, dans le décor de synthèse à venir. Il conviendrait dès lors de comprendre en quoi cette technique de la SimulCam permet de réintroduire de l’humain dans la manière de cadrer un univers de synthèse, tout en reconduisant, dans un même mouvement paradoxal, la soumission du corps à certaines exigences de mise en scène rattachées à ce qui a pris le nom de « cinéma virtuel[5] ». Nous nous demanderons dès lors si cette approche n’irait pas à l’encontre des principes de hasard et d’adaptabilité propres à l’esthétique de la caméra portée.

Dans un premier temps, nous chercherons à comprendre en quoi la technique utilisée sur Avatar s’inscrit dans un devenir cinématographique des images de synthèse bien différent des enjeux qui les déterminaient à l’époque de leur émergence. C’est ce qui nous amènera à glisser du côté de la sociologie des techniques afin de voir, dans le film de James Cameron, une étape importante de ce devenir, déplaçant la simulation d’effets de caméra portée vers un artefact mécanique permettant de simuler l’appareil de prise de vues lui-même. Mais c’est aussi cet aspect que nous soulèverons enfin – en nous demandant si cette caméra, dans ses fonctionnalités, ne s’oppose pas à l’imaginaire de la caméra portée – en ouvrant vers ce que nous appellerons une « portabilité augmentée ».

« Réalisme » des images de synthèse et caméra portée

Si les films contemporains usant de l’imagerie de synthèse font dorénavant assez régulièrement usage d’effets de caméra portée, cette dernière s’avère en revanche assez étrangère aux considérations qui président à la conception des premières images informatiques dans les années 1960-1970. En ce sens, le choix de James Cameron de combiner images de synthèse et portabilité dans le cadre du tournage d’Avatar – et prenant ainsi la suite des expériences de Robert Zemeckis sur La Légende de Beowulf (Beowulf, 2007) et Le drôle de Noël de Scrooge (A Christmas Carol, 2009) – n’a rien de foncièrement naturel : il s’agit bien du placage d’un imaginaire cinématographique particulier sur une technique qui n’a été rattachée qu’assez tardivement à ce domaine spécifique. En ce sens, l’effet « caméra portée » permet de rejoindre une certaine idée du « réalisme » cinématographique en simulant la présence d’un cadreur et, ce faisant, en rejoignant la production « traditionnelle » des films.

Or, au départ, les images de synthèse se développaient principalement dans les domaines de l’automobile (via des firmes comme General Motors), de l’aéronautique, ou encore de la défense (simulations de vol et autres)[6], et résultaient d’expérimentations très éloignées du domaine cinématographique. Comme l’explique Stephen Prince,

les fondations pour la nouvelle génération d’images apparaissant avec Terminator 2 (1991), La mort vous va si bien (Death Becomes Her, 1992), Jurassic Park et Forrest Gump (1994) furent établies dans les années 1960 et 1970 par une série de recherches industrielles et académiques émanant de laboratoires incluant le MIT, Harvard, l’Ohio State University, l’Université de l’Utah, le Xerox Palo Alto Research Center, le Bell Labs, le Lawrence Livermore National Laboratory et le New York Institute of Technology (NYIT).
Prince 2012, 12

Bien loin du cinéma et des imaginaires sociaux qui lui sont rattachés, les « nouvelles images » se caractérisent dès lors au départ par une dimension très utilitaire, servant par exemple d’outils dans le cadre de la recherche fondamentale ou de l’entraînement militaire. De fait, l’exhibition de la tridimensionnalité des objets conçus repose moins sur la simulation d’une caméra qui permettrait de tourner autour de l’objet représenté que sur une possibilité dudit objet de tourner sur lui-même, s’offrant ainsi au regard de l’usager sous ses multiples dimensions (Welker 2015, 53).

C’est ainsi, par le biais d’un imaginaire lié à l’audiovisuel, que la question du réalisme se voit au départ creusée, reposant sur des points de comparaison entre les images produites pour le cinéma ou la télévision et les images générées par ordinateur. Deux perspectives seraient alors à prendre en considération dans le cadre d’une approche réaliste de l’image de synthèse, comme le met en avant Lev Manovich : « la simulation des codes de la cinématographie traditionnelle » d’un côté, « et la simulation des propriétés perceptuelles des objets et environnements de la vie réelle » de l’autre (1998, 10). Si la seconde est souvent privilégiée dans le cadre des réflexions sur le réalisme des images informatiques[7], la première mériterait que l’on s’y attarde, comme en témoigne le même Manovich lorsqu’il écrit, dans son ouvrage Le Langage des nouveaux médias, qu’« au fur et à mesure que la culture informatique les spatialise toutes, les représentations et les expériences sont assujetties à la grammaire d’accès aux données propre à la caméra. Zoom, panoramique horizontal et vertical, travelling : nous exécutons maintenant ces opérations pour interagir avec des espaces de données, des modèles, des objets et des corps » (2010 [2001], 181). La caméra « virtualisée » devient ainsi une « interface » loin du corps physique qui caractérise l’appareil de prise de vues dans la réalité. Le mouvement de caméra repose alors principalement sur l’idée de trajectoire – déterminée informatiquement d’un point A à un point B – et permet aux réalisateurs de s’émanciper des contraintes physiques liées à l’utilisation d’une caméra réelle[8]. Ces usages ont dès lors une conséquence sur l’esthétique des images produites, résultant de l’effacement de l’opérateur au profit de calculs gérés par un programme informatique.

Les discours des années 1980 et 1990 insistent régulièrement à ce titre sur une forme d’aseptisation du mouvement confinant à son impersonnalisation, comme si l’on déplorait l’absence d’un corps derrière le cadre. En témoigne la réflexion d’Ondine Bréaud qui étudie ces discours et en retire l’idée qu’il s’agit toujours de donner le sentiment que « le travail de la caméra a été bien accompli, ou que l’opérateur a bien montré tout ce qui était à voir ; l’opérateur ou la machine, aimerais-je dire, car jamais la caméra n’hésite ni ne tremble. Jamais un regard ne semble exister derrière l’objectif » (2001, 168-69). On remarque ici l’usage d’une terminologie renvoyant bien à des concepts hérités de la portabilité, traduisant l’incapacité des images de synthèse à reconduire une esthétique de la caméra à l’épaule, et par extension, à témoigner d’une présence humaine qui s’incarnerait dans la manière de percevoir le monde dépeint informatiquement.

Mais cette vision repose, on le comprend, sur une perception liée à un imaginaire du cinéma façonné par des habitudes spectatorielles. Comme le fait comprendre Selim Krichane, en se basant notamment sur les travaux d’Edward Branigan (2006), la notion de caméra peut être entendue de multiples façons « qui dépendent chacune d’a priori théoriques et de contextes historiques spécifiques », allant « d’une machine d’enregistrement d’ondes lumineuses aux variations du “point de vue” dans un film, [jusqu’à] désigner le réalisateur et sa “vision” lorsqu’elle est employée par un critique dans une visée auteuriste » (Krichane 2018, 103-4). C’est ce qui amène Krichane à élaborer la notion de « caméra imaginaire » dans le domaine vidéoludique, dont il décortique les différentes acceptions discursives depuis les années 1990 jusqu’à nos jours. Son travail aide ainsi à comprendre la manière dont les images de synthèse 3D ont pu être appréhendées sous l’angle de la notion de caméra qui, par sa naturalisation dans les discours, a pu dans certains cas présider à la mise en place, dans les jeux vidéo, d’habitudes visuelles héritées du cinéma. En se basant sur les travaux de J. David Bolter et Richard A. Grusin et sur leur concept de remédiatisation (remediation) (1999), il remarque ainsi que le « dévoilement de la médiation […] au travers de procédés formels familiers des utilisateurs (ici la caméra) peut augmenter la qualité immersive de la représentation » (Krichane 2018, 367). C’est dans cette logique que l’on peut comprendre l’importance d’une simulation d’effets de mise en scène hérités de l’esthétique de la caméra portée dans le domaine des images de synthèse pour contribuer à la crédibilité d’une situation, à l’immersion qu’elle est censée procurer, et par extension, à sa dimension « réaliste[9] ».

On conçoit que ces considérations trouvent encore davantage à s’incarner dans les films faisant usage de l’imagerie de synthèse, la caméra étant tout à la fois une composante médiatique essentielle du cinéma et une importation « imaginaire » dans le cadre des technologies infographiques aux sources des images produites. L’idée consiste dès lors à conférer à ce type de film une dimension plus « cinématographique » en injectant dans les plans des artifices visuels basés sur une présence ressentie de la caméra pour le spectateur. De fait, ces codes font appel à des stratégies d’énonciation régulièrement reconduites dans le domaine cinématographique depuis la fin des années 1950 et liées, en partie, à la portabilité. Ils renvoient par exemple à ce que Roger Odin appelle la « mise en phase », ce « processus qui […] conduit à vibrer au rythme de ce que le film […] donne à voir et à entendre […] [et contribuant à] la participation affective du spectateur au film » (2000, 38). L’effet de « caméra portée » peut tout à fait participer à cette mise en phase, en injectant une idéologie réaliste aux images produites. David Bordwell et Kristin Thompson ont pu montrer que cette technique, qui se développe au moment de l’apparition des appareils de prise de vues légers, « accentue parfois une impression de brutalité, le sentiment que l’action a été filmée “sur le vif” » (2000, 301). Un aspect « documentaire » peut ainsi émaner de productions entièrement fictionnelles : notre regard assimile ces codes visuels à un certain type de cinéma que l’on rattache, par exemple, au cinéma direct ou au cinéma-vérité[10].

Pourtant, « cinéma » et « mise en phase » n’égalent pas nécessairement « caméra portée ». En ce sens, l’idée est avant toute chose de reconduire ce qui « paraît faire cinéma » dans un contexte précis, et donc de privilégier, là encore, l’artifice ou l’effet au détriment de ce que sous-tend profondément l’esthétique de la caméra portée, à savoir l’affirmation d’un corps s’incarnant dans un regard. Dans cette perspective, les expérimentations menées, entre autres, par des cinéastes comme Robert Zemeckis ou James Cameron dans le cadre de la performance capture incitent à réinterroger la relation entre l’image de synthèse et la portabilité.

De la simulation « d’effets » de caméra portée à la simulation de l’appareil de prise de vues

Parmi les « défauts de jeunesse » de l’image de synthèse énumérés par Philippe Quéau dans son célèbre ouvrage de 1986, on remarque le traitement des mouvements de caméra. Quéau décrit ainsi

une certaine incontinence dans l’utilisation d’oniriques mouvements de type « space opera », où la caméra suit des trajectoires absolument sans heurt, dans une sorte de dérive précise et épurée le long de courbes du troisième degré ! Là encore, il faut y voir un indice de la facilité qu’il y a à coder ces types de trajectoires. Peut-être aussi une réaction hypermoderne au souvenir des caméras malhabiles du cinéma-vérité…
Quéau 1986, 237-38

Cette seconde raison invoquée par Quéau nous paraît en réalité bien moins crédible que la première, laissant entendre la difficulté à simuler l’instabilité d’un cadre. Elle est d’autant moins crédible que Quéau insiste juste après sur l’imperfection de ce type de mouvement, l’appréhendant comme un problème technique qu’il serait envisageable, à l’avenir, de résoudre (1986, 238).

On sait qu’il est tout à fait possible de simuler informatiquement des effets de caméra portée, comme en témoigne le premier long métrage produit intégralement en images de synthèse, Toy Story (John Lasseter, 1995). Dans cet exemple, l’un des premiers plans du récit nous dévoile le personnage du petit garçon Andy courant vers sa chambre en vue subjective. La « caméra » orchestre un balancement imparfait de droite à gauche, donnant le sentiment qu’un appareil cinématographique a bel et bien été porté par un cadreur en pleine course. Cependant, la question reste finalement la même : ces « effets » simulés ne vont-ils pas à l’encontre du principe même de la caméra portée, reposant sur la capacité d’improvisation du cadreur, ou tout simplement sur l’imprévisibilité humaine du mouvement résultant de caractéristiques somme toute physiologiques – poids de la caméra, capacités physiques du caméraman, configuration de l’espace à arpenter, etc. ?

Philippe Quéau a, en l’occurrence, pu entrevoir une voie de sortie pour échapper à cette dimension contrôlée des images, qui reposerait sur l’interaction avec l’ordinateur – transfert de la mise en scène vers une forme de « mise en jeu » – et dont résulterait un éventuel « inattendu modélisé ». En effet, selon lui, « avec les possibilités d’interaction qu’autorisent ces techniques, on franchit […] la frontière d’un monde complètement inexploré », ce qui s’incarnait, par exemple à l’époque, dans les simulations de vol qui ont rendu nécessaire « la possibilité de calculer des images en moins d’1/25^ème de seconde, de façon à pouvoir interagir avec elles à tout moment, en “temps réel” ». Dans ces conditions, « l’imagerie par ordinateur s’annonce […] comme un nouvel outil d’expression artistique, à part entière, disposant d’un double champ d’investigation formelle et synesthésique. Un art des modèles, donc, mais aussi un art du corps expressif » (1986, 239). Ces observations de Quéau nous permettent de comprendre l’existence, dès les années 1980, d’une volonté d’interaction avec les images de synthèse afin de réincarner ces dernières via la présence et l’action du corps de l’usager – comme dans le cadre du jeu vidéo, par exemple.

De fait, c’est également à la lumière de tels enjeux que l’on peut comprendre davantage la logique menant des expérimentations de Robert Zemeckis sur Le Pôle Express (The Polar Express, 2004) vers la conception de la SimulCam d’Avatar. Il nous semble d’ailleurs important, à ce stade de la réflexion, de quitter la perspective théorique précédemment mise en place pour s’attacher à la manière dont les acteurs de la production de ces films perçoivent leur métier et le donnent à voir au sein de leurs discours. Si l’on sait que ceux-ci s’articulent autour d’un appareil bien souvent promotionnel (« making of », entrevues dans des revues de cinéma, ouvrages sur la fabrication des films, etc.), il serait intéressant d’inscrire la suite de notre propos dans la perspective de Jonathan Gray et de ce qu’il a nommé les paratextual features, ou « éléments paratextuels » (2010). Ces éléments – publicité, textes promotionnels, commentaires – participent en effet, selon lui, à façonner l’expérience du public et faciliter l’interprétation du film, mais ils permettent surtout, plus globalement, de comprendre en quoi ces films s’inscrivent dans un contexte discursif plus large qui nous renseigne sur l’imaginaire véhiculé par leurs instigateurs et sur la manière dont les spectateurs sont supposés « consommer » ces objets. En ce sens, les discours des techniciens et metteurs en scène peuvent nous éclairer sur les modes de socialisation des images, et il importe donc de les prendre en considération dans une perspective sociologique des techniques cinématographiques.

Revenir sur le cas du Pôle Express est ici essentiel pour comprendre la différence inaugurée par le film de Cameron en 2009. En 2004, l’intégralité de la prestation des acteurs était captée en trois dimensions dans le « Volume », et ce n’est que dans un second temps, a posteriori donc, que Zemeckis a choisi sa mise en cadre, en essayant plusieurs possibilités de cadrage – la performance des acteurs restant, elle, immuable. C’est aussi cette approche, bien sûr, qui lui permettait d’opérer certains mouvements de caméra « impossibles », traversant les murs ou virevoltant dans l’espace scénique. Il inaugurait dès lors une esthétique du « cinéma virtuel » qui reposait sur la virtualisation du point de vue de la caméra. Mais ce découpage de la production du film en deux temps engage en réalité un imaginaire particulier propre à chacune des deux étapes. En effet, l’un et l’autre tendent respectivement à éloigner cette méthodologie de la performance capture d’un imaginaire qui serait lié aux tournages de cinéma : Rob Legato, responsable des effets visuels d’Avatar, a ainsi pu remarquer qu’avec la méthode de Zemeckis, « on était plus proche [lors de la première étape] d’une pièce de théâtre que de quelque chose de spécifique à la caméra (not camera-specific). Ce n’est que plus tard [seconde étape] que vous avez tout votre matériel reconstruit dans un environnement informatique[11]. » Nous devinons, à l’aune de cette remarque, l’imaginaire convoqué lors de ce second moment de la production, à savoir celui du jeu vidéo, lequel a notamment pu être remarqué par Steven Spielberg lorsqu’il assistait, en 2007, au tournage de Beowulf (Robert Zemeckis)[12]. Il est alors tout à fait révélateur d’observer la logique du discours de Legato, cherchant visiblement à trouver une solution à ce qui est alors perçu comme un problème : rattacher la performance capture à un imaginaire du cinéma. C’est ainsi qu’en résulte la conception de la SimulCam.

Pour reprendre la description de l’aide-réalisateur Josh McLaglen dans le documentaire Capturing Avatar (Laurent Bouzereau, 2010)[13], il s’agissait de « créer un outil permettant au réalisateur de capter l’interprétation en direct ». Legato a donc conçu, « à partir de pièces détachées », une « caméra virtuelle » permettant de récupérer les données calculées par l’ordinateur en temps réel. Comme l’explique James Cameron :

Quand quelqu’un est devant la caméra, ce n’est pas lui que je vois, mais son personnage. Je me promène donc avec un écran de contrôle. Il n’y a pas d’objectif sur cet appareil. C’est un objet marqué que le système assimile à une caméra visant différentes choses. Et ça me montre en temps réel le rendu en images de synthèse. Donc, on appelle ça une « caméra », mais ce n’en est pas vraiment une.
James Cameron, dans Capturing Avatar, 2010

Nous avons bien affaire ici à une « simulation » d’appareil de prise de vues, qui va en réalité au-delà du simple dispositif de « réalité augmentée » vanté par Cameron, comme l’exprime Rob Legato :

Vous regardez le monde virtuel à travers la « lentille ». Mais les acteurs jouent bien en direct devant le regard du metteur en scène. Il peut les diriger durant le plan, les suivre, changer l’organisation des scènes. Je souhaitais montrer que l’on peut commencer à créer à la volée, avec une caméra portée (hand-held camera)[14].

C’est donc la portabilité qui est à la source des questionnements technologiques à l’oeuvre sur le film. Il s’agit en effet de pouvoir s’adapter en temps réel à la séquence filmée, d’établir un lien avec les acteurs et surtout, de pouvoir « improviser » au moment de la prise de vues – chose impossible évidemment dans le cadre d’un film en images de synthèse « classiques ». Nous pourrions néanmoins nous interroger à l’aune des imaginaires visuels véhiculés par l’image de synthèse que nous avons précédemment relevés, ainsi que de l’esthétique même des films appartenant au paradigme du « cinéma virtuel » : ce lien entre portabilité et imagerie de synthèse est-il finalement aussi évident et logique que ce que la description de cet appareil spécifique met en avant ? Ne relève-t-il pas, par son hybridité technique, d’une forme de paradoxe que le discours promotionnel ne donne pas entièrement à entendre ?

De la caméra portée à la « portabilité augmentée »

Si le documentaire Capturing Avatar précédemment évoqué ne s’attarde pas réellement sur les fonctionnalités de la SimulCam, un autre film promotionnel, The Making of Avatar (2010)[15], aborde pour sa part l’appareil de manière plus spécifique. On comprend ainsi, à la lumière des propos de Glenn Derry (superviseur de la production virtuelle), que sa « partie supérieure reprend la position de l’objectif de la caméra. On utilise ce système de capture de mouvement pour suivre la position, comme si c’était la vision de ce monde à travers la caméra. » Richard Baneham, superviseur de l’animation, précise pour sa part qu’il s’agissait de « trouver un design équilibré où l’on pourrait mettre un écran dans une position objective pour que le caméraman puisse l’utiliser, en ayant tout de même une expérience tactile de la caméra ». Selon ces propos, la SimulCam répond donc à une double exigence, à la fois en matière de gestion d’un espace virtuel, mais également en matière de relation physique entre l’opérateur et l’appareil.

Or, cette dimension tactile ne se limite pas ici à l’existence concrète de l’appareil que l’on peut manipuler, mais bien à sa saisie possible par le cadreur, à la capacité de s’en emparer à bras le corps afin de pouvoir interagir avec les acteurs et l’environnement. Cette dimension est essentielle, comme l’explique Cameron lui-même en montrant qu’il « utilisait la caméra virtuelle pour terminer la scène avec les acteurs, exactement comme un réalisateur avec son viseur. On peut improviser à l’envi, car on n’a pas de limites de plateau [l’univers virtuel excédant amplement les dimensions du “Volume”]. » Cette ouverture vers l’improvisation constitue ainsi un enjeu important de la SimulCam, que le « making of » met en valeur. Rob Powers, responsable des environnements virtuels, insiste sur le fait que Cameron peut désormais « explorer l’environnement comme s’il s’agissait d’un décor en prises de vues réelles ». Le superviseur des effets visuels, Stephen Rosenbaum, le confirme :

C’est du temps réel. Jim peut cadrer sa caméra virtuelle et voir son personnage immédiatement et dire : « Mon personnage est là, et je peux exactement établir cet angle. Je peux bouger autour, je peux voir les personnages interagir et réagir entre eux dans cet environnement. » Il reçoit un retour immédiat.
Stephen Rosenbaum, dans The Making of Avatar, 2010

On assiste bien, à la lecture de ce paratexte, non seulement à la mise en avant de la figure de Cameron comme un « auteur technologique », pour reprendre les termes de Chuck Tryon (2015, 184), mais également à la prouesse technologique du film, aux sources d’une promesse d’immersion sans pareil. Il s’agissait de montrer que l’on devait davantage « faire l’expérience » du film que simplement le « voir », « l’habiter » plutôt que simplement le « regarder » (187), ce dont témoigne à sa manière l’usage de la SimulCam décrit dans ces discours promotionnels.

De fait, le paratexte se fait ici clairement l’écho des thématiques et du discours du film lui-même, nous présentant les aventures d’un ex-marine paraplégique, Jake Sully (Sam Worthington), dont l’esprit se voit projeté dans le corps d’un extraterrestre Na’vi dénommé Jakesully, habitant de la planète Pandora, grâce auquel il va réapprendre à marcher, à courir, c’est-à-dire à faire l’expérience de la mobilité corporelle. La technologie à l’oeuvre sur le film redouble donc son parti-pris narratif, ce qui a déjà été remarqué par plusieurs auteurs à l’aune du dispositif de la performance capture, mais pas de l’appareil SimulCam lui-même (Ng 2012 ; Depraz 2012 ; Denis 2014 ; Atallah 2019). Or, ce corps « augmenté » du Na’vi fait écho aux considérations techniques présidant à la mise en scène du film : la dimension heurtée, adaptative, nerveuse, réactive des mouvements de caméra incarne le point de vue d’un Jakesully redécouvrant le bonheur de faire l’usage de son corps sans limitations physiques. Cameron naturalise, en quelque sorte, l’immersion promise par le dispositif et l’incarne à la fois dans le personnage qu’il dépeint et dans la manière qu’il a de filmer la planète Pandora. Les propos d’Andrew L. Jones (directeur artistique de la production virtuelle) dans The Making of Avatar constituent en ce sens le signe de ce désir lorsqu’il affirme qu’on obtient, « à l’aide de cet appareil réagissant comme une caméra de la vie réelle, de bonnes prises de vues sans le côté image de synthèse (that doesn’t feel computer generated). C’est très vivant et réel. » Le spectateur n’est plus tant censé voir les images que les expérimenter de manière physique, via l’oeil chaotique de la caméra portée.

Cependant, une telle appréhension de la SimulCam ne saurait dissimuler un autre de ses aspects techniques qui tend à mettre en question cette importance du corps comme seul vecteur de sens. La SimulCam ne se contente pas, en l’occurrence, de constituer une simulation d’appareil de prise de vues pour l’opérateur : elle tend en réalité à « l’augmenter », à l’image du corps du Na’vi qu’investit le personnage de Jake Sully. Lorsque Glenn Derry continue sa description du dispositif, il glisse quelques éléments supplémentaires permettant de comprendre cet aspect : « On peut voir ça comme un appareil de jeux vidéo qui nous a permis de mettre en place et de voir ce qui se passait sur le plateau en temps réel à travers l’écran. » Il s’agit donc ici de mettre en valeur des fonctionnalités héritées du domaine vidéoludique :

On a aussi mis en place toute une série de boutons, comme pour les jeux vidéo, pour pouvoir faire des travellings, changer l’échelle. On peut devenir une grue (make yourself a crane), on peut monter sur le dos d’un vaisseau et agir comme si l’on faisait une photographie en vol. On peut faire tout ça avec cet appareil portatif.
Glenn Derry, dans The Making of Avatar, 2010

Le discours de Derry illustre la manière dont un imaginaire semble avoir pris le pas sur un autre : la SimulCam nous est présentée comme une manette ou un joystick de jeu informatique, que le metteur en scène peut dès lors utiliser pour compléter son propre mouvement à même le plateau. Le fait de pouvoir, comme l’exprime Derry, « faire de son propre corps une grue » en dit long sur le paradoxe que semble véhiculer avec lui cet appareil, conçu pour réinscrire le corps du cadreur dans le cadre d’une production en images de synthèse. Pourtant, il s’agit bien, simultanément, de produire des plans qu’un corps humain, seul, ne pourrait effectuer avec un quelconque appareil de prises de vues, si portatif soit-il. L’appareil reconduit en ce sens, dans son rapport à la portabilité, ce que le cinéma virtuel traduit dans la relation entre l’acteur et son personnage – le comédien sur le plateau, couvert de marqueurs photosensibles, possède un double virtuel qui le complète de son apparence graphique –, mais aussi dans le rapport tissé entre le personnage et son double « virtuel » à l’écran : le Na’vi Jakesully « augmente » le corps de l’ex-marine Jake Sully, tout en étant métaphoriquement un avatar de jeu vidéo contrôlé par lui à distance.

L’hypothèse que nous cherchions à démontrer ici consiste à voir, dans le mouvement de caméra permis par la SimulCam, une forme de « portabilité augmentée » reposant sur ce principe : le cadreur voit davantage de mouvements, à l’écran, que ce que son propre corps produit réellement en termes de déplacements ou de gestes. Cette configuration technique particulière s’incarne en l’occurrence dans plusieurs séquences, telle la première course-poursuite avec l’une des créatures de Pandora. Cameron y suit en travelling arrière la fuite du personnage de Jakesully ; la caméra tremble sous le coup des mouvements corporels du cadreur, tout en passant au travers d’espaces physiquement impénétrables constitués d’arbres – voire en traversant parfois certains troncs –, signe de l’immatérialité paradoxale de l’appareil enregistrant la séquence. L’esthétique du film se fait donc clairement l’écho de cette double caractéristique de la SimulCam et du questionnement technique qu’elle soulève quant à l’appréhension du personnage dépeint.

En guise de conclusion, il serait intéressant d’ouvrir ces considérations à un film récent tourné en performance capture, perpétuant ces questionnements autour de la portabilité tout en les déplaçant à un autre niveau. Sorti en 2018, Ready Player One de Steven Spielberg choisit en effet de ne plus inscrire ces technologies de tournage dans un imaginaire de la « réalité augmentée », mais plutôt de la « réalité virtuelle ». Les « making of » et entretiens à propos du film dévoilent en effet l’usage, par le cinéaste, d’un nouveau dispositif de mise en images ne reposant plus sur la SimulCam, mais sur un casque de réalité virtuelle. Le cinéaste peut ainsi cadrer directement dans l’univers virtuel, en se déplaçant dans le « Volume », casque vissé sur la tête. Il y a, dans cette configuration, l’expression d’une forme de point de non-retour quant aux possibilités ouvertes par la performance capture : là où cette dernière permettait, à des cinéastes comme Robert Zemeckis, d’inventer la mise en images après la direction d’acteurs, les dispositifs respectifs de Cameron et Spielberg tendent étrangement à annuler cette spécificité pour en revenir à des dispositifs de tournage plus traditionnels.

Ce retour à des configurations plus « classiques », mettant en relation le cadreur et l’acteur, peut sans doute être vu comme le constat d’une impasse liée aux formes d’expressivité du cinéma virtuel, imposant de revenir à la coprésence des corps sur le plateau. Mais il témoigne surtout, à notre sens, d’une autre manière d’envisager l’outil que constitue la performance capture. La SimulCam permettait déjà, par exemple, de penser différemment la direction artistique : James Cameron explique ainsi, dans The Making of Avatar, qu’elle permettait d’abord « d’avoir seulement un aperçu de la scène », autorisant des modifications en temps réel de celle-ci – déplacement d’éléments de décor, placement des personnages virtuels dans ce dernier, etc. C’est également le cas de Spielberg usant de son casque VR. On voit donc dans quelle mesure la portabilité n’est plus seulement un enjeu de cadrage, mais aussi de scénographie. Plus que jamais à l’ère de ces dispositifs virtuels, le metteur en scène écrit le film avec son corps, composant avec les images numériques que son regard, au travers de ces appareils portatifs, appelle de ses voeux. Mais il conviendrait pourtant de souligner à quel point ces dispositifs, censés « libérer » le metteur en scène du poids des caméras et des décors, ne peuvent en réalité fonctionner que dans un cadre logistique à la lourdeur simultanément effrayante. Préparation du « Volume », création d’accessoires spécifiques en fil de fer, chronométrage du tournage, multiplication des techniciens vérifiant le bon déroulement de la captation, poses de synchronisation, tout ceci s’avère nécessaire pour satisfaire le désir de « liberté » du metteur en scène. Nous sommes bien loin, donc, des caméras portables de l’ère argentique – 8-35, A-Minima, chez Aaton – ou même des petites caméras DV – Sony DCR-PC3, Sony DCR-TRV900 – ayant permis l’émergence d’un mouvement comme le Dogme dans les années 1990… Encore un paradoxe, et non des moindres, qui interroge les imaginaires de la portabilité se faisant jour au sein de contextes et d’espaces de création bien différents, non seulement en termes d’esthétique, mais également en termes de sociologie des techniques, ce que cette contribution cherchait à pointer modestement via ces usages particuliers liés au cinéma virtuel.

Caméra portée et images de synthèse : vers une « portabilité augmentée » ? Le cas de la SimulCam d’Avatar de James CameronThe Hand-held Camera and Synthetic Images: Towards an “Augmented Portability”? The Case of the SimulCam in James Cameron’s Avatar

Résumé

Abstract

« Réalisme » des images de synthèse et caméra portée

De la simulation « d’effets » de caméra portée à la simulation de l’appareil de prise de vues

De la caméra portée à la « portabilité augmentée »

Notes

Bibliographie

Abstracts

Résumé

Abstract

Article body

« Réalisme » des images de synthèse et caméra portée

De la simulation « d’effets » de caméra portée à la simulation de l’appareil de prise de vues

De la caméra portée à la « portabilité augmentée »

Appendices

Notes

Bibliographie

Citation Tools

Cite this article

Export the record for this article