Revue Française des Méthodes Visuelles
Images interactives et nouvelles écritures

N°5, 06-2021
ISBN : 978-2-85892-471-4
https://rfmv.fr/numeros/5/

La mirada inmersiva

La mirada inmersiva

Estudio transdisciplinar de la inmersión en realidad virtual interactiva

Estudio transdisciplinar de la inmersión en realidad virtual interactiva

Victor Fajnzylber, Universidad de Chile, Escuela de Cine y Televisión, ICEI

Francisco J. Gutiérrez, Universidad de Chile, Departamento de Ciencias de la Computación, FCFM

Paulo Barraza, Universidad de Chile, Instituto de Educación

Pablo Riveros, Universidad de Chile, Unidad de Redes Transdisciplinares

Javier Moyano, Universidad de Chile, Escuela de Cine y Televisión, ICEI

Mateu Sbert, Universidad de Girona, Laboratorio de Gráficos e Imágenes, IIiA

L’émergence de récits audiovisuels interactifs et immersifs nécessite le développement des méthodes visuelles pour leur étude. Il est essentiel de comprendre comment la réalité virtuelle et l’interactivité modifient le langage cinématographique, transforment ses mécanismes expressifs et l’expérience utilisateur-spectateur. Cela représente un grand défi pour la production audiovisuelle et la recherche scientifique, en raison des effets physiques négatifs, tels que les étourdissements et autres désagréments, que certains contenus immersifs peuvent générer. Nous avons développé une approche transdisciplinaire visant à identifier les procédures narratives et interactives qui réduisent les effets collatéraux de l’immersion cinématographique dans la réalité virtuelle. Cette méthode est basée sur des études sur la perception visuelle du cinéma et intègre un processus collaboratif de production audiovisuelle, la conception d’interactions implicites entre le contenu et l’utilisateur, et l’évaluation en temps réel de la réponse physique et émotionnelle lors d’une expérience immersive.

Mots-clés : Réalité virtuelle, Immersion, Perception, Interaction, Transdisciplinarité

La aparición de narrativas audiovisuales basadas en el uso de medios interactivos e inmersivos requiere el desarrollo de métodos visuales para su estudio. Es fundamental entender cómo la realidad virtual y la interactividad modifican el lenguaje cinematográfico, transformando sus mecanismos expresivos y con ello la experiencia del espectador-usuario. Esto representa un gran desafío para la realización audiovisual y para la investigación científica, debido a los efectos físicos negativos, como mareos y otras molestias, que pueden generar algunos contenidos inmersivos. Hemos desarrollado una aproximación transdisciplinar destinada a identificar procedimientos narrativos e interactivos que permitan reducir los efectos colaterales de la inmersión fílmica en realidad virtual. Este método se basa en estudios sobre percepción visual del cine, e incorpora un proceso colaborativo de realización audiovisual, el diseño de interacciones implícitas entre el contenido y el usuario, y la evaluación en tiempo real de la respuesta física y emocional durante la experiencia inmersiva.

Palabras clave : Realidad virtual, Inmersión, Percepción, Interacción, Transdisciplina

Galerie des images
Imagen 1 - Tres ejemplos de filtros NPR : frame nativo (izquierda), COLOR COMIC (centroizquierda), PASTEL (centroderecha), PAINTING (right). Extracto de la película « Las Niñas Quispe ».Imagen 2 - Toma fotorrealista (A) y Tomas no-fotorrealistas (B-H).  Extracto de cortometraje « No era penal ». <br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.Imagen 3 - Estilo fotorrealista (izquierda) y estilo no-fotorrealista (derecha). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.Imagen 4 - Atención visual centrada en personajes. Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.Imagen 5 - Acompañamiento ocular del movimiento de cámara. Versión fotorrealista (arriba) y versión no-fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.Imagen 6 - Adaptación ocular tras corte de montaje. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.Imagen 7 - Atención visual en zonas de contacto físico entre personajes. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.Imagen 8 - Atención visual en rostros y exploración ocular de profundidad escénica. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.Imagen 9 - Escena final con personaje avanzando hacia la cámara. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.Imagen 10 - Modelado de habitaciones. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.Imagen 11 - Creación de ventanas y exteriores dinámicos interactivos. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.Imagen 12 - Creación de portales virtuales para transitar entre habitaciones. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.Imagen 13 - Creación de dinámicas lumínicas para acentuar la sensación de paso del tiempo. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.Imagen 14 - Creación de dinámicas lumínicas para acentuar la sensación de paso del tiempo. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.

La mirada inmersiva

Estudio transdisciplinar de la inmersión en realidad virtual interactiva

Virtual space can be seen as a system where art meets science.
In this space the actor becomes part of what (s)he observes.

(Wideström, 2019, p.198)

Introducción : un enfoque transdisciplinar de la investigación cinematográfica y audiovisual

El Laboratorio de Realidades Virtuales [VR-LAB] es un núcleo de investigación científica experimental y creación artística audiovisual dedicado al estudio de lenguajes audiovisuales inmersivos y tecnologías emergentes de interacción digital. Nos interesamos en el estudio de la inmersión individual, grupal y colectiva, en mundos y entornos virtuales que permiten navegación espacial y comunicación digital, con un enfoque académico transdisciplinar.

La percepción de lo virtual, como fenómeno complejo, implica una « corporalidad construida ». El usuario de lo virtual habita un nuevo espacio, percibe nuevos límites, nuevas distancias, su mirada se desplaza, su atención cambia; en resumen, su percepción se modifica. Sin embargo, esta percepción, por su rol de mediación entre el adentro y el afuera, a su vez transforma el espacio construido. ¿ Desde dónde acercarse entonces a la complejidad de lo virtual ? El modo de producción de conocimiento disciplinario sin duda permite esbozar posiciones, pero la yuxtaposición no es suficiente para dar cuenta del ritmo de innovación tecnológica que subyace y retroalimenta al objeto « realidad virtual ». La búsqueda apunta entonces a la construcción de un mapa dinámico, un rompecabezas analítico que logre trascender la velocidad de los avances técnicos para constituirse como una percepción móvil, capaz de aprehender la complejidad de su objeto.

La transdisciplinariedad entendida como trascendencia de los límites disciplinarios, académicos y epistémicos (Thompson et al., 2017), aparece como un camino posible que, si bien no garantiza éxito, podría aportar una nueva arquitectura conceptual y una nueva geografía de lo experimental para dar cuenta de esta nueva « corporalidad virtual ».

La investigación transdisciplinaria integra investigadores académicos de diferentes disciplinas y participantes no académicos para investigar problemas del mundo real y crear nuevos conocimientos y teorías

(Cronin, 2008, p. 4-5)

En la construcción de nuestro método visual, hemos sumado un nuevo nivel de complejidad : la representación. Lo virtual en este caso se aplica a un objeto audiovisual, a una representación elegida del espacio. El abordaje implica reunir a usuarios y expertos, que vivencian y perciben esta virtualidad. Estos actores no son solo « sujetos de estudio », sino que su percepción modifica los contornos del objeto. La mirada transdisciplinar se despliega a través de esta integración entre artistas y científicos, esbozando un marco metodológico que habilite su participación y la sinergia entre sus saberes.

En este trabajo presentamos las bases de un método en construcción, que combina producción audiovisual e investigación experimental, destinado a generar conocimiento sobre la experiencia de inmersión individual en una experiencia de realidad virtual interactiva. La pregunta del « cómo entender lo virtual » sigue abierta. No intentaremos agotarla en este artículo pero, al menos, sí delinear empíricamente algunos de los elementos del fenómeno de « lo inmersivo ».

1. La inmersión en realidad virtual y sus obstáculos

¿ Qué entendemos por inmersión en experiencias inmersivas e interactivas ?

Dentro de la literatura científica, el concepto de « inmersión » procede de la idea de sumergirse en un ambiente determinado. En un campo familiarizado con este término, como es el de la Realidad Virtual, éste se relaciona con la percepción de sentirse físicamente « presente » en un entorno simulado. La realidad virtual provee convenientemente de dispositivos de entrada, como las gafas y los cascos, medios casi naturales de interacción y control, con grado de percepción de auto-movimiento, que, a su vez, permiten aislar los sentidos lo suficiente para sentirse transportado hacia otro lugar. Las buenas prácticas pueden aumentar este grado de sensación en directa relación con la experiencia de usuario. La « inmersión » se estudia en diferentes campos y una experiencia de realidad virtual puede no ser inmersiva. La « inmersión » se materializa en experiencias únicas para el usuario como, por ejemplo, leer un libro, una historieta, ver un espectáculo audiovisual o musical. No obstante, para efectos de nuestro campo, la « inmersión » puede entenderse como el nivel objetivo de fidelidad sensorial de algo vivido que provee un sistema de realidad virtual (Kim et al., 2017). Es decir, la capacidad de una simulación de aproximarse a una experiencia real. Para esto, se deben eliminar las sensaciones del mundo real tanto como sea posible, y sustituirse por las experiencias sensitivas correspondientes a las del entorno virtual construido. En tanto, la « presencia », o bien, el « sentido de presencia », a menudo correlacionada y a la vez confundida con « inmersión », se entiende como la respuesta ilusoria subjetiva del usuario frente a la simulación (Slater y Sanchez-Vives, 2016). Es una consecuencia cognitiva y perceptual de la « inmersión », que corresponde a una ilusión : la creencia subjetiva de que se está en un lugar, incluso cuando se esté físicamente situado en otro.

De lo anterior se desprende que no se puede hablar de « inmersión », y en consecuencia, de tecnologías « inmersivas » sin hacer alusión al impacto sensorial y cognitivo. En definitiva, el efecto corporal que producen estas ilusiones digitales. En comparación con las décadas iniciales de estas tecnologías, la alta definición digital, las velocidades de procesamiento computacional, la ergonomía de los visores existentes y el acceso globalizado a este tipo de dispositivos haría pensar que ha llegado la era de lo virtual. Sin embargo, a pesar del enorme avance tecnológico, aún se siguen reportando efectos colaterales en las experiencias de realidad virtual (Servotte et al., 2020). No obstante, estos problemas han sido estudiados ampliamente por la academia, generando métricas y procedimientos estandarizados para poder evaluar estos malestares (Stone, 2017). Y, mediante esto, mejorar las experiencias para minimizar estos efectos, los cuales en su mayoría tienen relación con los campos de profundidad, control de la experiencia, tonalidad de colores dentro de la experiencia.

El carácter indisociable entre virtualidad y corporalidad no ha sido resuelto, a nivel global, incluso en los países industrializados donde estas tecnologías están más consolidadas. Esto se produce en los contenidos de tipo artístico-cultural (películas, videojuegos, experiencias educativas, etc.) así como en las experiencias destinadas al entrenamiento industrial de competencias laborales. Las experiencias de realidad virtual aún producen malestar físico pues no se han descifrado aún todas las claves de los fenómenos fisiológicos asociados, al menos en el ámbito de los productores de contenidos. En otras palabras, creadores e ingenieros producen contenidos sin poseer métodos o herramientas que les permitan evaluar los impactos fisiológicos de sus productos. Se puede gastar mucho dinero para producir experiencias inmersivas que producen efectos colaterales, sin saber bien cómo evitarlos, excepto pasando por procesos de ensayo y error que prácticamente ningún mercado o empresa nacional es capaz de solventar.

De todo lo anterior se desprende que no es posible hablar de tecnologías inmersivas sin hacerse cargo de la dimensión biofísica de sus efectos en el usuario, porque la mayoría de las experiencias que se generan, en empresas audiovisuales o startups, se realizan sin estudiar estos procedimientos. Por tanto, existe la probabilidad de no impactar positivamente en su grupo objetivo, causando un rechazo hacia la tecnología y una brecha tecnológica. Un centro tecnológico que pretenda estimular la producción y distribución de contenidos realizados con estas tecnologías tendrá necesariamente que asumir el desafío de introducir, dentro de los mismos procesos de investigación, desarrollo y prototipado, un conocimiento científico específico capaz de dar cuenta de los efectos colaterales. Será necesario identificarlos en su especificidad, corregir las fuentes posibles de dichos trastornos indeseados e iterar pruebas hasta llevar los contenidos hasta un nivel de confort tal que sea razonable pasar a las fases de producción y distribución.

Como punto de partida, nos proponemos afrontar el desafío de elaborar un método visual para estudiar la inmersión en contenidos audiovisuales interactivos en realidad virtual : deseamos estudiar las implicaciones de la interconexión biofísica entre contenidos y espectadores-usuarios desde una perspectiva transdisciplinar de sus problemáticas.

Movimiento virtual y malestar físico en realidad virtual

Dentro de la diversidad de malestares que pueden producir los contenidos inmersivos, contamos las siguientes molestias : la motion sickness (también conocido en español como « cinetosis » o « mal de movimiento »), la simulator sickness y la cybersickness, las cuales se distinguen entre sí con cierto grado de ambigüedad. Si bien todas estas comparten gran parte de un perfil sintomático, como el dolor de cabeza, la fatiga, la desorientación, el mareo y las náuseas, no puede hablarse de una misma molestia cuyo responsable es el movimiento, a lo sumo, los dos últimos perfiles podrían calificar como subtipos de la motion sickness (Mazloumi et al., 2018). Esto, pues, la motion sickness alude, a grandes rasgos, a la respuesta fisiológica frente a la incongruencia entre las señales percibidas visualmente y el movimiento percibido por el sistema vestibular, responsable del equilibrio y del control del espacio (Bertolini y Straumann, 2016). La simulator sickness, comparada a la experiencia anterior, es aquella que se ve facilitada específicamente por un entorno virtual, ya sea mediante un dispositivo de proyección o una pantalla montada en la cabeza (head-mounted display), que permite la simulación, de manera exclusiva, del pilotaje o el manejo de algún tipo de vehículo (Benz et al., 2019). La cybersickness, en tanto, tal y como la simulator sickness, se produce mediante la interacción con los entornos virtuales, especialmente con la asistencia de interfaces como las gafas o los cascos de realidad virtual, aunque no restrictivamente a condiciones móviles, sino que también estacionarias (Rebenitsch y Owen, 2016). Y, hasta hace muy poco, entendida sólo por estímulo visual, no implicando la acción del sistema vestibular (American Physiological Society, 2018).

Ha habido intentos por reducir y aliviar la incomodidad de los usuarios, pero con resultados contradictorios, dado el carácter multifactorial de las molestias (Chang et al., 2020). A pesar de ello, podemos destacar los principales factores, relacionados con el hardware y el contenido, que contribuyen a la manifestación de estos síntomas y las principales recomendaciones para mitigarlo. De acuerdo con Porcino et al. (2020), dentro de las causas de los malestares en entornos virtuales, tenemos a la velocidad de movimiento en la interacción y de la locomoción, la alta tasa de aceleración en la movilidad, el campo de visión extenso, la simulación inadecuada de la profundidad de campo, el nivel bajo de grado de control, el tiempo prolongado de exposición, la latencia o retraso (lag) en la acción física y su correspondiente representación virtual, la falta de un marco de reposo de la experiencia, el uso de la rotación de la cámara y la inestabilidad postural. Al respecto, dentro de las estrategias de reducción de la molestia, se ha considerado, por ejemplo, las técnicas de tele-transportación y de efectos de cámara lenta (slow motion), la reducción gradual del campo a través de viñetas, la aplicación de desenfoques en movimiento de rotación, la desconexión periódica de la experiencia y la consideración de marcos de descanso.

En definitiva, la interactividad en realidad virtual expande las posibilidades del lenguaje audiovisual, pero plantea nuevas « disposiciones » cognitivas y corporales de los espectadores-usuarios, así como también problemas que son específicos a las narraciones inmersivas, tales como la percepción del movimiento en ambientes virtuales que producen efectos negativos en el espectador-usuario. Los efectos nocivos asociados a la realidad virtual representan un obstáculo importante a la inmersión, es decir, la sensación que tiene el espectador-usuario de estar situado en el interior de un espacio virtual, haciéndole creer que tiene características similares a la realidad. La ilusión de esta inmersión virtual se ve, en consecuencia, limitada por la cybersickness. Esto significa que uno de los elementos centrales de la puesta en escena audiovisual (el movimiento de personajes y/o de cámara), en contexto de interactividad con el espectador-usuario, constituirá una fuente recurrente de problemas mientras no se resuelvan o atenúen los factores que provocan los malestares.

2. Investigación experimental sobre percepción fílmica : del 2D al 3D

Nuestra investigación sobre inmersión fílmica se compone de tres etapas. En la primera, investigamos la percepción fílmica en cine 2D y 3D con métodos de investigación social, cuyos resultados transferimos a una segunda etapa, experimental, donde utilizamos métodos neurocientíficos de seguimiento ocular (eye-tracking) para estudiar el comportamiento ocular como marcador de percepción visual. Finalmente, en la tercera etapa, analizamos los datos de comportamiento ocular, atencional y pupilar, para evaluar las condiciones de aplicación de este método al estudio de películas en formato de 360 grados, también llamado « cine inmersivo ». Agrupamos toda esta fase de investigación bajo la descripción de estudios sobre percepción fílmica, es decir, exploramos el concepto de inmersión como una herramienta para analizar el modo en que los espectadores reportan cambios en la forma de interpretar películas lineales, desprovistas de cualquier mecanismo de interacción, en función del tipo de estilo visual, distinguiendo modos de imagen fotorrealista y no-fotorrealista1. Respecto del efecto mimético que la fotografía produce respecto de la realidad representada, la postproducción no-fotorrealista produce un efecto de abstracción visual, es decir, nos aleja, con grados variables de intensidad, de la noción de realismo óptico. Para efectos de este estudio sobre percepción fílmica, trabajamos siempre con la oposición entre dos estilos : realismo óptico (fotografía) versus abstracción visual (NPR).

Percepción fílmica y postproducción no-fotorrealista

La primera etapa se inicia como un estudio exploratorio sobre los efectos de la postproducción de imagen no-fotorrealista en la percepción del cine, comenzando por sus dos formatos existentes : el cine convencional en formato 2D y el cine en formato 3D estereoscópico. Combinando métodos cualitativos (entrevistas, grupos focales) y cuantitativos (encuestas), realizamos diferentes experiencias con espectadores, indagando el modo en que uno u otro tipo de postproducción pudieran motivar diferentes formas de aproximarse al contenido fílmico, modificando eventualmente la lectura de la narrativa fílmica. En este primer estudio (Fajnzylber et al., 2015) trabajamos con dos tipos de espectadores : público general (estudiantes universitarios) y público especializado (profesionales de la postproducción cinematográfica).

Dada la centralidad cultural de nuestro hábito del cine 2D (a diferencia del cine 3D, que resulta menos común), consideramos prioritario comparar tres tipos de filtros NPR « extremos » o « polares » (claramente distinguibles). Nosotros en su momento consideramos un público joven de estudiantes universitarios, caracterizado por un alto nivel de consumo audiovisual. El experimento, realizado en Santiago de Chile en julio del año 2014, fue concebido para identificar las condiciones en las que la abstracción visual del procesamiento NPR puede afectar la comprensión narrativa de una película 2D. Aplicamos tres filtros NPR : COLOR COMIC, PASTEL, PINTURA (ver Imagen 1), en un fragmento de 7 minutos del largometraje « Las Niñas Quispe » (Dir. Sebastián Sepúlveda, que obtuvo el premio a la Mejor Fotografía en la Mostra de Venecia 2014).

Imagen 1 - Tres ejemplos de filtros NPR : frame nativo (izquierda), COLOR COMIC (centroizquierda), PASTEL (centroderecha), PAINTING (right). Extracto de la película « Las Niñas Quispe ».

Imagen 1 - Tres ejemplos de filtros NPR : frame nativo (izquierda), COLOR COMIC (centroizquierda), PASTEL (centroderecha), PAINTING (right). Extracto de la película « Las Niñas Quispe ».
© Sebastián Sepúlveda, 2014; Producción : Fábula

Luego, organizamos una proyección en una sala de cine de estas tres versiones de NPR, divididas en tres grupos de 10 estudiantes cada uno, con un total de 30 estudiantes universitarios de cine y periodismo, de 19 a 22 años. Después de cada proyección, combinamos una metodología cuantitativa (encuesta de 25 preguntas) y un cuestionario cualitativo (tres grupos focales de 10 personas cada uno). La primera parte de la encuesta permitió validar la línea base de un alto consumo audiovisual generalizado en ese grupo de estudiantes universitarios. La segunda parte consistió en preguntas divididas por temas : percepción espacio-temporal, identificación de emociones, reconocimiento de personajes y antecedentes. Los resultados de los grupos focales nos permitieron construir una lectura analítica de los resultados de la encuesta.

Los resultados obtenidos sugieren que no necesitamos tantos detalles (como encontramos en el fotorrealismo) para comprender la narrativa de una película, pues gran parte de la información proviene de la identidad del personaje, producida por la combinación de cuerpo, movimiento y voz. Por lo tanto, al utilizar el NPR, los sujetos pueden abstraer, relacionar y seguir una historia, incluso cuando vemos más borrones y manchas que expresiones faciales. El procesamiento NPR parece traer una nueva atmósfera a la historia, sin afectar su comprensión dramática. El uso de filtros « extremos », dos de ellos claramente distantes de la imagen realista nativa de la película, estimula nuevas interpretaciones de las emociones e intenciones de los personajes, así como de la importancia narrativa de sus entornos. En resumen, la comprensión de la historia no parece ser afectada por la abstracción visual del NPR.

La primera conclusión que se puede extraer de este experimento reside en una dinámica dual generada por el NPR : En general, la comprensión narrativa no se ve afectada. Pero, al modular los aspectos morfológicos de los personajes, se incrementa la importancia perceptiva del sonido, generando así nuevas lecturas de las intenciones cinematográficas. La misma historia bajo diferentes aspectos parece producir nuevas variantes interpretativas en sus espectadores. Esto parece suceder en 2D.

Un segundo resultado, basado en un panel de 12 profesionales de la postproducción cinematográfica, está relacionado con el uso de filtros NPR en géneros cinematográficos : si los filtros NPR no afectan el reconocimiento de personajes, las historias serán entendidas correctamente. Sin embargo, para explorar el paso de NPR de 2D a 3D cine debemos recordar la principal diferencia perceptual entre visión monocular y visión binocular : la comprensión del espacio. En 2D, un escaneo visual singular es suficiente para comprender instantáneamente la naturaleza espacial de una escena, pero en 3D, el escaneo visual es esencialmente comparativo : un movimiento ocular hacia adelante y hacia atrás, un ir y venir entre la figura y el fondo. Eso podría describirse como una « exploración en profundidad ». Por lo tanto, incluso si los personajes permanecen el factor más importante de la percepción no-fotorrealista en 2D, será necesario evaluar cómo este constante « escaneo de profundidad » de la percepción 3D podría modificarse con el impacto del NPR.

La importancia de este mecanismo ocular de exploración de la escena en su profundidad será relevante, más adelante, cuando nos interesemos en los malestares asociados al movimiento en realidad virtual.

Percepción de imágenes estereoscópicas (3D)

El paso siguiente consistió en aplicar el mismo tipo de post-producción no-fotorrealista (NPR) a imágenes estereoscópicas, con el fin de indagar bajo qué condiciones el efecto de inmersión visual, producido por la ilusión de relieve y profundidad de la estereoscopía, podría transformarse bajo el efecto de la abstracción visual. Intentamos responder a esta pregunta : ¿ el hiperrealismo óptico de la estereoscopía fotográfica es compatible con la abstracción visual del no-fotorrealismo ? Existen dos razones para interesarnos en esta combinación de procedimientos visuales y sus posibles efectos en la percepción fílmica. Una primera razón tiene que ver con explorar nuevas fronteras para la expresión cinematográfica, saliendo de la tendencia dominante de asociar estereoscopía con realismo visual. Sin embargo, dado nuestro interés en comprender de mejor manera las diversas condiciones de inmersión de un espectador en el universo cinematográfico, nos interesamos en explorar el concepto de « confort visual ». Este concepto, de gran relevancia en el ámbito de la producción de contenidos estereoscópicos, nos pareció relevante pues revela una problemática que también existe en el ámbito de los contenidos inmersivos : el mecanismo estereoscópico de representación fotográfica aporta una nueva forma de experimentar el cine, sin embargo, conlleva un problema que no existe en el cine 2D : una película estereoscópica puede generar mareos y molestias físicas. En este sentido, el cine 3D se parece a la realidad virtual. Aporta beneficios, pero plantea un problema inexistente en el cine convencional : la fatiga visual, el mareo, el dolor de cabeza o incluso las náuseas, pueden estropear la experiencia de inmersión fílmica. Es por esta razón que, teniendo en mente la exploración de los mecanismos visuales de la inmersión fílmica en realidad virtual, nos propusimos estudiar las condiciones en que se desenvuelve la inmersión en el cine 3D.

Para realizar nuestro experimento sobre la influencia del NPR en la percepción visual de imágenes estereoscópicas, utilizamos extractos de un cortometraje estereoscópico filmado en la Casa Museo de Luis Buñuel en la Ciudad de México, en julio del año 2014, en el contexto de un curso de cine 3D impartido por Víctor Fajnzylber en el marco de la Cátedra Bergman en cine y teatro de la Universidad Nacional Autónoma de México.

Como dijimos antes, el « escaneo de profundidad » es un atributo de la percepción tridimensional. La casa de Luis Buñuel en Ciudad de México, utilizada para el rodaje, se llenó de objetos para aumentar la percepción de profundidad en el espacio fílmico. Una vez grabadas las tomas, verificamos el confort visual de las imágenes 3D, es decir, antes del procesamiento NPR, quisimos estar seguros que las imágenes no generaran molestias visuales. Para efectos del experimento, comparamos la imagen fotorrealista « nativa » con siete imágenes no fotorrealistas (ver Imagen 2).

Imagen 2 - Toma fotorrealista (A) y Tomas no-fotorrealistas (B-H).  Extracto de cortometraje « No era penal ». <br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.

Imagen 2 - Toma fotorrealista (A) y Tomas no-fotorrealistas (B-H). Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.
© Victor Fajnzylber, 2014

Desde el punto de vista de la percepción, la elección de estos siete filtros no fotorrealistas se orientó para producir una escala continua de proximidad entre los distintos tipos de profundidad, contrariamente al experimento anterior (NPR y 2D), en el que elegimos dos filtros « polares » y sólo un filtro más próximo a la imagen « nativa ». Una vez que la escena fue procesada con los filtros NPR, elaboramos un cuestionario basado en dos patrones (calidad y profundidad), que podrían resumirse en dos tipos de preguntas : a) sobre la percepción de calidad del « 3D » : ¿ ve usted « fantasmas » en los bordes de las figuras cuando compara los niveles de profundidad de la imagen; b) sobre la « percepción de profundidad » : ¿ qué imágenes le aparecen como una imagen 2D convencional ?

Los resultados obtenidos indicaron que los filtros utilizados producen diferentes tipos de ilusión 3D. En algunos casos, el procesamiento NPR redujo la ilusión estereoscópica produciendo una percepción de profundidad monocular (B, G y H), lo cual indicó que no eran compatibles con la estereoscopía. Algo similar ocurrió con otras imágenes donde el NPR produjo una ilusión estereoscópica defectuosa (B y C), produciendo « imágenes fantasmas » alrededor de los bordes. Combinando estos dos criterios intuitivos pudimos seleccionar los efectos NPR más adecuados en términos de calidad y profundidad (D, E, F). Estos resultados preliminares nos permitieron inferir algunas pistas para las etapas posteriores de nuestra investigación : a) convendría usar soluciones ópticas (como dispositivos de seguimiento ocular) para corroborar la identificación verbal de « fantasmas » en el bordes de las figuras; b) para un enfoque cualitativo, deberíamos definir un conjunto de atributos descriptivos que sean útiles para caracterizar la contribución expresiva del NPR en una escena 3D.

Percepción visual del cine 3D estereoscópico : dimensión atencional

Utilizamos los resultados obtenidos en el trabajo anterior como base para una nueva etapa de nuestra investigación, donde buscamos comprender la influencia del procesamiento NPR en la percepción fílmica, a través del comportamiento ocular, descrito gracias al uso de seguimiento ocular (eye tracking), utilizando la siguiente metodología. El detalle de este estudio puede encontrarse en (Fajnzylber et al., 2017).

Durante junio del año 2017, realizamos un experimento con un total de 27 estudiantes anónimos en la ciudad de Santiago (Chile) : 14 mujeres y 13 hombres, entre los de 18 y 23 años, que participaron voluntariamente en este experimento, utilizando el consentimiento informado. Sujetos con patologías visuales (miopía, astigmatismo, etc.) fueron excluidos para producir respuestas oculares comparables a los estímulos audiovisuales. Para recopilar los datos, una sala de proyección se preparó con el rastreador ocular « The Eye Tribe » montado bajo el televisor LG, LED 55 Full HD Smart TV 3D / 55LB6500. El rastreador de ojos se utilizó a 30Hz, mientras que el televisor se configuró a una resolución de 1920 * 780 píxeles.

Gracias al material fílmico en 3D grabado en la casa de Luis Buñuel en México, editamos un cortometraje estereoscópico de 3 minutos y 30 segundos. Esta película se procesó con un filtro « pastel » de NPR, extrayendo información de color y textura con el fin de generar una versión monocromática (líneas negras sobre fondos blancos) y no-fotorrealista del video original. Seleccionamos un filtro NPR que puede percibirse como un alto grado de abstracción (ver Imagen 3), con el fin de generar un aspecto muy contrastante respecto de la nitidez propia de la imagen nativa, sin por ello anular el efecto inmersivo de la profundidad estereoscópica.

Imagen 3 - Estilo fotorrealista (izquierda) y estilo no-fotorrealista (derecha). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.

Imagen 3 - Estilo fotorrealista (izquierda) y estilo no-fotorrealista (derecha). Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.
© Victor Fajnzylber, 2014

Respecto del sonido, editamos dos tipos de diseño de sonido : un primer tipo, que denominamos « narrativo », donde las voces de los personajes prevalecían por encima de los demás sonidos; y en segundo lugar, un diseño sonoro que denominamos « inmersivo », donde las voces se fundían al interior del conjunto de sonidos de la escena. Estos procesos generaron cuatro videos diferentes (ver Cuadro 1) que fueron mostrados a los sujetos, en un orden aleatorio de exhibición, mientras se registraba su comportamiento ocular.

Estilo visualDiseño sonoro
Video 1No-fotorrealistaSonido Narrativo (diálogos)
Video 2No-fotorrealistaSonido Inmersivo (ambientes)
Video 3FotorrealistaSonido narrativo (diálogos)
Video 4FotorrealistaSonido Inmersivo (ambientes)

Cuadro 1 – Cuatro tipos de videos según tipos de posproducción.

El análisis de los resultados comenzó con establecer si las variables evaluadas tuvieron resultados significativos, con lo cual el sonido quedó fuera del análisis, al no constatarse diferencias que pudieran atribuirse al sonido. Para poder comparar la percepción visual de los cuatro videos, se utilizó la entropía como una medida de dispersión de la mirada al interior del espacio fílmico. El procesamiento NPR apareció asociado con una menor entropía, es decir, los 27 espectadores de la muestra concentraron más su mirada en menos elementos en los videos NPR, respecto de los videos fotorrealistas. Al revisar cómo evoluciona la visión a lo largo de la temporalidad fílmica, se constató que la atención visual se concentraba mucho más en los personajes (ver Imagen 4), pudiendo además constatar que siempre existían zonas de exploración de la profundidad, es decir, la mirada comparaba la posición de los actores respecto de sus fondos.

Imagen 4 - Atención visual centrada en personajes. Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.

Imagen 4 - Atención visual centrada en personajes. Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile, México.
© Victor Fajnzylber, 2014

Para poder interpretar los datos de comportamiento ocular en relación con el contenido fílmico, establecimos una terminología descriptiva que nos permitiera diferenciar las acciones de los personajes, agrupando sus acciones dentro de una categoría que denominamos « eventos fílmicos » (aparición / desaparición de personajes, desplazamientos dentro del espacio, contacto físico). Asimismo, para poder dar cuenta de eventuales correlaciones entre el comportamiento ocular y las acciones propias de la puesta en escena audiovisual, creamos la categoría de « procedimientos fílmicos » (ej : movimientos de cámara, cortes de montaje). Estas categorías permitieron establecer comparaciones entre los videos, buscando entender si el estilo visual pudiera desencadenar comportamientos diferenciados, o al contrario, si existen ciertos mecanismos cinematográficos que generan respuestas similares, independientemente del estilo visual.

En el análisis emergieron varios ejemplos de estas respuestas « invariantes », es decir, comportamientos atencionales de los espectadores que resultaron comunes más allá del estilo visual. Un primer ejemplo es la necesidad de acompañar el movimiento de cámara, buscando siempre anclar la atención en un personaje (ver Imagen 5).

Imagen 5 - Acompañamiento ocular del movimiento de cámara. Versión fotorrealista (arriba) y versión no-fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.

Imagen 5 - Acompañamiento ocular del movimiento de cámara. Versión fotorrealista (arriba) y versión no-fotorrealista (abajo). Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.
© Victor Fajnzylber, 2014

Otro ejemplo de « invariante » fue el tiempo de adaptación al corte de montaje. Los usuarios demoran menos de un segundo (23 frames) en encontrar un nuevo objeto de interés visual, generalmente personajes y sus rostros, después de un corte de montaje (ver Imagen 6).

Imagen 6 - Adaptación ocular tras corte de montaje. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.

Imagen 6 - Adaptación ocular tras corte de montaje. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.
© Victor Fajnzylber, 2014

El contacto físico entre personajes, como un beso, resultó ser otro ejemplo de « invariante » : más allá del estilo visual, el contacto físico es un fuerte atractor de la visión (ver Imagen 7)

Imagen 7 - Atención visual en zonas de contacto físico entre personajes. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.

Imagen 7 - Atención visual en zonas de contacto físico entre personajes. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.
© Victor Fajnzylber, 2014

Probablemente el factor más importante de interés visual es el rostro humano. Si este rostro está situado en un espacio con clara distancia respecto de sus fondos, constatamos que la expresión gestual del rostro acapara la atención, a pesar de que siempre existe una parte de la audiencia que está explorando, comparando, relacionando con la mirada la figura del rostro respecto de su fondo (ver Imagen 8), corroborando lo que más arriba describimos como « exploración de la profundidad estereoscópica ».

Imagen 8 - Atención visual en rostros y exploración ocular de profundidad escénica. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.

Imagen 8 - Atención visual en rostros y exploración ocular de profundidad escénica. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.
© Victor Fajnzylber, 2014

La coexistencia de varios comportamientos simultáneos, tales como analizar una expresión facial y explorar el entorno, resultó quizás uno de los mayores aprendizajes de este estudio. La visión es móvil, explora, se detiene en algunos objetos de interés, los sigue, pero apenas aparece un movimiento que cambia la configuración del espacio (una actriz camina, una cámara se mueve), la mirada explora la escena para volver rápidamente a fijarse en la acción de los personajes. Descubrimos que el estilo visual es un factor capaz de modular este comportamiento recurrente de analizar personajes y escanear la escena : la estereoscopía es siempre un factor pues la visión explora siempre la profundidad, sin embargo, los atributos del espacio pueden ganar o perder poder de atracción atencional según el estilo visual.

El análisis del comportamiento ocular en relación a los eventos y procedimientos fílmicos, junto con la evolución general de la visión de la audiencia en términos de entropía visual (dispersión versus concentración de las miradas en torno a objetos de interés), permitió establecer, como resultado general, que el fotorrealismo se asocia con una mayor exploración del espacio fílmico, mientras que el no-fotorrealismo se correlaciona con una menor entropía visual, es decir, la visión se concentra más en los personajes y rostros como su hilo conductor a lo largo de la temporalidad fílmica. Para poder interpretar el sentido de este resultado recurrente, elaboramos la hipótesis de que la visión, enfrentada a un entorno de mayor incertidumbre visual (menor definición del contenido) tiende a asignar mayores recursos óculo-motores a la identificación de objetos de interés que puedan entregar mayor sentido interpretativo, es decir, permitan comprender de mejor manera lo que está ocurriendo en la escena. La importancia atencional del rostro, bajo distintas condiciones de información visual, no llevó a describir esta reacción adaptativa a la incertidumbre como « ansiedad perceptiva » : la visión busca objetos de interés visual (rostros) cuya expresividad permitan interpretar un entorno difícil de descifrar. Este resultado resulta coherente con los hallazgos previos respecto del impacto del no-fotorrealismo en la percepción del cine 2D.

Sobre la percepción visual del cine 3D estereoscópico : dimensión pupilar

Utilizando los mismos datos experimentales, y basándonos en los resultados obtenidos en el análisis de la dimensión atencional, estudiamos los datos de respuesta pupilar de la misma audiencia ante los mismos videos. Los resultados detallados pueden encontrarse en (Fajnzylber et al., 2018). La información pupilar suele utilizarse como un dato que da cuenta de la respuesta mecánica a las variaciones lumínicas, pero también se utiliza como un marcador de respuesta emocional.

Respecto de lo primero, ante un incremento de la luminosidad, la pupila se contrae, y ante ambientes menos iluminados, la pupila se dilata, como buscando captar más información que permita descifrar un entorno más oscuro. El estudio de los datos experimentales nos permitió corroborar este saber adquirido : observamos que la respuesta pupilar de los espectadores respondía a las variaciones lumínicas, pero emergió, sin embargo, una diferencia en el comportamiento de respuesta pupilar basada en el estilo visual : el fotorrealismo presentó fluctuaciones coherentes con la luminosidad, pero el procesamiento NPR tuvo un efecto de « normalización » de las variaciones lumínicas, desencadenando una respuesta pupilar con menor espectro de fluctuación (menos diferencias entre los peaks superiores e inferiores). Esto podría explicar por el aspecto monocromático del estilo NPR.

Respecto del comportamiento pupilar como indicador de una posible respuesta emocional, nos encontramos con un resultado significativo. En la última escena del cortometraje (ver Imagen 9), en que una mujer camina hacia la cama, agrandando al tamaño relativo de su rostro hasta el punto en que la estereoscopía genera el efecto de « emergencia » (la cara parece desprenderse del plano de la pantalla y « flotar » hacia el espectador). Este efecto visual se ve además acompañado de un aumento de la intensidad emocional de la escena, pues la actriz avanza mientras se intensifica la expresividad gestual de su rostro al mismo tiempo que aumenta el volumen de su voz.

Imagen 9 - Escena final con personaje avanzando hacia la cámara. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».<br/>Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.

Imagen 9 - Escena final con personaje avanzando hacia la cámara. Versión no-fotorrealista (arriba) y versión fotorrealista (abajo). Extracto de cortometraje « No era penal ».
Producción : Cátedra Bergman en cine y teatro, UNAM y Universidad de Chile. México.
© Victor Fajnzylber, 2014

En ambos estilos visuales constatamos una respuesta pupilar que no se corresponde con la variación lumínica, pues en los momentos en que surgen las fluctuaciones pupilares no detectamos variaciones de luz. El origen de tales fluctuaciones sólo podría deberse al contenido de la escena. Cuando la actriz llega al punto de mayor cercanía con la cámara aparecen cambios en la respuesta pupilar que, sin embargo, no presentan el mismo patrón de respuesta en el estilo fotorrealista y en el estilo no-fotorrealista. La respuesta pupilar no corresponde a variaciones lumínicas en ninguno de los estilos de postproducción, pero tampoco presentan el mismo patrón de comportamiento en los modos visuales fotorrealista y no-fotorrealista. ¿ Cómo explicarse esto ?

La escena final presenta una mayor complejidad cognitiva que las anteriores pues se superponen diferentes informaciones sensoriales (tamaño del rostro en aumento, intensidad creciente de la voz, expresión facial). El esfuerzo ocular de construir la ilusión estereoscópica de un rostro emergente se suma a la acción intelectiva de construir una interpretación de la escena basada en la expresividad facial y vocal. Sabemos que esta escena final es visualmente más compleja que las anteriores y que, a pesar de la sustracción de atributos visuales generada por el filtro NPR, el comportamiento pupilar no parece estar reaccionando únicamente a las fluctuaciones lumínicas. Teniendo en cuenta el alcance limitado de nuestros datos, no podemos afirmar que estas diferencias corresponden únicamente a una respuesta emocional, pero sí está claro que parecen indicar algo relevante : no existe un modo único de inmersión. Lo que podría interpretarse como una respuesta emocional parece variar según el tipo de estilo visual; aunque la evidencia no es tan contundente para validar esta idea, está claro que los resultados obtenidos abren una vía de interpretación : la complejidad cognitiva podría ser un factor relevante para entender la inmersión. La mayor dispersión ocular observada en los videos fotorrealistas es coherente con un comportamiento pupilar globalmente más reactivo al cambio de luz. Sin embargo, la excepción encontrada en la escena final, donde los videos NPR presentan una mayor respuesta pupilar, podría indicar una característica consistente con la evidencia mencionada anteriormente : una mayor complejidad visual podría estar correlacionado con una mayor respuesta pupilar. Dado que la abstracción visual del NPR implica menos atributos visuales, podríamos describir la complejidad cognitiva de la escena como la acumulación de un elemento sonoro (voz ascendente), un elemento visual (mayor expresividad facial) y un elemento óptico (rostro saliente en 3D) en un mismo episodio temporal. El interés de este hallazgo para el estudio de la percepción fílmica en realidad virtual reside en que podremos indagar, utilizando métodos similares de observación del comportamiento ocular y de análisis del contenido audiovisual, si las escenas de mayor complejidad cognitiva pueden verse asociadas a una respuesta pupilar que no se explique por las variaciones lumínicas. Esto nos conduce a desarrollar nuestra principal hipótesis interpretativa : pueden existir distintos modos de inmersión fílmica dentro de la misma experiencia audiovisual.

Percepción e inmersión : del cine 3D a la realidad virtual

El cine 3D y la realidad virtual (VR) comparten un defecto : cierto tipo de escenas, que en el cine convencional son totalmente inocuas, pueden provocar molestias físicas durante la exposición, afectando a los usuarios y, por ello, afectando la calidad de la experiencia, tanto fílmica como de inmersión virtual. El método utilizado para el estudio de la percepción visual en cine 3D podría ser adaptado al estudio de la inmersión en realidad virtual. Podríamos utilizar la postproducción NPR como una herramienta para validar marcadores de inmersión, tales como la dispersión de la mirada en la escena, la convergencia atencional en torno a objetos de interés visual (cuerpos, rostros), la complejidad cognitiva como factor de interpretación de la respuesta pupilar de carácter emocional. Dado que las experiencias de realidad virtual más inmersivas son elaboradas con imagen estereoscópica, el concepto de « exploración ocular de la profundidad escénica », que utilizamos en el estudio del cine 3D, podría ser de gran utilidad para interpretar la mirada comparativa : el ir y venir ocular entre un personaje, los objetos próximos y el fondo escénico. Las categorías descriptivas del lenguaje cinematográfico, tales como « eventos fílmicos » (como el movimiento de personajes) y « procedimientos fílmicos » (como los cortes de montaje) podrían ser adaptadas a la configuración tridimensional de las escenas en formato 360, permitiendo describir las escenas inmersivas de un modo compatible con el análisis de datos físicos colectados en tiempo real. Al revisar las distintas funciones que puede tener la visión al interior de una escena, tal como fue propuesto en (Fajnzylber et al. 2019), en concordancia con resultados previos, podríamos distinguir entre una inmersión intelectiva (ej : escaneo escénico tras un corte de montaje) y una inmersión emocional (ej : respuesta a escenas de mayor complejidad cognitiva). En este sentido, el concepto de « ansiedad perceptiva » descrito gracias al uso del procesamiento NPR, podría ser útil en el contexto de escenas inmersivas para caracterizar la necesidad del usuario de obtener la información necesaria para interpretar el significado de una escena. A diferencia del montaje cinematográfico, definido antes de la experiencia fílmica, la cabeza y los movimientos corporales realizados por los usuarios de realidad virtual constituyen la nueva forma de montaje. Si somos capaces de caracterizar las funciones perceptivas de estos movimientos de la visión, podemos analizar la narrativa y complejidad cognitiva de un contenido de realidad virtual basándonos en el comportamiento visual del usuario.

Combinando el análisis de la entropía visual (dispersión de la visión en la escena) con la respuesta emocional, podremos generar evidencia experimental, posteriormente verificable a través de entrevistas, para discernir cómo se pueden alternar los momentos intelectivos y emocionales durante la inmersión. Asumimos entonces que no existe un solo tipo de inmersión : cada usuario recorre el espacio escénico según su propio interés, pero si descubrimos patrones recurrentes en las formas de ver, podremos avanzar otro paso hacia la comprensión de la inmersión en la realidad virtual. Estas inferencias sobre la visión fueron posibles gracias al uso experimental de NPR. Si usamos estos hallazgos para evaluar la importancia de los factores visuales en la aparición de malestar durante inmersión virtual, podremos replicar el mismo método : evaluar si la misma experiencia de realidad virtual, operando bajo diferentes estilos visuales, genera malestar físico en los mismos momentos. Ya pudimos constatar que la abstracción visual del NPR parece ocasionar diferentes respuestas en el espectador de cine 3D. Si esto se reproduce en la realidad virtual, podría significar que el uso de la postproducción, en conjunto con el análisis del comportamiento ocular, podría ayudar a detectar los episodios donde se producen efectos colaterales de la inmersión virtual.

Todos estos aspectos constituyen los componentes de un posible método visual para el estudio de la inmersión en realidad virtual. Sin embargo, necesitamos complementar este enfoque basado en la percepción visual con dos aspectos fundamentales para estudiar la inmersión virtual : la coexistencia de procedimientos narrativos con interacciones físicas, y la importancia de la congruencia experiencial como condición habilitante para garantizar la ilusión de inmersión y de presencia física en un entorno virtual.

3. Estrategia para el estudio de inmersión en realidad virtual interactiva

Congruencia e interacción como factores clave para la inmersión virtual

Si bien el método presentado hasta aquí provee de herramientas para estudiar la percepción fílmica en cine 2D y 3D, acompañado de algunas proposiciones de extrapolación al formato inmersivo, resulta fundamental incorporar dos aspectos clave para poder estudiar la inmersión en realidad virtual interactiva : la congruencia experiencial entre los distintos componentes del mundo virtual propuesto como requisito para olvidar su carácter artificial y la incorporación de interacciones que transformen al espectador en usuario activo, capaz de realizar acciones que modifiquen su entorno. A continuación, explicaremos ambos factores en términos de su aporte a la inmersión virtual interactiva.

La congruencia experiencial como factor de inmersión

Los resultados experimentales acerca de inmersión en ambientes virtuales (AV) son consistentes en demostrar que la inmersión está lejos de mejorar sólo con percibir pasivamente buenos estímulos audiovisuales (Sanchez-Vives y Slater, 2005). Esto es así, porque somos sistemas biológicos dinámicos complejos y auto-organizados (Freeman, 2000), para los cuales la experiencia consciente es el resultado de la historia de interacciones organismo-medio. Desde esta perspectiva, percibir es una forma de moverse (y viceversa) (Varela, 1995). Dicho de otro modo, percibir no es algo que se haga exclusiva y pasivamente con los sentidos, percibimos literalmente con todo el cuerpo (Held y Hein, 1963). Además, lo que percibimos en nuestro « ahora » subjetivo, involucra una síntesis creativa entre nuestras experiencias pasadas y nuestras expectativas (Varela, 1999). A partir de la idea del ciclo acción-percepción y la integración temporal del « ahora », surge el concepto de congruencia experiencial. La propuesta consiste en diseñar AV donde lo percibido esté enlazado naturalmente con los movimientos del sujeto, junto con integrar, en un mismo momento del tiempo, aquello que el sujeto acaba de vivir con lo que es esperable que ocurra en el futuro, dada la historia de interacciones Sujeto-AV.

Interacciones convencionales y no-convencionales

El diseño de mecanismos de interacción implícita está relacionado en gran parte con el comportamiento humano y su capacidad fisiológica y psicológica de aprender nuevas habilidades. En los ambientes de realidad virtual, los usuarios pueden desenvolverse de manera natural, interactuando con los objetos a su alrededor tal como lo harían en el mundo real (LaValle, 2020), aunque cada persona de forma distinta a los demás. En estos sistemas, las interacciones que predominan son implícitas, es decir, se trata de capturar la voluntad de los usuarios en los movimientos no premeditados (Baris y Jacucci, 2019). En contraposición, están las interacciones clásicas que se realizan, por ejemplo, a través de una interfaz gráfica para comunicar la intención de realizar una determinada acción. Ju (2015) contrasta su dificultad con las interacciones clásicas, siendo insuficiente el ponerse en el lugar de un usuario. Además, destaca la búsqueda de patrones en las acciones de los usuarios para incorporarlos en los movimientos naturales, algunos de los cuales han sido estudiados en otras disciplinas. Schmidt (2000) señala que es importante que el sistema sepa en qué contexto se desenvuelven las acciones (ej : analizando el lenguaje corporal) y adapte sus respuestas a éste.

Creación audiovisual e investigación transdisciplinar sobre inmersión virtual

La contribución de la creación audiovisual a la investigación, en este caso, se basa en la convicción de que el lenguaje artístico del cine, expresado en atributos visuales y sonoros, es una base fundamental para poder validar experimentalmente las hipótesis generadas desde una óptica científica. El proceso de investigación audiovisual, desarrollo y producción del cortometraje inmersivo denominado « INSOMNES VR » se implementará como un proceso iterativo, donde podremos aplicar los resultados de investigaciones anteriores, evaluar si dan los resultados esperados, y de este modo, ir consolidando opciones artísticas gracias a la verificación de hipótesis científicas, en un proceso de carácter transdisciplinar.

El proyecto « INSOMNES VR » nace durante la pandemia, entre marzo y abril del año 2020. Debido a la incertidumbre propia de esta crisis sanitaria global, definimos una aproximación experimental al lenguaje documental que incorpora, como pie forzado y como rasgo característico, la opción de no hacer registros en terreno. Debido a las restricciones de la cuarentena sanitaria, que duran hasta el día de hoy, decidimos producir todo el material en condiciones de confinamiento. La referencia a lo real será producida a partir de registros visuales, sonoros y testimonios verbales de personas que viven el confinamiento en diferentes condiciones. El título « Insomnes » proviene de una condición común, ligada a problemas de salud mental, como la ansiedad y la mala calidad del sueño, reportados por personas de diferentes edades, que han debido vivir su confinamiento obligatorio en condiciones de estrés, a veces motivado por la pérdida de trabajo, la separación de familias, el riesgo vital de familiares de la tercera edad, la interrupción de todo contacto presencial, entre otros. Los « insomnes » de la pandemia son aquellas mujeres y hombres que ven su calidad de vida deteriorada por el cansancio acumulado de semanas y meses de mal dormir. El insomnio es la metáfora de la falta de control ante una realidad que nos sobrepasa como sociedad y como humanidad, en diferentes grados según cada país.

A continuación, explicaremos algunas etapas del proceso creativo destinado a representar, en realidad virtual, las condiciones de confinamiento de estos « insomnes », en espacios cerrados (habitación) y abiertos (barco). El proceso de creación será una colaboración entre el equipo audiovisual, el equipo científico y las personas que compartirán sus experiencias de confinamiento.

Prototipo experimental : diseño de inmersión en espacios cerrados

El primer paso para representar un espacio cerrado de confinamiento (ver Imagen 10) fue el modelado de dos habitaciones en el programa Blender, incorporando texturas para luego ser exportado al programa Unity.

Imagen 10 - Modelado de habitaciones. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.

Imagen 10 - Modelado de habitaciones. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».
Producción : [VR-LAB], Universidad de Chile.
© Victor Fajnzylber, 2020

Una vez creadas las habitaciones, se generaron ventanas para poder crear exteriores con dinámicas propias (ver Imagen 11), que contribuyan a la sensación de confinamiento, que en algunos casos permiten incluso interacciones (como asustar un gato sobre el techo) que incrementen la impresión de realismo.

Imagen 11 - Creación de ventanas y exteriores dinámicos interactivos. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.

Imagen 11 - Creación de ventanas y exteriores dinámicos interactivos. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».
Producción : [VR-LAB], Universidad de Chile.
© Victor Fajnzylber, 2020

Con el fin de simular la posibilidad de desplazarse entre dos espacios de confinamiento, imaginamos « portales » (ver Imagen 12) que funcionan como mecanismos de interacción explícita : el usuario puede atravesarlos para transitar entre dos habitaciones.

Imagen 12 - Creación de portales virtuales para transitar entre habitaciones. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.

Imagen 12 - Creación de portales virtuales para transitar entre habitaciones. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».
Producción : [VR-LAB], Universidad de Chile.
© Victor Fajnzylber, 2020)

Buscando evocar el paso del tiempo como factor de realismo en los espacios de confinamiento, se definieron para cada habitación diferentes temperaturas de color y fuentes de luminosidad (ver Imagen 13), tanto interiores como exteriores. Se crearon dinámicas de intensidad lumínica y desplazamiento de las fuentes para evocar cotidianeidad.

Imagen 13 - Creación de dinámicas lumínicas para acentuar la sensación de paso del tiempo. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.

Imagen 13 - Creación de dinámicas lumínicas para acentuar la sensación de paso del tiempo. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».
Producción : [VR-LAB], Universidad de Chile.
© Victor Fajnzylber, 2020

Todos los aspectos descritos como parte del proceso de creación se articulan en torno al concepto de congruencia experiencial, es decir, contribuyen a crear un sistema integrado de atributos visuales cuya función común es crear la sensación de un mundo virtual coherente que facilite la inmersión del usuario, olvidando el carácter artificial de la experiencia. Se suma a este objetivo la posibilidad de tener interacciones explícitas con el entorno, con el fin de facilitar la sensación de presencia física en el espacio virtual.

Prototipo experimental : interacciones implícitas y mapa de inmersión

Los aspectos lumínicos, cromáticos, sonoros y musicales de las escenas de exterior también se rigen por el principio de congruencia experiencial descrito previamente, pero constituyen además un abanico de atributos que pueden ser objeto de interacciones implícitas entre el usuario y su entorno. Se podrán definir condiciones en las cuales el comportamiento corporal del usuario al interior del espacio virtual, podrá desencadenar cambios en su entorno (ej : cambios en el oleaje, en el viento, etc.). Al no estar consciente de que su conducta es la fuente de los cambios, podremos indagar en el modo en que estas fluctuaciones ambientales modifican su respuesta intelectiva y emocional. Gracias a las interacciones implícitas podremos explorar condiciones favorables para desencadenar conductas de inmersión intelectiva y/o emocional.

Definimos un prototipo experimental donde una de las escenas es un viaje en barco. Elegimos este escenario para poner en escena un movimiento global. El usuario podrá desplazarse desde el espacio cerrado descrito previamente hacia la cubierta del barco, donde también podrá caminar, accediendo así a las vistas de proa, babor y estribor. El barco avanzará a través de distintos paisajes, atravesando diferentes horarios y condiciones climáticas (ver Imagen 14).

La programación de estas interacciones supone una tipificación previa de las conductas del usuario (qué hace), tanto a nivel temporal (en qué momento del viaje) y espacial (en qué parte de la cubierta está). Gracias a la posición del usuario podremos poder definir en qué momentos se producirán las interacciones. Podremos entonces generar una suerte de « mapa de inmersión » : inventar un modo de visualización que combine los lugares y los momentos, dentro de un flujo temporal del viaje en barco, que nos permita establecer comparaciones entre usuarios. Esto nos permitirá trazar trayectorias de inmersión para cada usuario y establecer comparaciones entre grupos de usuarios. Si validamos este « mapa de inmersión » como herramienta heurística, podremos realizar ensayos preliminares con usuarios en distintas fases del proceso de producción. Esto nos permitirá, por ejemplo, comparar resultados antes y después de la incorporación de personajes virtuales, con el fin de comprender el modo en que la interacción social en ambientes virtuales puede generar cambios relevantes en las sensaciones de inmersión y de presencia de los usuarios.

Imagen 14 - Creación de dinámicas lumínicas para acentuar la sensación de paso del tiempo. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».<br/>Producción : [VR-LAB], Universidad de Chile.

Imagen 14 - Creación de dinámicas lumínicas para acentuar la sensación de paso del tiempo. Proceso de creación de cortometraje en realidad virtual interactiva « INSOMNES VR ».
Producción : [VR-LAB], Universidad de Chile.
© Victor Fajnzylber, 2020

Conclusiones : el aporte de un enfoque transdisciplinar al estudio de la inmersión virtual

En esta investigación adoptamos un enfoque transdisciplinar que combina los aportes de disciplinas tales como cine, computación, ciencias sociales, neurociencias y educación. Buscamos asociar, en un mismo esfuerzo de creación audiovisual y de investigación, las reflexiones sobre el lenguaje cinematográfico, el comportamiento físico del usuario y la cognición en ambientes virtuales interactivos. Nos interesa estudiar la percepción fílmica, las interacciones implícitas entre el contenido y la respuesta corporal del usuario a lo largo de la experiencia audiovisual. A nivel empírico, nos interesa identificar los procedimientos narrativos e interactivos que permitan reducir los efectos colaterales que atenten contra la inmersión del usuario en realidad virtual. Para lograrlo necesitamos entender cómo la narrativa cinematográfica tradicional se transforma al combinarse con la interactividad, para dar lugar a un lenguaje audiovisual específico a la realidad virtual interactiva.

Para responder a estos desafíos, elaboramos un método compuesto de dos etapas : (a) un estudio detallado del comportamiento ocular de espectadores de contenidos inmersivos, realizado gracias al análisis de datos obtenidos mediante técnicas de seguimiento ocular (eye-tracking), y, (b) una etapa de diseño de interacción y producción audiovisual basada en los resultados de la primera fase.

Los resultados de la primera etapa indican que el comportamiento ocular puede ser un buen indicador del modo en que el espectador reacciona, en tiempo real, durante el visionado audiovisual, a procedimientos audiovisuales propios del lenguaje cinematográfico (movimientos de cámara, edición) y eventos relacionados con la puesta en escena (movimiento y contacto físico entre personajes, miradas a cámara). Una vez analizados los diferentes aspectos del comportamiento ocular, nos interesamos en transformar esta evidencia experimental en orientaciones concretas para la creación de un contenido de realidad virtual interactiva, que nos permita aplicar nuestro método de estudio de la experiencia de usuario, en un ambiente inmersivo. Para lograrlo, elaboramos un prototipo de experiencia interactiva en realidad virtual basado en los resultados de la fase experimental.

La principal conclusión derivada de este estudio consiste en la idea siguiente : podemos utilizar nuestra comprensión del comportamiento ocular para producir contenidos inmersivos con mejor calidad de inmersión. Nuestro prototipo interactivo nos permitirá verificar si algunas molestias físicas, propias de la realidad virtual, podrían ser disminuidas gracias a dos factores : una buena comprensión de los factores atencionales asociados a la visión, y entender cómo el usuario reacciona, en tiempo real, a elementos del lenguaje cinematográfico que siguen estando presentes, aunque transformados, en las nuevas formas inmersivas de realización audiovisual.

Agradecimientos

Los autores agradecen a Abril Alzaga y Gabriel Rodríguez de la Cátedra Bergman en cine y teatro, Dirección de difusión cultural, de la Universidad Nacional Autónoma de México (UNAM), por la posibilidad de haber filmado un cortometraje estereoscópico en la Casa Museo de Luis Buñuel en Ciudad de México, en junio 2014, en el marco del curso-taller de cine 3D estereoscópico “La imagen táctil”. El material audiovisual 3D de dicho taller fue grabado con la participación de estudiantes de teatro de la UNAM, y posteriormente utilizado para un experimento de investigación sobre percepción visual e inmersión fílmica, con uso de eye-tracking, cuyos resultados son presentados en este trabajo.

Queremos además agradecer a Daniel Collao, Cristóbal Maldonado y Cristián Galaz, quienes participaron activamente en la creación de imágenes e interacciones del prototipo experimental de realidad virtual.

La investigación de Paulo Barraza se ha financiado en parte con la subvención PIA-CONICYT Fondos Basales para Centros de Excelencia Proyecto FB0003, del Gobierno de Chile.

La investigación de Mateu Sbert se ha financiado en parte con el proyecto PID2019-106426RB-C31, del Gobierno de España.

Notas

1 El « Renderizado no-fotorrealista », también llamado simplemente como NPR (non-photorealistic rendering en inglés), es un procedimiento computacional creado para modificar el estilo visual de una película, modificando los atributos de la imagen para generar un nuevo aspecto visual, alejándose en grados variables de la representación fotográfica, para acercarse más a estilos artísticos tales como la pintura, el efecto cómic, la acuarela, etc.

Bibliografía

AMERICAN PHYSIOLOGICAL SOCIETY (2018), « Motion sickness vs. cybersickness : Two different problems or the same condition ? Findings of a new study contradict previous research », ScienceDaily, 23/10/2018, [en línea] http ://www.sciencedaily.com/releases/2018/10/181023085654.htm.
BARIS Serim, JACUCCI Giulio (2019), « Explicating “Implicit Interaction” : An Examination of the Concept and Challenges for Research », in BREWSTER Stephen, FITZPATRICK Geraldine, COX Anna L., KOSTAKOS Vassilis (dir.), CHI’19. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, New York, Association for Computing Machinery, p. 1-16.
BENZ Tobias, RIEDL Bernhard Riedl, CHUANG Lewis (2019), « Projection Displays Induce Less Simulator Sickness than Head-Mounted Displays in a Real Vehicle Driving Simulator », in JANSSEN Christian, DONKER Stella (dir.), AutomotiveUI '19. Proceedings of the 11th International Conference on Automotive User Interfaces and Interactive Vehicular Applications, New York, Association for Computing Machinery, p. 379-387.
BERTOLINI Giovanni, STRAUMANN Domink (2016), « Moving in a Moving World : A Review on Vestibular Motion Sickness », Frontiers in Neurology, 7 (14), p. 1-11.
CHANG Eunhee, KIM Hyun Taek, YOO Byounghyun (2020), « Virtual Reality Sickness : A Review of Causes and Measurements », International Journal of Human–Computer Interaction, 36 (17), p. 1-25.
CRONIN Karen (2008), Transdisciplinary research (TDR) and sustainability, Overview report prepared for the Ministry of Research, Science and Technology (MoRST), Wellington, Institute of Environmental Science and Research.
FAJNZYLBER Victor, GONZÁLEZ Larry, MALDONADO Pedro, DEL VILLAR Rafael, YÁÑEZ Rodrigo, MADARIAGA Samuel, MAGDICS Milán, SBERT Mateu (2017), « Augmented film narrative by use of non-photorealistic rendering », in Proceedings of the 2017 International Conference on 3D Immersion, Brussels, Institute of Electrical and Electronics Engineers.
FAJNZYLBER Victor, MADARIAGA Samuel, DEL VILLAR Rafael, MALDONADO Pedro, VARGAS Diego, SERRA Aria, MAGDICS Milán, SBERT Mateu (2018), « Pupillary Reactivity to Non-Photorealistic Rendering : A Case Study of Immersion in 3D Cinema », Proceedings of the 2018 International Conference on 3D Immersion, Brussels, Institute of Electrical and Electronics Engineers.
FAJNZYLBER Victor, MAGDICS Milán, CASTILLO Macarena, ORTEGA Constanza, SBERT Mateu (2015), « From 2D to 3D : A Case Study of NPR and Stereoscopic Cinema », in CHEN Yaxi, CHRISTIE Marc, TAN Wenrong Tan (dir.), International Symposium on Smart Graphics, Berlin, Springer, p. 87-98.
FAJNZYLBER Victor, WENNER Andrea, MOYANO Javier, SBERT Mateu (2019), « From NPR to VR : Tracking Ocular Behavior in Immersive Virtyal Reality », Communication Papers. Media Literacy & Gender Studies, 8 (17), p. 21-21.
FREEMAN Walter (2000), Neurodynamics : An Exploration in Mesoscopic Brain Dynamics, Londres, Springer Science.
HELD Richard, HEIN Alan (1963), « Movement-produced stimulation in the development of visually guided behavior », Journal of Comparative and Physiological Psychology, 56 (5), p. 872-876.
JU Wendy (2015), The Design of Implicit Interactions, San Rafael (CA), Morgan & Claypool.
KIM Mingyu, JEON Changyu, KIM Jinmo (2017), « A Study on Immersion and Presence of a Portable Hand Haptic System for Immersive Virtual Reality », Sensors, 17 (5), 1141.
LAVALLE Steven (2020), Virtual Reality. Cambridge, Cambridge University Press.
MAZLOUMI Alireza, WALKER Frederick, HODGSON Deborah, NALIVAIKO Eugene (2018), « A comparative study of cybersickness during exposure to virtual reality and “classic” motion sickness : are they different ? », Journal of Applied Physiology, 125 (6), p. 1670-1680.
PORCINO Thiago, CLUA Esteban, TREVISAN Daniela, RODRIGUES Erick, SILVA Alexandre (2020), « Automatic Recommendation of Strategies for Minimizing Discomfort in Virtual Environments », in Proceedings of the 8th IEEE International Conference on Serious Games and Applications for Health, Vancouver, Institute of Electrical and Electronics Engineers.
REBENITSCH Lisa, OWEN Charles (2016), « Review on Cybersickness in Applications and Visual Displays », Virtual Reality, 20 (2), p. 101-125.
SANCHEZ-VIVES Maria, SLATER Mel (2005), « From Presence to Consciousness through Virtual Reality », Nature Reviews Neuroscience, 6 (4), p. 332-339.
SCHMIDT Albrecht (2000), « Implicit Human Computer Interaction through Context », PersonalTechnologies, 4 (2), p. 191-199.
SERVOTTE Jean-Christophe, GOOSSE Manon, CAMPBELL Suzanne, DARDENNE Nadia, PILOTE Bruno, SIMONEAU Ivan, GUILLAUME Michèle, BRAGARD Isabelle, GHUYSEN Alexandre (2020), « Virtual Reality Experience : Immersion, Sense of Presence, and Cybersickness », Clinical Simulation in Nursing, 38, p. 35-43.
SLATER Mel, SANCHEZ-VIVES Maria (2016), « Enhancing Our Lives with Immersive Virtual Reality », Frontiers in Robotics and AI, 3 (74), p. 1-47.
STONE William (2017), Psychometric Evaluation of the Simulator Sickness Questionnaire as a Measure of Cybersickness, tesis de doctorado, Ames, Iowa State University.
THOMPSON Mary Anne, OWEN Susan, LINDSAY Jan, LEONARD Graham, CRONIN Shane (2017), « Scientist and Stakeholder Perspectives of Transdisciplinary Research : Early Attitudes, Expectations, and Tensions », Environmental Science & Policy, 74, p. 30-39.
VARELA Francisco (1995), Conocer : Las ciencias cognitivas : tendencias y perspectivas. Cartografía de las ideas actuales, Barcelona, Gedisa.
VARELA Francisco (1999), « The Specious Present : A Neurophenomenology of Time Consciousness », in PETITOT Jean, VARELA Francisco, PACHOUD Bernard, ROY Jean-Michael (dir.), Naturalizing Phenomenology : Issues in Contemporary Phenomenology and Cognitive Science, Palo Alto, Stanford University Press, p. 266-314.
WIDESTRÖM Joseph (2019), « The Transdisciplinary Nature of Virtual Space », in TOMMASO DE PAOLIS Lucio, BOURDOT Patrick (dir.), Augmented Reality, Virtual Reality and Computer Graphics. Proceedings of the 7th International Conference, Cham, Springer, p. 186-202.

Pour citer cet article

Victor Fajnzylber, Francisco J. Gutiérrez, Paulo Barraza, Pablo Riveros, Javier Moyano, Mateu Sbert, « La mirada inmersiva. Estudio transdisciplinar de la inmersión en realidad virtual interactiva », Revue française des méthodes visuelles [En ligne], 5 | 2021, mis en ligne le 9 juin 2021, consulté le . URL : https://rfmv.fr