Julien Thiburce, Chercheur postdoctoral, CNRS, UMR 5191 ICAR
Nicolas Guichon, Professeur en sciences du langage, Université Lyon 2, UMR 5191 ICAR
Justine Lascar, Ingénieure d’études, CNRS, UMR 5191 ICAR
Dans une étude exploratoire visant à comprendre l’inscription spatiale, langagière et culturelle des étudiants internationaux dans une ville hôte, nous nous appuyons sur la méthodologie de l’entretien déambulé filmé développée par l’ethnographe Sarah Pink (2008) : une captation vidéo documente une interaction qui se noue entre chercheurs et participants alors qu’ils marchent dans la ville. Pour cette étude, nous utilisons une caméra 360°, postulant qu’elle pourrait fournir des perspectives inédites sur le regard porté par ces étudiants traversant l’environnement urbain avec les chercheurs. L’article s’attache d’une part à décrire la constitution de données audiovisuelles de l’entretien combinant une caméra standard et une caméra à 360°, et propose d’autre part une réflexion sémiotique qui interroge les pratiques de constitution et de visualisation des données, entre documentation d’une situation et écriture de la recherche.
Mots-clés : Caméra 360°, Interactions, Paysage urbain, Migration, Walking interview
This exploratory study aims to understand how international students inscribe themselves in their host city from spatial, linguistic and cultural perspectives. We use ethnographer Sarah Pink (2008)’s methodology of filmed walking interviews to capture on-the-move interactions between researchers and participants as they walk across the city. For this study, a 360° camera has been used as it was hypothesized that it could provide unique perspectives on the way participants look at the cityscape while they walk through it in the company of researchers. The article first describes how data, combining a standard video camera and a 360° camera on the same event. Then, it proposes a semiotic reflection that questions the practices of data constitution and visualization, between documentation of a situation and research writing.
Keywords : Cityscape, Interactions, Migration, Walking interview, 360° camera
Dans une approche alliant une réflexion théorique en sciences du langage et une réflexion méthodologique outillée par les outils vidéo, le projet VISITEURS (Video-based methods to Study International sTudents’ Experiences of the URban Space) vise à comprendre comment les étudiants internationaux, envisagés comme une catégorie spécifique de migrants (Jamid et al., 2020), prennent leur place dans le paysage urbain du pays hôte. Ce projet répond à un enjeu d’accueil de ces étudiants qui constituent un public, de plus en plus important, à attirer et à conserver pour les grandes villes et pour les universités (Terrazas-Carrillo et al., 2017). Un des tout premiers arguments mis en avant pour encourager la mobilité universitaire est de promettre aux étudiants concernés de vivre une expérience « en immersion » (Kinginger, 2011), leur permettant ainsi d’éprouver une culture de l’intérieur et d’acquérir des compétences académiques, interculturelles et personnelles par l’expérience (Guichon, 2019). L’expérience de mobilité internationale est d’autant plus profitable pour les étudiants s’ils parviennent à trouver leur place dans ce nouvel espace, c’est-à-dire à s’y inscrire émotionnellement, corporellement et intellectuellement. Ce processus d’inscription dans la ville hôte consiste « à accéder à l’altérité (changement de perceptions de soi et des lieux), aux fonctionnements humains associés à la ville et au pays d’adoption, et à la place qu’on peut y occuper » (Calinon et Mariani-Rousset, 2014, p. 118).
Afin de comprendre cette inscription spatiale, langagière et culturelle d’étudiants internationaux dans une ville hôte, nous nous appuyons sur la méthodologie de l’entretien déambulé filmé développée par l’ethnographe Sarah Pink (2008) : une captation vidéo documente une interaction qui se noue entre chercheurs et participants alors qu’ils marchent dans la ville. Au fil de notre contribution, nous chercherons à montrer en quoi la réalisation de ces enregistrements audiovisuels s’avère pertinente pour saisir de tels processus d’inscription des étudiants internationaux dans une ville française (Lyon, en l’occurrence) et pour enquêter sur les relations sociales et affectives qui se nouent à l’espace urbain. Après avoir présenté la méthode des entretiens déambulés filmés en tant que discours sur la ville dans la ville (partie 2), nous décrirons ensuite la constitution de notre corpus combinant deux prises de vues simultanées d’un même entretien (partie 3). Nous proposerons une analyse sémiotique des données obtenues, en nous focalisant sur les formes d’interaction entre les participants de l’entretien et sur le déploiement de leurs points de vue dans l’environnement urbain où ils se trouvent (partie 4). Afin de prolonger ces éléments d’analyse, nous ferons émerger quelques pistes de réflexion sur les modes de (re)visualisation d’une scène documentée (partie 4). Enfin, nous élargirons le cadre de cette étude de cas en approchant les phénomènes de mise en discours d’une expérience spatiale à l’aune de la notion de (re)médiation (partie 5).
En écho au positionnement épistémologique de ce numéro thématique sur les images interactives et les nouvelles écritures, notre article cherchera ainsi à montrer les enjeux d’un recours à une documentation audiovisuelle d’entretiens qui se déroulent dans l’espace urbain, sur deux plans. D’une part, sur le plan méthodologique, nous montrerons les apports de la vidéo 360° pour saisir et analyser le déploiement d’une interaction qui se déroule dans une situation spécifique, localisée spatialement et temporellement. D’autre part, sur le plan des formes d’écriture de la recherche, nous mettrons en évidence les apports de la vidéo en termes de pratiques de visualisation et d’analyse d’extraits audiovisuels : les films ne sont plus seulement conçus comme une documentation d’une situation, mais comme la médiation d’un regard et d’une voix des chercheurs sur une situation donnée. Il s’agira enfin de mettre en lumière les apports des données audiovisuelles pour enquêter sur des interactions telles qu’elles se sont déployées dans la ville et les transformations de ces données en discours analytique.
La méthode des entretiens déambulés (walking interviews) qui a été employée pour cette recherche doit beaucoup aux travaux de Sarah Pink (2007, 2008). Dans Walking With Video, cette ethnographe a ainsi développé une approche d’enquête spatialisée dans laquelle le processus de filmer pendant que l’on marche est considéré comme une méthode appropriée pour examiner de quelles façons les individus se ménagent une place dans la ville et ce que cela implique d’un point de vue sensoriel et identitaire. Pink fonde sa réflexion sur le travail de Steven Feld et Keith H. Basso (1996, p. 9) pour lesquels, « place is a fundamental form of embodied experience – the site of a powerful fusion of self, space, and time ». En se référant à Pink, on peut définir l’entretien déambulé comme une balade associant un individu et un chercheur (ou des chercheurs) pendant laquelle une interaction se noue en même temps qu’ils avancent conjointement dans l’espace. En suivant le trajet d’un individu, en mettant le corps du chercheur au diapason de celui de l’enquêté, en adoptant son rythme, en entrecroisant les regards et en mettant en résonance des sensations sur l’espace traversé (Lee et Ingold, 2006), il devient alors possible de comprendre, par le biais de cette interaction rapprochée, attentive et empathique, comment l’individu se ménage une place dans cet espace, comment son corps parvient à s’y inscrire ou, a contrario, comment il y demeure étranger. Ainsi, les entretiens déambulés filmés appartiennent à la catégorie des « méthodologies mobiles » (Murray, 2009) qui permettent de comprendre les processus socio-spatiaux en cours d’expérience et d’explorer les pratiques quotidiennes de mobilité.
Selon Dror Kochan (2016), Phil Jones et James Evans (2012), et Lesley Murray (2009), qui ont étudié les dynamiques spatiales par le biais des entretiens déambulés, cette méthodologie mobile permet :
Ainsi Kochan, qui s’est intéressé aux dynamiques spatiales des migrations en Chine, a conduit de tels entretiens déambulés en laissant le choix des lieux aux informateurs, une décision qui constituait pour eux « an empowering moment in which they considered different locations, weighed their shortcomings and advantages, as well as the places’ connections and context within the local physical and social environment » (Kochan, 2016, p. 221). Certains chercheurs ont souligné l’intérêt de filmer ces entretiens déambulés. En effet, la mobilité de la caméra et l’enregistrement d’une image mobile permettent une exploration de ce que Büscher (2006) a appelé « moment-to-moment production of vision » (la production séquentielle de la vision). Ainsi, chaque moment de la vision dans son contexte spatial spécifique est défini en relation avec le moment qui précède et celui qui suit, et constitue une séquence de visualisation mobile qui peut être revisitée et réinterprétée (avec éventuellement le concours de l’informateur). Pour Murray (2009), le recours à la vidéo est une façon de contextualiser socialement et spatialement l’entretien déambulé dans sa séquentialité temporelle, afin de permettre par la suite une réflexion sur les données obtenues, de capter et d’examiner des éléments de l’action humaine qui sont souvent pris comme allant de soi, d’explorer une gamme d’expériences sensorielles et de faciliter la mise en récit des données. Mais c’est surtout l’enjeu de la perspective qui est mis en avant par cet auteur, lorsqu’il évalue l’intérêt de filmer les entretiens déambulés :
The use of video enabled a glimpse of mobile space through the eyes of the participants, providing a clearer view of what is more or less important to them. It illuminated the particular issues experienced in the moment, the sequence of visual images that form a narrative and represent a mobile practice in a way that it is most easily understood.
(Murray, 2009, p. 482).)
Plusieurs questions relatives à la constitution d’une méthode d’enquête visuelle et mobile pour saisir le déploiement du point de vue des participants se sont posées à nous dans notre mise en pratique des entretiens déambulés. D’abord, concernant les modalités d’opération de la caméra, serait-ce au participant à l’étude de filmer ou bien aux chercheurs ? Ensuite, pour ce qui est du déroulement des entretiens, ceux-ci devraient-ils se faire a posteriori de la réalisation du filmage ou bien au cours même de la marche dans la ville ? Enfin, vis-à-vis du matériel à utiliser, quel type de caméra devrait-être mobilisé et en quel nombre ?
En effet, une des options aurait pu être de faire produire un film à un individu et de réaliser un entretien après coup ce qui pouvait permettre notamment de produire une interprétation de la vidéo. Dans notre pratique exploratoire des entretiens déambulés filmés, nous avons fait le choix de ne pas faire opérer la caméra par l’étudiant volontaire pour des problèmes pratiques, afin de lui permettre de se mouvoir sans être trop encombré par la caméra et d’être pleinement impliqué dans l’interaction. Ce donc sont les chercheurs qui filment par le biais d’une caméra standard et d’une caméra avec un objectif à 360°. Ainsi, la dimension participative de cette méthode réside moins dans la production d’images à travers une caméra qui serait considérée comme une médiation permettant de façonner le regard des participants que dans la réalisation conjointe d’une marche dans la ville que l’on documente par un enregistrement audiovisuel, afin de garder une trace des échanges et d’en permettre une analyse à un niveau fin de granularité. Enfin, dans notre perspective orientée par les sciences du langage, nous prêtons attention aux pratiques langagières au cours d’une marche dans la ville, plus pour leurs dimensions socio-culturelles (les ressources verbales et gestuelles mises en œuvre dans un discours sur la ville) que pour leurs dimensions encyclopédiques (acquisition et développement d’un répertoire linguistique). Les enregistrements audiovisuels ainsi produits devraient permettre de mettre au jour les continuités ou les discontinuités entre les différents sites traversés à partir d’un regard sur les ressources langagières mobilisées (par exemple des gestes de pointage en direction de différents objets ou bâtiment, des discours sur une expérience des lieux).
Pour le projet Visiteurs, cette méthode de réalisation d’entretiens déambulés filmés a été mobilisée de manière à constituer un corpus qui rende possible une étude des relations matérielles, affectives et symboliques que des étudiants internationaux entretiennent à l’environnement urbain lyonnais à partir de discours qui se déploient in situ, en interaction avec un chercheur1. Comme nous allons le montrer au fil de l’article, nous traitons les conditions de déploiement d’un regard dans le temps et dans l’espace en articulant (i) une perception sur la ville qui émerge de manière incarnée au cours de l’entretien et (ii) l’accès aux dynamiques de déploiement de cette perception au cours de la (re)visualisation de l’interaction par nous-mêmes.
Dans une épistémologie qui fonde ses analyses des interactions sociales et langagières sur la constitution de corpus audiovisuels (Mondada, 2009 et 2018), les données audiovisuelles produites permettent d’observer, de caractériser et de comprendre les relations entre les formes d’interactions qui se déploient entre des individus et les formes d’interaction entre des personnes et leur environnement. Dans cette perspective dite écologique, il s’agit alors de rendre compte des liens consubstantiels entre l’accomplissement d’un cours d’action et la transformation d’une situation sur les plans actoriel (les rôles sociaux joués et négociés par des individus), spatial (la définition d’un espace approprié à une pratique en cours) et temporel (les dynamiques de projection dans le temps). Avant de présenter le dispositif de captation audiovisuelle2, il convient d’expliciter les différentes étapes qui constituent notre enquête.
La dynamique d’élection d’un parcours à réaliser, à travers la constitution d’un itinéraire en amont de l’entretien, relève d’un enjeu non seulement pratique (savoir où aller), mais également socio-pragmatique, revêtant ainsi une portée symbolique. Selon que l’itinéraire en question est défini par les personnes qui réalisent l’enquête ou par les personnes enquêtées, ce parcours sera plus ou moins subi par les participants à l’interaction. Comme le souligne Lesley Murray (2009), l’utilisation de méthodes visuelles élargit l’empan des recherches en impliquant des participants (migrants, personnes de couleur, personnes handicapées, personnes âgées) habituellement exclus alors que la prise en compte de leurs habitudes de mobilité peut en partie façonner les contours de centres urbains plus inclusifs. Pour les entretiens, nous avons demandé à un étudiant en master de géographie volontaire3 de proposer un parcours à réaliser avec lui. Le tracé de son itinéraire s’est alors fait de manière concertée, en prenant en compte des contraintes d’ordre pratique (un point de départ et d’arrivée proche d’une station de transports en commun et un trajet d’une durée d’environ une heure). Tous les protagonistes se sont retrouvés un matin de novembre 2019 dans un café pour équiper les participants de micros HF et pour s’engager dans une déambulation qui a duré environ deux heures.
Concernant le dispositif technique en lui-même, nous avons mobilisé deux points de vue dans la scène des entretiens réalisés. Comme nous pouvons le voir à travers l’image 1, une caméra 360° est manipulée depuis une perspective interne à l’entretien (par l’un des chercheurs annoté 3 sur l’image 1) et une caméra avec un objectif standard (annoté 4) opère un point de vue externe sur les protagonistes de l’entretien et a comme fonction principale de documenter la prise de données (l’étudiant annoté 1 et le chercheur annoté 2).
Un tel dispositif, où la caméra 360° est tenue au niveau du visage à l’aide d’une perche, n’est pas des plus naturels : au quotidien, les participants ne se baladent jamais dans la ville équipés ainsi. Aussi, la présence de caméras et la pratique de l’entretien dans la ville participent de la formation d’une scène qui ne laissait pas les passants indifférents. Il y a donc un lien consubstantiel qui se tisse entre les conditions de l’expérience urbaine que l’on cherche à saisir, les conditions de déploiement de la pratique d’entretien et la manière dont certaines modalités d’interaction dans la ville se trouvent conditionnées par le dispositif de captation.
D’un point de vue technique, chaque participant était équipé d’un micro HF relié à un enregistreur Zoom® multipistes. L’un des chercheurs tenait la caméra 360° VR Kodak® reliée à une perche télescopique. Ce type de caméra étant doté de deux lentilles incurvées, nous avons donné comme consigne au chercheur-cadreur de positionner la lentille principale sur le groupe afin de réduire au maximum les problèmes de stitching (un effet visuel de césure dû à la jointure des deux objectifs dont est faite la caméra 360°). En ce qui concerne la vue externe, elle a été opérée par un membre de l’équipe à la fois pour documenter la pratique de l’entretien déambulé, mais également celle du dispositif éprouvé. À l’aide d’un pied steadicam, le groupe a été filmé lors des déambulations, avec la consigne de se focaliser sur le groupe, de face.
Concernant la phase de traitement des données, le logiciel Final Cut Pro® a été utilisé pour synchroniser les pistes vidéo et les pistes audio afin d’obtenir un timecode commun à tous les fichiers audiovisuels, ce qui permet de naviguer d’un fichier à l’autre facilement. La projection équirectangulaire (image 2) a été légèrement corrigée afin de positionner le groupe au centre de l’image, ce qui permet de commencer la lecture par une focalisation sur le groupe lorsque le fichier est ouvert avec un lecteur permettant un visionnage immersif (comme VLC). De plus, la phase de synchronisation a permis de créer un fichier vidéo mêlant la vue 360° avec les sons mixés issus des micros des participants. Ce mixage reflète le choix délibéré de l’équipe de recherche consistant à se focaliser sur les discours produits par les participants. En effet, si les sons/bruits de la ville (circulation, conversations…) permettent aux spectateurs de l’extrait de retrouver l’ambiance de la ville et de s’y projeter sensoriellement, ces mêmes sons/bruits rendent difficile la perception des propos des participants. L’extrait ci-dessous donne un exemple du travail réalisé sur le son et les choix opérés qui permettent d’entendre distinctement les discours des protagonistes, tout en conservant suffisamment d’indices sonores pour restituer les traces sensorielles d’une interaction en milieu urbain.
Aussi, les deux films produits (avec la caméra 360° et avec la caméra standard) peuvent fournir différentes modalités de visualisation.
À notre connaissance, la caméra 360° n’a jamais été utilisée pour filmer des entretiens déambulés mais elle commence toutefois à être utilisée dans la recherche en ethnographie. Notamment, Edgar Gómez Cruz (2017) avance que la caméra à 360° présente des affordances prometteuses en raison de l’interconnexion entre la fabrication de l’image vidéo et le lieu où se réalise la captation, ce qui en fait un outil idéal pour saisir comment des individus s’inscrivent dans un nouvel environnement. Grâce aux différentes lentilles dont elle est dotée, cette caméra à 360° peut capturer tout ce qui est simultanément visible depuis son point de capture. La caméra 360° détache chaque action les unes des autres, permettant à l’œil de pouvoir explorer l’image selon une variété de perspectives.
L’un des atouts de ces caméras réside ainsi dans l’établissement d’une relation forte entre l’espace et l’image produite. La caméra fonctionnerait comme une sorte de panoptique captant tout ce qui se passe alentour et modifiant substantiellement l’agentivité du photographe qui ne décide plus dans quelle direction porter le regard, où placer la caméra et quand démarrer et arrêter la captation. L’image obtenue par la caméra 360° apporte une différence fondamentale par rapport à l’image vidéo traditionnelle, en ce qu’il n’y a plus ni angle mort ni cadrage4. Par l’image 2, nous illustrons quelques modes de visionnage possibles des enregistrements réalisés : en mode « planète », en mode « projection équirectangulaire », en mode « dichotomie » (de gauche à droite).
En utilisant un logiciel spécifique (par exemple VLC), le spectateur peut s’immerger dans le champ de l’image et peut naviguer selon son point de vue, ce qui procure le sentiment d’être à l’intérieur de l’image plutôt qu’à sa surface (ou à sa périphérie). Le film obtenu est, selon les mots de Gómez Cruz (2017, p. 32), une scène « that can be “embodied” by the viewer as an open invitation to sensorially explore the setting where it was taken ». La section suivante est ainsi consacrée à une présentation du corpus réalisé et une réflexion sur la complémentarité de ces deux vues, à la fois sur le plan pratique et sur le plan épistémologique.
À partir d’un extrait du corpus, nous pouvons illustrer et questionner la gestion collective de l’interaction par les participants. Dans ce parcours élaboré par l’étudiant (voir supra), le groupe se dirige du quartier de la Guillotière vers le quartier du Vieux-Lyon. L’extrait que nous allons étudier (vidéo 2) se situe à l’arrivée du groupe sur le pont de la Guillotière. Dans l’analyse, nous allons d’abord nous intéresser à la manière dont les chercheurs et l’étudiant négocient un discours sur la ville. En recourant à une transcription du discours en interaction dans la tradition de l’analyse des interactions (Mondada, 2018), nous mettrons en évidence les dynamiques qui se déploient in situ entre les participants et entre les participants et leur environnement. Aussi, afin d’illustrer certains phénomènes sur le plan de la multimodalité du discours (enchevêtrement des expressions verbales et gestuelles), nous proposons des captures d’écran de l’extrait vidéo qui sont indiquées dans la transcription5. Nous prêterons notamment attention aux ressources sémiotiques à travers lesquelles les participants mettent en évidence et expriment leur perception de certains éléments (par exemple, des bâtiments et des graffitis) et thématisent leur ressenti et leurs émotions vis-à-vis de l’endroit où ils se trouvent, aux abords des berges du Rhône. Nous nous focaliserons ensuite sur les modalités de saisie et de retranscription de ces dynamiques interactionnelles à travers la (re)visualisation de l’échange par la captation réalisée par la caméra 360°.
En retraçant le déploiement des interactions in situ, plusieurs phases se dégagent dans la gestion des relations que les participants entretiennent les uns avec les autres, comme dans celles qu’ils tissent avec l’environnement urbain. On observe que l’un des chercheurs amorce un discours sur la place des graffitis dans le paysage visuel, en sollicitant le point de vue que l’étudiant porte sur son environnement (image 3, lignes 1-11), comme nous pouvons le signaler à travers la capture d’écran 1 (image 4a) de la transcription (image 3, ligne 4).
Les trois protagonistes sont orientés vers la perspective de la basilique Notre-Dame de Fourvière, dans l’axe principal du pont, tout en régulant leur interaction par intermittence à travers des regards dirigés les uns vers autres. L’étudiant énonce alors qu’il n’a jamais remarqué la présence des graffitis qui font l’objet de leur attention (image 3, lignes 12-18), mais qu’il apprécie bien la perspective qui se dessine depuis l’endroit où il se trouve (image 4b, lignes 18-23). Du point de vue postural et gestuel, il est alors intéressant de noter que le silence qui scande la réponse de l’étudiant se trouve accompagné corporellement par la main portée à son visage (image 4b et image 3, ligne 16 ), pouvant être interprété comme le signe d’une certaine perplexité.
L’échange est alors ponctué par un silence de quelques secondes, le temps que l’étudiant nous propose de s’orienter vers un autre lieu en contrebas du pont : les berges du Rhône (ligne 25). Comme on peut le remarquer à travers la capture d’écran 3 (image 4c et image 3, ligne 26), un geste de pointage de l’étudiant déclenche progressivement une nouvelle orientation des corps dans l’espace pour initier une redirection vers les berges du Rhône en question.
L’étudiant décrit les raisons pour lesquelles il apprécie les berges aménagées du fleuve, en faisant état d’une pluralité de pratiques de cet espace public (image 3, lignes 26-58). En rendant compte de la multiplicité des usages de ce lieu et de la diversité des personnes qui s’y retrouvent, il met en évidence son caractère ouvert. Dans sa narration, entre description de l’espace et argumentation de son point de vue, cette ouverture sur le plan spatial trouve alors son pendant sur le plan économique : la gratuité de l’accès à ce lieu en fait un espace privilégié pour partager un moment entre amis, en famille et, plus largement, entre usagers, une possibilité qui contraste avec les pratiques dans la ville péruvienne (Lima) dont il est originaire comme il l’évoquera un peu plus tard6.
Image 4d - Captures d’écran de l’extrait « Les Berges ». Entretien réalisé le 19 novembre 2019 à Lyon
© UMR 5191 ICAR
À partir de la capture d’écran 4 (images 4d et image 3, ligne 56), on peut observer une référence à l’espace public qui se fait non seulement de manière verbale, mais également à travers un geste des mains ayant une double valeur de signe iconique (référant à un concept concret) et de signe métaphorique (illustrant un concept abstrait) : le caractère ouvert des espaces publics, sur le plan conceptuel, se réalise visuellement et corporellement par un mouvement d’agglomération et de formation d’un groupe. Dans la progression de l’interaction, les chercheurs n’interviennent alors que pour marquer leur compréhension de son discours et l’inviter à poursuivre (image 3, lignes 30, 34, 36).
Sur le plan discursif, l’énonciation de l’étudiant oscille entre un regard externe (formation d’une ville en tant que paysage observé depuis un regard éloigné) et un regard interne (formation d’une ville en tant que territoire approprié) : son discours passe ainsi d’une focalisation sur la dynamique d’observation des pratiques urbaines (les caractéristiques de ce lieu que tout un chacun peut percevoir) à une focalisation sur la dynamique de participation et une vie collective de la ville (ce qu’il apprécie vivre, depuis son point de vue de migrant récemment arrivé). Il y a un contraste frappant entre la situation décrite en discours et la situation dans laquelle le groupe se trouve au moment de l’interaction. Les berges dont l’étudiant rend compte, in absentia, sont reconstituées et reconstruites à travers sa voix et ses gestes. Il fait ainsi appel à son expérience personnelle du lieu (gardée en mémoire et en arrière-plan), mais aussi à la capacité de ses interlocuteurs à faire émerger une certaine image de la ville à partir de son discours (image elle-même marquée par l’expérience propre à chacun des deux chercheurs). En vue d’illustrer les modalités à travers lesquelles les participants négocient ensemble ce discours sur la ville et dans la ville, nous allons maintenant proposer une (re)visualisation de cet extrait à travers la prise de vue opérée par la caméra 360°.
Si une première modalité de vue à 360° est une vue à l’intérieur de laquelle il est possible de naviguer (vidéo 3), une deuxième modalité permet de reconstituer la trajectoire du discours (vidéo 4). C’est sur ce deuxième mode de (re)visualisation que nous nous focalisons ici.
À la suite d’une opération de montage, ce mode de visualisation (vidéo 4) n’est pas à appréhender seulement comme une situation à observer, à décrire et à analyser. Cette vue alternative sur l’interaction cherche à exprimer les enjeux énonciatifs impliqués dans l’analyse, lors de laquelle les chercheurs produisent un discours sur la situation à partir du point de vue de chacun des participants dans la situation. Dans le passage d’un mode de visualisation à l’autre, c’est-à-dire de la perspective offerte par la caméra externe à celle de l’intérieur fournie par la caméra 360°, nous cherchons à examiner cette oscillation d’un point de vue sémiotique. La consigne que nous nous sommes donnée pour réaliser ce montage consiste à restituer, visuellement, le caractère mobile du point de vue de l’étudiant sur l’entour, les manières dont il se positionne en discours et en (inter)action dans l’environnement. Au sein de l’extrait étudié, la trajectoire du discours sur la ville s’articule en trois séquences que notre montage vidéo traduit à travers des procédés de (re)cadrage et de (dé)zoom. Dans une première phase (jusqu’à 0:40), les chercheurs sollicitent un discours de l’étudiant quant à l’inscription des graffitis contemporains sur l’arrière-plan historique et patrimonial de la basilique de Fourvière. Dans la dynamique d’émergence de formes signifiantes dans la ville, une distinction sur le plan perceptuel (les graffitis se détachent et sont amenés au premier plan) est concomitante à une distinction sur le plan des valeurs (la basilique est appréciée de manière positive, mais pas les graffitis). Un recadrage de la perception (distinguer visuellement des objets les uns par rapport aux autres) est alors corrélé à un resserrement du cadre discursif (focaliser le discours sur un objet spécifique). Dans une deuxième phase (de 0:40 à 0:42), la défocalisation et la réouverture du cadrage sur la ville opéré par nous-mêmes à travers le film traduisent, visuellement, le silence dans l’interaction, après lequel l’étudiant réactive son propre point de vue, de sa propre initiative. La troisième phase (0:43 à 1:42) est alors marquée par une réorientation de la perception et du discours du trio vers un nouvel objet de la ville. En proposant de faire des berges du Rhône un nouveau thème discursif, l’étudiant se saisit de nouveau de son rôle de guide que le dispositif d’enquête lui a assigné et dont il s’empare pleinement à ce moment-là. On passe alors d’une vue externe à une vue reconstituée en première personne, telle qu’elle se déploie en discours. Le fort contraste entre les quais presque vides (perçus visuellement in situ) et les quais bondés (énoncés en discours) devient alors encore plus saillant.
À travers cette deuxième modalité de visualisation de l’extrait, on cherche à problématiser les opérations de cadrage impliquées du point de vue de la perception incarnée (par le corps) et du point de vue de la perception instrumentée (par une caméra). Aussi cet extrait permet-il de rendre compte des passages en jeu dans le cheminement de notre analyse, du matériau audiovisuel produit par la caméra 360° (sans cadrage) vers le matériau produit à la suite de l’analyse. Cette visualisation vise ainsi à rendre compte des sélections et des mises en relation entre des objets coprésents dans la ville du point de vue :
Cette dynamique de production d’une analyse par l’image et le son implique inévitablement un ajustement entre la scène vécue et la scène visionnée, entre l’interaction telle qu’elle s’est co-construite in vivo et l’interprétation élaborée a posteriori. Pour ce mode de (re)visualisation, l’un des enjeux est alors de penser en quoi il constitue un accès aux données qui reste ouvert à une exploration de formes et de contenus que l’on n’avait pas vus, que l’on n’avait pas vus de telle manière et que l’on pourrait (re)découvrir. En tant que vidéo devenant elle-même un discours qui porte sur la scène éprouvée et étudiée, cet extrait interroge non seulement notre analyse des interactions entre les participants et la ville, mais surtout les modalités par lesquelles restituer les dynamiques de prise de parole au cours de l’interaction documentée. Ainsi, ce montage cherche à la fois à rendre compte des possibilités d’enquête sur une situation d’interaction permises par la caméra 360° et à restituer notre analyse du discours des participants sur la ville, tout en ne faisant pas fi de ce qui a eu lieu depuis le point de vue même des participants. Comme notre visée principale consiste à retranscrire, par la vidéo, l’oscillation des voix et des points de vue en interaction, il s’agit alors pour nous de veiller à ce que l’extrait que nous réalisons ne produise pas de significations contraires aux échanges tels qu’ils se sont déroulés dans la situation initiale. De ce fait, chaque traitement sur le corpus d’origine de la part des chercheurs demande à être interrogé sur le plan énonciatif, c’est-à-dire (i) sur les manières dont les paroles et les actions des participants sont prises en compte et prises en charge par eux-mêmes au fil de l’entretien et (ii) sur les manières dont l’analyse produite par les chercheurs préserve ou altère le cadre de l’interaction étudiée.
À partir des réflexions pratiques et analytiques précédentes, nous proposerons dans cette section une systématisation des formes d’interaction en jeu dans la réalisation des entretiens déambulés filmés, de la constitution des enregistrements in situ à leur structuration en corpus étudié dans une perspective de recherche.
À partir des différents points de vue d’observation sur cette expérience de la mobilité et de la trajectoire (Lee et Ingold 2006) dont nous avons rendu compte plus haut, il est possible de distinguer une scène documentée à travers un matériau audiovisuel et une scène textualisée, à travers l’interprétation des chercheurs, en nous appuyant sur une distinction initiée par François Rastier (2011) entre la notion de document et celle de texte dans une perspective de sémiotique de corpus. D’un côté, le document est lié à une perspective archivistique sur un objet culturel dont le contenu est stabilisé par des classifications et des étiquetages : on est alors face à un objet répertorié et catalogué à partir de (méta)données concernant son auteur, le lieu et le moment de sa production et le genre textuel auquel il appartient. En tant que texte, un objet est appréhendé selon une pratique herméneutique et une éthique interprétative qui mettent en jeu des relations entre différentes instances dans un environnement social et culturel : on est alors face à un objet/discours dont l’interprétation sera soumise à l’évolution des sensibilités, des connaissances et des normes. Ainsi, les enregistrements que nous avons produits peuvent être appréhendés en tant que document, en ce qu’ils visent à prendre note du contexte où se déploient les échanges. Mais ils peuvent également être conçus en tant que texte, pour ce qu’ils impliquent des choix épistémologiques en amont et des procédures d’écriture in situ qui demandent à être interprétés.
Dans ce passage de l’entretien tel qu’il se déroule dans la ville de manière incarnée à la visualisation et l’interprétation des enregistrements produits, se pose la question d’un continuum entre des interactions incarnées (vécues), filmées (documentées) et filmiques (transmédiales7). Les interactions incarnées sont celles vécues in situ, dans la ville même, au fil de l’entretien. Le point de vue sur ces interactions est tout d’abord fuyant et ouvert : on n’a pas de prise sur son déploiement ; on ne peut canaliser ce que chacun des participants peut ressentir ou dire de cette interaction, pendant ou après coup. De surcroît, ce point de vue est co-dépendant du vécu propre à chacun des participants – de facto, l’étudiant ne vit pas la ville comme les chercheurs. Les interactions filmées sont celles encapsulées par le matériau audio et vidéo produit dans la situation documentée. Se fait ainsi jour une dialectique productive pour la recherche entre le champ constitué par le matériau audiovisuel de l’interaction filmée et le hors-champ, c’est-à-dire les échanges absents du document audiovisuel produit mais gardés en mémoire par les participants (les moments qui précèdent et suivent l’entretien, notamment). Les interactions filmiques sont celles entre les différents matériaux produits, aussi bien sonores que visuels. La complémentarité des deux vues est alors à l’œuvre, non seulement entre la perspective externe (vue plan large) et celle interne (vue 360°), mais également entre les actions opérées dans les phases de traitement des données et celles effectuées lors de la visualisation. Ces interactions peuvent être caractérisées de transmédiales en ce qu’elles émergent de la mise en lien des différents enregistrements d’une même situation (entre la vue externe et la vue 360°, par exemple), mais aussi du tissage continu d’un texte à travers l’ajout de contenus numériques (images fixes ou mobiles, sons, texte, vidéos) au document d’origine. Elles mettent en jeu non seulement une variation des conditions d’accès à l’interaction documentée, mais également une transformation des prises sensorielles et intelligibles sur la situation d’interaction.
Dans la production filmique autour des entretiens déambulés, il nous semble alors pertinent d’appréhender la notion d’interactivité, abordée dans ce numéro thématique, à l’aune des étapes de constitution, de traitement et de visionnage du corpus audiovisuel selon une double perspective. D’un côté, nous avons un processus de documentation de l’interaction : c’est la réalisation des captations dans le cours même de l’entretien déambulé. De l’autre côté, il y a un processus de conception d’une médiation interactive : c’est la constitution d’un extrait audiovisuel à travers un montage qui tient compte non seulement de ce que l’on cherche à mettre en relief dans l’analyse (liens entre la dimension verbale et la dimension gestuelle de l’interaction ; focalisations sur des objets de la ville), mais aussi des modalités d’accès aux formes et aux contenus discursifs (opérations de cadrage ; jeux de champ et de hors-champ entre les participants et les objets de la ville thématisés en discours). Si la documentation de l’interaction est le corollaire d’un corpus audiovisuel à étudier, la médiation interactive est reliée quant à elle à une relance de l’expérience d’immersion et d’interprétation.
L’interview déambulée filmée est appréhendée d’abord en tant qu’expérience mobile au travers de laquelle la ville se trouve être à la fois un lieu pratiqué par les participants et un objet co-construit en discours. Avant d’être un objet filmique, l’entretien est une interaction qui se tisse au fil des échanges, entre une programmation de l’itinéraire et un parcours susceptible d’évoluer face à la contingence de la situation. Cette expérience mobile in situ permet ainsi de faire émerger les relations que des personnes (dont l’un des rôles sociaux est d’être étudiant international) entretiennent avec la ville de Lyon. À travers le prisme de leur discours sur leur expérience, l’analyse nous demande alors de coupler un regard sur l’image qui est en train d’être élaborée en discours et les modalités dont l’environnement urbain est traversé et pratiqué par les participants. Toute attestation de cette expérience et de cette situation n’est donc qu’un accès partiel aux interactions documentées. Dans les débuts de notre projet expérimental, la mobilisation d’une caméra 360° et de micros HF cherche moins à produire un erzatz qui mimerait et reconstruirait la dimension polysensorielle de l’expérience in vivo qu’à interroger les conditions d’accès à la situation d’interaction et à explorer les modalités de post-traitement du matériau constitué8.
À partir du constat opéré par Law et Urry (20049), Judith Purkarthofer (2019) souligne « the necessity to develop methods that are better able to capture among others the fleeting, distributed and multiple aspects of a reality that is also produced through our use of methods ». Dans le cadre de la recherche de Purkarthofer, cette inventivité méthodologique impliquait la prise en compte des pratiques ordinaires des acteurs de l’enquête sociolinguistique. Pour ce qui concerne notre étude, la nécessité de développer une méthode de saisie du caractère flottant, distribué et multiple de la réalité se traduit par le maintien d’un dialogue constant entre une diversité de points de vue, selon la dynamique interactionnelle à l’œuvre dans les échanges entre les participants, et entre eux et leur environnement. De la documentation de l’interview dans la ville (in vivo) à l’exploration interactive des échanges à travers les films produits (in vitro), la relation entretenue au matériau de l’enquête implique une (re)médiation de l’expérience vécue de l’environnement urbain. En contraste avec une médiation pensée et conçue dans le cours même de la marche10, cette (re)médiation opérée a posteriori est un « process that allows us to attain richer and fuller translations of bodily experience and materiality that are located, multi-textured, reflexive, sensory and polysemious » (Witmore, 2004, p. 60). Comme Sarah Pink (2008, p. 192) le note à son tour, cette médiation de l’expérience in situ va « au-delà de la documentation et de l’inscription » du lieu, en ce qu’elle est une communication qui contient en elle-même l’engagement des participants dans l’interaction. Dans une telle perspective, la méthode des entretiens déambulés filmés (voir supra) demande non seulement de concevoir et de (re)définir le dispositif de captation en relation étroite avec les questions de recherche, mais également de saisir les différentes transformations des interactions avec les personnes rencontrées (entre la prise de contact en amont des interviews, les interactions en chair et en os durant les phases du parcours et l’accès a posteriori dans le traitement des données et l’analyse qui implique une visualisation répétée).
Entre le plan technique de l’accès au matériau produit et le plan épistémologique du recours à des enregistrements audiovisuels pour saisir les conditions environnementales du déploiement de multiples interactions, les dispositifs de visualisation participent eux aussi à des formes de (re)médiation de la scène. Selon que l’on étudie le même extrait vidéo sur un écran d’ordinateur, à travers un casque de réalité virtuelle ou un dôme immersif, les formes de spatialisation des déplacements dans la ville seront transformées elles aussi, ce qui n’est pas sans influer sur les modalités de perception des spectateurs/regardeurs qui agissent sur l’extrait. L’interactivité avec le matériau audiovisuel au cours de la lecture et l’immersion dans l’environnement en contexte numérique sont ainsi corrélées au type de données produites en amont ainsi qu’aux médiations technologiques mobilisées en aval (spatialisation du son, navigation dans un environnement numérique, lecture sur un moniteur d’ordinateur ou d’autres écrans).
Pour finir, Pink (2008) insiste sur le fait que la balade est une expérience polysensorielle. La documentation que l’on peut en faire à travers une vidéo, même en 360°, permet certes de pouvoir davantage pénétrer dans le paysage urbain, mais ne permet cependant pas de l’éprouver par les autres sens que ceux de la vision et de l’audition. Comment communiquer la qualité de l’air de ce lundi matin de novembre 2019, du vent frais sur nos joues quand nous avons passé le Rhône, de l’odeur de désinfectant montant des trottoirs encore mouillés par le nettoyage des services de la voirie, du goût mi-âcre mi-doux du café pris sur une terrasse à la fin de la balade, autant d’éléments qui constituent eux aussi les facettes de l’expérience d’une ville française ?
Cette étude de cas a donné l’occasion de montrer que la méthode des entretiens déambulés filmés implique une réflexion sur trois formes d’interaction liées les unes aux autres, de la constitution du dispositif en amont vers la visualisation et l’analyse des données en aval. D’abord, nous avons mis en évidence que cette méthode s’affirme comme une voie possible pour enquêter sur les formes d’interactions matérielles, sensibles et symboliques in situ (ce que nous avons appelé une interaction incarnée). Celle-ci s’avère être pertinente notamment pour étudier aussi bien les articulations entre une perception incarnée et une mise en discours d’une expérience de la ville que les formes de négociation de voix et de points de vue sur la ville à travers une marche conjointe et un discours co-construit. Ensuite, nous avons cherché à montrer que les enregistrements audiovisuels produits au cours de l’entretien, comme tout discours sur une expérience, ne permettent qu’un accès partiel aux points de vue tels qu’ils se sont déployés pour les participants (ce que nous avons appelé une interaction filmée). En vue de mettre à l’épreuve ces différences qui agissent sur les traces audiovisuelles des interactions entre les participants dans la ville, nous avons ainsi mis en regard deux modalités de filmage d’un entretien (par une caméra standard et par une caméra munie d’un objectif à 360°). Enfin, nous avons proposé une réflexion sur les modalités pratiques de confrontation de notre regard de chercheurs avec les données produites in situ (ce que nous avons appelé une interactivité filmique). La mise en contraste des deux extraits produits (vidéos 3-4) a ainsi visé à retranscrire les enjeux pratiques et méthodologiques liés aux manipulations à la navigation au sein des données et à traduire les potentialités offertes par ces deux modes de (re)visualisation des interactions verbales et gestuelles (la vidéo 3 à l’intérieur de laquelle naviguer et la vidéo 4 retraçant notre analyse de la trajectoire du discours).
Ainsi, nous avons cherché à montrer que si la réalisation d’enregistrements audiovisuels des entretiens déambulés peut être conçue comme documentation d’un événement situé spatialement et localement, elle demande de concevoir en amont les transformations de la situation induites par des jeux entre un champ et un contrechamp de la prise de vue et les dynamiques de (ré)écriture de la situation qui articule les discours/pratiques étudiées et les discours/pratiques d’analyse. Cette étude exploratoire visait alors à mettre au travail les potentialités offertes par les enregistrements réalisés sur le plan des pratiques d’enquête sur les discours en interaction et sur le plan des modalités d’écriture de la recherche. À partir des quelques réflexions proposées ici, concernant notamment la place accordée au regard et au discours des participants aux enquêtes, il nous semblerait opportun et judicieux de poursuivre cette étude en proposant à un échantillon d’étudiants internationaux de choisir et de créer eux-mêmes des extraits vidéos à partir des captations réalisées. Ceci serait pertinent à plus d’un titre. D’une part, en regardant à nouveau nos échanges depuis le point de vue des étudiants internationaux, dans une forme d’auto-confrontation partagée, nous pourrions avoir accès aux effets de sens de nos interventions sur ses propres conduites d’action au cours de l’entretien et la mémoire qu’il garde de nos échanges. D’autre part, dans une forme de coopération interprétative des données avec les étudiants, la possibilité d’avoir accès à leurs propres interprétations de la situation enquêtée semble constituer l’occasion de prolonger le dialogue entre nos différents points de vue et de les impliquer à nouveau dans les processus de traduction et de réélaboration du sens de notre expérience conjointe de la ville. La question se pose ainsi des limites de l’inscription, de la communicabilité et des (ré)écritures des expériences locales, telles qu’elles se déploient in vivo, les médiations linguistiques et technologiques procédant par filtres successifs.
1 Nous remercions l’étudiant qui a chaleureusement accepté de participer aux entretiens, ainsi que le labex ASLAN (ANR-10-LABX-0081) de l’Université de Lyon pour son soutien financier dans le cadre du programme français « Investissements d’avenir » géré par l’Agence nationale de la recherche (ANR).
2 Si nous parlons de dispositif de captation, c’est pour mettre en évidence la part programmatique de la constitution des données et des ressources technologiques mobilisées. Mais, dans la réalisation des films au cours des entretiens, la dimension programmatique du dispositif mis en œuvre s’ajuste aux contingences du terrain et aux imprévus.
3 Pour des précisions socio-biographiques, notons que l’étudiant en question vient du Pérou (Lima) et est un architecte venu en France, à Lyon, pour des raisons à la fois personnelles (relation amoureuse) et professionnelles (approfondissement d’une approche théorique et pratique en géographie et urbanisme). Nous cherchons à observer et à décrire en quoi les dynamiques de perception et d’interprétation de signes verbaux et non-verbaux à l’œuvre dans l’expérience in situ des sites urbains traversés au cours de l’entretien engagent son propre point de vue et mettent en jeu son propre arrière-plan d’expériences et de connaissances.
4 Nous devons préciser ici que, quand bien même il n’y a pas de cadrage, il peut tout de même y avoir des angles morts, des points aveugles. Par exemple, si la caméra est placée derrière la tête de la personne qui la tient, tout ce qui est au-delà sera occulté. De même, la pratique de la caméra implique toujours un ancrage dans la situation : selon la personne qui manipule la caméra, la hauteur de la prise de vue et le rythme du déplacement peuvent varier.
5 Le format de transcription appliqué ici est celui des conventions mobilisées en analyse des interactions par le groupe ICOR : http://icar.cnrs.fr/projets/corinte/documents/2013_Conv_ICOR_250313.pdf
Dans la transcription, le symbole #1 situe la capture d’écran 1, le symbole #2 la capture d’écran 2, etc.
Sur le plan prosodique, on trouve les symboles suivants :
[ ] chevauchement – troncation ` élision : allongement (.) pause
/ intonation montante \ intonation descendante (( )) action CAP accentuation
6 Dans la suite de l’échange, l’étudiant énonce à plus forte raison que, à Lima, ce type d’espace public n’existe pas. Il apprécie donc les berges du Rhône en plein, pour ce qui les caractérisent dans le territoire lyonnais, et en creux, pour ce qu’elles représentent par rapport aux autres sites urbains qu’il a déjà traversés.
7 En prolongeant la réflexion lancée par Henry Jenkins, dans une perspective des sciences de l’information et de la communication, Bruno Cailler et Céline Masoni Lacroix (2017) définissent la transmédialité à partir de « la transtextualité [conçue] en tant qu’expérimentation de nouvelles écritures basées sur la complétude narrative (ou continuum) d’une exploration et d’un échange multimodal durable ».
8 En pensant au travail de thèse en cours d’Hugo Montero (http://www.theses.fr/s219165) qui mobilise une caméra 360° selon un autre ancrage disciplinaire et d’autres finalités pratiques, il serait intéressant de mettre en discussion la conception du dispositif au fil de la recherche (réflexions en amont permettant de définir certaines consignes, modalités d’appropriation du dispositif in situ, éventuelles adaptations du dispositif à partir d’imprévus ou de dysfonctionnements).
9 Law et Urry (2004, p. 404) : « […] we shall need to alter academic habits and develop sensibilities appropriate to a methodological decentring. Method needs to be sensitive to the complex and the elusive ».
10 Par exemple, dans une recherche en archéologie, Christopher Witmore (2004) mobilise une caméra pour faire émerger un rapport à l’environnement dans la scène elle-même.
BORIES Olivier (2019), « Faire du paysage un “personnage”. Les atouts de la méthode filmique dans la production d’images paysagères », Revue française des méthodes visuelles, 3, [en ligne] https://rfmv.fr/numeros/3/articles/4-faire-du-paysage-un-personnage/.
BÜSCHER Monika (2006), « Vision in Motion », Environment and Planning A: Economy and Space, 38, p. 281-299.
CALINON Anne-Sophie, MARIANI-ROUSSET Sophie (2014), « La place du sujet dans l’expérience de mobilité : l’étudiant international et le dessin réflexif », GLOTTOPOL, 24, p. 99-121.
CAILLER Bruno, MASONI LACROIX Céline (2017), « Temps et espace de l’interactivité, vers une définition de la transmédialité », Revue française des sciences de l’information et de la communication, 10, [en ligne] http://journals.openedition.org/rfsic/2694.
JAMID Hicham, KABBANJI Lama, LEVATINO Antonina, MARY Kevin (2020), « Les migrations pour études au prisme des mobilités sociales », Migrations Société, 180 (2), p. 19-35.
DURU Asli (2018), « Wearable Cameras, In-Visible Breasts: Intimate Spatialities of Feminist Research with Wearable Camcorders in Istanbul », Gender, Place & Culture, 25 (7), p. 939-954.
FELD Steven, BASSO Keith (1996), Senses of place, Santa Fe, School of American Research Press.
GÓMEZ CRUZ Edgar (2017), « Immersive Reflexivity: Using 360° Cameras in Ethnographic Fieldwork », in GÓMEZ CRUZ Edgar, SUMARTOJO Shanti, PINK Sarah (dir.), Refiguring Techniques in Digital Visual Research, New York, Springer, p. 25-38.
GODWIN-JONES Robert (2016), « Augmented Reality and Language Learning: From Annotated Vocabulary to Place-Based Mobile Games », Language Learning & Technology, 20, p. 9-19.
GUICHON Nicolas (2019), « A Self-Tracking Study of International Students in France: Exploring Opportunities for Language and Cultural Learning », ReCALL, 31 (3), p. 276-292.
JONES Phil, EVANS James (2012), « The Spatial Transcript: Analysing Mobilities through Qualitative GIS », Area, 44 (1), p. 92-99.
KAPLAN-RAKOWSKI Regina, GRUBER Alice (2019), « Low-Immersion versus High-Immersion Virtual Reality: Definitions, Classification, and Examples with a Foreign Language Focus », in PIXEL (dir.), Proceedings of the Innovation in Language Learning International Conference 2019, Bologne, Filodiritto.
KINGINGER Celeste (2011), « Enhancing Language Learning in Study Abroad », Annual Review of Applied Linguistics, 31, p. 58-73.
KOCHAN Dror (2016), « (Re)placing Migrants’ Mobility: A Multi-Method Approach to Integrating Space and Mobility in the Study of Migration », Migration Studies, 4 (2), p. 215–237.
LAW John, URRY John (2004), « Enacting the social », Economy and Society, 33 (3), p. 390-410.
LEE Jo, INGOLD Tim (2006), « Fieldwork on Foot: Perceiving, Routing, Socializing », in COLEMAN Simon, COLLINS Peter (dir.), Locating the Field. Space, Place and Context in Anthropology, Oxford, Berg, p. 67-86.
LIN Vivian Wenli, HAM Julie, GU Guolin, SUNUWAR Merina, LUO Chunya, GIL-BESADA Laura (2019), « Reflections through the Lens: Participatory Video with Migrant Domestic Workers, Asylum Seekers and Ethnic Minorities », Emotion, Space and Society, 33, 100622.
MONDADA Lorenza (2009), « La production de l’intelligibilité de l’action : une approche multimodale des procédés de sélection des locuteurs dans les interactions en classe », Éla. Études de linguistique appliquée, 153 (1), p. 25-40.
MONDADA Lorenza (2018), « Multiple Temporalities of Language and Body in Interaction: Challenges for Transcribing Multimodality », Research on Language and Social Interaction, 51 (1), p. 85-106.
MURRAY Lesley (2009), « Looking At and Looking Back: Visualization in Mobile Research », Qualitative Research, 9(4), p. 469-488.
PINK Sarah (2008), « An Urban Tour: The Sensory Sociality of Ethnographic Place Making », Ethnography, 9 (2), p. 175-196.
PINK Sarah (2007), “Walking with video” Visual Studies, 22(3), p. 240-252.
PURKARTHOFER Judith (2019), « Using Mobile Phones: Recording as a Social and Spatial Practice in Multilingualism and Family Research », FQS. Forum Qualitative Sozialforschung, 20 (1), art. 20, [en ligne] http://www.qualitative-research.net/index.php/fqs/article/view/3110/4358.
RASTIER François (2011), La mesure et le grain. Sémantique de corpus, Paris, Honoré Champion.
TERRAZAS-CARRILLO Elizabeth, HONG Ji, MCWHIRTER Paula, ROBBINS Rockey, PACE Terry (2017), « Place-Making and Its Impact on International Graduate Student Persistence », Journal of College Student Retention: Research, Theory & Practice, 19 (1), p. 59-80.
WITMORE Christopher (2004), « Four Archaeological Engagements with Place Mediating Bodily Experience through Peripatetic Video », Visual Anthropology, 20 (2), p. 57-72.
Julien Thiburce, Nicolas Guichon, Justine Lascar, « Documenter les entretiens déambulés . Interactions filmées et interactivité filmique », Revue française des méthodes visuelles [En ligne], 5 | 2021, mis en ligne le 9 juin 2021, consulté le . URL : https://rfmv.fr