Story

Cartographie de la critique en ligne des arts du spectacle

Recherche exploratoire à partir de Hyphe et des archives du web de la Bnf via une collecte ciblée

Par Béatrice Mazoyer (médialab, Sciences Po), Guillaume Plique (médialab, Sciences Po), Antoine De Sacy (BnF, Huma-Num), Cristina Tosetto (Université Sorbonne Nouvelle) et Clara Wiatrowski (BnF)

1. Idée principale

L’objectif de ce travail sur une semaine est d’obtenir une cartographie générale des sites de critique des arts du spectacle, d’analyser leurs liens potentiels notamment avec les sites institutionnels et le monde du spectacle vivant, de préciser les écarts de couverture entre les différents sites d’arts du spectacle et enfin, d’analyser l’impact de la pandémie et les restructurations potentielles qu’elle a pu impliquer entre les différents acteurs de ce réseau (acteurs individuels, publics, privés et institutionnels).

Ce travail s’appuie sur une première collecte ciblée de sites, réalisée depuis 2011 par la Bibliothèque nationale de France. En effet, dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement un échantillon du web français, constitué à partir de collectes larges et de collectes ciblées. Ces dernières regroupent les collectes « courantes », pour les sites de référence sur un champ disciplinaire donné et les collectes « projet », portant sur un événement ou un thème particulier.

Après discussion, le groupe de travail a formulé plusieurs problématiques qui ont guidé cette expérimentation :

  • dans quelle mesure les sites de critique parviennent-ils à créer des communautés ?
  • les réseaux se structurent-ils différemment selon les disciplines : arts de la rue, de la marionnette, cirque, danse, music hall, stand-up, opéra et théâtre ?
  • les types de critique (critique amateur, professionnelle, académique, presse) diffèrent-elles selon les acteurs liés ?
  • la fermeture des salles de spectacle a-t-elle eu une influence sur la structuration de la critique et cela se traduit-il par un changement observable dans la structuration du réseau ?

2. Aspects méthodologiques

Hypothèses

Pour étudier les problématiques énoncées en introduction, plusieurs hypothèses sont formulées. Elles sont organisées selon deux approches, l’une synchronique, prenant en compte l’ensemble de la structuration, l’autre diachronique, essayant de mettre en évidence les évolutions et la restructuration du phénomène à l’étude. L’idée étant d’analyser les représentations graphiques des trois corpus construits afin de voir dans quelle mesure il est possible de de vérifier ou d’infirmer ces hypothèses :

  • Point de vue synchronique :
    • Hypothèse globale : Une structuration claire des acteurs et de leurs relations ou rôles respectifs ressort-elle des réseaux ?
    • Hypothèse disciplinaire : Est-il possible à travers les réseaux de retrouver une structuration disciplinaire au sein des arts du spectacle ?
    • Hypothèse académique : Est-ce que la critique académique parvient à se positionner comme un acteur intérieur au réseau de la critique ou bien reste-t-elle en marge de ce réseau ?
  • Point de vue diachronique sur l’ensemble des différentes collectes n0, n1, n-2 :
    • Hypothèse Covid : Est-ce que la pandémie a bouleversé la structuration de notre réseau d’acteurs ? Peut-on observer une restructuration des relations à la suite de la pandémie ?

Construction du corpus initial et paramétrage des collectes

Le corpus initial est constitué des 645 sites dédoublonnés et identifiés par la BnF dans le cadre de la collecte ciblée de 2021 . Après un nettoyage manuel de cette première sélection , 102 sites sont choisis et le corpus est complété avec 50 nouvelles urls. L’ensemble de ces 152 urls constitue le corpus de départ exploré en utilisant l’outil Hyphe.

Trois collectes sont lancées dans les archives du web sur des fenêtres temporelles de deux ans :

  • La première collecte n0 (fenêtre temporelle de 2020-02-03 à 2022-01-31, profondeur 1) se positionne pendant la vague de confinements et de restrictions sanitaires liés au Covid. Après curation de cette collecte de 8536 pages crawlées, le corpus comprend 303 web entités.
  • La seconde collecte n-1 (fenêtre temporelle de 2018-02-02 à 2020-01-31, profondeur 1) se positionne pendant la période pré-Covid. 17058 pages sont crawlées et le corpus est constitué de 317 web entités.
  • La troisième et dernière collecte n-2 (fenêtre temporelle de 2016-02-03 à 2018-01-31, profondeur 0) permet d’avoir une vue sur les données plus anciennes, hors pandémie. 15226 pages sont crawlées et le corpus compte au final 317 web entités.

Les trois corpus collectés sont ensuite tagués dans Hyphe selon deux typologies différentes et complémentaires qui faciliteront l’analyse des représentations graphiques :

  • Les types d’acteurs : Critique, Théâtre, Institutionnel, Festival, Edition.
  • La nature de la critique : Individu ( individus ou collectifs d’individus sans activité professionnelle liée au spectacle vivant) , Professionnel (les journalistes et personnes inscrites au syndicat, ainsi que des professionnels du spectacle vivant), Presse (les journaux avec une périodicité inférieure à 1 mois), Académique (des revues animées par des chercheurs et chercheuses).

L’intérêt est de pouvoir caractériser les liens entre les différentes entités du réseau et de pouvoir, éventuellement, observer une structuration claire des acteurs et de leurs relations ou rôles respectifs.

3. Analyse synchronique

a) Hypothèse globale : existe-t-il une structuration claire des acteurs et de leurs relations ou rôles respectifs ?

Les représentations graphiques en réseau ci-après montrent :

  • Une distinction claire entre acteurs privés et acteurs publics qui se retrouve dans la spatialisation des graphes ;
  • Les sites importants de critique des arts du spectacle apparaissent davantage liés aux théâtres publics et se retrouvent donc proches dans les représentations ;
  • Certains sites de critiques semblent avoir une place prépondérante et des liens très forts avec les théâtres privés (deux acteurs, en particulier), et certains acteurs professionnels envers le théâtre public ;
  • Il y a des liens entre les sites de critiques et une communauté qui se construit entre eux.
Réseau issu de la collecte n0 montrant la structuration des acteurs identifiés comme privés/publics

On observe la nette séparation entre les théâtres privés à gauche de la ligne rouge et les théâtres publics à droite. Cette ligne en pointillée a été tracée sur le réseau a postériori pour donner une grille de lecture. Elle ne repose pas sur une typologie des acteurs a priori. Le réseau met également en évidence l’association des théâtres parisiens avec l’acteur privé. Les sites de critiques sont davantage tournés vers le théâtre public ainsi que les acteurs institutionnels. Il est intéressant de regarder de plus près des acteurs comme le festival d’Avignon (côté public) et le Off Avignon (côté privé).

Réseau issu de la collecte n0 montrant la structuration des acteurs identifiés comme publics/critiques

Le réseau montre une présence prédominante des sites de critiques professionnels dans le monde du théâtre public. Les trois sites de critique Journal-Laterrasse, Lestroiscoups et Sceneweb émergent du réseau alors qu’ils n’étaient pas dans la collecte ciblée. Certains théâtres publics apparaissent comme très cités par les sites de critique : Theatre-Odeon, Comedie-Francaise, Theatredelaville, Colline, Theatre-Chaillot.

Réseau issu de la collecte n0 montrant la structuration des acteurs identifiés comme privés/critiques

La taille des acteurs (nœuds du réseau) est calculée en fonction du nombre de liens sortants. On observe que les sites de critique les plus influents se situent vers l’extérieur (outdegree ) du réseau, étant pas ou peu cités par les sites de théâtres (indegree ).

b) Hypothèse disciplinaire : est-il possible à travers l’analyse du réseau de retrouver une structuration disciplinaire au sein des “arts du spectacle”?

  • On observe dans les représentations graphiques une structuration disciplinaire pour la danse, discipline qui est bien couverte par des sites spécialisés ;
  • La durée, très courte, de l’expérience du data sprint n’a pas permis de diversifier les points de vue disciplinaires : des sites spécialisés dans l'illusionnisme, le stand-up, le music-hall ont été sélectionnés mais n’ont pu être intégrés aux collectes ;
  • Enfin, il s’est révélé difficile d’identifier des sites de critique spécialisés dans les arts de la rue, du cirque et de la marionnette.
Réseau issu de la collecte n0 montrant les sites qui s’intéressent à la danse

Le réseau montre des théâtres, principalement publics (OperaDeParis, Chatelet-Theatre), proposant de la danse classique, contemporaine et urbaine et des sites de critiques de danse animés notamment par des amateurs.

c) Hypothèse académique : est-ce que la critique académique parvient à se positionner comme un acteur intérieur au réseau de la critique ou bien reste-t-elle en marge de ce réseau ?

Réseau issu de la collecte n0 montrant les sites de critique académique (des revues animées par des chercheurs et chercheuses)

On voit que dans le cadre de la collecte n0, les sites académiques de critique (en rose dans le graphe) sont positionnés en bordure de réseau. On les retrouve majoritairement sur les plateformes universitaires (openedition, hypothèses) ou hébergé sur les sites des Universités.

Matrice heatmap normalisée réalisée avec les données de la collecte n0, taguées selon la nature de la critique

Cette matrice permet de voir qui cite qui parmi l’ensemble des entités de la collecte n0 :

  • les sites académiques citent surtout d’autres sites académiques,
  • les sites tenus par des individus ou collectifs d’individus sans activité professionnelle liée au spectacle vivant citent des sites de presse ou d’autres sites tagués individu.

4. Approche diachronique : observer les phénomènes de structuration et d’évolution

D’un point de vue diachronique, l’idée est de voir s’il existe une évolution claire, entre la période marquée par le covid et les périodes pré-covid, entre le réseau issu de la collecte n0 et ceux, issus des archives du web plus anciennes, c’est-à-dire des collectes n-1 et n-2. Sur chacune des hypothèses évoquées en approche synchronique, il s’agit d’observer si ces réseaux présentent des restructurations fortes avant et après la pandémie et la fermeture des salles de spectacle.

Évolution de la structuration du réseau au fil du temps

Réseau issu de la collecte n-2 (03/02/2016 31/01/2018)
Réseau issu de la collecte n-1 (02/02/2018 31/01/2020)
Réseau issu de la collecte n0 (période covid 31/01/2022)

La structuration entre les trois réseaux ci-dessus change peu et est assez stable entre les catégories public/privé, les théâtres parisiens privés sont toujours cités par un petit groupe de blogs de critique dans les trois périodes.

Il est très difficile de comparer des réseaux lorsqu’on donne à les voir de manière globale. Bien que la structure et les liens entre les différentes entités soient stables, l’orientation du réseau complique la lecture. Il s’agit d’un problème méthodologique de lecture de ce type de représentation graphique qui n’est pas nouveau.

Pour aller un peu plus loin que les outils et les représentations disponibles dans Hyphe, plusieurs technologies sont utilisées dans cette expérimentation, notamment Nansi, Graphology, Sigma.js, ipysigma et D3.js.

Le code source ayant permis de réaliser les prochains graphes est accessible en ligne.

Dans le cadre de cette étude, l’objectif est de pouvoir comparer les contenus de trois réseaux différents dans le temps (n0, n-1 et n-2) afin d’en mesurer la pérennité (stabilité des acteurs et des liens dans le temps) et l’évolution (apparition et disparition d’acteurs et de liens).

Sont représentés en mauve les liens qui sont communs d’une période à l’autre, en rouge les liens qui disparaissent d’une période à l’autre, et en vert les liens qui apparaissent.

On observe que la césure entre théâtre privé et théâtre public demeure dans les réseaux n0, n-1 et n-2.

L’évolution des liens entre critiques montre une augmentation des liens entre les sites de critique sur n-2 et n-1. Cette tendance a infléchi sur n0 et n-1 (pendant la pandémie).

Réseau mettant en lumière l'évolution des liens
entre les sites de critique entre les réseaux n0 et n-1

En 2020 et 2021, les sites de critique en ligne ont créé peu de nouveaux liens

Si on exclut le nœud très relié en rouge dans la partie basse du réseau, dû à un problème méthodologique, les liens entre les sites de critique en ligne ont majoritairement perdurés entre 2018 (réseau n-1) et 2021 (réseau n0). L’hypothèse faite à la lecture de ce réseau n’est pas que le Covid a chamboulé les relations entre acteurs mais, a contrario, qu’il les a cristallisées au moins un temps. Ainsi, très peu de nouveaux liens sont créés pendant cette période.

Réseau mettant en lumière l'évolution des liens
entre les sites de critique entre les réseaux n-1 et n-2
En 2018 et en 2019, les sites de critique en ligne ont créé beaucoup de nouveaux liens par rapport à 2016 et 2017.

5. Points d’attention

  • Dans cette expérimentation, les entités web présentes dans les trois collectes sont à peu près stables dans le temps car les entités collectées sont issues d’une même liste d’URLs initiale archivée. Cependant, prendre les archives web comme source de collecte ne garantit pas d’avoir l’ensemble des données que l’on souhaite disponibles à un instant précis.
  • Le choix de l’échelle temporelle a un impact important sur la structure des réseaux et l’interprétation que l’on peut en faire. Ainsi, dans cette expérimentation il aurait peut-être été pertinent de faire seulement deux collectes au lieu de trois avec un focus avant l’épidémie de covid et un autre après.
  • Il est regrettable de ne pas avoir eu accès à plus de métadonnées sur la collecte ciblée ayant servi d’URLs de départ des collectes afin de renforcer et d’appuyer les interprétations des visualisations. Par exemple, il aurait été judicieux d’avoir des informations techniques telle que la profondeur de la collecte ciblée, qui n’est pas la même profondeur de collecte que celles réalisées via Hyphe.
  • Un autre point d’attention important est que Hyphe ne propose pas de suivi des ajouts d’entités web dans l’activité de prospection. Ainsi, il est compliqué de garder traces et de documenter la manière dont on modifie la couverture du corpus initial. A l’avenir, il pourrait être intéressant d’avoir accès à des logs permettant d’identifier clairement l’ensemble des opérations faites sur les corpus, y compris l’ajout ou la suppression d’entités web. Cela rendrait la méthodologie proposée par l’outil plus robuste et reproductible.
  • Enfin, la comparaison des trois collectes dans le temps souligne le manque d’outils simples à prendre en main pour mettre en évidence et montrer l’apparition et/ou la disparition de liens.

Références