Story

Caractériser les représentations politiques du vivant “génomique” dans les archives du web français

Constitution d’un corpus autour des représentations politiques du vivant entre 2000 et 2004

Par Dorothée Benhamou-Suesser (BnF), Paul Girard (OuestWare), Guillaume Levrier (CEVIPOF, Sciences Po), Jennifer Morival (Université de Lille) et Zeynep Pehlivan (INA)

1. Idée principale

L’objet de cet atelier était de commencer à explorer ce que pouvait représenter l’idée de “génome” dans l’internet politique français au début des années 2000. Les études des représentations politiques du génome sur l’internet français sont difficiles à mener à partir des années 2010. Les auteurs des sites web militants qui écrivaient sur ces sujets les ont peu à peu abandonnés au profit de la création de communautés sur les réseaux sociaux. Le travail de ce groupe s’est donc focalisé sur la constitution d’un corpus autour des représentations politiques du “vivant génomique” à partir des archives du web mises à disposition par la BnF avec pour idée d’observer l’évolution de communautés. C’est pour cette raison que le groupe a travaillé, en majorité, sur l’archive “Elections 2002” collectée via l'application BnF Collecte du web (BCweb) et indexée, en texte intégral, par le logiciel Solr Wayback.

Le sujet de cette expérimentation a la particularité d’être précis et bien défini alliant une sélection pertinente des URLS à inspecter via l’outil Hyphe et un important travail de catégorisation (tagging) des web entités. Il pose aussi les bases d’un potentiel comparatif entre différentes approches, ici la recherche via méthodes statistiques sur corpus indexé en plein texte versus l’exploration qualitative que permet Hyphe.

2. Aspects méthodologiques et représentations

L’exploration de la collecte Elections 2002 via Solr Wayback a été d’une grande aide. La recherche de n-grams (c’est-à-dire de séquences de mots adjacents à une racine identifiée) a permis de déterminer l’expression qui pourrait offrir un maximum de web entités pertinentes en minimisant le bruit dans le contexte de cette problématique de recherche. Ce n’est qu’après plusieurs essais, dans le cadre d’un processus itératif, que l’expression “génom*” a été retenue pour sélectionner les URLs pertinentes à charger dans Hyphe.

Les 2603 URLS uniques identifiées dans l’archive Elections 2002 dont les pages contiennent le n-gram “génom*” constituent le corpus de départ chargé dans l’outil Hyphe. Un crawl de profondeur 0 est lancé afin de ne pas s’éloigner du sujet.

La piste la plus intéressante à étudier consiste à mener une prospection classique avec Hyphe en allant voir à la main les web entités découvertes par l’outil. Cependant, il convient de noter que les sites des candidats sont eux crawlés à une profondeur 1 afin d’avoir un peu plus de matière.

Réseaux Hyphe “génom*” - Elections 2002

3. Analyse des contenus web

Une analyse des thèmes autour de la notion de génomique, toujours sous l’angle du politique a été ensuite réalisé en extrayant les contenus des pages identifiées par Solr wayback pour faire une analyse textuelle TF/IDF afin de voir les termes spécifiques et pertinents page par page. Ce corpus de termes a ensuite été étudié à la main et 17 thèmes se sont dégagés chacun regroupant une série de mots le caractérisant : téléthon, bayer, bioéthique, clonage, gène, chrétien, embryon, ogm, brevets, adn, vache folle, eugénisme, souches, transgénique, génome, FIV et avortement.

Ces thèmes ont permis ensuite d’élargir la recherche et de catégoriser, toujours depuis la collecte Elections 2002, les pages contenant les termes associés selon une matrice thèmes/domaines.

Réseau bipartite domaines / thèmes pondéré par le nombre de pages - corpus Elections 2002

Dans le réseau ci-dessus, les thèmes apparaissent en mauve et les domaines des sites web sont en vert (attention, ce ne sont pas des web entités). Un domaine et un thème sont d’autant plus proches dans le graphe qu’un nombre important de pages de ce domaine citent ce thème.

Pour réaliser cette visualisation, la classification par domaine fournie par les index de la BnF a été utilisée. Si ces domaines correspondent bien au site web indexé, ils ne représentent pas toujours le niveau nécessaire pour observer correctement les productions web. C'est la raison pour laquelle Hyphe fonctionne sur le concept de Web Entité (Ooghe-Tabanou et al., 2018[ref]).

Par ailleurs, les webs entités de ce corpus ont non seulement des tailles variables mais elles ont également été crawlées et indexées partiellement. Aussi, comparer des nombres de pages absolues n'a pas d'intérêt et mènerait à de nombreux biais d'interprétation.

Afin d'avancer dans l'enquête, il reste donc deux problèmes à résoudre:

  1. faire le lien entre les URLs de l'indexation Solr et les web entités de Hyphe (Plique et al., 2018[ref]),
  2. pondérer au mieux les résultats des thèmes par le nombre de pages indexées.

Pour approximer le nombre de pages par web entité contenant les mots de thèmes retenus il convient de générer une requête Solr par web entité qui restreint la recherche aux URLs des pages qui commencent par l'un des préfixes de celle-ci. Il est important de noter qu'il s'agit d'une approximation qui ne prend pas en compte le cas où deux web entités sont apparentées : le journal Le Monde et un article du Monde sur le génome. Dans ce cas, les statistiques sur l’article seront correctes mais les statistiques sur la web entité Le Monde compteront égalemnt celles de l’article.

Concernant la normalisation, le système de facettes de l'indexation Solr permet de récupérer, en une seule requête, le nombre total de pages correspondant à une web entité ainsi que le nombre de pages pour chaque thème (c'est-à-dire qui contient un des mots du thème). Il existe également un biais dans ce compte car une page peut être comptabilisée dans plusieurs thèmes. Cependant, cela permet d'avoir une estimation de la densité des mentions des thèmes pour chaque web entité en rapportant le nombre de pages par thème au nombre total de pages indexées pour chaque web entité.

Densité de mentions des thèmes dans le réseau hypertexte des web entités
bioéthique
eugénisme
clonage
transgénique

Les visualisations ci-dessus présentent les résultats de la mesure de densité sur quatre des thèmes du corpus Élections 2002. Les labels sur ces visualisations  ont été volontairement masqués :

  • d'une part pour faciliter la comparaison des empreintes thématiques,
  • de l'autre pour ne pas susciter une démarche interprétative qui demanderait un travail des données plus profond.

En effet, s'il est aisé de constater des variations importantes de ces empreintes thématiques (or zone de données indisponible), le temps de l'expérimentation de datasprint, très court, ne permet pas de pousser très loin le travail. Ces résultats montrent l'intérêt du croisement d'analyses hypertextuelles et d'analyses de contenus sans pour autant étudier finement les profils thématiques des web entités et la dispersion thématique dans le réseau.

Le réseau hypertext Élections 2002 est mis à disposition, au complet et au format gexf. Il contient toutes les web entités IN, OUT et DISCOVERED ainsi que les variables thématiques.

4. Points d'attention

  • De nombreuses pages n’étaient pas trouvables par Hyphe dans l’archive. Il a fallu produire un script permettant de reconstruire les permaliens comme suit : http://www.u-m-p.org/lesfaits.html?idArticle=125 http://archivesinternet.bnf.fr/20020613144957/http://www.u-m-p.org/lesfaits.html?idArticle=125
  • Par ailleurs, il existe de multiples versions des pages du moteur de recherche plein texte Solr en raison des différentes versions archivées à différents moments de la collecte faite par la BnF. Par conséquent, exploiter les résultats indexés par le moteur de recherche demande de prendre en compte les fréquences de collecte, voir même à imaginer un système de dédoublonnage des pages archivées. Cet aspect n’a pas pu être pris en charge dans l’expérimentation par faute de temps.
  • Comme expliqué ci-dessus, l’asymétrie dans la profondeur de certains crawls est une problématique qu’il convient de prendre en compte dans la construction des corpus et l’analyse des réseaux résultants.

Conclusion

Le travail statistique ainsi que l’observation du réseau a révélé que pour les créateurs de contenus web de l’époque, l’intersection de “génome” et de “politique” est clairement liée aux enjeux identifiés par les mesures TF/IDF. Cela valide l’intérêt de mener les deux approches de front à plus grande échelle pour qu’elles s’évaluent et s’enrichissent l’une l’autre.

Un grand nombre de ces problématiques sont toujours d’actualité : il est toujours question en 2022 de FIV, d’eugénisme, de brevets, de bioéthique, d’avortement, d’OGM, de Bayer et de cellules souches. Cependant, certaines catégories apparaissent propres à la période étudiée, notamment la panique morale autour des questions de clonage (animal et humain), de contamination à la listeria, la vache folle ainsi que de la tremblante du mouton.

Plusieurs pistes de travail futur se dégagent de ces contrastes. Comment les questions qui sont restées actuelles ont-elles évolué? Pourquoi restent-elles d’actualité alors que d’autres pas? Est-il possible de trouver des critères permettant de déterminer ce qui fait qu’une controverse entre politique et génomique persiste, qu’elle est réinventée? S’agit-il par exemple de dépendances au sentier institutionnelles qui parviennent à se réalimenter alors même que d’autres échouent? Parmi les éléments de langages propres à ce thème qui ont fleuri sur l’internet électoral de 2002, quels sont ceux qui ont été réutilisés lors d’élections suivantes? Peut-on suivre leur transformation au fur et à mesure que la société qui les porte, et le médium qui les transmet, évoluent?


Références