Contexte

Le projet ResPaDon

Le projet ResPaDon (Réseau de Partenaires pour l’analyse et l’exploration de données numériques) vise à développer et à diversifier les usages par les chercheurs des archives du web collectées et conservées par la Bibliothèque nationale de France (BnF). Soutenu par le GIS CollEx-Persée, le projet ResPaDon est porté par l’Université de Lille et la Bibliothèque nationale de France, en partenariat avec Sciences Po Paris et le Campus Condorcet. Il mobilise les équipes de recherche du médialab de Sciences Po et le laboratoire GERiiCO.

Constitué autour d’un premier noyau d’établissements de l’Enseignement supérieur et de la Recherche, il s’appuie sur les initiatives prises par ces établissements en matière de services à la recherche pour favoriser le développement d’expérimentations.

En procédant de manière itérative avec les équipes de recherche et les personnels d’appui à la recherche des bibliothèques, le projet ResPaDon doit contribuer à faire émerger une dynamique inter-établissement, où les collections numériques et les services aux chercheurs proposés par la BnF viennent enrichir l’offre des établissements documentaires de l’ESR en direction de leurs communautés scientifiques.

Menés sur une période de deux années, les différents objectifs du projet de Réseau de Partenaires pour l’analyse et l’exploration de données numériques, piloté par le Service Commun de la Documentation de l’Université de Lille et la BnF, sont répartis entre plusieurs groupes de travail auxquels participent Sciences Po et le Campus Condorcet.

Certains de ces groupes de travail engagent une démarche expérimentale, d’autres nourrissent une réflexion professionnelle commune dont les résultats seront partagés entre tous (pour en savoir plus). L’expérimentation dont rend compte ce site a été menée dans le cadre du groupe de travail 4 "Expérimentation autour de la constitution et du traitement de corpus web issus des archives de l’internet, en lien avec le web vivant".

Piloté par la Direction des ressources et de l’information scientifique de Sciences Po, le groupe de travail qui réunit des personnels de Sciences Po et de la BnF propose, dans une approche expérimentale, d’utiliser les outils développés par le médialab, un des laboratoires de recherche de Sciences Po, pour répondre à des questions de recherche portant sur des sources disponibles à la fois sur le web vivant et dans le périmètre des archives de l’internet. Il s’agit ainsi de déterminer si des logiciels d’analyse utilisés sur le web vivant sont opérants sur les corpus d’archives du web de la BnF, d’expérimenter des méthodes d’investigation des questions de recherche sur un corpus constitué d’archives du web et de rendre possibles des approches comparatives avec le web "vivant". C’est dans cette optique que s’est tenu le datasprint ResPaDon en avril 2022.

Le datasprint Respadon : intérêt et méthode

Qu’attendre d’un datasprint ?

1. Découvrir une nouvelle méthode de travail

Un datasprint c’est à la fois un travail d’équipe et une contrainte temporelle forte. Il faut apprendre à travailler à plusieurs dans un temps très court. La clé de la réussite se trouve dans l’écoute et le partage de compétences différentes qui permettent d’aborder les problèmes sous plusieurs angles à la fois.

2. Apprendre à travailler avec des données numériques

La "data" est une opportunité, mais aussi une contrainte forte. Les problèmes auxquels on doit faire face sont à la fois pratiques et méthodologiques. Un datasprint est l’occasion de découvrir ou de renforcer ses compétences relatives aux données (parsing, diagnostic, nettoyage…) et de réfléchir à plusieurs associations possibles entre les données et les questions de recherche.

3. Dégager une narration à plusieurs

Le cadre particulier du datasprint permet, par la discussion collective, de sélectionner les pistes interprétatives qui font sens ensemble et de les organiser en une narration lisible hors des frontières du groupe. Les projets des datasprints tendent à donner lieu à de nouvelles formes de récits d’expérimentation, qui racontent autant le résultat (la connaissance produite) que le processus mis en œuvre pour y parvenir.

4. Pratiques interprétatives multimodales

Des outils, des images, des données… La nécessité d’être passeur de sens dans un temps très court encourage la mobilisation d’autres moyens que l’écriture d’un texte. Dans un datasprint, la question de la transmission du savoir se pose d’une façon plus brutale, plus proche de la vie de laboratoire que d’une communication dans un colloque. En ce sens, un datasprint est une expérimentation et le compte rendu d’expérimentation sera le témoin de cette activité. Comment redramatiser un réseau ? Comment ramener la vie dans des données qu’on considère à tort comme froides ? Comment attaquer des jeux de données parcellaires ? L’interdisciplinarité au cœur de l’organisation du datasprint, la présence de designers et d’autres compétences, permet de débloquer de nouvelles pratiques de connaissance et d’initier des réflexions méthodologiques fécondes et innovantes.


Méthode de travail

Les participants se répartissent en petits groupes de travail, selon leurs affinités mais aussi leurs compétences. Dans l’idéal, chaque groupe met en jeu les rôles suivants : un porteur qui apporte les questions de recherche, un facilitateur qui aide au dialogue entre les participants, un expert capable d’interpréter les données, un ingénieur ayant les compétences techniques nécessaires au traitement des données, un documentaliste qui veille à rendre compte des processus mis en oeuvre dans l’expérimentation et un designer pour produire des visualisations. Un participant peut avoir plusieurs rôles.

À la fin de chaque journée de travail, les groupes font une brève présentation de l’avancée de leurs travaux et s’assurent que les différents aspects de leur travail sont bien documentés.

À la fin du datasprint, chaque groupe présente son travail lors d’une demi-journée de restitution publique. De plus, chaque groupe doit rédiger un compte rendu d’expérimentation et organiser données et visualisations de sorte que le travail accompli puisse être réapproprié et mobilisé dans le site web présentant les résultats.


Les défis clé du datasprint

1. Mettre les mains dans le cambouis

La diversité des compétences des participants implique de remettre à plat la répartition des tâches. Ainsi, chacun pourra être amené à suggérer des pistes de recherche, manipuler les données, et se pencher sur l’analyse et la mise en forme des résultats.

2. Intercompréhension entre les disciplines et méthodes de partage

La dimension expérimentale, parfois chaotique, est inhérente au datasprint. Cela peut provoquer des situations "d'ingénuité réciproque" entre participants qui, si elles peuvent être surprenantes, sont intéressantes. Le datasprint est une occasion de cultiver une curiosité mutuelle pour d’autres approches.

Pour faciliter ce processus d’intercompréhension, des outils techniques et des procédures méthodologiques sont proposés aux participants. Les personnes jouant le rôle de facilitateurs font le lien entre les différents groupes et invitent à la discussion. L’utilisation des espaces d’affichage du lieu permet d’afficher les productions en cours et ainsi les rendre visibles aux autres équipes sans interruptions inopportunes.

3. Mutualiser entre les équipes durant l’événement

Les séances de travail du datasprint provoquent parfois un “effet bulle” dans lequel chaque équipe peut rapidement se déconnecter du travail effectué par les autres, entraînant parfois des tâches effectuées en doublon ou des “angles morts”. Pour faire face à ce défi, de nombreux outils sont mis à disposition pour documenter progressivement le travail effectué à l’intérieur des groupes, et des points d’étapes en plénière sont organisés tout au long de l'événement pour partager les avancées. Par ailleurs, des visites informelles régulières entre les groupes permettent de mutualiser certaines tâches avec l’aide des facilitateurs.

4. Produire et partager les travaux

L’un des intérêts du format datasprint est de favoriser une unité de temps et de lieu pour le travail interdisciplinaire. Cette intensité appelle cependant une valorisation à la hauteur des efforts fournis sur le temps court. Le temps du datasprint est ainsi à la fois un temps d’exploration et d’enquête, et un temps de production de résultats. Les participants gardent en tête les tâches nécessaires pour arriver à un résultat publiable dans le temps de l'événement.

Les archives web et les collectes de la BnF

Depuis le 1er août 2006, la Bibliothèque nationale de France (BnF) et l’Institut national de l’audiovisuel (INA) ont pour mission d’archiver les sites internet français dans le cadre de leur mission de dépôt légal, une mission inscrite dans le Code du patrimoine. Au titre de cette mission, la BnF et l’INA collectent des sites web français afin de les conserver et de les communiquer à des fins de recherche.

La BnF est responsable de la collecte des sites web du domaine français dont le périmètre comprend les sites enregistrés en .fr et dans les extensions régionales (.re, .nc, .bzh, etc.) , les sites dont les contenus sont produits en France et les sites dont les producteurs sont domiciliés en France. L’INA est plus spécifiquement responsable des sites web des chaînes françaises de télévision et de radio.

Les premiers sites web archivés à la BnF datent de 1996 grâce à une acquisition de sites archivés auprès de la fondation américaine Internet Archive. En raison de la masse de données disponibles sur le web, à la différence du dépôt légal des documents imprimés ou sur support, le dépôt légal du web vise à la représentativité et non pas à l'exhaustivité.

Afin de constituer des échantillons représentatifs du web français, les collectes de la BnF reposent depuis 2004 sur l’utilisation de robots logiciels, qui copient les pages web et leurs éléments constitutifs, ainsi que sur deux types de collecte :

  • Collecte large : effectuée une fois par an avec l’objectif de réaliser un échantillon de plusieurs millions de sites web en s’appuyant sur des listes établies par des partenaires comme l’Afnic et OVH.
  • Collectes ciblées (courantes ou d’urgence) : effectuées en fonction des besoins en s’appuyant sur les listes établies par des bibliothécaires de la BnF et des bibliothèques partenaires en région ainsi que par des chercheurs ou des spécialistes d’un sujet. Ces collectes permettent de constituer des archives plus complètes et plus fréquentes de dizaines de milliers de sites web. Ces sites sont choisis en raison de leur thème (la littérature, le développement durable...) ou de leur rapport à un événement (les élections, les Jeux olympiques, l’épidémie de Covid-19…). Les listes des sites sélectionnés pour ces collectes ciblées sont consultables librement en ligne sur le portail API et jeux de données de la BnF.

Tous les sites collectés sont consultables via l’application “Archives de l’internet” accessible selon les dispositions législatives en vigueur dans les emprises de la bibliothèque de Recherche de la BnF et des bibliothèques partenaires en région.

Pour en savoir plus sur les conditions d’accès, les collections et l’actualité sur les archives du web de la BnF :

Le crawler Hyphe et la curation de corpus

Publié sous la forme d'un logiciel libre diffusé sur GitHub, Hyphe a été conçu pour offrir aux chercheurs et étudiants un outil de création et nettoyage de corpus web reposant sur un crawler orienté pour la recherche. Les utilisateurs sont accompagnés par une méthodologie pour construire leur corpus web de manière à la fois granulaire et flexible avec des principes de curation simples. Plutôt que de traiter de "sites web", Hyphe manipule des "Web Entités", qui peuvent être définies tout aussi bien comme de simples pages, un sous-domaine, une combinaison de sites, etc. Les pages résidant sous ces Web Entités sont ensuite crawlées, afin de collecter les liens sortants et les contenus textuels. Les entités les plus citées peuvent ensuite être prospectées manuellement afin d'enrichir le corpus avant de le visualiser sous la forme d'un réseau et de l'exporter pour nettoyage dans d’autres outils tel que Gephi. Hyphe a été adapté aux archives web de la BnF dans le cadre du projet ResPaDon et permet désormais de constituer des corpus web à partir du web archivé (BnF et Internet Archive) aussi bien que du web vivant.

Pour en savoir plus sur Hyphe : hyphe.medialab.sciences-po.fr

Pour tester le crawler Hyphe en version démo (avec accès aux archives d'Internet Archive) : https://hyphe.medialab.sciences-po.fr/demo/