(re)découverte de la chaine de traitement de corpus pour l’édition critique
Durant ces trois journées au Lab, une quinzaine de participant.e.s venant de toute la France ont (re)découvert les principales étapes de la chaîne de traitement de corpus pour l’édition critique numérique. Organisées par la plateforme Estrades, elles ont eu lieu en partenariat avec la Plateforme Humanités Numériques de la MISHA, le Lab, et le consortium ARIANE.
Le déroulé des trois journées
Avec comme point de départ la numérisation du Courrier de Strasbourg, la formation a démarré avec un atelier sur l’Optical Character Recognition (OCR) et le logiciel escriptorium. Puis, les stagiaires ont pu réviser leurs bases de HTML et CSS pour mettre en page le texte extrait la veille. Ensuite, pour garder la tête dans les balises, les participant.e.s se sont attelés à l’encodage de leur texte en utilisant la TEI (Text Encoding Initiative). Finalement pendant la dernière journée qui n’a pas été de tout repos, nous avons exploré différentes manières d’exploiter les corpus structurés, avec XPATH, XQUERY, et XSLT.
Les stagiaires repartent ainsi avec une vue globale de la chaîne d’édition de corpus numériques. Et nous, on se dit peut-être à l’année prochaine pour remettre ça.
Le #LabBnu
Le Lab est une réponse aux défis du patrimoine culturel numérique et aux données de recherche en sciences humaines et sociale. Il est incarné par un espace modulable pour échanger sur les enjeux du numérique et expérimenter autour de nouveaux outils. Ses services ciblent la communauté de la recherche, de l'information et de la médiation des données, favorisant l'innovation et la collaboration.