El congreso Digitalizing Humanities. Humanizing digitalization, coorganizado por Enrique Capdevila y Arturo Guerrero en el marco de los proyectos europeos The European Qur’an y Petrifying Wealth junto con Isabel Boyano y la Plataforma Temática Interdisciplinar del CSIC MEDhis, tuvo lugar los días 20 y 21 de octubre de 2021 de forma online. Cada sesión tuvo un hilo conductor diferente: en la primera sesión este hilo fue el análisis de textos y en la segunda, las bases de datos.

El Congreso se inició con la presentación de Mercedes García Arenal, investigadora principal del proyecto The European Qur´an. Durante la primera sesión del congreso se abordaron diferentes casos de aplicación orientados al análisis de textos. Uno de los puntos en común en las exposiciones fue la importancia del marcado de textos, donde destaca XML-TEI como estándar predominante por las ventajas que aporta tanto para la utilización de herramientas ya desarrolladas como para la interoperabilidad de los datos.

La mayoría de los casos de estudio presentados en la primera sesión  trabajan con fuentes árabes, que tienen la particularidad y dificultad añadida del alfabeto, que hay que codificar de forma correcta para su procesamiento por la máquina. De estos problemas y las limitaciones de la codificación UNICODE para el trabajo con textos históricos, Alicia González Martínez, del proyecto Cobhuni, nos expuso claros ejemplos, aportando sugerencias muy interesantes para su resolución.

Máxim Romanov nos presentó el Open Islamic Texts Initiative, corpus de referencia accesible a través de la plataforma Github. Son muy destacables los resultados visuales mediante análisis de redes, que aportan nuevas dimensiones y posibilidades de análisis de la información previamente inaccesibles. Gracias a la interoperabilidad y accesibilidad de OpenITI, Patricia Sánchez-García, del proyecto Orientalismo y verdad, expuso un caso práctico de análisis sobre este mismo corpus mediante la implementación de sencillos scripts desarrollados con Python para el rastreo de la frecuencia de uso de determinados términos.

Mouhamadoul Khaly Wélé presentó la webQur’ān 12-21sobre traducciones del Corán a diferentes lenguas europeas desde el siglo XII hasta la actualidad. Pudimos ver la potencialidad de su proyecto para el análisis comparativo de textos, gracias a la presentación en paralelo de los mismos y la facilidad para realizar de búsquedas.

Naima Afif mostró la potencialidad de la herramienta de análisis lingüístico Sketch Engine para el trabajo con corpus en diferentes lenguas, tanto árabes como hebreas o latinas, mediante su aplicación a su propio corpus de trabajo en el marco del proyecto The European Qur´an.

Por último, David Peterson presentó de manera retrospectiva el proyecto de Edición digital del Becerro Galicano y analizó las ventajas e inconvenientes que surgieron en el desarrollo del proyecto para plantear modos de afrontar proyectos futuros de edición digital.

Durante la segunda sesión del congreso, los ponentes presentaron proyectos, en los que, gracias a diferentes bases de datos, las investigaciones están pudiendo abordar objetivos no accesibles sin el uso de herramientas digitales. En casi todos ellos el análisis de textos forma parte de los intereses y objetivos de las bases de datos.

 Como introducción a esta segunda sesión, César González-Pérez, del Incipit y proyectoACME, trató sobre el modelado conceptual de datos, aspecto fundamental para el correcto desarrollo y posterior implementación de cualquier base de datos.

A continuación, Dirk van Miert incidió, a través de la presentación de su proyecto Skillnet, en la importancia de compartir el conocimiento, ideal que persiguieron los intelectuales de la República de las letras entre los años 1500 y 1800, objeto de estudio de este proyecto. El enorme corpus de cartas conservado de este movimiento, que abogaba por una sociedad civil basada en el conocimiento, y la codificación en datos del mismo, les está permitiendo el análisis del funcionamiento de este entramado social dedicado a la producción y gestión del conocimiento como un recurso de propiedad común. Su modo de trabajar, con datos enlazados o vinculados (linked data) y abiertos, les permitirá compartirlos y reutilizarlos en futuros proyectos, siguiendo el mismo ideal de conocimiento compartido de la República de las letras.

Pieter François presentó el ambicioso plan del proyecto Seshat: global history Databank, en el que se está desarrollando una base de datos sobre sociedades pasadas a nivel global. Mediante la consideración de determinadas variables, como el grado de complejidad social, la base permite el análisis comparado de la evolución cultural entre diferentes partes del planeta. El proyecto comparte los datos creados de varias maneras, siendo reutilizables por otros proyectos o investigadores.

Otro importante ejemplo es la base de datos en desarrollo por el proyecto Cartae Europae Medii Aevi (CEMA) que nos presentó Nicolas Perreaux. CEMA busca reunir el conjunto de corpus diplomáticos medievales editados y digitalizados y proporcionar herramientas de comparación diplomática entre los documentos, así como exploraciones lexicográficas, semánticas y socio-culturales. Mediante la lematización de todos los documentos, abren nuevas posibilidades para la investigación.

Manuel Molina expuso otro interesante caso de aplicación, distante cronológicamente de los otros casos de estudio vistos durante el congreso. En su base de datos Database of Neo-Sumerian Textsrecoge evidencias de tablillas cuneiformes del área mesopotámica, dispersas en distintas colecciones alrededor del mundo por el intenso proceso de expolio histórico al que han sido sometidas. A partir de ellas se extraen y representan relaciones entre textos y topónimos, representativos de la complejidad social sumeria.

Por último, Daniel Riaño presentó su proyecto Callimachus, un regesto de papiros documentales a partir de la recopilación de Papyri.infoen el que además se ofrece información formal de cada papiro extraída de la base de datos HGV.  Callimachus tendrá asociada otra base de datos paralela, Anagnostes, que contendrá la información léxica de los papiros. De este modo, siguiendo la idea de ciencia abierta y compartida de la que se ha discutido en este congreso, el proyecto reutiliza la información y los datos recopilados por otros proyectos para avanzar en el estudio de los papiros y proporcionar nuevas herramientas.

En el cierre del Congreso realizado por Ana Rodríguez, investigadora principal del proyecto Petrifying Wealth, se recapitularon los temas tratados durante el congreso y en los debates posteriores. Estos últimos trataron sobre las debilidades y potencialidades de la utilización de toda la gama de herramientas informáticas existentes en el campo de las humanidades, desde los problemas derivados en muchos proyectos de la dependencia de personal cualificado para el uso de estas herramientas, hasta la necesidad de ir normalizando su uso. También se debatió sobre cómo las herramientas digitales podrían incorporarse a las investigaciones en Humanidades. ¿Es prioritaria la búsqueda de especialistas en humanidades digitales que puedan servir de puente entre las ciencias computacionales y las Humanidades o se debe dirigir la estrategia a la incorporación de estos conocimientos en la formación de los humanistas?

Por último, nos gustaría resaltar y enfatizar la necesidad de continuar con el espíritu de colaboración para que los nuevos proyectos puedan partir de situaciones avanzadas en la gestión de la información. Para ello, la asunción de las políticas de Open Data y Open Source, que permiten reutilizar datos y modificar códigos, son imprescindibles para el desarrollo de nuevas investigaciones y para la construcción de un conocimiento común.

  • Post category:PETRIBLOG