Todo comenzó en 1947, cuando un pastor beduino se topó con la primera parte de un tesoro de 15.000 textos judíos antiguos, en una cueva cerca de las orillas del Mar Muerto. Los textos de 2.000 años de antigüedad llegaron a ser conocidos como los Rollos del Mar Muerto y son una serie de manuscritos escritos principalmente en hebreo que detallan la vida de aquellos tiempos en Tierra Santa. Si bien algunos de los manuscritos son textos completos, hay miles de fragmentos cuyo mal estado hace que no puedan ser descifrados.
Pero un nuevo sistema de inteligencia artificial desarrollado en la Universidad Ben-Gurion del Negev (BGU) podría ser una solución, tanto para los que aún no han sido descifrados como para aquellos cuyo mal estado nos deja con más preguntas que respuestas.
El nuevo sistema es obra de cuatro estudiantes universitarios del Departamento de Ingeniería de Software y Sistemas de Información de BGU, quienes lo produjeron como parte de su proyecto final. Emplea modelado de lenguaje enmascarado (MLM), un sistema que utiliza el contexto para predecir palabras invisibles en una frase u oración, y así descifrar el texto en inscripciones en hebreo y arameo.
El proceso creado por Itay Asraf, Niv Fono, Eldar Karol y Harel Moshayof es similar a grandes modelos de lenguaje (plataformas de inteligencia artificial que procesan enormes cantidades de texto escrito para comprender y crear el lenguaje humano), la principal diferencia entre el modelado de lenguaje enmascarado estándar y la plataforma recientemente desarrollada es la forma en que se presenta el texto que falta.
En MLM, el tipo de texto a examinar se selecciona de antemano, ya sea una palabra, una frase o una oración. Pero no existe ese lujo cuando se intenta descifrar manuscritos antiguos fragmentados. “En el caso de una inscripción antigua dañada, las partes que faltan pueden ser diferentes – explica Mike Last, líder del grupo -. A veces incluyen una palabra, a veces incluyen una palabra parcial, a veces incluyen varias palabras”.
El proyecto completo se terminó en un año. Primero, los cuatro estudiantes encontraron modelos de lenguaje grandes y modelos de lenguaje enmascarados que eran compatibles con el hebreo moderno. Luego comenzaron a acumular texto para que el algoritmo pudiera entender lo que se le estaba preguntando. Una vez que los datos del hebreo moderno se incorporaron a los modelos, los utilizaron para crear un modelo basado en el hebreo antiguo.
Last explica que, debido a la escasez de textos arameos para alimentar al modelo, se puso énfasis en el hebreo. Así que los cuatro estudiantes utilizaron los textos bíblicos del Antiguo Testamento (la mayoría en hebreo, pero también varios en arameo) para entrenar la plataforma. En total, el equipo utilizó 22.144 frases del Antiguo Testamento.
El propósito de usar el Antiguo Testamento no era solo el idioma, sino que se sabe lo que dice con mucha precisión. De ese modo, si ocultaban algunas palabras y luego miraban la predicción del modelo, podían saber cuan cerca estaba la predicción de la IA.
“Gracias a este nuevo modelo, podemos ayudar a los historiadores que han dedicado sus vidas a recrear estos textos antiguos con la mayor precisión posible", concluye Last.
No hay comentarios:
Publicar un comentario