Enviado por Vainaimoinen Jueves 29 Julio, 2021

 

Ha sido “entrenada” con archivos de la BNE

 

  • La ha creado el Barcelona Supercomputing Center y ha sido entrenada en el superordenador MareNostrum con archivos de la Biblioteca Nacional de España.

  • Podrá utilizarse en predictores y correctores lingüísticos, chatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otras aplicaciones.

  • Es el primer modelo de la lengua española realizado con inteligencia artificial y basado en datos masivos.

 

Madrid, 28 de julio de 2021.- Los desarrolladores de aplicaciones ya disponen de un sistema de inteligencia artificial experto en comprender y escribir castellano y que pueden utilizar sin coste alguno. El modelo ha sido creado en el Barcelona Supercomputing Center -Centro Nacional de Supercomputación (BSC)- y se ha entrenado en el superordenador MareNostrum con archivos de datos de la Biblioteca Nacional de España. El proyecto se ha financiado con fondos del Plan de Tecnologías del Lenguaje de la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center, una iniciativa del BSC-CNS e IBM.

MarIA, que es el nombre del sistema, está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste. Sus posibles aplicaciones van desde los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros. Los ficheros de datos que han servido para entrenar a MarIA no están en dominio público y por lo tanto, no están accesibles en internet. Son los WARC resultantes del rastreo y archivado de la web española, que la Biblioteca Nacional de España conserva, en virtud de la ley de depósito legal, como patrimonio documental. El BSC-CNS ha podido utilizarlos para entrenar al sistema gracias a la participación de ambas instituciones en el Plan de Tecnologías del Lenguaje.

El primer modelo de IA masivo de la lengua española

MarIA es un conjunto de modelos del lenguaje o, dicho de otro modo, redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto. Logran trabajar con interdependencias cortas y largas y son capaces de entender, no sólo conceptos abstractos, sino también el contexto de los mismos.

El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema.

Para crear el corpus de MarIA, se utilizaron 59 terabytes (equivale a 59.000 gigabytes) del archivo web de la BNE. Posteriormente, estos archivos se procesaron para eliminar todo aquello que no fuera texto bien formado (números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas, otros idiomas, etc.) y se guardaron solamente los textos bien formados en la lengua española, tal y como es realmente utilizada. Para este cribado y su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.

Este corpus supera en varias órdenes de magnitud el tamaño y la calidad de los corpus disponibles en la actualidad. Se trata de un corpus que enriquecerá el patrimonio digital del español y del propio archivo de la BNE y que podrá servir para múltiples aplicaciones en el futuro, como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y, por supuesto, el entreno de nuevos modelos.

Una vez creado el corpus, los investigadores del BSC-CNS utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado excelentes resultados en el inglés y que se entrenó para aprender a utilizar la lengua. Las redes neuronales multicapa son una tecnología de Inteligencia Artificial y los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada dado su contexto.

 

Para este entrenamiento han sido necesarias 184.000 horas de procesador y más de 18.000 horas de GPU. Los modelos liberados hasta ahora tienen 125 millones y 355 millones de parámetros respectivamente.

Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del BSC-CNS, explica la importancia de poder implementar las nuevas tecnologías de Inteligencia Artificial, “que están transformando completamente el campo del procesamiento del lenguaje natural. Con este proyecto contribuimos a que el país se incorpore a esta revolución científico-técnica y se posicione como actor de pleno derecho en el tratamiento computacional del español”. 

Por su parte, Alfonso Valencia, director del departamento de Ciencias de la Vida del BSC-CNS, argumenta que “la infraestructura de Computación de Altas Prestaciones del BSC-CNS ha demostrado ser esencial para este tipo de grandes proyectos que requieren tanto de mucha computación como de grandes cantidades de datos. Para nosotros, es muy satisfactorio poner capacidades técnicas y conocimiento experto al servicio de un proyecto con tantas repercusiones para la posición del español en la sociedad digital”.

La Biblioteca Nacional de España, como establece su ley reguladora, tiene entre sus funciones “impulsar y apoyar programas de investigación tendentes a la generación de conocimiento sobre sus colecciones, estableciendo espacios de diálogo con centros de investigación”. Con este proyecto, enmarcado en el Plan de Tecnologías del Lenguaje, la BNE explora nuevas vías de explotación de los datos y las colecciones que conserva, y busca impulsar la reutilización, nuevos proyectos de investigación y mejorar el acceso de los ciudadanos a la información.

Próximos pasos

Después de lanzar los modelos generales, el equipo minería de textos del BSC-CNS está trabajando en la ampliación del corpus, con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo publicaciones científicas del CSIC.

También está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.

El BSC y el Plan-TL

El BSC-CNS es la oficina técnica del Plan de las Tecnologías del Lenguaje (Plan-TL) de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA). Como tal, su misión es facilitar el desarrollo de sistemas del lenguaje más competitivos a la sociedad, compañías y grupos de investigación, haciendo públicos modelos de lenguaje tanto generales como específicos -para dominios como la biomedicina o la legal- y liberando conjuntos de texto para entrenar y evaluar nuevos modelos.

Información del Plan-TL:

https://plantl.mineco.gob.es/Paginas/index.aspx 

Modelo RoBERTa-base:

https://huggingface.co/BSC-TeMU/roberta-base-bne 

Modelo RoBERTa-large:

https://huggingface.co/BSC-TeMU/roberta-large-bne

Repositorio de información:

https://github.com/PlanTL-SANIDAD/lm-spanish

Sobre el Barcelona Supercomputing Center

El Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) es el centro líder de la supercomputación en España. Su especialidad es la computación de altas prestaciones, también conocida como HPC (High Performance Computing). Su función es doble: ofrecer infraestructuras y servicio en supercomputación a los científicos españoles y europeos, y generar conocimiento y tecnología para transferirlos a la sociedad.

El BSC-CNS es miembro de primer nivel de la infraestructura de investigación europea PRACE (Partnership for Advanced Computing in Europe) y gestiona la Red Española de Supercomputación (RES).

El Consorcio BSC está formado por el Ministerio de Ciencia e Innovación del Gobierno de España (60%), el Departament de Recerca i Universitats de la Generalitat de Catalunya (30%) y la Universitat Politècnica de Catalunya (10%).


 

Sobre la Biblioteca Nacional de España

La Biblioteca Nacional de España garantiza desde hace más de trescientos años la conservación del patrimonio bibliográfico español y su transmisión a las futuras generaciones. Su historia durante este largo periodo de tiempo ha sido paralela a la propia historia de nuestro país y sus colecciones reflejan la evolución de la creación literaria, el pensamiento, el arte, la música y la ciencia españoles.

El Archivo de la Web Española es una de las colecciones más recientes de la BNE. Está formada por los sitios web (incluidos blogs, foros, documentos, imágenes, vídeos, etc.) que se recolectan con el fin de preservar el patrimonio documental español en Internet y asegurar el acceso futuro al mismo.

La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones son los archivos web, que se guardan en formato WARC (de Web ARChive), un formato de archivo normalizado por la ISO. Una parte de estos ficheros WARC constituyen el corpus documental sobre el que se ha entrenado MarIA.

 

Enviado por Vainaimoinen Martes 27 Julio, 2021
Hoy publicamos el último relato recibido dentro del plazo establecido para la recepción de obras con derecho a participar en el concurso, que finalizó el 30 del pasado mes de junio. Fue tal el aluvión de última hora que nos cayó que nos hemos visto obligados a ir publicando dos relatos diarios en vez de uno desde el día treinta hasta hoy. 
 
El concurso está yendo francamente bien: se han superado todas las ediciones anteriores, pues 126 relatos presentados es una cifra muy superior a las obtenidas anteriormente; hay muchos escritores nuevos y hemos apreciado un aumento en la calidad de las obras presentadas: están participando autores consagrados y otros no tanto, pero con cierta experiencia literaria, y eso se ha notado en el conjunto de los relatos. 
 
El trabajo generado en la gestión del evento también ha sido mayor, pero gracias a las nuevas incorporaciones en el equipo de coordinación hemos podido sacarlo todo adelante, coordinados por Ana Escudero Canosa que, como siempre, ha tenido una actuación destacada en la marcha de la convocatoria. 
 
Ahora queda un periodo crucial en el concurso: toca comentar y valorar el mayor número de relatos posible. Ese es uno de los acicates del evento: el obtener comentarios ajenos a nuestro círculo cercano realizados con más objetividad. Si, además, esas críticas están realizadas por escritores que están viviendo la misma experiencia que los concursantes, los comentarios son mucho más enriquecedores.
 
Con la misma alegría que leemos las críticas literarias que nos hacen los compañeros reciben el resto de escritores del concurso las tuyas. Te animamos a participar comentando los textos ajenos. Además, si lo haces, entrarás en el sorteo de un ereader Kobo Aura HD que se sorteará de acuerdo a las normas establecidas para el concurso (recuerda que cuantos más relatos comentes, con más números participas en el sorteo).
 
Para entrar en el sorteo es necesario comentar y valorar cada relato. Es importante que tengas en cuenta esto y no solo comentes en el foro, también debes usar el formulario de votaciones. Igualmente, no olvides comentar los relatos que ya has votado.
 
Equipo de coordinación de Concursos.

 

 

 

Enviado por Vainaimoinen Martes 27 Julio, 2021

Llegamos por fin a la publicación del último relato presentado dentro del plazo de recepción. Un relato lleno de intriga que hay que leer. 

 

Relato 126 - El señor harapiento

 

Comentar en el foro

 

Formulario de votaciones

 

Enviado por Vainaimoinen Lunes 26 Julio, 2021

Llegamos al penúltimo relato del concurso, una historia terrorífica que nos dejará helada la sangre y que os tendrá en ascuas hasta el final. 

 

Relato 125 - Las pastillas 

Comentar en el foro

Formularios de votaciones

 

Enviado por Vainaimoinen Lunes 26 Julio, 2021

Vamos con el relato 124 un relato sangriento donde los haya, no os podéis perder este paradigma sangriento.

 

Relato 124 - El Rostro

 

Formularios de votaciones

 

Comentar en el foro

Enviado por kadiz Domingo 25 Julio, 2021

Las redes sociales pueden llegar a ser peor que el sueño más terrorífico que hayas sufrido, como las pesadillas de Andrea.

 

Les presento:

 

Relato 123 - Influencer

 

Comentar en el foro

 

Formularios de votaciones

 

Enviado por kadiz Domingo 25 Julio, 2021

Dicen que pensar duele, pero aún más si nos queda poco tiempo.

 

Les presento:

 

Relato 122 - Invitados

 

Comentar en el foro

 

Formularios de votaciones

Enviado por Alvaro Morales Sábado 24 Julio, 2021

Algo hace un ruido insoportable. Pero María está muerta, y con oficio desaparecida. Pero entonces quién produce ese repiqueteo, quién golpea contra las paredes como si lo hiciera contra mi cráneo. Tal vez me ayudes a descubrirlo, tú que lees, ¿cómo has conseguido acallar a tus muertos?

 

Relato 121 - Tac, tac, tac

 

Enlace al foro

 

Formulario para votar el relato

 

Enviado por Alvaro Morales Sábado 24 Julio, 2021

La venganza es un gusto que siempre se disfruta en diferido, nunca pone por completo las cosas en su lugar. Pero qué bien suplanta los sentimientos perdidos, qué bien cae al que le encuentra un lugar. Acompaña a la protagonista de este relato, en su particular forma de venganza.

 

Relato 120 - Violación con palmas

 

Enlace al foro

 

Formulario para votar el relato

 

Enviado por Alvaro Morales Viernes 23 Julio, 2021

José tenía cuatro años cuando todo comenzó Pero aún tiene la imagen del perro del vecino atacando a su dueño. Recuerda algunas cosas y otras no, a ese hombre grotesco y feo, y al perro, y a los gusanos…

 

Relato 119 - Los gusanos de Mephisto

 

Enlace al foro

 

Formulario para votar el relato

 

Páginas


Consulta la comparativa de eReaders en Español, más completa de internet.

Podría interesarte...

 

 

 

 

 

Obra colectiva del equipo de coordinación ZonaeReader

También en redes sociales :)