Lo último en la iniciativa de tecnología lingüística de TWB
Evite la barrera del idioma con la traducción automática al árabe levantino
Cuando aparece un idioma que no comprende en su servicio de noticias de Facebook, puede hacer clic en un botón y traducirlo. Este tipo de tecnología del lenguaje proporciona una forma de comunicarse no solo con los millones de personas que hablan su idioma, sino con millones de personas que hablan otra cosa.
O al menos casi lo es.
Como muchos otros sistemas de traducción automática en línea, viene con una advertencia: solo está disponible en los principales idiomas.
TWB está trabajando para eliminar esta importante advertencia a través de nuestra iniciativa de tecnología del lenguaje, Gamayun. Le pusimos el nombre de una figura mítica de la mujer pájaro en el folclore eslavo: es una criatura mágica que transmite palabras de sabiduría a quienes pueden entenderla. Creemos que es una firme defensora de la tecnología del lenguaje para aumentar la igualdad digital y mejorar la comunicación bidireccional en idiomas marginados.
Hemos dado un paso importante en Gamayun al cruzar la barrera del idioma con un motor de traducción automática en árabe levantino. Así es como llegamos aquí, qué aprendimos y qué sigue.
![Es la palabra árabe para "seguridad".](https://manosdelmundo.es/wp-content/uploads/2021/01/Lo-ultimo-en-la-iniciativa-de-tecnologia-linguistica-de-TWB.jpg)
¿Qué hay detrás del desarrollo de un motor de traducción automática en árabe levantino?
En noviembre de 2019, nos asociamos con un grupo de innovadores e ingenieros lingüísticos de PNGK y Prompsit para enfrentar el desafío de la acción humanitaria del PMA. Nuestro objetivo era utilizar la traducción automática para mejorar la forma en que las organizaciones humanitarias comprenden las necesidades y preocupaciones de los refugiados sirios, a fin de mejorar los programas de seguridad alimentaria.
Por lo tanto, desarrollamos un motor de traducción automática de texto a texto (MT) para el árabe levantino adaptado a las particularidades de las experiencias de los refugiados. Para lograr esto, trabajamos con el equipo de Khabrona.Info en Mercy Corps. El equipo tiene una página de Facebook para los refugiados árabes sirios a fin de brindarles información y respuestas confiables, como acceso a alimentos y otro tipo de apoyo. Tomamos contenido compartido en el Página de Facebook de Khabrona.Info y lo tradujo manualmente al inglés para adaptarlo al motor. Los datos de entrenamiento y una versión de demostración de nuestro MT están disponibles en nuestro Portal de Gamayun.
¿Qué tan bien funciona este motor de traducción automática?
Para responder a esta pregunta, realizamos una evaluación basada en pruebas ampliamente utilizadas por los investigadores de MT. Hemos descubierto que nuestro motor de traducción automática produce mejores traducciones para el árabe levantino que uno de los sistemas de traducción automática en línea más utilizados.
Primero les pedimos a traductores experimentados que calificaran las traducciones por su precisión y fluidez. Les proporcionamos diez textos fuente seleccionados al azar y traducciones generadas por humanos, la TM de Google y nuestra TM. Todas las traducciones fueron bastante buenas, con puntajes que van desde cero para ningún error hasta tres para errores críticos. Nuestro motor de traducción automática funcionó ligeramente mejor que el de Google, ya que se adaptó a los detalles del árabe levantino y sus coloquialismos en línea sobre seguridad alimentaria y otros temas relevantes para las experiencias de los refugiados. . Las traducciones humanas funcionaron ligeramente mejor que nuestra MT, pero no fueron perfectas.
También pedimos a traductores experimentados que clasificaran las mejores, las segundas mejores y las peores traducciones en función de cada texto fuente. Si bien las traducciones humanas se clasificaron constantemente por encima de los dos motores de traducción automática, se prefirió nuestro MT el 70% del tiempo sobre el MT de Google.
Luego usamos la métrica estándar para las pruebas de calidad automatizadas de MT llamada AZUL. la liner de evaluación bilingüe puntúa una traducción MT basada en su correspondencia con una referencia para la traducción humana. Los puntajes van desde cero para ninguna coincidencia hasta 1.0 para una coincidencia perfecta, pero pocas traducciones puntúan 1.0 porque todos los traductores producirán textos ligeramente diferentes. Nuestro motor MT genérico entrenado en texto paralelo inglés-árabe disponible públicamente obtuvo una puntuación de 0,195 en un conjunto de prueba de 200 publicaciones en redes sociales. Con una formación adicional con un conjunto pequeño pero específico para el árabe levantino y sus coloquialismos en línea, logró una puntuación de 0,248. En cambio, Google MT Translations obtuvo una puntuación de 0,212 en el mismo conjunto de pruebas.
Toma la frase corta أسعار المواد الغائية مرتفعة a modo de ejemplo: los humanos lo tradujeron como "la comida es cara" y nuestro MT devolvió "los precios de los alimentos son altos". "los precios de los materiales son altos". Todos son resultados gramaticalmente correctos, pero nuestro MT tendía a capturar los matices del habla informal mejor que el MT de Google. Puede parecer trivial, pero es fundamental que la MT se utilice para comprender rápidamente las solicitudes de ayuda a medida que surgen o para estar atento a las preocupaciones y quejas de las personas para ajustar la programación.
¿Qué hace posibles estos resultados?
Diseñamos específicamente nuestro motor de traducción automática para proporcionar traducciones confiables y precisas de datos no estructurados, como el idioma utilizado en las publicaciones de las redes sociales. Involucramos a lingüistas y expertos en la materia en la compilación y edición del conjunto de datos para entrenar el motor. Esto permitió centrarse tanto en el lenguaje del ámbito humanitario como en los coloquialismos en árabe levantino.
La agilidad de este enfoque significa que el motor se puede utilizar para una variedad de propósitos, desde realizar evaluaciones de necesidades hasta analizar comentarios. El enfoque también satisface las demandas de la gestión responsable de datos en el sector humanitario.
¿Qué hemos aprendido?
Hemos demostrado que es posible construir un motor de traducción de calidad razonable para un idioma marginado como el árabe levantino y hacerlo con un conjunto de datos relativamente pequeño. Nuestro enfoque implicó interactuar con la comunidad de habla nativa y centrarnos en el texto extraído de las redes sociales. Esto tiene un gran potencial para crear herramientas tecnológicas lingüísticas que puedan entrar en acción en tiempos de crisis y adaptarse a un campo en particular.
También hemos aprendido que incluso las traducciones humanas del árabe levantino no son perfectas. Esto muestra la importancia de crear redes de traductores para idiomas marginados que puedan ayudar a desarrollar y mantener la tecnología del lenguaje. Donde no hay suficientes traductores profesionales, si los hay, un primer paso clave es capacitar a las personas bilingües con las habilidades adecuadas y brindarles asesoramiento sobre la terminología de la respuesta humanitaria. Este tipo de creación de capacidad no solo puede hacer que la tecnología funcione para hablantes de idiomas marginados a largo plazo, sino que también puede garantizar que tengan acceso a información crítica en sus idiomas a corto plazo.
¿Y después?
Estamos refinando nuestro enfoque, complementado con soporte externo, para alcanzar todo el potencial de la tecnología del lenguaje. Actualmente estamos trabajando con la Iniciativa Humanitaria de Harvard y las Iniciativas IMPACT utilizando el procesamiento del lenguaje natural y el aprendizaje automático para transcribir, traducir y analizar grandes conjuntos de respuestas cualitativas en los esfuerzos de recopilación de datos multilingües para informar la toma de decisiones. humanitario. También nos unimos al Iniciativa de traducción para COVID-19 (TICO-19), junto con investigadores de Carnegie Mellon y grandes empresas de tecnología como Amazon, Facebook, Google y Microsoft, para desarrollar y entrenar modelos de traducción automática de vanguardia en 37 idiomas diferentes en COVID-19 .
Estén atentos a cómo avanzamos con estos proyectos. Continuaremos desarrollando soluciones de tecnología lingüística para mejorar la comunicación bidireccional en crisis humanitarias y amplificar las voces de millones de hablantes de idiomas marginados.
Escrito por Mia Marzotto, responsable senior de promoción de Traductores sin Fronteras.
en relación
The post Lo último en la iniciativa de tecnología lingüística de TWB appeared first on Manos Del Mundo.
source https://manosdelmundo.es/lo-ultimo-en-la-iniciativa-de-tecnologia-linguistica-de-twb/
Comentarios
Publicar un comentario