Lost in Machine Translation: una pequeña introducción a la MT

Traducción a Español de un texto en Inglés de Justin Houghton (Product Manager al BrainBase) explicando la evolución de la MT (Machine Translation) , desde la MT basada en reglas, a la MT estadística, la MT basada en ejemplos, la MT híbrida y finalmente la MT neuronal.

machine translationMTtraduccion ingles

29 junio, 2021 Una pequeña introduccion a la TA

29 junio, 2021 Una pequeña introduccion a la TA

Traducción realizada por Jose, traductor especializado en Machine Translation

Texto original escrito por Justin Houghton, publicado el 03/03/2020 en dev.to: https://dev.to/justinhtn/lost-in-machine-translation-4edl

***

La Traducción Automática o MT (Machine Translation) es el campo de estudio que se ocupa de utilizar programas informáticos para traducir texto o voz de un idioma a otro. A un nivel (muy) bajo, la MT realiza la traducción palabra por palabra. Sin embargo, si alguna vez has intentado aprender un nuevo idioma, sabrás que la traducción palabra por palabra por sí sola no puede proporcionar una gran traducción: necesitas comprender frases completas para poder definir con mayor precisión una palabra en su contexto.

Hay quienes afirman que la ambigüedad de las palabras impide, por definición, que la MT sea capaz de distinguir dos significados de la misma palabra. Sin embargo, los investigadores están trabajando intensamente en el desarrollo de nuevos sistemas destinados a abordar este problema, incluyendo la MT profunda y superficial, que se tratará en un post posterior. Para esta introducción, nos centraremos en ofrecer una rápida visión general de 5 subcampos de la MT que, aunque son víctimas de los problemas de ambigüedad y contexto a los que se enfrenta la MT en la actualidad, aún consiguen proporcionar traducciones lo suficientemente precisas como para revolucionar la comunicación.

Como subcampo de la lingüística computacional y el procesamiento del lenguaje natural, la MT suele agruparse en 5 áreas distintas.

MT basada en reglas
MT estadística
MT basada en ejemplos
MT híbrida
MT neuronal

INDICE

MT basada en reglas

A diferencia de otros enfoques de MT, la MT basada en reglas utiliza reglas sintácticas y morfológicas para ayudar a la traducción. Los sistemas basados en reglas vinculan una frase de entrada con la estructura de la frase de salida, lo que ayuda a preservar su significado.

En su forma más simple, la MT basada en reglas requiere 3 cosas distintas.

Un diccionario que puede relacionar cada palabra de una lengua determinada con la lengua de salida deseada.
Reglas gramaticales y sintácticas de la lengua de entrada.
Reglas gramaticales y sintácticas para la lengua de salida deseada.

Algunas ventajas notables de este tipo de MT son que no se necesitan textos bilingües, que es independiente del dominio general y que permite un control total sobre la depuración y la adición de nuevas reglas.

MT estadística

Como su nombre indica, el ML estadístico trata de generar traducciones utilizando métodos estadísticos basados en textos bilingües. Google Translate, uno de los servicios de traducción más conocidos, cambió a la traducción estadística en 2007 desde SYSTRAN, que había estado utilizando en años anteriores. Este tipo de traducciones funciona detectando patrones en millones de documentos que ya han sido traducidos por humanos y utilizando esos patrones para hacer predicciones basadas en sus resultados.

Un claro e importante inconveniente de la MT estadística es que depende de enormes cantidades de texto ya traducido. Aunque hay enfoques más recientes, como METIS 2, que se centran en la búsqueda de patrones en la estructura sintáctica, lo que permite reducir el tamaño del corpus, es seguro asumir ahora mismo que cuantos más textos traducidos tenga una lengua concreta, más precisa será cualquier nueva traducción.

MT basada en ejemplos

Al igual que la MT estadística, la MT basada en ejemplos se basa en la idea de una analogía y requiere el uso de textos ya traducidos en su corpus.

Dada una frase concreta (A) que necesita ser traducida, se seleccionan diferentes frases (B y C) del corpus que tienen subcomponentes similares. Los subcomponentes de B y C se utilizan para traducir los subcomponentes de A, que al unirse forman una nueva frase traducida.

MT híbrida

La MT híbrida pretende aprovechar los puntos fuertes tanto de la MT basada en reglas como de la estadística. Se han propuesto varios enfoques sobre cómo construir un sistema de MT híbrido, pero en general hay dos formas distintas de utilizarlo en la práctica.

Reglas post-procesadas por las estadísticas.

Al igual que en una traducción basada en reglas, en este primer ejemplo de MT híbrida, las traducciones las realiza un motor basado en reglas. La diferencia es que las estadísticas se utilizan para el posprocesamiento del resultado en un esfuerzo por refinar el resultado de la traducción. En este caso, las estadísticas ayudan a corregir el resultado de un motor basado en reglas.

Estadísticas guiadas por las reglas sintácticas y metamórficas.

Las reglas se utilizan en el preproceso para ayudar a guiar la traducción estadística, y también se utilizan en el postproceso para ayudar a ajustar/refinar el resultado de la traducción. En este ejemplo de MT híbrida, las reglas se utilizan para ayudar a corregir un motor basado en estadísticas durante su fase de pre y postprocesamiento.

MT neuronal

La traducción automática neural (NMT) es el último enfoque de la traducción automática que utiliza redes neurales para predecir la probabilidad de un conjunto de palabras. Una enorme ventaja de la NMT es que solo requiere una fracción de la memoria que necesitan las técnicas de traducción tradicionales (enumeradas anteriormente).

Aunque ningún sistema actual afirma haber encontrado el billete dorado de los sistemas de MT, en la práctica la MT ha demostrado ser extremadamente valiosa para cambiar la forma en que se comunican las personas y las empresas de todo el mundo. Todo el mundo, desde el ejército estadounidense hasta Facebook, está trabajando duro para construir sus propios sistemas de traducción que acerquen al mundo y ayuden a la seguridad nacional. Con el lanzamiento de los «pixel buds» de Google, que afirman proporcionar traducción en tiempo real en innumerables idiomas, ¿tendrán los empresarios o los niños de primaria del futuro poca necesidad de aprender un idioma extranjero?

Como recién llegado al aprendizaje automático, este es el primero de muchos pequeños posts con el objetivo de proporcionar resúmenes útiles de los subcampos del aprendizaje automático, conceptos, algoritmos y flujos de trabajo para pythonistas y desarrolladores por igual que estén interesados en aprender o trabajar en ML. Si encuentras un error o tienes una opinión sobre cómo he resumido un tema/campo en particular, no tengas miedo de hacérmelo saber en los comentarios.

«Todos necesitamos gente que nos dé su opinión. Así es como mejoramos».
Bill Gates

Hasta la próxima.

Rate this post

﻿Lost in Machine Translation: una pequeña introducción a la MT