Aprendizaje por transferencia en PNL

Traducción al español de un texto sobre aprendizaje, lenguaje, PNL, BERT, MT, PEMT…. By Sebastian Ruder

aprendizajePEMTPNLTraducción Español
31 marzo, 2020 Traduccion sobre aprendizaje por transferencia en PNL para MT
31 marzo, 2020 Traduccion sobre aprendizaje por transferencia en PNL para MT

El aprendizaje por transferencia es una de las claves de la PNL, que a su vez juega un papel fundamental en Machine Translation, uno de las áreas de mayor futuro en el sector de la traducción. Presentamos aquí la traducción al español del artículo «The State of Transfer Learning in NLP» originalmente publicado en Inglés por Sebastian Ruder en: https://ruder.io/state-of-transfer-learning-in-nlp/

* * *

Este post amplía el tutorial de la NAACL 2019 sobre aprendizaje por transferencia en PNL. Destaca las ideas clave y los avances y proporciona actualizaciones basadas en los trabajos recientes.

Sebastian Ruder
18 de agosto de 2019
Este post expande el Tutorial de NAACL 2019 sobre aprendizaje por transferencia en PNL.

El tutorial fue organizado por Matthew Peters, Swabha Swayamdipta, Thomas Wolf y yo. En este post, destaco los puntos clave y las tomas de contacto y proporciono actualizaciones basadas en los trabajos recientes. Puedes ver la estructura de este post aquí abajo:

Las diapositivas, un cuaderno de colaboración y el código del tutorial están disponibles en línea.

Introducción

Para una visión general de lo que es el aprendizaje por transferencia, eche un vistazo a esta entrada del blog. Nuestra definición a lo largo de este post será la siguiente, que se ilustra en el siguiente diagrama:

El aprendizaje por transferencia es un medio para extraer el conocimiento de un entorno inicial y aplicarlo a un entorno objetivo diferente.

Una ilustración del proceso de aprendizaje por transferencia.

En el lapso de poco más de un año, el aprendizaje por transferencia en forma de modelos de lenguaje preentrenados se ha vuelto omnipresente en el PNL y ha contribuido al estado de la técnica en una amplia gama de tareas. Sin embargo, el aprendizaje por transferencia no es un fenómeno reciente en el PNL. Un ejemplo ilustrativo es el progreso en la tarea de Reconocimiento de Entidades Nombradas (NER), que puede verse a continuación.

Desempeño en el Reconocimiento de Entidades Nombradas (NER) en CoNLL-2003 (inglés) a lo largo del tiempo.

A lo largo de su historia, la mayoría de las principales mejoras en esta tarea han sido impulsadas por diferentes formas de aprendizaje por transferencia: desde el aprendizaje temprano auto-supervisado con tareas auxiliares (Ando y Zhang, 2005) y grupos de frases y palabras (Lin y Wu, 2009) al modelo de incrustación del lenguaje (Peters et al., 2017) y modelos lingüísticos preentrenados (Peters et al., 2018 Baevski et al., 2019) de los últimos años.

Hay diferentes tipos de aprendizaje por transferencia comunes en PNL actual. Se pueden clasificar, a grandes rasgos, en tres dimensiones basadas en: a) si los ámbitos de la fuente y el objetivo se ocupan de la misma tarea, b) la naturaleza de los ámbitos iniciales y finales, y c) el orden en que se aprenden las tareas. A continuación se puede ver una taxonomía que destaca las variaciones:

Una taxonomía para el aprendizaje por transferencia en PNL (Ruder, 2019).

El aprendizaje por transferencia secuencial es la forma que ha llevado a las mayores mejoras hasta ahora. La práctica general consiste en entrenar previamente las representaciones en un gran corpus de texto sin etiquetar utilizando el método de su elección y luego adaptar estas representaciones a una tarea objetivo supervisada utilizando datos etiquetados como se puede ver a continuación.

El procedimiento general de aprendizaje por transferencia secuencial.

Temas principales

Se pueden observar varios temas importantes en la forma en que se ha aplicado este paradigma:

De las palabras a las palabras en contexto. Con el tiempo, las representaciones incorporan más contexto. Los primeros enfoques como word2vec (Mikolov et al., 2013) aprendieron una representación única para cada palabra independientemente de su contexto. Los enfoques posteriores escalaron estas representaciones a frases y documentos (Le y Mikolov, 2014 Conneau et al., 2017). Los enfoques actuales aprenden representaciones de palabras que cambian según el contexto de la palabra (McCann et al., 2017 Peters et al., 2018). 

Preentrenamiento LM. Muchos enfoques de preentrenamiento exitosos se basan en variantes de modelización del lenguaje (LM). Las ventajas del LM son que no requiere ninguna anotación humana y que muchos idiomas tienen suficiente texto disponible para aprender modelos razonables. Además, el LM es versátil y permite el aprendizaje de representaciones tanto de frases como de palabras con una variedad de funciones objetivas.

De lo superficial a lo profundo. En los últimos años, los modelos de vanguardia en PNL se han hecho progresivamente más profundos. Hasta hace dos años, el estado de la cuestión en la mayoría de las tareas era un BiLSTM de 2-3 capas de profundidad, siendo la traducción automática un atípico con 16 capas (Wu et al., 2016). Por el contrario, los modelos actuales como el BERT-Large y el GPT-2 consisten en 24 bloques de transformadores y los modelos recientes son aún más profundos.

Preentrenamiento vs tarea objetivo. La elección de las tareas de preentrenamiento y las tareas objetivo está estrechamente entrelazada. Por ejemplo, las representaciones de oraciones no son útiles para las predicciones a nivel de palabra, mientras que la formación previa basada en la duración es importante para las predicciones a nivel de duración. En general, para el mejor rendimiento del objetivo, es beneficioso elegir una tarea de preentrenamiento similar.

Preentrenamiento

¿Por qué funciona tan bien la modelización del lenguaje?

El notable éxito de los modelos de lenguaje preentrenados es sorprendente. Una de las razones del éxito de la modelización del lenguaje puede ser que es una tarea muy difícil, incluso para los humanos. Para tener alguna posibilidad de resolver esta tarea, se requiere un modelo para aprender sobre la sintaxis, la semántica, así como ciertos hechos sobre el mundo. Con suficientes datos, un gran número de parámetros y suficientes cálculos, un modelo puede hacer un trabajo razonable. Empíricamente, la modelización del lenguaje funciona mejor que otras tareas previas a la formación, como la traducción o la autocodificación (Zhang et al. 2018 Wang et al., 2019).

Un reciente análisis de la distorsión de la tasa de predicción (PRD) del lenguaje humano (Hahn y Futrell, 2019) sugiere que el lenguaje humano —y la modelización del lenguaje— tiene una complejidad estadística infinita, pero que se puede aproximar bien a niveles más bajos. Esta observación tiene dos implicaciones: 1) Podemos obtener buenos resultados con modelos comparativamente pequeños; y 2) hay mucho potencial para ampliar nuestros modelos. Para ambas implicaciones tenemos evidencia empírica, como podemos ver en las siguientes secciones.

Eficiencia de la muestra

Uno de los principales beneficios del preentrenamiento es que reduce la necesidad de datos anotados. En la práctica, se ha demostrado a menudo que el aprendizaje por transferencia logra un rendimiento similar en comparación con un modelo no preentrenado con 10 veces menos ejemplos o más, como puede verse a continuación para el ULMFiT (Howard y Ruder, 2018).

El rendimiento de un modelo entrenado desde cero (azul) frente a dos modelos preentrenados ajustados en datos de objetivos etiquetados (naranja) así como en datos de objetivos no etiquetados (verde) respectivamente (Howard y Ruder, 2018).

Ampliación de la formación previa

En general, las representaciones preentrenadas pueden mejorarse aumentando conjuntamente el número de parámetros del modelo y la cantidad de datos preentrenados. Los retornos empiezan a disminuir a medida que la cantidad de datos previos a la formación crece. Sin embargo, las curvas de rendimiento actuales, como la que se muestra a continuación, no indican que hayamos llegado a un período de estancamiento. Por lo tanto, podemos esperar ver modelos aún más grandes entrenados con más datos. 

Puntuación media de GLUE con diferentes cantidades de datos de Common Crawl para el preentrenamiento (Baevski et al., 2019). 

Algunos ejemplos recientes de esta tendencia son ERNIE 2.0XLNetGPT-2 8BRoBERTa. Este último, en particular, considera que el simple hecho de entrenar a BERT durante más tiempo y con más datos mejora los resultados, mientras que el GPT-2 8B reduce la perplejidad sobre un conjunto de datos de modelización de idiomas (aunque solo por un factor comparativamente pequeño).

Preentrenamiento en todos los idiomas

Una promesa importante del preentrenamiento es que puede ayudarnos a cerrar la brecha del lenguaje digital y puede permitirnos aprender modelos de PNL para más de los 6.000 idiomas del mundo. Gran parte de la labor sobre el aprendizaje entre idiomas se ha centrado en la formación de incrustaciones de palabras separadas en diferentes idiomas y en aprender a alinearlas (Ruder et al., 2019). En la misma línea, podemos aprender a alinear las representaciones contextuales (Schuster et al., 2019). Otro método común es compartir un vocabulario de subpalabras y entrenar a un modelo en muchos idiomas (Devlin et al., 2019 Mulcaire et al., 2019 Lample y Conneau, 2019). Si bien esto es fácil de aplicar y constituye una sólida base multilingüe, conduce a una representación insuficiente de los idiomas con pocos recursos (Heinzerling y Strube, 2019). El BERT multilingüe en particular ha sido objeto de mucha atención recientemente (Pires et al., 2019 Wu y Dredze, 2019). A pesar de su fuerte rendimiento, los modelos de lenguaje monolingüe dedicado a menudo son competitivos y más eficientes (Eisenschlos et al., 2019).

Consideraciones prácticas

El preentrenamiento es costoso. El preentrenamiento del modelo de estilo Transformer-XL que usamos en el tutorial lleva 5h-20h en 8 GPUs V100 (unos días con 1 V100) para llegar a una buena perplejidad. Por lo tanto, es muy importante compartir los modelos preentrenados. El preentrenamiento es relativamente robusto a la elección de los hiperparámetros, aparte de necesitar un calentamiento de la tasa de aprendizaje para los transformadores. Como regla general, su modelo no debería tener suficiente capacidad para adaptarse si su conjunto de datos es lo suficientemente grande. El modelado del lenguaje enmascarado (como en el BERT) es típicamente de 2 a 4 veces más lento de entrenar que el LM estándar, ya que enmascarar solo una fracción de las palabras produce una señal más pequeña.

¿Qué hay en una representación?

Se ha demostrado que las representaciones predicen ciertos fenómenos lingüísticos como las alineaciones en la traducción o las jerarquías sintácticas. Se ha logrado un mejor rendimiento cuando se ha entrenado previamente con la sintaxis; incluso cuando la sintaxis no está codificada explícitamente, las representaciones todavía aprenden alguna noción de la sintaxis (Williams et al. 2018). Los trabajos recientes han demostrado además que el conocimiento de la sintaxis puede ser destilado eficientemente en modelos de última generación (Kuncoro et al., 2019). Las arquitecturas de red generalmente determinan lo que hay en una representación. Por ejemplo, se ha observado que el BERT captura la sintaxis (Tenney et al., 2019 Goldberg, 2019). Diferentes arquitecturas muestran diferentes tendencias de capas en términos de qué información capturan (Liu et al., 2019).

La configuración general de las tareas de sondeo utilizadas para estudiar el conocimiento lingüístico dentro de las representaciones contextuales de las palabras (Liu et al., 2019).

La información que un modelo captura también depende de cómo se mire: La visualización de activaciones o pesos de atención proporciona una visión a vista de pájaro del conocimiento del modelo, pero se centra en unas pocas muestras; las sondas que entrenan a un clasificador sobre las representaciones aprendidas con el fin de predecir ciertas propiedades (como se puede ver arriba) descubren características específicas en todo el corpus, pero pueden introducir sus propios sesgos; por último, las ablaciones en red son excelentes para mejorar el modelo, pero pueden ser específicas de una tarea.

Adaptación

Para adaptar un modelo preentrenado a una tarea objetivo, hay varias direcciones ortogonales en las que podemos tomar decisiones: modificaciones arquitectónicas, esquemas de optimización, y si obtener más señal.

Modificaciones arquitectónicas

Para las modificaciones arquitectónicas, las dos opciones generales que tenemos son:

a) Mantener los internos del modelo preentrenado sin cambios Esto puede ser tan simple como añadir una o más capas lineales sobre un modelo preentrenado, lo cual se hace comúnmente con BERT. En cambio, también podemos utilizar la salida del modelo como entrada a un modelo separado, lo que suele ser beneficioso cuando una tarea objetivo requiere interacciones que no están disponibles en la incrustación preentrenada, como las representaciones de tramos o la modelización de relaciones entre frases.

b) Modificar la arquitectura interna del modelo preentrenado Una de las razones por las que podríamos querer hacer esto es para adaptarnos a una tarea objetivo estructuralmente diferente, como una con varias secuencias de entrada. En este caso, podemos usar el modelo preentrenado para inicializar tanto como sea posible de un modelo de tarea objetivo estructuralmente diferente. También podríamos aplicar modificaciones específicas a la tarea, como añadir conexiones o atención de salto o residuales. Por último, la modificación de los parámetros de la tarea objetivo puede reducir el número de parámetros que deben ser ajustados añadiendo módulos de cuello de botella (“adaptadores”) entre las capas del modelo preentrenado (Houlsby et al., 2019 Stickland y Murray, 2019).

Una capa adaptadora (derecha) como la utilizada en un bloque de transformadores (izquierda) (Houlsby et al., 2019).

Esquemas de optimización

En cuanto a la optimización del modelo, podemos elegir qué pesos debemos actualizar y cómo y cuándo actualizar esos pesos.

Qué pesos actualizar

Para actualizar los pesos, podemos afinar o no afinar (los pesos preentrenados):

a) No cambiar los pesos preentrenados (extracción de características) En la práctica, se entrena un clasificador lineal sobre las representaciones preentrenadas. El mejor rendimiento se logra típicamente usando la representación no solo de la capa superior, sino aprendiendo una combinación lineal de representaciones de capas (Peters et al., 2018Ruder et al., 2019). Alternativamente, las representaciones preentrenadas pueden ser utilizadas como características en un modelo posterior. Cuando se añaden adaptadores, solo se entrenan las capas adaptadoras.

Uso de un modelo preentrenado como características en un modelo separado de flujo descendente.

b) Cambiar los pesos preentrenados (ajuste avanzado) Los pesos preentrenados se utilizan como inicialización para los parámetros del modelo descendente. Toda la arquitectura preentrenada es entonces entrenada durante la fase de adaptación.

Cómo y cuándo actualizar los pesos

La principal motivación para elegir el orden y la forma de actualizar los pesos es que queremos evitar sobrescribir la información útil y previamente entrenada y maximizar la transferencia positiva. Relacionado con esto está el concepto de olvido catastrófico (McCloskey & Cohen, 1989 Francés, 1999), lo que ocurre si un modelo olvida la tarea en la que fue entrenado originalmente. En la mayoría de los escenarios, solo nos preocupamos por el rendimiento en la tarea objetivo, pero esto puede diferir dependiendo de la aplicación.

Un principio rector para la actualización de los parámetros de nuestro modelo es actualizarlos progresivamente de arriba a abajo en el tiempo, en la intensidad o en comparación con un modelo preentrenado:

a) Progresivamente en el tiempo (congelación). La principal intuición es que entrenar todas las capas al mismo tiempo con datos de una distribución y tarea diferentes puede provocar inestabilidad y soluciones deficientes. En su lugar, entrenamos las capas individualmente para darles tiempo de adaptarse a la nueva tarea y datos. Esto se remonta al entrenamiento por capas de las primeras redes neuronales profundas (Hinton et al., 2006 Bengio et al., 2007). Enfoques recientes (Felbo et al., 2017 Howard y Ruder, 2018 Chronopoulou et al., 2019) varían en su mayoría en las combinaciones de capas que se entrenan juntas; todos entrenan todos los parámetros conjuntamente al final. La descongelación no ha sido investigada en detalle para los modelos de Transformer.

b) Progresivamente en la intensidad (menores tasas de aprendizaje). Queremos utilizar menores tasas de aprendizaje para evitar sobrescribir la información útil. Las tasas de aprendizaje más bajas son particularmente importantes en las capas inferiores (ya que captan información más general), al principio de la capacitación (ya que el modelo todavía tiene que adaptarse a la distribución de los objetivos) y al final de la capacitación (cuando el modelo está cerca de la convergencia). Con este fin, podemos utilizar el ajuste discriminatorio (Howard y Ruder, 2018), lo que disminuye la tasa de aprendizaje de cada capa como se puede ver a continuación. A fin de mantener unas tasas de aprendizaje más bajas al principio del entrenamiento, se puede utilizar un esquema de tasas de aprendizaje triangular, que también se conoce como calentamiento de la tasa de aprendizaje en Transformers. Liu et al. (2019) recientemente sugieren que el calentamiento reduce la variación en la etapa inicial del entrenamiento.

Ajuste discriminatorio (Howard y Ruder, 2018).

c) Progresivamente frente a un modelo preentrenado (regularización). Una forma de reducir al mínimo el olvido catastrófico es alentar a que los parámetros del modelo objetivo se mantengan cerca de los parámetros del modelo preentrenado utilizando un término de regularización (Wiese et al., CoNLL 2017Kirkpatrick et al., PNAS 2017).

Compensaciones y consideraciones prácticas

En general, cuantos más parámetros necesites para entrenar desde cero, más lento será tu entrenamiento. La extracción de características requiere añadir más parámetros que el ajuste avanzado (Peters et al., 2019), por lo que normalmente es más lento de entrenar. La extracción de características, sin embargo, es más eficiente en cuanto al espacio cuando un modelo necesita ser adaptado a muchas tareas, ya que solo requiere almacenar una copia del modelo ya entrenado en la memoria. Los adaptadores logran un equilibrio al añadir un pequeño número de parámetros adicionales por tarea.

En términos de rendimiento, ningún método de adaptación es claramente superior en todos los ámbitos. Si las tareas de origen y destino son diferentes, la extracción de características parece ser preferible (Peters et al., 2019). Por lo demás, la extracción de características y el ajuste avanzado suelen tener un rendimiento similar, aunque esto depende del presupuesto disponible para el ajuste de hiperparámetros (el ajuste avanzado puede requerir a menudo una búsqueda de hiperparámetros más extensa). Anecdóticamente, los transformadores son más fáciles de ajustar (menos sensibles a los hiperparámetros) que los LSTM y pueden lograr un mejor rendimiento con el ajuste avanzado.

Sin embargo, los modelos grandes preentrenados (por ejemplo, BERT-Large) son propensos a degenerar el rendimiento cuando se ajustan a tareas con pequeños conjuntos de entrenamiento. En la práctica, el comportamiento observado es a menudo “on-off”: el modelo funciona muy bien o no funciona en absoluto, como se puede ver en el siguiente gráfico. Entender las condiciones y causas de este comportamiento es una cuestión de investigación abierta.

Distribución de las puntuaciones de las tareas a través de 20 reinicios aleatorios para el BERT (rojo) y el BERT que se afinó en el MNLI (verde) cuando se afinó en no más de cinco mil ejemplos para cada tarea (Phang et al., 2018).

Obteniendo más señal

La tarea del objetivo es a menudo una tarea de bajos recursos. A menudo podemos mejorar el rendimiento del aprendizaje de la transferencia combinando un conjunto diverso de señales:

Adaptación secuencial. Si se dispone de tareas relacionadas, podemos afinar nuestro modelo primero en una tarea relacionada con más datos antes de afinarlo en la tarea objetivo. Esto ayuda particularmente para tareas con datos limitados y tareas similares (Phang et al., 2018) y mejora la eficiencia de la muestra en la tarea objetivo (Yogatama et al., 2019).

Ajuste de tareas múltiples. Alternativamente, también podemos ajustar el modelo conjuntamente en tareas relacionadas junto con la tarea objetivo. La tarea relacionada también puede ser una tarea auxiliar no supervisada. La modelización del lenguaje es una buena opción para esto y se ha demostrado que ayuda incluso sin entrenamiento previo (Rei et al., 2017). La proporción de tareas puede opcionalmente ser recocida para quitarle importancia a la tarea auxiliar hacia el final del entrenamiento (Chronopoulou et al., NAACL 2019). El ajuste del modelo de lenguaje se utiliza como un paso separado en el ULMFiT (Howard y Ruder, 2018). Recientemente, el ajuste de las tareas múltiples ha llevado a mejoras incluso con muchas tareas específicas (Liu et al., 2019Wang et al., 2019).

Corte del conjunto de datos. En lugar de afinar con tareas auxiliares, podemos usar cabezas auxiliares que se entrenan solo en determinados subconjuntos de los datos. Para ello, primero analizaríamos los errores del modelo, utilizaríamos la heurística para identificar automáticamente los subconjuntos difíciles de los datos de entrenamiento, y luego entrenaríamos a los jefes auxiliares conjuntamente con el jefe principal.

Aprendizaje semisupervisado. También podemos utilizar métodos de aprendizaje semisupervisado para que las predicciones de nuestro modelo sean más consistentes, perturbando los ejemplos no etiquetados. La perturbación puede ser el ruido, el enmascaramiento (Clark et al., 2018) o el aumento de los datos, por ejemplo, la traducción inversa (Xie et al., 2019).

Ensamblaje. Para mejorar el rendimiento se pueden combinar las predicciones de modelos ajustados con diferentes hiperparámetros, ajustados con diferentes modelos preentrenados, o entrenados en diferentes tareas objetivo o divisiones de conjuntos de datos.

Destilación. Por último, los modelos grandes o conjuntos de modelos pueden ser destilados en un único modelo más pequeño. El modelo también puede ser mucho más simple (Tang et al., 2019) o tener un sesgo inductivo diferente (Kuncoro et al., 2019). El ajuste avanzado multitarea también puede combinarse con la destilación (Clark et al., 2019).

Aplicaciones posteriores

El entrenamiento previo de modelos a gran escala es costoso, no solo en términos de computación sino también en términos de impacto ambiental (Strubell et al., 2019). Siempre que sea posible, es mejor usar modelos de código abierto. Si necesitas entrenar tus propios modelos, comparte tus modelos preentrenados con la comunidad.

Marcos y bibliotecas

Para compartir y acceder a los modelos ya entrenados, existen diferentes opciones:

Hubs. Los Hubs son depósitos centrales que proveen un API común para acceder a modelos preentrenados. Los dos hubs más comunes son TensorFlow Hub y PyTorch Hub. Los hubs, por lo general, son fáciles de usar; sin embargo, actúan más como una caja negra ya que no se puede acceder fácilmente al código fuente del modelo. Además, modificar el interior de un modelo de arquitectura preentrenado puede ser difícil.

Puntos de control liberados por el autor. Los archivos de los puntos de control generalmente contienen todos los pesos de un modelo preentrenado. A diferencia de los módulos centrales, el gráfico del modelo aún debe ser creado y los pesos del modelo deben ser cargados por separado. Como tal, los archivos de los puntos de control son más difíciles de usar que los módulos de los centros, pero le proporcionan un control total sobre el interior del modelo.

Bibliotecas de terceros. Algunas bibliotecas de terceros como AllenNLPfast.ai y pytorch-transformers proporcionan un fácil acceso a los modelos preentrenados. Esas bibliotecas suelen permitir una rápida experimentación y abarcan muchos casos de uso estándar para el aprendizaje de la transferencia.

Para ver ejemplos de cómo se pueden utilizar esos modelos y bibliotecas para tareas posteriores, echa un vistazo a los fragmentos de código en las diapositivas, el cuaderno de colaboración y el código.

Problemas abiertos y direcciones futuras

Hay muchos problemas abiertos e interesantes direcciones de investigación futuras. A continuación, se muestra una selección actualizada. Para más indicaciones, echa un vistazo a las diapositivas.

Deficiencias de los modelos de lenguaje preentrenados

Los modelos lingüísticos preentrenados siguen siendo malos para las tareas lingüísticas finas (Liu et al., 2019), el razonamiento sintáctico jerárquico (Kuncoro et al., 2019) y el sentido común (cuando en realidad lo haces difícil Zellers et al., 2019). Siguen fallando en la generación de lenguaje natural, en particular manteniendo las dependencias, relaciones y coherencia a largo plazo. También tienden a adaptarse a la información de la forma de la superficie cuando se afinan y todavía pueden ser vistos mayormente como “aprendices rápidos de la superficie”.

Como hemos señalado anteriormente, los modelos particularmente grandes que se ajustan con precisión a pequeñas cantidades de datos son difíciles de optimizar y sufren de una alta variabilidad. Los actuales modelos de lenguaje preentrenados son también muy grandes. La destilación y la reducción son dos formas de tratar con esto.

Tareas previas a la formación

Si bien el objetivo de la modelización del lenguaje ha demostrado ser eficaz empíricamente, tiene sus puntos débiles. Últimamente, hemos visto que el contexto bidireccional y la modelización de secuencias de palabras contiguas es particularmente importante. Tal vez lo más importante es que la modelización del lenguaje fomenta el enfoque en la sintaxis y las coocurrencias de palabras y solo proporciona una señal débil para captar la semántica y el contexto a largo plazo. Podemos inspirarnos en otras formas de autosupervisión. Además, podemos diseñar tareas especializadas de preentrenamiento que aprendan explícitamente ciertas relaciones (Joshi et al., 2019, Sun et al., 2019).

En general, es difícil aprender ciertos tipos de información a partir de un texto en bruto. Los enfoques recientes incorporan conocimientos estructurados (Zhang et al., 2019 Logan IV et al., 2019) o aprovechan las múltiples modalidades (Sun et al., 2019 Lu et al., 2019) como dos posibles formas de mitigar este problema.

. . .

 

[Nota del Traductor]

Traducción de textos sobre lenguaje, PNL y PEMT

Los estudios y modelos de PNL son clave para el desarrollo de los motores de traducción basados en tecnología NMT (Neuronal Machine Translation). John Stevenson, lingüista sueco experto en lenguaje computacional y PNL, ha colaborado con nosotros en la traducción de diversos ensayos sobre programación neurolingüística, modelos preentrenados, BERT, etc. John está realizando un postgrado en Machine Learning, aprendiendo modelización del lenguaje para mejorar el diseño de motores de traducción automática (MT). En Ibidem Group usamos servicios de Post-Editing Machine Translation (PEMT) para traducir testimonios y reseñas: proyectos grandes de textos muy sencillos, donde no es necesario tanta calidad ni estilo, pero sí precios de traducción muy baratos.

Valora este artículo

Articulos relacionados


Traducción al español del artículo del profesor John F. Kihlstrom publicado originalmente en inglés con el título de «Rants and Raves»

Traducción al español del artículo «The human ecology of memory» publicado originalmente en inglés

Traducción del artículo «10 Things We Know Thanks to Evolutionary Psychology»