Traducción a Español de un artÃculo de Eric Jang sobre Backprop y Biologically Plausible Deep Learning o BPDL, una rama de Machine Learning conocida en español como Aprendizaje Profundo Biológicamente Plausible.
Traducción realizada por Jose, traductor español con dominio de Inglés, Francés y Alemán.
Texto original escrito por Eric Jang y publicado en el blog de su web evjang.com
El Aprendizaje Profundo Biológicamente Plausible (BPDL) es un campo de investigación activo en la intersección de la Neurociencia y el Aprendizaje Automático, que estudia cómo podemos entrenar redes neuronales profundas con una «regla de aprendizaje» que podrÃa implementarse en el cerebro.
La lÃnea de razonamiento que suele motivar el BPDL es la siguiente:
Un buen resumen de las formas en que backprop no es biológicamente plausible se puede encontrar aquÃ, junto con varios algoritmos que proponen correcciones.
Mi opinión, un tanto contraria, es que intentar diseñar alternativas biológicamente plausibles al backprop es el enfoque equivocado. Las premisas que motivan el BPDL hacen una suposición errónea: que las activaciones de las capas son neuronas y los pesos son sinapsis, y por lo tanto el aprendizaje vÃa backprop debe tener una contraparte o alternativa en el aprendizaje biológico.
A pesar del nombre y de sus impresionantes capacidades en diversas tareas, las DNN tienen en realidad muy poco que ver con las redes neuronales biológicas. Uno de los grandes errores en el campo del aprendizaje automático es que atribuimos un significado demasiado biológico a nuestras herramientas estadÃsticas y algoritmos de control óptimo. Esto lleva a la confusión de los recién llegados, que atribuyen un significado totalmente diferente a «aprendizaje», «algoritmos evolutivos», etc.
Las DNN son una secuencia de operaciones lineales intercaladas con operaciones no lineales, aplicadas secuencialmente a entradas de valor real, nada más. Se optimizan mediante el descenso de gradiente, y los gradientes se calculan de forma eficiente utilizando un esquema de programación dinámica conocido como backprop. Nótese que no he utilizado la palabra «aprendizaje».
La programación dinámica es la novena maravilla del mundo1 y, en mi opinión, uno de los tres mayores logros de la informática. Backprop tiene una complejidad temporal lineal en la profundidad de la red, lo que hace que sea extraordinariamente difÃcil de superar desde el punto de vista del coste computacional. Muchos algoritmos BPDL a menudo no lo hacen mejor que el backprop, porque intentan tomar un esquema de optimización eficiente y meter con calzador un mecanismo de actualización con restricciones adicionales.
Si el objetivo es construir un mecanismo de aprendizaje biológicamente plausible, no hay ninguna razón para que las unidades de las Redes Neuronales Profundas sean uno a uno con las neuronas biológicas. Intentar emular una DNN con modelos de neuronas biológicas es un retroceso, como intentar emular el sistema operativo Windows con un cerebro humano. Es difÃcil y un cerebro humano no puede simular bien Windows.
En cambio, hagamos la emulación al revés: optimizando un aproximador de funciones para implementar una regla de aprendizaje biológicamente plausible. La receta es sencilla:
La elección del aproximador de funciones que utilicemos para encontrar nuestra regla de aprendizaje es irrelevante: lo que nos importa al final del dÃa es responder a cómo un cerebro biológico es capaz de aprender tareas difÃciles como la percepción, respetando restricciones conocidas como el hecho de que las neuronas biológicas no almacenan todas las activaciones en la memoria o solo emplean reglas de aprendizaje locales. DeberÃamos aprovechar la capacidad de Deep Learning para encontrar buenos aproximadores de funciones, y dirigirla hacia la búsqueda de buenas reglas de aprendizaje biológico.
La idea de que deberÃamos aprender (artificialmente) a aprender (biológicamente) no es nueva, pero creo que aún no es obvia para la comunidad de neurociencia + IA. El metaaprendizaje, o «aprender a aprender», es un campo que ha surgido en los últimos años y que formula el acto de adquirir un sistema capaz de realizar un comportamiento de aprendizaje (potencialmente superior al descenso por gradiente). Si el meta-aprendizaje puede encontrarnos aprendices más eficientes en cuanto a la muestra o superiores o robustos, ¿por qué no puede encontrarnos reglas que respeten las restricciones biológicas de aprendizaje? De hecho, trabajos recientes [1, 2, 3, 4, 5] demuestran que es asÃ. En efecto, se puede utilizar backprop para entrenar una regla de aprendizaje independiente superior a la de backprop ingenuo.
Creo que la razón por la que muchos investigadores no han captado realmente esta idea (que deberÃamos emular circuitos biológicamente plausibles con un enfoque de meta-aprendizaje) es que hasta hace poco, la potencia de cálculo no era lo suficientemente fuerte como para entrenar a un meta-aprendiz y a un aprendiz. TodavÃa se requiere una potencia de cálculo y una infraestructura de investigación considerables para establecer un esquema de meta-optimización, pero herramientas como JAX lo hacen ahora considerablemente más fácil.
Un verdadero purista de la biologÃa podrÃa argumentar que encontrar una regla de aprendizaje que utilice el descenso de gradiente y la retropropulsión no es una «regla de aprendizaje evolutivamente plausible», porque la evolución carece claramente de la capacidad de realizar programación dinámica o incluso cálculo de gradiente. Pero esto puede enmendarse haciendo que el metaaprendizaje sea evolutivamente plausible. Por ejemplo, el mecanismo con el que seleccionamos buenos aproximadores de funciones no tiene por qué depender en absoluto de la retropropulsión. Alternativamente, podrÃamos formular un problema meta-meta en el que el proceso de selección en sà mismo obedece a las reglas de la selección evolutiva, pero el proceso de selección se encuentra utilizando, una vez más, backprop.
¡No te metas con backprop!
Notas a pie de página
1] La octava maravilla es, por supuesto, el interés compuesto.
Articulos relacionados
Traducción al español de un texto sobre aprendizaje, lenguaje, PNL, BERT, MT, PEMT.... By Sebastian Ruder
Traducción a Español de un artÃculo en Inglés de Teven Le Scao explicando los paradigmas y la evolución histórica de la Traducción Automática (MT): desde sus orÃgenes en 1933, y la posterior Traducción Automática basada en reglas, hasta la Traducción Automática basada en...
Traducción de un interesante artÃculo de Dana Woodman explicando cómo añadir traducciones y localización sencilla a una app Svelte. El método se basa en un post de Matthias Stahl, pero Dana Woodman explica cómo hacerlo sin necesidad de crear un repositorio adicional para las...