No te metas con Backprop: dudas sobre el BPDL (Aprendizaje Profundo Biológicamente Plausible)

Traducción a Español de un artículo de Eric Jang sobre Backprop y Biologically Plausible Deep Learning o BPDL, una rama de Machine Learning conocida en español como Aprendizaje Profundo Biológicamente Plausible.

backpropdeep learning
21 junio, 2021 Machine Learning, el germen del futuro que nos aguarda
21 junio, 2021 Machine Learning, el germen del futuro que nos aguarda

Traducción realizada por Jose, traductor español con dominio de Inglés, Francés y Alemán.

Texto original escrito por Eric Jang, publicado en febrero de 2021 en el blog de su web: https://blog.evjang.com/2021/02/backprop.html

* * *

El Aprendizaje Profundo Biológicamente Plausible (BPDL) es un campo de investigación activo en la intersección de la Neurociencia y el Aprendizaje Automático, que estudia cómo podemos entrenar redes neuronales profundas con una «regla de aprendizaje» que podría implementarse en el cerebro.

La línea de razonamiento que suele motivar el BPDL es la siguiente:

  1. Una red neuronal profunda (DNN) puede aprender a realizar tareas de percepción de las que son capaces los cerebros biológicos (como detectar y reconocer objetos).
  2. Si las unidades de activación y sus pesos son para las DNN lo que las neuronas y las sinapsis son para los cerebros biológicos, entonces ¿a qué es análoga la retropropulsión (backprop: el principal método de entrenamiento de las redes neuronales profundas)?
  3. Si las reglas de aprendizaje en los cerebros no se implementan utilizando backprop, entonces ¿cómo se implementan? ¿Cómo podemos conseguir un rendimiento similar al de las reglas de actualización basadas en backprop, respetando al mismo tiempo las limitaciones biológicas?

Un buen resumen de las formas en que backprop no es biológicamente plausible se puede encontrar aquí, junto con varios algoritmos que proponen correcciones.

Mi opinión, un tanto contraria, es que intentar diseñar alternativas biológicamente plausibles al backprop es el enfoque equivocado. Las premisas que motivan el BPDL hacen una suposición errónea: que las activaciones de las capas son neuronas y los pesos son sinapsis, y por lo tanto el aprendizaje vía backprop debe tener una contraparte o alternativa en el aprendizaje biológico.

A pesar del nombre y de sus impresionantes capacidades en diversas tareas, las DNN tienen en realidad muy poco que ver con las redes neuronales biológicas. Uno de los grandes errores en el campo del aprendizaje automático es que atribuimos un significado demasiado biológico a nuestras herramientas estadísticas y algoritmos de control óptimo. Esto lleva a la confusión de los recién llegados, que atribuyen un significado totalmente diferente a «aprendizaje», «algoritmos evolutivos», etc.

Las DNN son una secuencia de operaciones lineales intercaladas con operaciones no lineales, aplicadas secuencialmente a entradas de valor real, nada más. Se optimizan mediante el descenso de gradiente, y los gradientes se calculan de forma eficiente utilizando un esquema de programación dinámica conocido como backprop. Nótese que no he utilizado la palabra «aprendizaje».

La programación dinámica es la novena maravilla del mundo1 y, en mi opinión, uno de los tres mayores logros de la informática. Backprop tiene una complejidad temporal lineal en la profundidad de la red, lo que hace que sea extraordinariamente difícil de superar desde el punto de vista del coste computacional. Muchos algoritmos BPDL a menudo no lo hacen mejor que el backprop, porque intentan tomar un esquema de optimización eficiente y meter con calzador un mecanismo de actualización con restricciones adicionales.

Si el objetivo es construir un mecanismo de aprendizaje biológicamente plausible, no hay ninguna razón para que las unidades de las Redes Neuronales Profundas sean uno a uno con las neuronas biológicas. Intentar emular una DNN con modelos de neuronas biológicas es un retroceso, como intentar emular el sistema operativo Windows con un cerebro humano. Es difícil y un cerebro humano no puede simular bien Windows.

En cambio, hagamos la emulación al revés: optimizando un aproximador de funciones para implementar una regla de aprendizaje biológicamente plausible. La receta es sencilla:

  1. Construir un modelo biológicamente plausible de una red neuronal con neuronas modelo y conexiones sinápticas. Las neuronas se comunican entre sí mediante trenes de espigas, codificación de velocidad o gradientes, y respetan las restricciones que consideres «suficientemente plausibles desde el punto de vista biológico». Tiene parámetros que deben ser entrenados.
  2. Utilizar la búsqueda asistida por ordenador para diseñar una regla de aprendizaje biológicamente plausible para estas neuronas modelo. Por ejemplo, el comportamiento feedforward de cada neurona y las reglas de actualización local pueden modelarse como una decisión de una red neuronal artificial.
  3. Actualizar el aproximador de funciones para que el modelo biológico produzca el comportamiento de aprendizaje deseado. Podríamos entrenar las redes neuronales mediante backprop.

La elección del aproximador de funciones que utilicemos para encontrar nuestra regla de aprendizaje es irrelevante: lo que nos importa al final del día es responder a cómo un cerebro biológico es capaz de aprender tareas difíciles como la percepción, respetando restricciones conocidas como el hecho de que las neuronas biológicas no almacenan todas las activaciones en la memoria o solo emplean reglas de aprendizaje locales. Deberíamos aprovechar la capacidad de Deep Learning para encontrar buenos aproximadores de funciones, y dirigirla hacia la búsqueda de buenas reglas de aprendizaje biológico.

La idea de que deberíamos aprender (artificialmente) a aprender (biológicamente) no es nueva, pero creo que aún no es obvia para la comunidad de neurociencia + IA. El metaaprendizaje, o «aprender a aprender», es un campo que ha surgido en los últimos años y que formula el acto de adquirir un sistema capaz de realizar un comportamiento de aprendizaje (potencialmente superior al descenso por gradiente). Si el meta-aprendizaje puede encontrarnos aprendices más eficientes en cuanto a la muestra o superiores o robustos, ¿por qué no puede encontrarnos reglas que respeten las restricciones biológicas de aprendizaje? De hecho, trabajos recientes [1, 2, 3, 4, 5] demuestran que es así. En efecto, se puede utilizar backprop para entrenar una regla de aprendizaje independiente superior a la de backprop ingenuo.

Creo que la razón por la que muchos investigadores no han captado realmente esta idea (que deberíamos emular circuitos biológicamente plausibles con un enfoque de meta-aprendizaje) es que hasta hace poco, la potencia de cálculo no era lo suficientemente fuerte como para entrenar a un meta-aprendiz y a un aprendiz. Todavía se requiere una potencia de cálculo y una infraestructura de investigación considerables para establecer un esquema de meta-optimización, pero herramientas como JAX lo hacen ahora considerablemente más fácil.

Un verdadero purista de la biología podría argumentar que encontrar una regla de aprendizaje que utilice el descenso de gradiente y la retropropulsión no es una «regla de aprendizaje evolutivamente plausible», porque la evolución carece claramente de la capacidad de realizar programación dinámica o incluso cálculo de gradiente. Pero esto puede enmendarse haciendo que el metaaprendizaje sea evolutivamente plausible. Por ejemplo, el mecanismo con el que seleccionamos buenos aproximadores de funciones no tiene por qué depender en absoluto de la retropropulsión. Alternativamente, podríamos formular un problema meta-meta en el que el proceso de selección en sí mismo obedece a las reglas de la selección evolutiva, pero el proceso de selección se encuentra utilizando, una vez más, backprop.

¡No te metas con backprop!

 

Notas a pie de página

1] La octava maravilla es, por supuesto, el interés compuesto.

Valora este artículo