No te metas con Backprop: dudas sobre el BPDL (Aprendizaje Profundo Biol贸gicamente Plausible)

Traducci贸n a Espa帽ol de un art铆culo de Eric Jang sobre Backprop y Biologically Plausible Deep Learning o BPDL, una rama de Machine Learning conocida en espa帽ol como Aprendizaje Profundo Biol贸gicamente Plausible.

backpropdeep learning
21 junio, 2021 Machine Learning, el germen del futuro que nos aguarda
21 junio, 2021 Machine Learning, el germen del futuro que nos aguarda

Traducci贸n realizada por Jose, traductor espa帽ol con dominio de Ingl茅s, Franc茅s y Alem谩n.

Texto original escrito por Eric Jang, publicado en febrero de 2021 en el blog de su web: https://blog.evjang.com/2021/02/backprop.html

* * *

El Aprendizaje Profundo Biol贸gicamente Plausible (BPDL) es un campo de investigaci贸n activo en la intersecci贸n de la Neurociencia y el Aprendizaje Autom谩tico, que estudia c贸mo podemos entrenar redes neuronales profundas con una 芦regla de aprendizaje禄 que podr铆a implementarse en el cerebro.

La l铆nea de razonamiento que suele motivar el BPDL es la siguiente:

  1. Una red neuronal profunda (DNN) puede aprender a realizar tareas de percepci贸n de las que son capaces los cerebros biol贸gicos (como detectar y reconocer objetos).
  2. Si las unidades de activaci贸n y sus pesos son para las DNN lo que las neuronas y las sinapsis son para los cerebros biol贸gicos, entonces 驴a qu茅 es an谩loga la retropropulsi贸n (backprop: el principal m茅todo de entrenamiento de las redes neuronales profundas)?
  3. Si las reglas de aprendizaje en los cerebros no se implementan utilizando backprop, entonces 驴c贸mo se implementan? 驴C贸mo podemos conseguir un rendimiento similar al de las reglas de actualizaci贸n basadas en backprop, respetando al mismo tiempo las limitaciones biol贸gicas?

Un buen resumen de las formas en que backprop no es biol贸gicamente plausible se puede encontrar aqu铆, junto con varios algoritmos que proponen correcciones.

Mi opini贸n, un tanto contraria, es que intentar dise帽ar alternativas biol贸gicamente plausibles al backprop es el enfoque equivocado. Las premisas que motivan el BPDL hacen una suposici贸n err贸nea: que las activaciones de las capas son neuronas y los pesos son sinapsis, y por lo tanto el aprendizaje v铆a backprop debe tener una contraparte o alternativa en el aprendizaje biol贸gico.

A pesar del nombre y de sus impresionantes capacidades en diversas tareas, las DNN tienen en realidad muy poco que ver con las redes neuronales biol贸gicas. Uno de los grandes errores en el campo del aprendizaje autom谩tico es que atribuimos un significado demasiado biol贸gico a nuestras herramientas estad铆sticas y algoritmos de control 贸ptimo. Esto lleva a la confusi贸n de los reci茅n llegados, que atribuyen un significado totalmente diferente a 芦aprendizaje禄, 芦algoritmos evolutivos禄, etc.

Las DNN son una secuencia de operaciones lineales intercaladas con operaciones no lineales, aplicadas secuencialmente a entradas de valor real, nada m谩s. Se optimizan mediante el descenso de gradiente, y los gradientes se calculan de forma eficiente utilizando un esquema de programaci贸n din谩mica conocido como backprop. N贸tese que no he utilizado la palabra 芦aprendizaje禄.

La programaci贸n din谩mica es la novena maravilla del mundo1 y, en mi opini贸n, uno de los tres mayores logros de la inform谩tica. Backprop tiene una complejidad temporal lineal en la profundidad de la red, lo que hace que sea extraordinariamente dif铆cil de superar desde el punto de vista del coste computacional. Muchos algoritmos BPDL a menudo no lo hacen mejor que el backprop, porque intentan tomar un esquema de optimizaci贸n eficiente y meter con calzador un mecanismo de actualizaci贸n con restricciones adicionales.

Si el objetivo es construir un mecanismo de aprendizaje biol贸gicamente plausible, no hay ninguna raz贸n para que las unidades de las Redes Neuronales Profundas sean uno a uno con las neuronas biol贸gicas. Intentar emular una DNN con modelos de neuronas biol贸gicas es un retroceso, como intentar emular el sistema operativo Windows con un cerebro humano. Es dif铆cil y un cerebro humano no puede simular bien Windows.

En cambio, hagamos la emulaci贸n al rev茅s: optimizando un aproximador de funciones para implementar una regla de aprendizaje biol贸gicamente plausible. La receta es sencilla:

  1. Construir un modelo biol贸gicamente plausible de una red neuronal con neuronas modelo y conexiones sin谩pticas. Las neuronas se comunican entre s铆 mediante trenes de espigas, codificaci贸n de velocidad o gradientes, y respetan las restricciones que consideres 芦suficientemente plausibles desde el punto de vista biol贸gico禄. Tiene par谩metros que deben ser entrenados.
  2. Utilizar la b煤squeda asistida por ordenador para dise帽ar una regla de aprendizaje biol贸gicamente plausible para estas neuronas modelo. Por ejemplo, el comportamiento feedforward de cada neurona y las reglas de actualizaci贸n local pueden modelarse como una decisi贸n de una red neuronal artificial.
  3. Actualizar el aproximador de funciones para que el modelo biol贸gico produzca el comportamiento de aprendizaje deseado. Podr铆amos entrenar las redes neuronales mediante backprop.

La elecci贸n del aproximador de funciones que utilicemos para encontrar nuestra regla de aprendizaje es irrelevante: lo que nos importa al final del d铆a es responder a c贸mo un cerebro biol贸gico es capaz de aprender tareas dif铆ciles como la percepci贸n, respetando restricciones conocidas como el hecho de que las neuronas biol贸gicas no almacenan todas las activaciones en la memoria o solo emplean reglas de aprendizaje locales. Deber铆amos aprovechar la capacidad de Deep Learning para encontrar buenos aproximadores de funciones, y dirigirla hacia la b煤squeda de buenas reglas de aprendizaje biol贸gico.

La idea de que deber铆amos aprender (artificialmente) a aprender (biol贸gicamente) no es nueva, pero creo que a煤n no es obvia para la comunidad de neurociencia + IA. El metaaprendizaje, o 芦aprender a aprender禄, es un campo que ha surgido en los 煤ltimos a帽os y que formula el acto de adquirir un sistema capaz de realizar un comportamiento de aprendizaje (potencialmente superior al descenso por gradiente). Si el meta-aprendizaje puede encontrarnos aprendices m谩s eficientes en cuanto a la muestra o superiores o robustos, 驴por qu茅 no puede encontrarnos reglas que respeten las restricciones biol贸gicas de aprendizaje? De hecho, trabajos recientes [1, 2, 3, 4, 5] demuestran que es as铆. En efecto, se puede utilizar backprop para entrenar una regla de aprendizaje independiente superior a la de backprop ingenuo.

Creo que la raz贸n por la que muchos investigadores no han captado realmente esta idea (que deber铆amos emular circuitos biol贸gicamente plausibles con un enfoque de meta-aprendizaje) es que hasta hace poco, la potencia de c谩lculo no era lo suficientemente fuerte como para entrenar a un meta-aprendiz y a un aprendiz. Todav铆a se requiere una potencia de c谩lculo y una infraestructura de investigaci贸n considerables para establecer un esquema de meta-optimizaci贸n, pero herramientas como JAX lo hacen ahora considerablemente m谩s f谩cil.

Un verdadero purista de la biolog铆a podr铆a argumentar que encontrar una regla de aprendizaje que utilice el descenso de gradiente y la retropropulsi贸n no es una 芦regla de aprendizaje evolutivamente plausible禄, porque la evoluci贸n carece claramente de la capacidad de realizar programaci贸n din谩mica o incluso c谩lculo de gradiente. Pero esto puede enmendarse haciendo que el metaaprendizaje sea evolutivamente plausible. Por ejemplo, el mecanismo con el que seleccionamos buenos aproximadores de funciones no tiene por qu茅 depender en absoluto de la retropropulsi贸n. Alternativamente, podr铆amos formular un problema meta-meta en el que el proceso de selecci贸n en s铆 mismo obedece a las reglas de la selecci贸n evolutiva, pero el proceso de selecci贸n se encuentra utilizando, una vez m谩s, backprop.

隆No te metas con backprop!

 

Notas a pie de p谩gina

1] La octava maravilla es, por supuesto, el inter茅s compuesto.

Valora este art铆culo