Breaking News

Las Nuevas Grietas de la Teoría Abren la Caja Negra del Aprendizaje Profundo

Una nueva idea llamada "cuello de botella de información" está ayudando a explicar el éxito desconcertante de los algoritmos de inteligencia artificial actuales y también podría explicar cómo aprenden los cerebros humanos.


Aun cuando las máquinas conocidas como "redes neurales profundas" han aprendido a conversar, conducir coches, ganar videojuegos y campeonatos de Go , soñar, pintar cuadros y ayudar a hacer descubrimientos científicos, también han confundido a sus creadores humanos, profundo aprendizaje "algoritmos para trabajar tan bien. Ningún principio subyacente ha guiado el diseño de estos sistemas de aprendizaje, aparte de la vaga inspiración extraída de la arquitectura del cerebro (y nadie realmente entiende cómo funciona).

Al igual que un cerebro, una profunda red neuronal tiene capas de neuronas - artificiales que son frases de la memoria de la computadora. Cuando una neurona se dispara, envía señales a las neuronas conectadas en la capa superior. Durante el aprendizaje profundo, las conexiones en la red se fortalecen o se debilitan según sea necesario para mejorar el sistema al enviar señales de los datos de entrada -los píxeles de una foto de un perro, por ejemplo- a través de las capas a las neuronas asociadas con el derecho- después de una profunda red neuronal ha "aprendido" de miles de fotos de perro de muestra, puede identificar a los perros en nuevas fotos con la misma precisión que la gente puede. El salto mágico de los casos especiales a los conceptos generales durante el aprendizaje da a las redes neurales profundas su poder, así como subyace al razonamiento humano, a la creatividad ya las otras facultades colectivamente denominadas "inteligencia".


El mes pasado, un video de YouTube de una conferencia en Berlín, compartido ampliamente entre investigadores de inteligencia artificial, ofreció una posible respuesta. En la charla, Naftali Tishby , un informático y neurocientífico de la Universidad Hebrea de Jerusalén, presentó pruebas en apoyo de una nueva teoría que explica cómo funciona el aprendizaje profundo. Tishby sostiene que las redes neuronales profundas aprenden de acuerdo con un procedimiento llamado "cuello de botella de información", que él y dos colaboradores describieron por primera vez en términos puramente teóricos en 1999 . La idea es que una red libera ruidosos datos de entrada de detalles extraños como si estrujando la información a través de un cuello de botella, reteniendo sólo las características más relevantes para los conceptos generales. Nuevos experimentos de computadora por Tishby y su estudiante Ravid Shwartz-Ziv revelan cómo este proceso de apretado ocurre durante el aprendizaje profundo, al menos en los casos que estudiaron.

Los hallazgos de Tishby tienen el zumbido de la comunidad de AI. "Creo que la idea de cuello de botella de información podría ser muy importante en futuras investigaciones de redes neuronales profundas", dijo Alex Alemi de Google Research, quien ya ha desarrollado nuevos métodos de aproximación para aplicar un análisis de cuello de botella de información a grandes redes neuronales profundas. El cuello de botella podría servir "no sólo como una herramienta teórica para entender por qué nuestras redes neuronales funcionan tan bien como lo hacen actualmente, sino también como una herramienta para construir nuevos objetivos y arquitecturas de redes", dijo Alemi.



Algunos investigadores siguen siendo escépticos de que la teoría explica completamente el éxito del aprendizaje profundo, pero Kyle Cranmer , un físico de partículas de la Universidad de Nueva York que utiliza el aprendizaje de máquinas para analizar colisiones de partículas en el Gran Colisionador de Hadrones, dijo que como principio general de aprendizaje, "de alguna manera huele bien".

Geoffrey Hinton , un pionero del aprendizaje profundo que trabaja en Google y la Universidad de Toronto, envió por correo electrónico Tishby después de ver su charla de Berlín. "Es extremadamente interesante", escribió Hinton. "Tengo que escucharlo otras 10.000 veces para entenderlo realmente, pero es muy raro hoy en día oír una charla con una idea realmente original que puede ser la respuesta a un rompecabezas realmente importante".

Según Tishby, que ve el cuello de botella de la información como un principio fundamental detrás del aprendizaje, si usted es un algoritmo, una mosca doméstica, un ser consciente, o un cálculo de física del comportamiento emergente, esa tan esperada respuesta "es que la parte más importante de aprendizaje es realmente olvidar. "

El cuello de botella

Tishby empezó a contemplar el cuello de botella de información alrededor del tiempo que otros investigadores primero estaban meditando sobre redes neurales profundas, aunque ninguno de los dos conceptos había sido nombrado todavía. Era la década de 1980, y Tishby estaba pensando en cómo los seres humanos son buenos en el reconocimiento del habla - un gran desafío para la IA en el momento. Tishby se dio cuenta de que el quid de la cuestión era la cuestión de la relevancia: ¿Cuáles son las características más relevantes de una palabra hablada, y cómo se burlan de ellas de las variables que las acompañan, como acentos, murmuración y entonación? En general, cuando nos enfrentamos al mar de datos que es realidad, ¿qué señales guardamos?



"Esta noción de información relevante fue mencionada muchas veces en la historia pero nunca formulada correctamente", dijo Tishby en una entrevista el mes pasado. "Durante muchos años la gente pensó que la teoría de la información no era la manera correcta de pensar sobre la relevancia, comenzando con conceptos erróneos que van hasta el mismo Shannon".

Claude Shannon, fundador de la teoría de la información, liberó en cierto sentido el estudio de la información a partir de los años cuarenta, permitiéndole ser considerado en abstracto, como 1s y 0s con un significado puramente matemático. Shannon consideró que, como dijo Tishby, "la información no es acerca de la semántica". Pero Tishby argumentó que esto no es cierto. Utilizando la teoría de la información, se dio cuenta, "se puede definir" relevante "en un sentido preciso".

Imagine X es un conjunto de datos complejos, como los píxeles de una foto de perro, e Y es una variable más simple representada por esos datos, como la palabra "perro". Puede capturar toda la información "relevante" en X sobre Y mediante la compresión de Xtanto como sea posible sin perder la capacidad de predecir Y . En su artículo de 1999, Tishby y co-autores Fernando Pereira , ahora en Google, y William Bialek , ahora en la Universidad de Princeton, formuló esto como un problema de optimización matemática. Era una idea fundamental sin aplicación asesina.

"He estado pensando en estas líneas en varios contextos durante 30 años", dijo Tishby. "Mi única suerte fue que las profundas redes neuronales se hicieron tan importantes".

Globos del ojo en caras en la gente en escenas



Aunque el concepto detrás de redes neurales profundas había sido golpeado alrededor por décadas, su funcionamiento en tareas como el reconocimiento del discurso y de la imagen solamente despegó en los 2010s tempranos, debido a regimenes de entrenamiento mejorados y procesadores informáticos más de gran alcance. Tishby reconoció su potencial conexión con el principio de cuello de botella de información en 2014 después de leer un sorprendente artículo de los físicos David Schwab y Pankaj Mehta .

El dúo descubrió que un algoritmo de aprendizaje profundo inventado por Hinton llamado "red de creencias profundas" funciona, en un caso particular, exactamente como la renormalización, una técnica utilizada en la física para alejarse de un sistema físico grueso sobre sus detalles y calculando su estado general. Cuando Schwab y Mehta aplicaron la red de creencias profundas a un modelo de imán en su "punto crítico", donde el sistema es fractal, o auto-similar en cada escala, encontraron que la red usó automáticamente el procedimiento de renormalización para descubrir el estado del modelo. Era una indicación imponente que, como el biophysicist Ilya Nemenman dijo en el momento, "la extracción de características pertinentes en el contexto de la física estadística y la extracción de características pertinentes en el contexto de aprendizaje profundo no son sólo palabras similares, son una y la misma".

El único problema es que, en general, el mundo real no es fractal. "El mundo natural no es oídos en los oídos en los oídos en los oídos; son los ojos en las caras de las personas en las escenas ", dijo Cranmer. "Por lo tanto, no diría que [el procedimiento de renormalización] es por qué el aprendizaje profundo sobre las imágenes naturales está funcionando tan bien". Pero Tishby, que en ese momento estaba recibiendo quimioterapia para el cáncer de páncreas, comprendió que tanto el aprendizaje profundo como el procedimiento de grano grueso podría ser abarcado por una idea más amplia. "Pensar en la ciencia y en el papel de mis viejas ideas fue una parte importante de mi curación y recuperación", dijo



En 2015, él y su estudiante Noga Zaslavsky plantearon la hipótesis de que el aprendizaje profundo es un procedimiento de cuello de botella de información que comprime los datos ruidosos tanto como sea posible, preservando al mismo tiempo la información sobre lo que representan los datos. Los nuevos experimentos de Tishby y Shwartz-Ziv con redes neurales profundas revelan cómo se desarrolla realmente el procedimiento de cuello de botella. En un caso, los investigadores usaron redes pequeñas que podrían ser entrenadas para etiquetar datos de entrada con un 1 o un 0 (pensar "perro" o "sin perro") y dieron sus 282 conexiones neuronales al azar de las fuerzas iniciales. Luego rastrearon lo que ocurrió cuando las redes participaron en el aprendizaje profundo con 3.000 conjuntos de datos de entrada de muestra.

El algoritmo básico utilizado en la mayoría de los procedimientos de aprendizaje profundo para ajustar las conexiones neuronales en respuesta a los datos se denomina "descenso de gradiente estocástico": Cada vez que los datos de entrenamiento se introducen en la red, una cascada de actividad de disparo barre hacia arriba a través de las capas de neuronas artificiales. Cuando la señal alcanza la capa superior, el patrón de disparo final se puede comparar con la etiqueta correcta para la imagen - 1 u 0, "perro" o "no perro". Cualquier diferencia entre este patrón de disparo y el patrón correcto son " propagado "por las capas, lo que significa que, al igual que un profesor que corrige un examen, el algoritmo refuerza o debilita cada conexión para hacer que la capa de red sea mejor al producir la señal de salida correcta. Durante el curso del entrenamiento, los patrones comunes en los datos del entrenamiento se reflejan en las fortalezas de las conexiones,

En sus experimentos, Tishby y Shwartz-Ziv rastrearon la cantidad de información que cada capa de una red neuronal profunda retenía sobre los datos de entrada y la cantidad de información que cada uno retenía sobre la etiqueta de salida. Los científicos encontraron que, capa a capa, las redes convergen con el cuello de botella de información teórico vinculado: un límite teórico derivado en Tishby, Pereira y el documento original de Bialek que representa lo mejor que el sistema puede hacer para extraer información relevante. En el límite, la red ha comprimido la entrada tanto como sea posible sin sacrificar la capacidad de predecir con precisión su etiqueta.

Tishby y Shwartz-Ziv también hicieron el intrigante descubrimiento de que el aprendizaje profundo se desarrolla en dos fases: una breve fase de "adaptación", durante la cual la red aprende a etiquetar sus datos de entrenamiento y una fase mucho más larga de "compresión", durante la cual se convierte en buena en la generalización, medida por su desempeño en el etiquetado de nuevos datos de prueba.






Lucy Reading-Ikkanda / Revista Quanta; adaptado de arXiv: 1703.00810 [cs.LG].

A medida que una red neuronal profunda ajusta sus conexiones por descenso de gradiente estocástico, al principio el número de bits que almacena alrededor de los datos de entrada permanece aproximadamente constante o aumenta ligeramente, ya que las conexiones se ajustan para codificar patrones en la entrada y la red obtiene buenas etiquetas eso. Algunos expertos han comparado esta fase con la memorización.

Luego el aprendizaje cambia a la fase de compresión. La red comienza a deshacerse de información sobre los datos de entrada, manteniendo un registro de sólo las características más fuertes - las correlaciones que son más relevantes para la etiqueta de salida. Esto sucede porque, en cada iteración del descenso de gradiente estocástico, las correlaciones más o menos accidentales en los datos de entrenamiento indican a la red que haga cosas diferentes, marcando las fortalezas de sus conexiones neuronales hacia arriba y hacia abajo en una caminata aleatoria. Esta aleatorización es efectivamente la misma que comprimir la representación del sistema de los datos de entrada. Como ejemplo, algunas fotos de perros pueden tener casas en el fondo, mientras que otras no. Como una red de ciclos a través de estas fotos de formación, que podría "olvidar" la correlación entre las casas y los perros en algunas fotos como otras fotos contrarrestar. Es este olvido de los detalles, argumentan Tishby y Shwartz-Ziv, que permite al sistema formar conceptos generales. De hecho, sus experimentos revelaron que las redes neuronales profundas aumentan su rendimiento de generalización durante la fase de compresión, mejorando en los datos de prueba de etiquetado. (Una red neuronal profunda entrenada para reconocer a los perros en las fotos puede ser probada en nuevas fotos que pueden o no incluir a los perros, por ejemplo).

Queda por ver si el cuello de botella de información gobierna todos los regímenes de aprendizaje profundo, o si existen otras vías de generalización además de la compresión. Algunos expertos en IA ven la idea de Tishby como una de las muchas ideas teóricas importantes sobre el aprendizaje profundo que han surgido recientemente. Andrew Saxe , investigador de IA y neurocientífico teórico en la Universidad de Harvard, señaló que ciertas redes neurales profundas muy grandes no parecen necesitar una fase de compresión prolongada para generalizar bien. En cambio, los investigadores programan algo llamado detención temprana, que corta el entrenamiento corto para evitar que la red codifique demasiadas correlaciones en el primer lugar.

Tishby sostiene que los modelos de red analizados por Saxe y sus colegas difieren de las arquitecturas de redes neuronales profundas estándar, pero que, sin embargo, el cuello de botella de información define el desempeño de generalización de estas redes mejor que otros métodos. Los experimentos más recientes de Tishby y Shwartz-Ziv, no incluidos en su trabajo preliminar, en los que entrenan redes neuronales mucho más grandes, de 330.000 conexiones de profundidad, para reconocer los dígitos escritos a mano el Instituto Nacional Modificado de Estándares y Tecnología de 60.000 imágenes, un referente bien conocido para medir el rendimiento de los algoritmos de aprendizaje profundo. Los científicos vieron la misma convergencia de las redes con el cuello de botella de información teórica vinculada; también observaron las dos fases distintas del aprendizaje profundo, separadas por una transición aún más nítida que en las redes más pequeñas. "Estoy completamente convencido ahora de que este es un fenómeno general", dijo Tishby.

Humanos y Máquinas

El misterio de cómo los cerebros tamizan las señales de nuestros sentidos y elevándolas al nivel de nuestra conciencia despertaba gran parte del interés temprano en profundas redes neuronales entre los pioneros de la IA, quienes esperaban invertir la ingeniería de las reglas de aprendizaje del cerebro. Los practicantes de la IA han abandonado en gran medida ese camino en medio de la loca carrera por el progreso tecnológico, en lugar de eso, abofeteando las campanas y silbidos que aumentan el rendimiento con poca consideración por la plausibilidad biológica. Sin embargo, a medida que sus máquinas de pensamiento alcanzan proezas cada vez mayores -incluso alimentando temores de que AI pueda algún día representar una amenaza existencial- muchos investigadores esperan que estas exploraciones descubran ideas generales sobre el aprendizaje y la inteligencia.

La parte más importante del aprendizaje es realmente el olvido.



Brenden Lake , profesor asistente de psicología y ciencias de la información en la Universidad de Nueva York, que estudia similitudes y diferencias en cómo aprenden los seres humanos y las máquinas, dijo que los hallazgos de Tishby representan "un paso importante hacia la apertura de la red negra de redes neuronales" el cerebro representa una caja negra mucho más grande y negra. Nuestros cerebros adultos, que cuentan con varios cientos de trillones de conexiones entre 86 millones de neuronas, emplean con toda probabilidad una bolsa de trucos para mejorar la generalización, que va más allá de los procedimientos básicos de aprendizaje de reconocimiento de imagen y sonido que ocurren durante la infancia aprendizaje profundo.

Por ejemplo, Lake dijo que las fases de adaptación y compresión que Tishby identificó no parecen tener análogos en la forma en que los niños aprenden caracteres escritos a mano, que él estudia. Los niños no necesitan ver miles de ejemplos de un personaje y comprimir su representación mental durante un período de tiempo prolongado antes de que sean capaces de reconocer otros ejemplos de esa letra y escribirlos ellos mismos. De hecho, pueden aprender de un solo ejemplo. Modelos de Lake y sus colegassugieren que el cerebro puede deconstruir la nueva letra en una serie de trazos -construcciones mentales previamente existentes- que permiten que la concepción de la letra se adhiera a un edificio de conocimiento previo. "En vez de pensar en una imagen de una letra como un patrón de píxeles y aprender el concepto como mapear esas características" como en los algoritmos estándar de aprendizaje de máquina, explicó Lake, "en lugar de eso intento construir un modelo causal simple de la letra" un camino más corto a la generalización.

Tales ideas inteligentes pueden contener lecciones para la comunidad de AI, promoviendo el ida y vuelta entre los dos campos. Tishby cree que su teoría del cuello de botella de la información en última instancia resultará útil en ambas disciplinas, incluso si toma una forma más general en el aprendizaje humano que en AI. Una intuición inmediata que se puede extraer de la teoría es una mejor comprensión de qué tipos de problemas pueden ser resueltos por redes neuronales reales y artificiales. "Da una caracterización completa de los problemas que se pueden aprender", dijo Tishby. Estos son "problemas donde puedo eliminar el ruido en la entrada sin perjudicar mi capacidad de clasificar. Esto es problemas naturales de la visión, reconocimiento del discurso. Estos son precisamente los problemas con los que nuestro cerebro puede hacer frente ".



Mientras tanto, tanto las redes neuronales reales como las artificiales tropiezan con problemas en los que cada detalle importa y las diferencias minuciosas pueden descartar todo el resultado. La mayoría de las personas no pueden multiplicar rápidamente dos grandes números en sus cabezas, por ejemplo. "Tenemos una larga clase de problemas como este, problemas lógicos que son muy sensibles a los cambios en una variable", dijo Tishby. "Clasibilidad, problemas discretos, problemas criptográficos. No creo que el aprendizaje profundo me ayude a romper los códigos criptográficos ".

Generalizar - atravesar el cuello de botella de información, tal vez - significa dejar algunos detalles detrás. Esto no es tan bueno para hacer álgebra sobre la marcha, pero eso no es un negocio principal del cerebro. Buscamos rostros familiares en la multitud, orden en el caos, señales sobresalientes en un mundo ruidoso.


FUENTE:      www.quantamagazine.org 

No hay comentarios