Y no voy a hacer algo diferente en este artículo, aunque el título y su mención al misterio, pueda sugerir otra cosa. Pero sí voy a reconocer esa pequeña dosis de misterio, o inspiración o, si se quiere, ingenio, que afecta al diseño de arquitecturas y algoritmos de machine learning en general y deep learning en particular.
Deep learning y el rigor
Como comentaba recientemente en el artículo titulado, 'Con el debido respeto: los ingenieros y la ética de la Inteligencia Artificial', la inteligencia artificial y el deep learning son formas de ingeniería que unen, sobre todo, dos disciplinas, las matemáticas y la ingeniería de software, dos disciplinas, y muy especialmente las matemáticas, que se caracterizan por el rigor, la lógica y la deducción.
Poco misterio.
En ese sentido, conviene, una vez más, desterrar fantasías y dejar de pensar en entes con voluntad propia o designios misteriosos y ocultos para los humanos.
Que no. Que nada de eso. Que nada de fantasías. Que hablamos básicamente de matemáticas implementadas en software. Lógica, rigor y deducción.
Y sin embargo...
Diseño de deep learning, inspiración y misterio.
Y, sin embargo, sí que hay un puntito de misterio en lo que rodea al deep learning y al machine learning.
Pero no es un misterio referente a su funcionamiento o sus 'intenciones ocultas'.
No, es un misterio, más bien una necesidad de intuición e ingenio (ingenio humano, por cierto), y una necesidad de exploración, que rodea a su diseño y que, en el fondo, ya he visto reflejada hace muchos años en otras ramas de las matemáticas.
Y es que, a pesar de su carácter matemático, a pesar del 'know-how' adquirido en los últimos años, a pesar de que los mayores expertos en redes neuronales tienen buenas aproximaciones a lo que pueden conseguir con una arquitectura u otra, con un tipo de capa u otra, con unas funciones de activación u otras, con un algoritmo de aprendizaje u otro, lo cierto es que todavía, cuesta entender de manera profunda y completa cómo funcionan estas redes en realidad, por qué funcionan tan bien para algunos problemas y, sobre todo, en qué tipo de problemas y con qué arquitecturas podemos tener buenos resultados. Y cuesta tener una metodología estricta, procedimentada y cerrada para el diseño de redes neuronales u otros algoritmos de machine learning.
Y así, cuando se intenta diseñar una nueva arquitectura de red neuronal o abordar un problema nuevo, no todo es deducción o lógica pautada. Hay conocimiento, si. Hay experiencia, si. Hay ciertas reglas o buenas prácticas ya entendidas, si. Pero hay también una cierta dosis de exploración, de ingenio, de ensayo y error hasta dar con la arquitectura, el modelo, que estamos buscando y que funciona bien para el problema que queremos resolver o que mejora el comportamiento de redes precedentes.
Un poco en esa línea va esta frase del libro 'Artificial Intelligence. A modern approach' de Stuart Russell y Peter Norvig, y que debo reconocer que me sorprendió un poco al leerla. Dicen:
... the true reasons for the success of deep learning have yet to be fully elucidated
una frase que se pregunta no sólo ya por las mejores arquitecturas para casos concretos sino incluso el motivo último de que este tipo de algoritmos sean tan exitosos. Personalmente, tengo alguna hipótesis de trabajo al respecto, pero que de momento me voy a guardar.
En cualquier caso, ese cierto misterio, desconocimiento si se prefiere, o necesidad de exploración, está ahí.
Y también aplica al diseño de redes concretas. Los mismos autores dicen unas páginas más adelante:
there is little understanding as to why some structures seem to work better than others for some particular problem.
La opción MLOps
En ese sentido, los autores sugieren una forma de trabajar que enlazaría, entiendo, con la idea de MLOps, es decir una cierta automatización de la exploración e incluso combinación de modelos.
For this reason, tools that facilitate rapid exploration and evaluation of different structures are essential for success in real-world problems.
De alguna manera, estas herramientas de MLOps, junto con otras funciones, automatizan y aceleran ese 'ensayo y error' (es cierto que solo para arquitecturas y modelos ya conocidos) y, sin eliminar del todo el puntito de misterio o desconocimiento sobre las razones últimas de la adecuación de un modelo o arquitectura u otro, sí que operativizan el diseño y eliminan parcialmente el misterio a nivel metodológico y práctico y, quizá, una vez conseguido el modelo óptimo se pueda intentar razonar a posteriori, 'a toro pasado' por qué ese modelo funciona bien y mejor que otros.
El misterio continua
Y quizá, sólo quizá, de esa forma, junto con otro tipo de análisis e investigaciones más orientadas a definir arquitecturas, modelos o algoritmos completamente nuevos, podamos ir eliminado algunas capas de misterio.
Quizá, pero, de momento, el misterio continua...