La interpretación de las redes neuronales

Publicado el 16 noviembre 2018 por Daniel Rodríguez @analyticslane

Las redes neuronales profundas han demostrado ser una de las herramientas más potentes a la hora de realizar predicciones. Existen pocas técnicas en el aprendizaje automático que permitan alcanzar el nivel de precisión que ofrecen estas. Por eso no es de extrañar que el número de casos de éxito en los que son utilizadas no haga más que aumentar. Aún así, su utilización es rechazada en muchos entornos por ser considerados sistemas de "caja negra". Sistemas en los que no se puede "comprender" fácilmente por qué el modelo ha llegado a la conclusión. Así la dificultad para obtener una interpretación de las redes neuronales provoca que se utilicen otras técnicas que son más fáciles de interpretar. A pesar de que estos sean más precisos que otros modelos en los que sí sea posible indicar cómo se ha llegado a la conclusión.

Bases de rechazo de los modelos de redes neuronales

Básicamente, el fundamento del rechazo nace en la imposibilidad de justificar los resultados en base a una combinación lineal simple de los valores de entrada. Por ejemplo, en una regresión lineal múltiple es posible identificar que características afectan a los resultados. Pudiéndose conocer tanto en la intensidad como el sentido que afecta cada característica al resultado final. En las redes neuronales profundas esto no es posible de forma genérica. Simplificando, en estos modelos el resultado final no depende de las características de entrada, sino que de las transformaciones realizadas sobre estas en las capas intermedias. Cada una de las cuales es un modelo en sí.

Al utilizar estos argumentos para justificar el rechazo de los modelos basados en redes neuronales profundas lo que se está diciendo es que la realidad detrás de los modelos no puede ser compleja. Lo que claramente no es cierto. Asumiendo de esta forma que solamente se puede predecir aquello que se puede entender en términos lineales.

Este punto se justifica habitualmente por la accionabilidad de los resultados. Al conocer cómo afecta una característica al resultado final, se puede buscar o evitar esta. Por ejemplo, la edad de los clientes puede indicar la rentabilidad de estos. Pero esta puede cambiar en función a otras características de forma no lineal. Por lo que buscar únicamente un grupo de edad puede no ser la mejor estrategia.

Posibilidad de obtener resultados absurdos con redes neuronales

Otra justificación para la no utilización del modelo basados en redes neuronales profundas es la posibilidad de que se obtengan resultados absurdos. Esto puede suceder en casi todos los tipos de modelos, incluso en una simple regresión lineal. Estas, fuera del rango de ajuste, también pueden ofrecer valores que se pueden considerar como absurdos. Aún así no son rechazados, simplemente no son utilizados fuera de su rango de definición.

Conclusiones

En resumen, la no utilización de estos modelos se sustenta principalmente en la incomodidad que produce no poder comprender sus resultados. Entendiendo por "comprender" que estos se pueden explicar de forma sencilla en función de las características de entrada. En ciertos entornos esto se puede justificar por la accionabilidad, la posibilidad de usar los modelos no solo para predecir, sino que también para definir estrategias.

Imágenes: Pixabay (Gerd Altmann)