Desmontando el mito: “La IA puede aprender sin intervención humana” [Mitos de la Inteligencia Artificial 11]

Publicado el 30 julio 2024 por Daniel Rodríguez @analyticslane

Los desarrollos recientes en la inteligencia artificial (IA) han capturado la imaginación del público y ha generado innumerables mitos y malentendidos. Muchos de ellos alimentados por los relatos de ciencia ficción. Uno de los más difíciles de aclarar es el que afirma que la IA puede aprender y desarrollarse sin la intervención humana. Algo que también puede venir de los avances que se han observado en el campo del Aprendizaje Automático (Machine Learning) que puede dar la sensación de que las máquinas aprenden solas. Sin embargo, esta visión está muy lejos de la realidad. Una vez entrenados los sistemas de IA, estos pueden operar solos sin intervención humana, pero para su entrenamiento es necesario la supervisión de personas. En esta entrada, se explicará cómo funciona realmente el aprendizaje automático y la dependencia que tienen estos modelos en disponer de conjuntos de datos correctamente preparados y etiquetados por parte de humanos, sin los que sería imposible aprender.

¿Qué es el aprendizaje automático?

El aprendizaje automático (Machine Learning) es una rama de la inteligencia artificial que se enfoca en el desarrollo de algoritmos y modelos que permiten a las máquinas aprender a partir de conjuntos de datos. Extrayendo los patrones que se ocultan dentro de estos. Así, en lugar de ser explícitamente programados para realizar una tarea, los modelos de aprendizaje automático utilizan datos para identificar patrones y poder tomar decisiones. Los principios básicos del aprendizaje automático son:

  1. Entrenamiento: El proceso mediante el cual un modelo se ajusta utilizando datos de entrada para minimizar los errores en sus predicciones.
  2. Validación: Evaluar el rendimiento del modelo en un conjunto de datos separados del conjunto de entrenamiento para ajustar los hiperparámetros y prevenir el sobreajuste.
  3. Prueba: Medir la precisión y generalización del modelo en un conjunto de datos completamente nuevo no usado durante la fase de entrenamiento ni de validación.
  4. Inferencia: Utilizar el modelo entrenado para hacer predicciones sobre datos nuevos.

Tipos de aprendizaje automático

Existen varios tipos de aprendizaje automático, cada uno con sus propias características y aplicaciones:

  1. Aprendizaje supervisado: Los modelos son entrenados con datos etiquetados, donde cada ejemplo de entrenamiento incluye una entrada y una salida esperada. Por ejemplo, los modelos de clasificación y regresión.
  2. Aprendizaje no supervisado: Los modelos trabajan con datos no etiquetados y buscan estructuras o patrones inherentes en los datos. Por ejemplo, el análisis de clustering.
  3. Aprendizaje por refuerzo: Los agentes aprenden a tomar decisiones mediante la interacción con un entorno y la obtención de recompensas o penalizaciones en función de sus acciones.

A pesar de su nombre, el aprendizaje no supervisado, no hace referencia a que el modelo aprender solo, sin intervención humana, sino que los resultados que deben obtener no son fijados en el entrenamiento. Por ejemplo, el agrupamiento de los clientes en segmentos se puede hacer en base a su comportamiento sin decir al modelo a qué grupo pertenece cada uno de los clientes usados en entrenamiento, como se hace en aprendizaje supervisado.

La importancia de los datos de entrenamiento para los modelos de IA

El éxito de un modelo de aprendizaje automático depende en gran medida de la calidad y cantidad de los datos usados para su entrenamiento. Si los datos no son adecuados, el modelo no funcionará como se espera. Los datos deben ser representativos del problema que se desea resolver con el modelo. La preparación de los datos incluye varias etapas en la que los expertos humanos son cruciales:

  1. Recopilación de datos: Obtener una cantidad suficiente de datos relevantes es el primer paso. Los datos pueden provenir de diversas fuentes, como bases de datos, sensores, encuestas, o incluso haber sido generados sintéticamente.
  2. Limpieza de datos: Eliminar los errores, los valores atípicos y los datos irrelevantes es clave para asegurar que el modelo no aprenda patrones incorrectos.
  3. Preprocesamiento de datos: Normalizar, escalar y transformar los datos en un formato adecuado para el modelo también es una tarea crítica.
  4. Etiquetado de datos: En aprendizaje supervisado, los datos deben estar etiquetados con las respuestas correctas para cada registro. Un proceso que generalmente debe ser realizado por personas.

El proceso de etiquetado de datos es una tarea que suele ser laboriosa y, en muchos casos, requiere una cantidad ingente de trabajo humano. Por ejemplo, para entrenar un modelo de clasificación de imágenes es necesario contar con miles de fotografías en las que se identifiquen los objetos que contienen para que una IA pueda aprender a identificar los elementos. Además, también es necesario curar los datos. Es decir, seleccionar y verificar la calidad de los datos para asegurar que sean representativos y libres de sesgos.

Ejemplo de datos que deben ser etiquetados en aplicaciones actuales

Algunos ejemplos de aplicaciones prácticas donde el etiquetado humano es crucial son:

  1. Reconocimiento de imágenes médicas: Radiografías, resonancias magnéticas y tomografías computarizadas deben ser etiquetadas por expertos médicos para entrenar modelos de diagnóstico.
  2. Procesamiento del lenguaje natural (PLN): Modelos de PLN requieren grandes corpus de texto etiquetados con información sintáctica y semántica, a menudo anotados por lingüistas.
  3. Vehículos autónomos: Los sistemas desarrollados para los vehículos autónomos requieren grandes conjuntos de datos etiquetados para identificar señales de tráfico, peatones y otros vehículos.

Evaluación y revisión de modelos

Una vez que se ha entrenado un modelo, es necesario evaluar su rendimiento para asegurarse de que funciona correctamente. Comparando su rendimiento con otros modelos. Este proceso implica:

  • Evaluación de métricas de rendimiento: Utilizar métricas de rendimiento, como precisión, exactitud, F1-score para clasificación, y error cuadrático medio para regresión. Lo que se debe de hacer en conjuntos de datos que no ha visto previamente el modelo.
  • Detección de sesgos: Identificar y mitigar cualquier sesgo en el modelo para asegurar que no discrimine injustamente contra ningún grupo particular.

Además de esto, es necesario recordar que los modelos de IA no son soluciones estáticas. Requieren revisiones y actualizaciones periódicas para mantener su validez. Lo que requiere un monitoreo continuo del redimieron y, cuando este cae, reentrenamiento de los modelos con nuevos conjuntos de datos. Proceso que requiere la supervisión humana.

Limitaciones de la IA para aprender sin intervención humana

La idea de que la IA puede aprender y desarrollarse sin la intervención humana es algo que se muestra en numerosas obras de ciencia ficción. En las que las IA llega a superar a sus creadores humanos. Esto es algo que está muy lejos de suceder con los modelos de IA actuales. Incluso los modelos más avanzados de IA tienen limitaciones para para aprender de manera completamente autónoma. Algunas de estas limitaciones son:

  1. Falta de entendimiento conceptual: La IA puede identificar patrones y hacer predicciones, pero no entiende el significado subyacente de los datos como lo hacen los humanos.
  2. Riesgo de sesgos: Sin intervención humana, los modelos de IA pueden perpetuar o incluso amplificar sesgos presentes en los datos de entrenamiento.
  3. Necesidad de supervisión: Los sistemas de IA requieren supervisión constante para asegurar que funcionen correctamente y no tomen decisiones erróneas.

Conclusiones

El mito de que la IA puede aprender sin intervención humana es una simplificación que no refleja el estado actual de cómo se entrenan los sistemas de inteligencia artificial. Aunque una vez entrenados los modelos pueden funcionar más o menos solos, su entrenamiento requiere supervisión. La preparación y etiquetado de datos, la supervisión y ajuste de modelos, y la revisión periódica son aspectos críticos que requieren la participación de los humanos.

Desmitificar esta idea es esencial para una comprensión realista de las capacidades y limitaciones de la IA.

Imagen de Alexandra_Koch en Pixabay