Un reciente análisis de McKinsey & Company ha proyectado que la inteligencia artificial generativa podría adicionar entre 2.6 y 4.4 billones de dólares al valor económico global, subrayando su capacidad de transformación en áreas como operaciones con clientes, marketing, ventas, ingeniería de software e investigación y desarrollo. Este promisor impacto económico ha impulsado a numerosas empresas a embarcarse en el desarrollo de aplicaciones de IA generativa dentro de la infraestructura de Amazon Web Services (AWS).
No obstante, los responsables de producto y arquitectos empresariales enfrentan el desafío de comprender los costos involucrados y cómo optimizarlos eficientemente. Este artículo aborda estas consideraciones de costo, presuponiendo que los lectores tienen un entendimiento básico sobre conceptos como modelos de base, grandes modelos de lenguaje, tokens y bases de datos vectoriales en AWS.
Uno de los marcos ampliamente adoptados en la implementación de soluciones de IA generativa es la Generación Aumentada por Recuperación (RAG), que faculta a los modelos de lenguaje para responder a consultas específicas con base en datos corporativos. En este entorno, se exploran los principios de la optimización de costos y rendimiento, incluyendo la selección, elección y personalización de modelos, así como la gestión de tokens, los planes de precios de inferencia y otros elementos.
La selección del modelo es fundamental, ya que implica identificar aquel que mejor se ajuste a las necesidades planteadas, seguido de una validación rigurosa con conjuntos de datos de calidad. La elección de modelos se refiere al proceso de seleccionar un modelo apropiado en función de su costo y capacidad de rendimiento, mientras que la personalización se centra en adaptar modelos ya existentes mediante datos de entrenamiento adicionales para mejorar su eficiencia.
El examen del uso de tokens es esencial, pues el costo operativo de un modelo de IA generativa está directamente vinculado al número de tokens procesados. Implementar límites en el número de tokens y utilizar estrategias de caché puede resultar en una reducción de costos significativa.
Dentro de las opciones de precios de inferencia, AWS proporciona modalidades como el servicio bajo demanda, adecuado para la mayoría de los modelos, y el rendimiento provisionado, que asegura un nivel definido de rendimiento a un costo mayor. Otros factores complementarios incluyen medidas de seguridad tales como filtros de contenido, el costo del uso de bases de datos vectoriales y las técnicas de fragmentación de datos, factores que pueden influir tanto en la precisión como en los costos globales.
Por ejemplo, los costos pueden fluctuar considerablemente según el volumen de interacciones que una aplicación de asistente virtual experimente. Se presentan casos que ilustran cómo los costos anuales pueden variar en diferentes escenarios, obteniendo desde 12,577 hasta 134,252 dólares al emplear modelos de lenguaje como Claude 3 de Anthropic.
Finalmente, se discuten las repercusiones del uso de servicios como Amazon Bedrock para acceder a modelos de alto rendimiento, junto con el manejo de guardrails que ayudan a controlar el contenido y a aumentar la seguridad en las aplicaciones. Esto cobra crucial importancia en un contexto donde un asistente virtual puede interactuar sobre un amplio rango de temas y es necesario evitar la producción de contenido inapropiado.
Conforme la inteligencia artificial generativa sigue avanzando, es crucial que las organizaciones se mantengan actualizadas respecto a cómo sus costos pueden variar y optimizarlos para asegurar el máximo provecho. En futuras publicaciones, se profundizará en aspectos vinculados con la estimación del valor comercial y los factores que influyen en esta valoración.