Introducción a la personalización de un modelo de lenguaje grande (LLM) clásico

Solo se aplica a:Portal de Foundry (clásico). Este artículo no está disponible para el nuevo portal de Foundry. Obtenga más información sobre el nuevo portal.

Nota:

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

Hay varias técnicas para adaptar un modelo de lenguaje entrenado previamente para adaptarse a una tarea o un dominio específicos. Estos incluyen ingeniería de avisos, RAG (generación aumentada de recuperación) y ajuste preciso. Estas tres técnicas no son mutuamente excluyentes, pero son métodos complementarios que en combinación pueden aplicarse a un caso de uso específico. En este artículo, exploraremos estas técnicas, casos de uso ilustrativos, aspectos que se deben tener en cuenta y proporcionaremos vínculos a recursos para obtener más información y get started con cada uno.

Ingeniería rápida

Definición

Laingeniería de solicitudes es una técnica que es a la vez arte y ciencia, que consiste en diseñar solicitudes para modelos generativos de IA. Este proceso utiliza el aprendizaje en contexto (zero shot y few shot) y con iteración, mejora la precisión y la relevancia en las respuestas, optimizando el rendimiento del modelo.

Casos de uso ilustrativos

Un administrador de marketing de una empresa concienciada con el medio ambiente puede usar la ingeniería de solicitudes para ayudar a guiar el modelo para generar descripciones que estén más alineadas con el tono y el estilo de su marca. Por ejemplo, pueden agregar una solicitud a la entrada como "Escribir una descripción del producto para una nueva línea de productos de limpieza ecológicos que destaque la calidad, la eficacia y resalte el uso de ingredientes respetuosos con el medio ambiente". Esto ayudará al modelo a generar descripciones que estén alineadas con los valores y la mensajería de su marca.

Cosas que hay que tener en cuenta

  • La ingeniería de solicitudes es el punto de partida para generar los resultados deseados a partir de modelos generativos de IA.

  • Crear instrucciones claras: las instrucciones se usan normalmente en mensajes y guían el comportamiento del modelo. Sea específico y deje tan poco espacio para la interpretación como sea posible. Use analogías y lenguaje descriptivo para ayudar al modelo a comprender el resultado deseado.

  • Experimentar e iterar: la ingeniería de indicaciones es un arte que requiere experimentación e iteración. Practique y obtenga experiencia en la elaboración de indicaciones para diferentes tareas. Cada modelo puede comportarse de forma diferente, por lo que es importante adaptar las técnicas de ingeniería de solicitudes en consecuencia.

Comenzar

RAG (generación aumentada de recuperación)

Definición

RAG (generación aumentada de recuperación) es un método que integra datos externos en una solicitud de modelo de lenguaje grande para generar respuestas pertinentes. Este enfoque es especialmente beneficioso cuando se usa un gran corpus de texto no estructurado basado en temas diferentes. Permite que las respuestas se basen en la knowledge base (KB) de la organización, lo que proporciona una respuesta más personalizada y precisa.

RAG también resulta ventajoso a la hora de responder a preguntas basadas en los datos privados de una organización o cuando los datos públicos con los que se entrenó el modelo pueden haber quedado obsoletos. Esto ayuda a garantizar que las respuestas estén siempre actualizadas y relevantes, independientemente de los cambios en el entorno de datos.

Caso de uso ilustrativo

Un departamento corporativo de RRHH busca proporcionar un asistente inteligente que responda a preguntas específicas de los empleados relacionadas con el seguro médico, como "¿están cubiertas las gafas?" RAG se usa para la ingesta de los extensos y numerosos documentos asociados a las directivas de los planes de seguros para poder responder a este tipo específico de preguntas.

Cosas que hay que tener en cuenta

  • RAG ayuda a fundamentar los resultados de la IA en datos del mundo real y reduce la probabilidad de invención.

  • RAG es útil cuando hay que responder a preguntas basadas en datos privados patentados.

  • RAG es útil cuando es posible que desee respuestas a preguntas que sean recientes (por ejemplo, antes de la fecha límite en la que se entrenó por última vez la versión de model).

Comenzar

Ajuste preciso

Definición

Fine-tuning, específicamente ajuste fino supervisado en este contexto, es un proceso iterativo que adapta un modelo de lenguaje grande existente a un conjunto de datos de entrenamiento proporcionado para mejorar el rendimiento, enseñar al modelo nuevas habilidades o reducir la latencia. Este enfoque se usa cuando el modelo necesita aprender y generalizar sobre temas específicos, en particular cuando estos temas son generalmente de pequeño alcance.

El ajuste preciso requiere usar datos de entrenamiento de alta calidad, en un formato especial basado en ejemplos, para crear el nuevo modelo de lenguaje grande optimizado. Al centrarse en temas específicos, el ajuste preciso permite que el modelo proporcione respuestas más precisas y pertinentes dentro de esas áreas de interés.

Caso de uso ilustrativo

Un departamento de TI ha estado usando GPT-4o para convertir consultas en lenguaje natural a SQL, pero han descubierto que las respuestas no siempre se basan de forma fiable en su esquema, y el costo es excesivamente alto.

Realizan un ajuste preciso de GPT-4o mini con cientos de peticiones y respuestas correctas y producen un modelo que funciona mejor que el modelo base con menores costes y latencia.

Cosas que hay que tener en cuenta

  • El ajuste preciso es una funcionalidad avanzada; mejora el LLM con conocimientos posteriores a la fecha de corte o conocimientos específicos del dominio. Comience por evaluar el rendimiento de referencia de un modelo estándar con respecto a sus requisitos antes de considerar esta opción.

  • Disponer de una línea de base para el rendimiento sin ajuste preciso es esencial para saber si el ajuste preciso ha mejorado el rendimiento del modelo. El ajuste preciso con datos incorrectos empeora el modelo base, pero sin una línea de base, es difícil detectar regresiones.

  • Entre los casos adecuados para el ajuste fino se encuentran: dirigir el modelo para producir contenido en un estilo, tono o formato específico y personalizado, o en tareas donde la información necesaria para guiar el modelo es demasiado larga o compleja para que quepa en la ventana de solicitud.

  • Costes del ajuste preciso:

    • El ajuste preciso puede reducir los costes en dos dimensiones: (1) usando menos tokens en función de la tarea (2) usando un modelo más pequeño (por ejemplo, GPT-4o mini puede ajustarse potencialmente para lograr la misma calidad que GPT-4o en una tarea concreta).

    • El ajuste preciso tiene costos iniciales para entrenar el modelo. Y costes adicionales por hora para hospedar el modelo personalizado una vez implementado.

Comenzar