Comprender cuándo optimizar un modelo de lenguaje
Ajustar un modelo de lenguaje proporciona un mayor control sobre cómo se comporta el modelo, lo que le ayuda a lograr respuestas coherentes en un estilo, formato y tono específicos. Aquí aprenderá cuándo usar el ajuste fino y explorará cinco técnicas clave de ajuste fino.
A partir del enfoque más básico:
- Ajuste supervisado para el entrenamiento con ejemplos etiquetados
Y cuatro técnicas más avanzadas:
- Ajuste de las llamadas a funciones para la integración de la API y una salida estructurada
- Ajuste de la visión para tareas de comprensión de imágenes
- Ajuste de refuerzo para el entrenamiento basado en recompensas
- Optimización directa de preferencias para la alineación mediante pares de preferencias
Comencemos comparando el ajuste preciso con otras técnicas de optimización para modelos y agentes.
Comprender cuándo usar el ajuste fino
Cuando quiera desarrollar una aplicación de chat con Microsoft Foundry, puede usar el flujo de mensajes para crear una aplicación de chat integrada con un modelo de lenguaje para generar respuestas. Para mejorar la calidad de las respuestas que genera el modelo, puede probar varias estrategias. La estrategia más sencilla es aplicar la ingeniería rápida. Puede cambiar la forma en que da formato a la pregunta, pero también puede actualizar el mensaje del sistema que se envía junto con el mensaje al modelo de lenguaje.
La ingeniería de indicaciones es una manera rápida y sencilla de mejorar cómo actúa el modelo y lo que el modelo necesita saber. Si desea mejorar aún más la calidad del modelo, hay dos técnicas comunes que se usan:
- Generación Aumentada mediante Recuperación (RAG): Fundamente sus datos recuperando primero el contexto de un origen de datos antes de generar una respuesta.
- Ajuste preciso: entrene un modelo de lenguaje base en un conjunto de datos antes de integrarlo en la aplicación.
RAG se aplica normalmente cuando se necesitan las respuestas del modelo para ser fácticas y fundamentadas en datos específicos. Por ejemplo, quiere que los clientes hagan preguntas sobre los hoteles que ofrece en el catálogo de reservas de viajes. Por otro lado, si desea que el modelo se comporte de una manera determinada, el ajuste fino puede ayudarle a lograr su objetivo. También puede usar una combinación de estrategias de optimización, como RAG y un modelo finamente ajustado, para mejorar su aplicación de lenguaje.
La forma en que el modelo debe actuar principalmente se relaciona con el estilo, el formato y el tono de las respuestas generadas por un modelo. Cuando desee que el modelo se ajuste a un estilo y formato específicos al responder, puede indicar al modelo que lo haga también a través de la ingeniería de indicaciones. Sin embargo, a veces, la ingeniería de indicaciones podría no dar lugar a resultados coherentes. Todavía puede ocurrir que un modelo omita las instrucciones y se comporte de forma diferente.
Dentro de la ingeniería de prompts, una técnica que se utiliza para "forzar" al modelo a generar un resultado en un formato específico es proporcionar al modelo varios ejemplos de cómo podría ser el resultado deseado, también conocido como one-shot (un ejemplo) o few-shot (pocos ejemplos). Sin embargo, puede ocurrir que el modelo no siempre genere la salida en el estilo y el formato especificados.
Para maximizar la coherencia del comportamiento del modelo, puede ajustar un modelo base con sus propios datos de entrenamiento.
Exploración de técnicas de ajuste preciso
Microsoft Foundry admite varias técnicas de ajuste preciso, cada una diseñada para diferentes casos de uso y funcionalidades de modelo:
Aplicar ajuste fino supervisado
El ajuste fino supervisado es el enfoque más básico y común en el que se entrena un modelo base en datos de ejemplo etiquetados. Proporciona al modelo conversaciones de ejemplo que muestran el comportamiento deseado, incluidos los mensajes del sistema, las solicitudes del usuario y las respuestas del asistente. Esta técnica es ideal para enseñar los formatos, estilos, tonos o comportamientos específicos del dominio del modelo.
El ajuste fino supervisado se admite para modelos como GPT-4, GPT-4o, GPT-3.5-Turbo y muchos otros modelos fundamentales del catálogo de modelos. Este es el punto de partida recomendado para la mayoría de los escenarios de ajuste.
Implementación del ajuste de refuerzo
El ajuste de refuerzo (RFT) es una técnica avanzada que mejora los modelos de razonamiento mediante el entrenamiento a través de un proceso basado en recompensas, en lugar de basarse solo en datos etiquetados. En lugar de proporcionar respuestas de ejemplo, se proporcionan avisos y un calificador que puntúa la calidad de las salidas del modelo. El modelo aprende a generar mejores respuestas maximizando la señal de recompensa.
RFT es especialmente útil para:
- Razonamiento complejo y tareas de resolución de problemas
- Escenarios en los que los ejemplos etiquetados son limitados
- Casos en los que desea que el modelo desarrolle estrategias de razonamiento sofisticadas
RFT es compatible con modelos de razonamiento avanzados como o4-mini y gpt-5. Al usar RFT, debe definir un calificador (como la comparación de texto, o calificadores basados en modelos o código personalizado) que evalúa las salidas del modelo durante el entrenamiento.
Alineación con la optimización de preferencias directas
La optimización de preferencias directas (DPO) es una técnica de alineación avanzada que ajusta los pesos del modelo en función de las preferencias humanas. En lugar de proporcionar respuestas de ejemplo única, se proporcionan pares de respuestas (una preferida y otra no preferida) para cada solicitud. El modelo aprende a generar salidas más similares a los ejemplos preferidos.
El DPO es especialmente útil cuando:
- No hay ninguna respuesta correcta clara
- Los elementos subjetivas, como las preferencias de tono, estilo o contenido, son importantes
- Tiene datos de preferencias de registros de usuario, pruebas A/B o anotaciones manuales.
- Quieres una alternativa computacionalmente más ligera al aprendizaje de refuerzo basado en retroalimentación humana (RLHF)
DPO es compatible con modelos como gpt-4o, gpt-4.1 y gpt-4.1-mini. Puede usar DPO con modelos base o con modelos ya afinados mediante ajuste fino supervisado.
Ajuste para las llamadas a funciones
El ajuste de llamada a funciones es una técnica avanzada que entrena modelos para llamar de forma confiable a funciones externas o a APIs con argumentos estructurados. Se proporcionan ejemplos de entrenamiento que muestran cómo el modelo debe responder a las solicitudes de usuario mediante una llamada a funciones específicas con los parámetros correctos. Esta técnica enseña el modelo cuándo y cómo usar herramientas, mejorando su capacidad de generar resultados estructurados e integrarlos con sistemas externos.
El ajuste de las llamadas a funciones es especialmente útil para:
- Creación de agentes que necesitan interactuar con las API o las bases de datos
- Garantizar la conformidad coherente con el esquema JSON
- Enseñar patrones de uso de funciones específicas del dominio
- Reducción de errores en la extracción de parámetros y la selección de funciones
El ajuste de las llamadas a funciones es compatible con modelos como GPT-4o y GPT-4o-mini. Puede combinarlo con un ajuste supervisado para entrenar tanto el comportamiento conversacional como las capacidades de las llamadas a funciones.
Ajuste para tareas de visión
El ajuste de visión es una técnica avanzada que mejora la capacidad de los modelos para comprender y razonar sobre las imágenes. Se proporcionan ejemplos de entrenamiento que emparejan imágenes con mensajes de texto y respuestas esperadas, enseñando al modelo a reconocer patrones visuales, objetos o conceptos específicos relevantes para el dominio. Esta técnica es ideal para aplicaciones especializadas de Computer Vision en las que los modelos de visión de uso general necesitan una comprensión específica del dominio.
La optimización de la visión es especialmente útil para:
- Análisis de imágenes médicas con terminología especializada
- Control de calidad industrial y detección de defectos
- Comprensión del documento con diseños o formatos personalizados
- Clasificación y títulos de imágenes específicos del dominio
El ajuste de visión se admite para modelos multimodales como GPT-4o. Puede ajustar las funcionalidades de visión y comprensión del lenguaje juntas para crear modelos adaptados a sus tareas visuales específicas.
Ahora que comprende las opciones, vamos a explorar lo que se debe tener en cuenta al preparar los datos para ajustar las cargas de trabajo.