Ejemplos de inferencia de API sin servidor para los modelos foundry (clásico)

Solo se aplica a:portal Foundry (clásico). Este artículo no está disponible para el nuevo portal de Foundry. Obtenga más información sobre el nuevo portal.

Nota

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

El catálogo de modelos Foundry ofrece una gran selección de Microsoft Foundry Models de una amplia gama de proveedores. Tiene varias opciones para implementar modelos desde el catálogo de modelos. En este artículo se enumeran ejemplos de inferencia para implementaciones de API sin servidor.

Importante

Los modelos que están en versión preliminar se marcan como versión preliminar en sus tarjetas de modelo en el catálogo de modelos.

Para realizar la inferencia con los modelos, algunos modelos, como TimeGEN-1 de Nixtla y Cohere rerank, requieren el uso de API personalizada de los proveedores del modelo. Otros admiten la inferencia mediante la API de inferencia de modelos. Puede encontrar más detalles sobre los modelos individuales revisando sus tarjetas de modelo en el catálogo de modelos para el portal de Foundry.

Cohere

La familia cohere de modelos incluye varios modelos optimizados para diferentes casos de uso, como la reerank, las finalizaciones de chat y los modelos de inserción.

Ejemplos de inferencia: comando cohere e inserción

En la tabla siguiente se proporcionan vínculos a ejemplos de cómo usar modelos de Cohere.

Descripción Idioma Ejemplo
Solicitudes web Bash Command-RCommand-R+
cohere-embed.ipynb
paquete de inferencia de IA de Azure para C# C# Link
paquete de inferencia de IA de Azure para JavaScript JavaScript Link
paquete de inferencia de ia de Azure para Python Python Vínculo
SDK de OpenAI (experimental) Python Vínculo
LangChain Python Vínculo
Cohere SDK Python Comando
Insertar
LiteLLM SDK Python Link

Generación aumentada con recuperación (RAG) y el uso de herramientas: comando Cohere e insertar

Descripción Paquetes Ejemplo
Creación de un índice de vectores de búsqueda de similitud de IA de Facebook local (FAISS), mediante incrustaciones de Cohere: Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Uso de Cohere Command R/R+ para responder a preguntas desde los datos en el índice de vectores local de FAISS - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Uso de Cohere Command R/R+ para responder preguntas de datos en el índice de vectores de búsqueda de IA: Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Uso de Cohere Command R/R+ para responder preguntas de datos en el índice de vectores de búsqueda de IA: SDK de Cohere cohere, azure_search_documents cohere-aisearch-rag.ipynb
Comando de llamada a herramientas o funciones de R+, mediante LangChain cohere, , langchain, langchain_cohere command_tools-langchain.ipynb

Cohere reorganizar

Para realizar la inferencia con los modelos de reordenamiento de Cohere, es necesario usar las API de clasificación personalizadas de Cohere. Para obtener más información sobre el modelo de reranke cohere y sus funcionalidades, consulte Reranke cohere.

Precios de los modelos de reordenación de Cohere

Las consultas, que no deben confundirse con la consulta de un usuario, es un medidor de precios que hace referencia al costo asociado a los tokens usados como entrada para la inferencia de un modelo de Rerank de Cohere. Cohere cuenta una sola unidad de búsqueda como una consulta con hasta 100 documentos que se van a clasificar. Documentos de más de 500 tokens (para Cohere-rerank-v3.5) o más de 4096 tokens (para Cohere-rerank-v3-English y Cohere-rerank-v3-multilingües) al incluir la longitud de la consulta de búsqueda se dividen en varios fragmentos, donde cada fragmento cuenta como un único documento.

Consulte la colección de modelos de Cohere en el portal de Foundry.

Core42

En la tabla siguiente se proporcionan vínculos a ejemplos de cómo usar modelos Jais.

Descripción Idioma Ejemplo
paquete de inferencia de IA de Azure para C# C# Link
paquete de inferencia de IA de Azure para JavaScript JavaScript Link
paquete de inferencia de ia de Azure para Python Python Vínculo

DeepSeek

La familia de modelos DeepSeek incluye DeepSeek-R1, que destaca en las tareas de razonamiento mediante un proceso de entrenamiento paso a paso, como el lenguaje, el razonamiento científico y las tareas de codificación, DeepSeek-V3-0324, un modelo de lenguaje Mezcla de expertos (MoE), etc.

En la tabla siguiente se proporcionan vínculos a ejemplos de cómo usar modelos DeepSeek.

Descripción Idioma Ejemplo
paquete de inferencia de ia de Azure para Python Python Vínculo
paquete de inferencia de IA de Azure para JavaScript JavaScript Vínculo
paquete de inferencia de IA de Azure para C# C# Vínculo
paquete de inferencia de IA de Azure para Java Java Link

Meta

Los modelos y herramientas de Meta Llama son una colección de modelos de razonamiento de imágenes e texto de IA generativos previamente entrenados y optimizados. El rango de modelos meta tiene la capacidad de escalar para incluir:

  • Modelos de lenguaje pequeño (SLM) como 1B y 3B Base e Instruct para la inferencia en el dispositivo y en el borde.
  • Modelos de lenguaje de gran escala de tamaño medio (LLM) como los modelos base de 7B, 8B y 70B e Instruct.
  • Modelos de alto rendimiento como Meta Llama 3.1-405B Instruct para casos de uso en la generación y destilación de datos sintéticos.
  • Modelos altamente eficientes y nativamente multimodales, Llama 4 Scout y Llama 4 Maverick, aprovechan una arquitectura de mezcla de expertos para ofrecer un rendimiento líder del sector en la comprensión de texto e imágenes.

En la tabla siguiente se proporcionan vínculos a ejemplos de cómo usar modelos de Meta Llama.

Descripción Idioma Ejemplo
Solicitud CURL Bash Vínculo
paquete de inferencia de IA de Azure para C# C# Link
paquete de inferencia de IA de Azure para JavaScript JavaScript Link
paquete de inferencia de ia de Azure para Python Python Vínculo
solicitudes web de Python Python Vínculo
SDK de OpenAI (experimental) Python Vínculo
LangChain Python Vínculo
LiteLLM Python Vínculo

Microsoft

Microsoft modelos incluyen varios grupos de modelos, como los modelos MAI, los modelos Phi, los modelos de inteligencia artificial sanitaria, etc. Para ver todos los modelos de Microsoft disponibles, vea la colección de modelos Microsoft en el portal de Foundry.

En la tabla siguiente se proporcionan vínculos a ejemplos de cómo usar modelos Microsoft.

Descripción Idioma Ejemplo
paquete de inferencia de IA de Azure para C# C# Link
paquete de inferencia de IA de Azure para JavaScript JavaScript Link
paquete de inferencia de ia de Azure para Python Python Vínculo
LangChain Python Vínculo
Llama-Index Python Vínculo

Consulte la colección de modelos de Microsoft en el portal de Foundry.

Mistral IA

Mistral AI ofrece dos categorías de modelos, es decir:

  • Modelos Premium: incluyen modelos Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) y Ministrol 3B, y están disponibles como API sin servidor con facturación basada en tokens de pago por uso.
  • Modelos abiertos: estos incluyen Mistral-small-2503, Codestral y Mistral Nemo (que están disponibles como API sin servidor con facturación basada en tokens de pago por uso) y Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 y Mistral-7B-v01(que están disponibles para descargar y ejecutarse en puntos de conexión administrados autohospedados).

En la tabla siguiente se proporcionan vínculos a ejemplos de cómo usar modelos Mistral.

Descripción Idioma Ejemplo
Solicitud CURL Bash Vínculo
paquete de inferencia de IA de Azure para C# C# Link
paquete de inferencia de IA de Azure para JavaScript JavaScript Link
paquete de inferencia de ia de Azure para Python Python Vínculo
solicitudes web de Python Python Vínculo
SDK de OpenAI (experimental) Python Mistral - Ejemplo de SDK de OpenAI
LangChain Python Ejemplo Mistral: LangChain
Mistral IA Python Mistral - Ejemplo de Mistral AI
LiteLLM Python Ejemplo Mistral: LiteLLM

Nixtla

TimeGEN-1 de Nixtla es un modelo de previsión previamente entrenado generativo y detección de anomalías para los datos de series temporales. TimeGEN-1 puede producir previsiones precisas para nuevas series temporales sin entrenamiento, usando solo valores históricos y covariantes exógenos como entradas.

Para realizar la inferencia, TimeGEN-1 requiere que use la API de inferencia personalizada de Nixtla. Para obtener más información sobre el modelo TimeGEN-1 y sus funcionalidades, consulte Nixtla.

Estimación del número de tokens necesarios

Antes de crear una implementación de TimeGEN-1, resulta útil calcular el número de tokens que planea consumir y por los que se le cobrará. Un token corresponde a un punto de datos del conjunto de datos de entrada o del conjunto de datos de salida.

Supongamos que tiene el siguiente conjunto de datos de serie temporal de entrada:

Unique_id Marca de tiempo Variable de destino Variable exógena 1 Variable exógena 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073,0 51887.0

Para determinar el número de tokens, multiplique el número de filas (en este ejemplo, dos) y el número de columnas usadas para la previsión, sin contar las columnas de unique_id y marca de tiempo (en este ejemplo, tres) para obtener un total de seis tokens.

Dado el siguiente conjunto de datos de salida:

Identificador_único Marca de tiempo Variable de destino pronosticada
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

También puede calcular el número de tokens contando el número de puntos de datos devueltos tras la previsión de datos. En este ejemplo, el número de tokens es dos.

Estimación de los precios en función de los tokens

Hay cuatro medidores de precios que determinan el precio que paga. Estos medidores son los siguientes:

Medidor de precios Descripción
pago-por-uso-inferencia-entrada-tokens Costos asociados a los tokens usados como entrada para la inferencia cuando finetune_steps = 0
tokens de salida de inferencia de pago por uso Costos asociados a los tokens usados como salida para la inferencia cuando finetune_steps = 0
paygo modelo ajustado por aprendizaje inferencia tokens de entrada Costos asociados a los tokens usados como entrada para la inferencia cuando finetune_steps> 0
pago-finetuned-modelo-inferencia-salida-tokens Costos asociados a los tokens usados como salida para la inferencia cuando finetune_steps> 0

Consulte la colección de modelos de Nixtla en el portal de Foundry.

Inteligencia artificial de estabilidad

Los modelos de inteligencia artificial de estabilidad implementados a través de la implementación de API sin servidor implementan la API de inferencia de modelos en la ruta /image/generations. Para obtener ejemplos de cómo usar modelos de inteligencia artificial de estabilidad, consulte los ejemplos siguientes:

Gretel Navigator

Gretel Navigator emplea una arquitectura de inteligencia artificial compuesta diseñada específicamente para datos sintéticos mediante la combinación de modelos de lenguaje pequeños de código abierto (SLAM) optimizados en más de 10 dominios del sector. Este sistema creado específicamente crea diversos conjuntos de datos específicos del dominio a escalas de cientos a millones de ejemplos. El sistema también conserva relaciones estadísticas complejas y ofrece mayor velocidad y precisión en comparación con la creación manual de datos.

Descripción Idioma Ejemplo
paquete de inferencia de IA de Azure para JavaScript JavaScript Vínculo
paquete de inferencia de ia de Azure para Python Python Vínculo