Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Una biblioteca es un paquete reutilizable de código , como un paquete de Python de PyPI, un paquete de R de CRAN o un ARCHIVO JAR de Java, que puede importar en los cuadernos y definiciones de trabajo de Spark para agregar funcionalidad sin escribirla desde cero. Microsoft Fabric proporciona múltiples mecanismos para ayudarle a administrar y usar bibliotecas.
- Bibliotecas integradas: cada entorno de ejecución de Fabric Spark proporciona un amplio conjunto de bibliotecas preinstaladas populares. Encontrará la lista completa de bibliotecas integradas en Fabric Spark Runtime.
- Bibliotecas públicas: las bibliotecas públicas se obtienen de repositorios como PyPI o Conda, que actualmente son compatibles.
- Bibliotecas personalizadas: las bibliotecas personalizadas se refieren al código que usted o su organización crean. Fabric admite los formatos .whl, .jar, and .tar.gz. Fabric solo admite archivos .tar.gz para el lenguaje R. Para las bibliotecas personalizadas de Python, use el formato .whl.
Resumen de los procedimientos recomendados de administración de bibliotecas
En los escenarios siguientes se describen los procedimientos recomendados al usar bibliotecas en Microsoft Fabric.
Modos de publicación de entornos (rápido vs completo)
Al instalar bibliotecas en un entorno de Fabric, se elige un modo de publicación que controla cómo se entregan las bibliotecas a las sesiones de Spark.
- El modo rápido se publica en unos 5 segundos. Las bibliotecas se instalan cuando se inicia una sesión de bloc de notas en lugar de durante la publicación. Si un paquete de modo rápido tiene el mismo nombre que un paquete de modo completo, la versión del modo rápido invalida la versión del modo completo solo para esa sesión. Use el modo rápido para el desarrollo rápido de cuadernos iterativos y la experimentación en fase temprana.
- El modo completo crea una instantánea de biblioteca estable y reproducible. La publicación suele tardar entre 3 y 6 minutos, ya que el sistema resuelve las dependencias y valida la compatibilidad. El inicio de sesión agrega de 1 a 3 minutos para la implementación de dependencias, en función del tamaño de dependencia. Use el modo Completo para canalizaciones, ejecuciones programadas y cargas de trabajo compartidas que requieren entornos coherentes y reproducibles.
Modo completo con un grupo activo personalizado
Para combinar la estabilidad del modo completo con inicios rápidos de sesión, configure un grupo activo personalizado que se conecte a un entorno de modo completo. El pool en vivo prepara los clústeres con la instantánea de la biblioteca en modo completo por adelantado, lo que permite tiempos de inicio de sesión de aproximadamente 5 segundos mientras preserva la instantánea reproducible.
Para obtener más información sobre cada modo, consulte Administración de bibliotecas en entornos de Fabric.
Escenario 1: el administrador establece bibliotecas predeterminadas para el área de trabajo
Para establecer bibliotecas predeterminadas, debe ser el administrador del área de trabajo. Como administrador, puede realizar estas tareas:
- Crear un nuevo entorno
- Instalar las bibliotecas necesarias en el entorno
- Adjuntar este entorno como área de trabajo predeterminada
Cuando los cuadernos y las definiciones de trabajo de Spark se adjuntan a la Configuración del área de trabajo, inician sesiones con las bibliotecas instaladas en el entorno predeterminado del área de trabajo.
Escenario 2: conservar especificaciones de biblioteca para uno o varios elementos de código
Si tiene bibliotecas comunes para distintos elementos de código y no es necesario actualizarlas con frecuencia, instale las bibliotecas en un entorno y adjunte a los elementos de código.
El tiempo de publicación depende del modo que elija. El modo rápido se publica en aproximadamente 5 segundos e instala bibliotecas en el inicio de la sesión. El modo completo resuelve las dependencias y crea una instantánea estable; normalmente, toma entre 3 y 6 minutos para publicarse, y el inicio de la sesión agrega de 1 a 3 minutos para la implementación de dependencias.
La ventaja de este enfoque es que se garantiza que las bibliotecas instaladas correctamente estén disponibles cuando se inicia una sesión de Spark con el entorno asociado. Ahorra el esfuerzo de mantener bibliotecas comunes para los proyectos y se recomienda para escenarios de canalización debido a su estabilidad.
Escenario 3: instalación en línea en ejecución interactiva
Si está escribiendo código de forma interactiva en un cuaderno, la instalación en línea es el mejor enfoque para agregar bibliotecas PyPI o conda o validar bibliotecas personalizadas para un único uso. Los comandos insertados hacen que una biblioteca esté disponible solo en la sesión actual de Spark del cuaderno; permiten la instalación rápida, pero la biblioteca instalada no se conserva entre sesiones.
Dado que %pip install puede generar diferentes árboles de dependencia de una ejecución a otra, lo que podría provocar conflictos de librería, los comandos en línea se desactivan de forma predeterminada en las ejecuciones de tubería y no se recomiendan para las tuberías.
Nota:
Las bibliotecas instaladas a través de comandos insertados (como %pip install o %conda install) y las bibliotecas agregadas desde un cuaderno o carpeta resources del entorno se limitan a la sesión o cuaderno actual. No se ven afectados por la publicación del entorno en modo rápido o en modo completo.
Resumen de los tipos de biblioteca admitidos
| Tipo de biblioteca | Administración de bibliotecas del entorno | Instalación en línea |
|---|---|---|
| Python público (PyPI y Conda) | Admitido | Admitido |
| Python personalizado (.whl) | Admitido | Admitido |
| R de acceso público (CRAN) | No está soportado | Admitido |
| R personalizado (.tar.gz) | Se admite como biblioteca personalizada | Admitido |
| Jar (Tarro) | Se admite como biblioteca personalizada | Admitido |
Instalación en línea
Los comandos en línea permiten administrar bibliotecas dentro de sesiones individuales de cuadernos.
Instalación en línea de Python
El sistema reinicia el intérprete de Python para aplicar los cambios de biblioteca. Cualquier variable definida antes de ejecutar la celda de comandos se pierde. Coloque todos los comandos para agregar, eliminar o actualizar paquetes de Python al principio del cuaderno.
Los comandos en línea para administrar bibliotecas de Python están deshabilitados por defecto en las canalizaciones de ejecución de cuadernos. Para habilitar %pip install en una canalización, agregue _inlineInstallationEnabled como un parámetro booleano con el valor de True en los parámetros de actividad del notebook.
Nota:
El %pip install comando puede generar resultados inconsistentes de una ejecución a otra. Instale bibliotecas en un entorno y use el entorno dentro de un pipeline.
El %pip install comando no se admite en el modo de simultaneidad alta.
En las ejecuciones de referencia de cuadernos, no se admiten comandos en línea para administrar bibliotecas de Python. Quite estos comandos insertados del cuaderno al que se hace referencia para garantizar la ejecución correcta.
Use %pip en lugar de !pip. El !pip comando es un comando de shell integrado de IPython con las siguientes limitaciones:
-
!pipinstala un paquete solo en el nodo de controlador, no en los nodos del ejecutor. - Los paquetes instalados a través de
!pipno tienen en cuenta los conflictos con los paquetes integrados o los paquetes ya importados en un cuaderno.
%pip controla estos escenarios. Las bibliotecas instaladas a través %pip están disponibles en los nodos de controlador y ejecutor y surten efecto incluso si la biblioteca ya está importada.
Sugerencia
El comando %conda install suele tardar más que el comando %pip install en instalar nuevas bibliotecas Python. Verifica todas las dependencias y resuelve los conflictos.
Se usa %conda install para obtener más confiabilidad y estabilidad. Use %pip install si está seguro de que la biblioteca que desea instalar no entra en conflicto con las bibliotecas preinstaladas en el entorno de tiempo de ejecución.
Para todos los comandos en línea de Python disponibles y aclaraciones, consulte comandos %pip y comandos %conda.
Administración de bibliotecas públicas de Python mediante la instalación en línea
En este ejemplo se muestra cómo usar comandos en línea para administrar bibliotecas. Supongamos que quiere usar altair, una biblioteca de visualización eficaz para Python, para una exploración de datos única y la biblioteca no está instalada en el área de trabajo. El siguiente ejemplo usa comandos conda para ilustrar los pasos.
Puede usar comandos en línea para habilitar altair en la sesión del cuaderno sin afectar a otras sesiones del cuaderno u otros elementos.
Ejecute los siguientes comandos en una celda de código del cuaderno. El primer comando instala la biblioteca altair. Además, instala vega_datasets, que contiene un modelo semántico que se puede usar para visualizar.
%conda install altair # install latest version through conda command %conda install vega_datasets # install latest version through conda commandLa salida de la celda indica el resultado de la instalación.
Importa el paquete y el modelo semántico ejecutando el siguiente código en otra celda del cuaderno.
import altair as alt from vega_datasets import dataAhora puede experimentar con la biblioteca altair con un ámbito limitado a la sesión.
# load a simple dataset as a pandas DataFrame cars = data.cars() alt.Chart(cars).mark_point().encode( x='Horsepower', y='Miles_per_Gallon', color='Origin', ).interactive()
Administración de bibliotecas personalizadas de Python mediante la instalación en línea
Puede cargar sus bibliotecas personalizadas de Python en la carpeta de recursos de su bloc de notas o en el entorno adjunto. La carpeta resources es un sistema de archivos integrado proporcionado por cada cuaderno y entorno. Consulte Recursos de Notebook para obtener más detalles. Después de cargar una biblioteca, puede arrastrarla y colocarla en una celda de código para generar automáticamente el comando de instalación. También puede ejecutar el siguiente comando:
# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"
Nota:
Las bibliotecas personalizadas instaladas desde la carpeta Resources a través de comandos en línea son específicas por sesión y por cuaderno. No se ven afectados por la publicación de entornos.
Instalación en línea de R
Para administrar bibliotecas R, Fabric admite los comandos install.packages(), remove.packages() y devtools::. Para todos los comandos R en línea disponibles y aclaraciones, consulte el comando install. packages y el comando remove.package.
Administración de bibliotecas públicas de R a través de la instalación en línea
Siga este ejemplo para recorrer los pasos de instalación de una biblioteca pública de R.
Para instalar una biblioteca de fuentes de R:
Cambie el lenguaje de trabajo a SparkR (R) en la cinta de opciones del cuaderno.
Instale la biblioteca caesar ejecutando el comando siguiente en una celda del cuaderno.
install.packages("caesar")Ahora puede experimentar con la biblioteca caesar con alcance de sesión mediante un trabajo de Spark.
library(SparkR) sparkR.session() hello <- function(x) { library(caesar) caesar(x) } spark.lapply(c("hello world", "good morning", "good evening"), hello)
Gestionar bibliotecas JAR mediante instalación en línea
Puede agregar .jar archivos a sesiones de cuaderno con el comando siguiente.
%%configure -f
{
"conf": {
"spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
}
}
La celda de código anterior utiliza el almacenamiento tipo lakehouse como ejemplo. En el explorador de cuadernos, puede copiar la ruta de acceso completa de ABFS del archivo y reemplazarla en el código.