Plataformas de datos compatibles con la Data Science Virtual Machine

Con una Data Science Virtual Machine (DSVM), puede crear los recursos de análisis en una amplia gama de plataformas de datos. Además de interfaces para plataformas de datos remotos, DSVM proporciona una instancia local para el desarrollo rápido y la creación de prototipos.

DSVM admite estas herramientas de plataforma de datos:

SQL Server Developer Edition

Category	Value
¿Qué es?	Una instancia de base de datos relacional local
Ediciones de DSVM admitidas	Windows 2019, Linux (SQL Server 2019)
Usos típicos	Desarrollo local rápido, con un conjunto de datos más pequeño Ejecución de R en base de datos
Vínculos a ejemplos	Una pequeña muestra del conjunto de datos de la ciudad de Nueva York se carga en la instancia de SQL Database: `nyctaxi` Busque un ejemplo de Jupyter que muestre Microsoft Machine Learning Server y análisis en base de datos en: `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
Herramientas relacionadas en DSVM	SQL Server Management Studio Controladores ODBC/JDBC pyodbc, RODBC

Nota:

SQL Server Developer Edition solo se puede usar con fines de desarrollo y pruebas. Necesita una licencia o una de las máquinas virtuales de SQL Server para ejecutarla en producción.

Nota:

El soporte para Machine Learning Server Standalone finalizó el 1 de julio de 2021. Se quitó de las imágenes de DSVM el 30 de junio de 2021. Las implementaciones existentes siguen teniendo acceso al software, pero el soporte técnico finalizó después del 1 de julio de 2021.

Nota:

SQL Server Developer Edition se quitó de las imágenes de DSVM el mes de noviembre de 2021. Las implementaciones existentes siguen teniendo instaladas SQL Server Developer Edition. En las nuevas implementaciones, para acceder a SQL Server Developer Edition, instale y úselo a través de la compatibilidad con Docker. Visite Quickstart: Ejecute imágenes de contenedor de SQL Server con Docker para obtener más información.

Windows

Configurar

El servidor de bases de datos ya está preconfigurado y los servicios de Windows relacionados con SQL Server (por ejemplo, SQL Server (MSSQLSERVER)) se establecen para que se ejecuten automáticamente. El único paso manual implica habilitar el análisis en base de datos mediante el uso de Microsoft Machine Learning Server. Ejecute el siguiente comando para habilitar el análisis como una acción única en SQL Server Management Studio (SSMS). Ejecute este comando después de iniciar sesión como administrador de la máquina, abra una nueva consulta en SSMS y seleccione la base de datos master:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(Reemplace %COMPUTERNAME% por el nombre de la máquina virtual).

Para ejecutar SQL Server Management Studio, puede buscar "SQL Server Management Studio" en la lista de programas o usar Windows Buscar para buscarlo y ejecutarlo. Cuando se le pidan credenciales, seleccione Windows Authentication y use el nombre del equipo o localhost en el campo SQL Server Nombre.

Cómo usarla y ejecutarla

De manera predeterminada, el servidor de bases de datos con la instancia de base de datos predeterminada se ejecuta automáticamente. Puede usar herramientas como SQL Server Management Studio en la máquina virtual para acceder a la base de datos de SQL Server localmente. Las cuentas locales de administradores tienen acceso de administrador en la base de datos.

Además, DSVM incluye controladores ODBC y JDBC para comunicarse con

SQL Server
bases de datos de Azure SQL
Recursos de Azure Synapse Analytics de aplicaciones que fueron escritas en varios lenguajes de programación, incluidos Python y Machine Learning Server.

¿Cómo se configura e instala en DSVM?

SQL Server se instala de la manera estándar. Puede encontrarlo en C:\Program Files\Microsoft SQL Server. Puede encontrar la instancia del Servidor de Aprendizaje Automático en base de datos en C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. DSVM también tiene una instancia independiente de Machine Learning Server, instalada en C:\Program Files\Microsoft\R Server\R_SERVER. Estas dos instancias de Machine Learning Server no comparten bibliotecas.

Ubuntu

Primero debe instalar SQL Server Developer Edition en una DSVM de Ubuntu antes de usarlo. Visite Quickstart: Instalar SQL Server y crear una base de datos en Ubuntu para obtener más información.

Apache Spark 2.x (independiente)

Category	Value
¿Qué es?	Una instancia independiente (nodo único In-Process) de la popular plataforma Apache Spark, un sistema de procesamiento de datos y aprendizaje automático rápido y a gran escala.
Ediciones de DSVM admitidas	Linux
Usos típicos	Desarrollo rápido de aplicaciones spark/PySpark localmente con un conjunto de datos más pequeño y una implementación posterior en clústeres de Spark de gran tamaño, como Azure HDInsight Prueba del contexto de Spark de Microsoft Machine Learning Server Use SparkML o la biblioteca Microsoft de código abierto MMLSpark para compilar aplicaciones de ML
Vínculos a ejemplos	Ejemplo de Jupyter: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Server (contexto de Spark): /dsvm/samples/MRS/MRSSparkContextSample.R
Herramientas relacionadas en DSVM	PySpark, Scala Jupyter (Kernels Spark/PySpark) Microsoft Machine Learning Server, SparkR, Sparklyr Apache Drill

Cómo usarlo

Puede ejecutar el comando spark-submit o pyspark para enviar trabajos de Spark en la línea de comandos. También puede crear un cuaderno con el kernel de Spark para crear un Jupyter Notebook.

Para usar Spark desde R, use bibliotecas como SparkR, Sparklyr y Microsoft Machine Learning Server, que están disponibles en DSVM. Vea vínculos a ejemplos en la tabla anterior.

Configurar

Antes de ejecutar en un contexto de Spark en Microsoft Machine Learning Server en la edición DSVM de Ubuntu Linux, debe completar un paso de configuración único para habilitar una instancia de HDFS y Yarn de Hadoop de un solo nodo local. De manera predeterminada, los servicios de Hadoop están instalados pero deshabilitados en la DSVM. Para habilitarlos, ejecute estos comandos como raíz la primera vez:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Para detener los servicios relacionados con Hadoop cuando ya no los necesite, ejecute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

En el directorio /dsvm/samples/MRS se proporciona un ejemplo en el que se muestra cómo desarrollar y probar MRS en el contexto de Spark remoto (la instancia independiente de Spark en DSVM).

¿Cómo se configura e instala en DSVM?

Plataforma	Ubicación de instalación ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Las bibliotecas para acceder a datos desde Azure Blob Storage o Azure Data Lake Storage, mediante las bibliotecas de aprendizaje automático MMLSpark de Microsoft, están preinstaladas en $SPARK_HOME/jars. Estos JAR se cargan automáticamente cuando se inicia Spark. De forma predeterminada, Spark usa datos ubicados en el disco local.

La instancia de Spark de DSVM puede acceder a los datos almacenados en Blob Storage o Azure Data Lake Storage. Primero debe crear y configurar el archivo core-site.xml, en función de la plantilla que se encuentra en $SPARK_HOME/conf/core-site.xml.template. También debe tener las credenciales adecuadas para acceder a Blob Storage y Azure Data Lake Storage. Los archivos de plantillas utilizan marcadores de posición para las configuraciones de almacenamiento de Blob y Azure Data Lake.

Para obtener más información sobre la creación de credenciales de servicio de Azure Data Lake Storage, visite Authentication con Azure Data Lake Storage Gen1. Después de escribir las credenciales de Blob Storage o Azure Data Lake Storage en el archivo core-site.xml, puede hacer referencia a los datos almacenados en esos orígenes mediante el prefijo URI de wasb:// o adl://.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-10

Plataformas de datos compatibles con la Data Science Virtual Machine

SQL Server Developer Edition

Windows

Configurar

Cómo usarla y ejecutarla

¿Cómo se configura e instala en DSVM?

Ubuntu

Apache Spark 2.x (independiente)

Cómo usarlo

Configurar

¿Cómo se configura e instala en DSVM?

Comentarios

Recursos adicionales