Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Con una Data Science Virtual Machine (DSVM), puede crear los recursos de análisis en una amplia gama de plataformas de datos. Además de interfaces para plataformas de datos remotos, DSVM proporciona una instancia local para el desarrollo rápido y la creación de prototipos.
DSVM admite estas herramientas de plataforma de datos:
SQL Server Developer Edition
| Category | Value |
|---|---|
| ¿Qué es? | Una instancia de base de datos relacional local |
| Ediciones de DSVM admitidas | Windows 2019, Linux (SQL Server 2019) |
| Usos típicos |
|
| Vínculos a ejemplos |
|
| Herramientas relacionadas en DSVM |
|
Nota:
SQL Server Developer Edition solo se puede usar con fines de desarrollo y pruebas. Necesita una licencia o una de las máquinas virtuales de SQL Server para ejecutarla en producción.
Nota:
El soporte para Machine Learning Server Standalone finalizó el 1 de julio de 2021. Se quitó de las imágenes de DSVM el 30 de junio de 2021. Las implementaciones existentes siguen teniendo acceso al software, pero el soporte técnico finalizó después del 1 de julio de 2021.
Nota:
SQL Server Developer Edition se quitó de las imágenes de DSVM el mes de noviembre de 2021. Las implementaciones existentes siguen teniendo instaladas SQL Server Developer Edition. En las nuevas implementaciones, para acceder a SQL Server Developer Edition, instale y úselo a través de la compatibilidad con Docker. Visite Quickstart: Ejecute imágenes de contenedor de SQL Server con Docker para obtener más información.
Windows
Configurar
El servidor de bases de datos ya está preconfigurado y los servicios de Windows relacionados con SQL Server (por ejemplo, SQL Server (MSSQLSERVER)) se establecen para que se ejecuten automáticamente. El único paso manual implica habilitar el análisis en base de datos mediante el uso de Microsoft Machine Learning Server. Ejecute el siguiente comando para habilitar el análisis como una acción única en SQL Server Management Studio (SSMS). Ejecute este comando después de iniciar sesión como administrador de la máquina, abra una nueva consulta en SSMS y seleccione la base de datos master:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Reemplace %COMPUTERNAME% por el nombre de la máquina virtual).
Para ejecutar SQL Server Management Studio, puede buscar "SQL Server Management Studio" en la lista de programas o usar Windows Buscar para buscarlo y ejecutarlo. Cuando se le pidan credenciales, seleccione Windows Authentication y use el nombre del equipo o localhost en el campo SQL Server Nombre.
Cómo usarla y ejecutarla
De manera predeterminada, el servidor de bases de datos con la instancia de base de datos predeterminada se ejecuta automáticamente. Puede usar herramientas como SQL Server Management Studio en la máquina virtual para acceder a la base de datos de SQL Server localmente. Las cuentas locales de administradores tienen acceso de administrador en la base de datos.
Además, DSVM incluye controladores ODBC y JDBC para comunicarse con
- SQL Server
- bases de datos de Azure SQL
- Recursos de Azure Synapse Analytics de aplicaciones que fueron escritas en varios lenguajes de programación, incluidos Python y Machine Learning Server.
¿Cómo se configura e instala en DSVM?
SQL Server se instala de la manera estándar. Puede encontrarlo en C:\Program Files\Microsoft SQL Server. Puede encontrar la instancia del Servidor de Aprendizaje Automático en base de datos en C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. DSVM también tiene una instancia independiente de Machine Learning Server, instalada en C:\Program Files\Microsoft\R Server\R_SERVER. Estas dos instancias de Machine Learning Server no comparten bibliotecas.
Ubuntu
Primero debe instalar SQL Server Developer Edition en una DSVM de Ubuntu antes de usarlo. Visite Quickstart: Instalar SQL Server y crear una base de datos en Ubuntu para obtener más información.
Apache Spark 2.x (independiente)
| Category | Value |
|---|---|
| ¿Qué es? | Una instancia independiente (nodo único In-Process) de la popular plataforma Apache Spark, un sistema de procesamiento de datos y aprendizaje automático rápido y a gran escala. |
| Ediciones de DSVM admitidas | Linux |
| Usos típicos |
|
| Vínculos a ejemplos | Ejemplo de Jupyter:
Microsoft Machine Learning Server (contexto de Spark): /dsvm/samples/MRS/MRSSparkContextSample.R |
| Herramientas relacionadas en DSVM |
|
Cómo usarlo
Puede ejecutar el comando spark-submit o pyspark para enviar trabajos de Spark en la línea de comandos. También puede crear un cuaderno con el kernel de Spark para crear un Jupyter Notebook.
Para usar Spark desde R, use bibliotecas como SparkR, Sparklyr y Microsoft Machine Learning Server, que están disponibles en DSVM. Vea vínculos a ejemplos en la tabla anterior.
Configurar
Antes de ejecutar en un contexto de Spark en Microsoft Machine Learning Server en la edición DSVM de Ubuntu Linux, debe completar un paso de configuración único para habilitar una instancia de HDFS y Yarn de Hadoop de un solo nodo local. De manera predeterminada, los servicios de Hadoop están instalados pero deshabilitados en la DSVM. Para habilitarlos, ejecute estos comandos como raíz la primera vez:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Para detener los servicios relacionados con Hadoop cuando ya no los necesite, ejecute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.
En el directorio /dsvm/samples/MRS se proporciona un ejemplo en el que se muestra cómo desarrollar y probar MRS en el contexto de Spark remoto (la instancia independiente de Spark en DSVM).
¿Cómo se configura e instala en DSVM?
| Plataforma | Ubicación de instalación ($SPARK_HOME) |
|---|---|
| Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Las bibliotecas para acceder a datos desde Azure Blob Storage o Azure Data Lake Storage, mediante las bibliotecas de aprendizaje automático MMLSpark de Microsoft, están preinstaladas en $SPARK_HOME/jars. Estos JAR se cargan automáticamente cuando se inicia Spark. De forma predeterminada, Spark usa datos ubicados en el disco local.
La instancia de Spark de DSVM puede acceder a los datos almacenados en Blob Storage o Azure Data Lake Storage. Primero debe crear y configurar el archivo core-site.xml, en función de la plantilla que se encuentra en $SPARK_HOME/conf/core-site.xml.template. También debe tener las credenciales adecuadas para acceder a Blob Storage y Azure Data Lake Storage. Los archivos de plantillas utilizan marcadores de posición para las configuraciones de almacenamiento de Blob y Azure Data Lake.
Para obtener más información sobre la creación de credenciales de servicio de Azure Data Lake Storage, visite Authentication con Azure Data Lake Storage Gen1. Después de escribir las credenciales de Blob Storage o Azure Data Lake Storage en el archivo core-site.xml, puede hacer referencia a los datos almacenados en esos orígenes mediante el prefijo URI de wasb:// o adl://.