Gegevensplatforms die worden ondersteund op de Data Science Virtual Machine

Met een Data Science Virtual Machine (DSVM) kunt u uw analysebronnen bouwen op basis van een breed scala aan gegevensplatforms. Naast interfaces voor externe gegevensplatforms biedt de DSVM een lokaal exemplaar voor snelle ontwikkeling en prototypen.

De DSVM ondersteunt deze hulpprogramma's voor het gegevensplatform:

SQL Server Developer Versie

Categorie Waarde
Wat is het? Een lokaal relationeel database-exemplaar
Ondersteunde DSVM-edities Windows 2019, Linux (SQL Server 2019)
Typische toepassingen
  • Snelle lokale ontwikkeling, met een kleinere gegevensset
  • In-database R uitvoeren
Koppelingen naar voorbeelden
  • Een klein voorbeeld van een New York City-gegevensset wordt geladen in de SQL-database:
    nyctaxi
  • Zoek een Jupyter-voorbeeld met Microsoft Machine Learning Server- en in-databaseanalyse op:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Verwante hulpprogramma's op de DSVM
  • SQL Server Management Studio
  • ODBC-/JDBC-stuurprogramma's
  • pyodbc, RODBC

Notitie

SQL Server Developer Edition kan alleen worden gebruikt voor ontwikkelings- en testdoeleinden. U hebt een licentie of een van de SQL Server VM's nodig om deze in productie uit te voeren.

Notitie

Ondersteuning voor Machine Learning Server Standalone is beëindigd op 1 juli 2021. Het werd verwijderd uit de DSVM-afbeeldingen op 30 juni 2021. Bestaande implementaties hebben nog steeds toegang tot de software, maar de ondersteuning is beëindigd na 1 juli 2021.

Notitie

SQL Server Developer Edition is verwijderd uit DSVM-installatiekopieën in november 2021. Bestaande implementaties blijven SQL Server Developer Edition geïnstalleerd. Bij nieuwe implementaties kunt u toegang krijgen tot SQL Server Developer Edition door deze te installeren en gebruiken met ondersteuning van Docker. Ga naar Quickstart: Voer SQL Server containerinstallatiekopieën uit met Docker voor meer informatie.

Windows

Installatie

De databaseserver is al vooraf geconfigureerd en de Windows-services met betrekking tot SQL Server (bijvoorbeeld SQL Server (MSSQLSERVER)) worden automatisch uitgevoerd. De enige handmatige stap omvat het inschakelen van in-databaseanalyse via het gebruik van Microsoft Machine Learning Server. Voer de volgende opdracht uit om analyses in te schakelen als een eenmalige actie in SQL Server Management Studio (SSMS). Voer deze opdracht uit nadat u zich hebt aangemeld als computerbeheerder, open een nieuwe query in SSMS en selecteer de master database:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Vervang %COMPUTERNAME% door uw VM-naam.)

Als u SQL Server Management Studio wilt uitvoeren, kunt u zoeken naar 'SQL Server Management Studio' in de programmalijst of Windows Zoeken gebruiken om deze te zoeken en uit te voeren. Wanneer u om referenties wordt gevraagd, selecteert u Windows Authentication en gebruikt u de computernaam of localhost in het veld SQL Server Name.

Hoe te gebruiken en uit te voeren

Standaard wordt de databaseserver met het standaarddatabase-exemplaar automatisch gestart. U kunt hulpprogramma's zoals SQL Server Management Studio op de virtuele machine gebruiken om lokaal toegang te krijgen tot de SQL Server-database. Lokale beheerdersaccounts hebben beheerderstoegang voor de database.

Daarnaast wordt de DSVM geleverd met ODBC- en JDBC-stuurprogramma's om met elkaar te communiceren

  • SQL Server
  • Azure SQL-databases
  • Azure Synapse Analytics resources van toepassingen die in meerdere talen zijn geschreven, waaronder Python en Machine Learning Server.

Hoe wordt deze geconfigureerd en geïnstalleerd op de DSVM?

SQL Server wordt op de standaard manier geïnstalleerd. U vindt deze op C:\Program Files\Microsoft SQL Server. U kunt het exemplaar van de in-database Machine Learning-server vinden op C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. De DSVM heeft ook een afzonderlijk zelfstandig Machine Learning Server-exemplaar, geïnstalleerd op C:\Program Files\Microsoft\R Server\R_SERVER. Deze twee Machine Learning Server-exemplaren delen geen bibliotheken.

Ubuntu

U moet eerst SQL Server Developer Edition installeren op een Ubuntu-DSVM voordat u deze gebruikt. Ga naar Quickstart: Installeer SQL Server en maak een database op Ubuntu voor meer informatie.

Apache Spark 2.x (zelfstandig)

Categorie Waarde
Wat is het? Een zelfstandig exemplaar (één knooppunt in proces) van het populaire Apache Spark-platform; een systeem voor snelle, grootschalige gegevensverwerking en machine learning
Ondersteunde DSVM-edities Linux
Typische toepassingen
  • Snelle ontwikkeling van Spark-/PySpark-toepassingen lokaal met een kleinere gegevensset en latere implementatie op grote Spark-clusters zoals Azure HDInsight
  • Microsoft Machine Learning Server Spark-context testen
  • SparkML of de opensource-Microsoft MMLSparkbibliotheek gebruiken om ML-toepassingen te bouwen
Koppelingen naar voorbeelden Jupyter-voorbeeld:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (Spark-context): /dsvm/samples/MRS/MRSSparkContextSample.R

Verwante hulpprogramma's op de DSVM
  • PySpark, Scala
  • Jupyter (Spark/PySpark-kernels)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

Het gebruik ervan

U kunt de spark-submit of pyspark opdracht uitvoeren om Spark-taken in te dienen via de commandoregel. U kunt ook een nieuw notebook maken met de Spark-kernel om een Jupyter-notebook te maken.

Als u Spark van R wilt gebruiken, gebruikt u bibliotheken zoals SparkR, Sparklyr en Microsoft Machine Learning Server, die beschikbaar zijn op de DSVM. Zie koppelingen naar voorbeelden in de voorgaande tabel.

Installatie

Voordat u in een Spark-context in Microsoft Machine Learning Server op Ubuntu Linux DSVM-editie uitvoert, moet u een eenmalige installatiestap uitvoeren om een lokaal Hadoop HDFS- en Yarn-exemplaar met één knooppunt in te schakelen. Hadoop-services worden standaard geïnstalleerd, maar uitgeschakeld op de DSVM. Als u ze wilt inschakelen, voert u deze commando's de eerste keer als root uit:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Als u de hadoop-gerelateerde services wilt stoppen wanneer u ze niet meer nodig hebt, voert u de opdracht uit systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Een voorbeeld dat laat zien hoe u MRS kunt ontwikkelen en testen in een externe Spark-context (het zelfstandige Spark-exemplaar op de DSVM) is opgegeven en beschikbaar is in de /dsvm/samples/MRS map.

Hoe wordt deze geconfigureerd en geïnstalleerd op de DSVM?

Platform Installatielocatie ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Bibliotheken voor toegang tot gegevens uit Azure Blob Storage of Azure Data Lake Storage, met behulp van de Microsoft MMLSpark machine learning-bibliotheken, zijn vooraf geïnstalleerd in $SPARK_HOME/jars. Deze JAR's worden automatisch geladen wanneer Spark wordt gestart. Spark maakt standaard gebruik van gegevens op de lokale schijf.

Het Spark-exemplaar op de DSVM heeft toegang tot gegevens die zijn opgeslagen in Blob Storage of Azure Data Lake Storage. U moet het core-site.xml bestand eerst maken en configureren op basis van de sjabloon in $SPARK_HOME/conf/core-site.xml.template. U moet ook over de juiste referenties beschikken om toegang te krijgen tot Blob Storage en Azure Data Lake Storage. De sjabloonbestanden maken gebruik van tijdelijke aanduidingen voor Blob Storage en Azure Data Lake Storage configuraties.

Voor meer informatie over het aanmaken van Azure Data Lake Storage-servicereferenties, ga naar Verificatie met Azure Data Lake Storage Gen1. Nadat u de referenties voor Blob Storage of Azure Data Lake Storage hebt ingevoerd in het core-site.xml bestand, kunt u verwijzen naar de gegevens die in deze bronnen zijn opgeslagen via het URI-voorvoegsel van wasb:// of adl://.