Data Science Virtual Machineでサポートされているデータプラットフォーム

Data Science Virtual Machine (DSVM) を使用すると、さまざまなデータプラットフォームに対して分析リソースを構築できます。リモートデータプラットフォームへのインターフェイスに加えて、DSVM は、迅速な開発およびプロトタイプ作成のためのローカルインスタンスを提供します。

DSVM は、次のデータプラットフォームツールをサポートします:

SQL Server Developer Edition

カテゴリ	値
紹介	ローカルのリレーショナルデータベースインスタンス
サポートされている DSVM エディション	Windows 2019、Linux (SQL Server 2019)
標準的な使用	小さいデータセットを使用した迅速なローカル開発 In-Database R の実行
サンプルへのリンク	New York City データセットの小さなサンプルが、次の SQL データベースに読み込まれます。 `nyctaxi` Microsoft Machine Learning Server とデータベース内分析を示す Jupyter サンプルを検索します。 `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
DSVM 上の関連ツール	SQL Server Management Studio ODBC および JDBC ドライバー pyodbc、RODBC

Note

SQL Server Developer Edition は、開発とテストの目的でのみ使用できます。運用環境で実行するには、ライセンスまたは SQL Server VM のいずれかが必要です。

Note

Machine Learning Server スタンドアロンのサポートは、2021 年 7 月 1 日に終了しました。 2021 年 6 月 30 日に DSVM イメージから削除されました。既存の展開では引き続きソフトウェアにアクセスできますが、サポートは 2021 年 7 月 1 日以降に終了しました。

Note

SQL Server Developer Edition は、2021 年 11 月に DSVM イメージから削除されました。既存のデプロイには引き続き SQL Server Developer Edition がインストールされています。新しいデプロイでは、SQL Server Developer Edition にアクセスするには、Docker サポートを使用してインストールして使用します。詳細については、「Quickstart: Docker でコンテナーイメージSQL Server実行するを参照してください。

Windows

セットアップ

データベースサーバーは既に事前構成されており、SQL Serverに関連するWindows サービス (SQL Server (MSSQLSERVER) など) が自動的に実行されるように設定されています。唯一の手動手順では、Microsoft Machine Learning Server を使用してデータベース内分析を有効にします。次のコマンドを実行して、SQL Server Management Studio (SSMS) で 1 回限りのアクションとして分析を有効にします。マシン管理者としてログインし、SSMS で新しいクエリを開き、master データベースを選択してから、このコマンドを実行します。

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(%COMPUTERNAME% を自分の VM 名に置き換えます。)

SQL Server Management Studioを実行するには、プログラムの一覧で "SQL Server Management Studio" を検索するか、Windows Search を使用して検索して実行します。資格情報の入力を求められたら、Windows 認証 を選択し、localhost フィールドでコンピューター名またはを使用します。

使用と実行方法

既定では、既定のデータベースインスタンスがあるデータベースサーバーは自動的に実行されます。 VM 上のSQL Server Management Studioなどのツールを使用して、SQL Server データベースにローカルでアクセスできます。ローカル管理者アカウントには、データベースへの管理者アクセス権があります。

さらに、DSVM には、次の相手と通信するための ODBC ドライバーと JDBC ドライバーが付属しています。

SQL Server
Azure SQL データベース
Python や Machine Learning Server など、複数の言語で記述されたアプリケーションからリソースをAzure Synapse Analyticsします。

DSVM での構成とインストール方法

SQL Serverは標準の方法でインストールされます。 C:\Program Files\Microsoft SQL Serverで見つけることができます。データベース内Machine Learningサーバーインスタンスは、C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES にあります。 DSVM には、C:\Program Files\Microsoft\R Server\R_SERVER にインストールされた独立したスタンドアロン Machine Learning Server インスタンスもあります。これら 2 つの Machine Learning Server インスタンスはライブラリを共有しません。

Ubuntu

使用する前に、まず Ubuntu DSVM SQL Server Developer Edition をインストールする必要があります。詳細については、「Quickstart: install SQL Server and create a database on Ubuntu」を参照してください。

Apache Spark 2.x (スタンドアロン)

カテゴリ	値
紹介	広く普及した Apache Spark プラットフォームのスタンドアロン (シングルノードインプロセス) インスタンス、高速で大規模なデータ処理および機械学習のためのシステム
サポートされている DSVM エディション	Linux
標準的な使用	小規模なデータセットを使用してローカルで Spark/PySpark アプリケーションを迅速に開発し、後で Azure HDInsight などの大規模な Spark クラスターにデプロイする Microsoft Machine Learning ServerのSparkコンテキストをテストする SparkML または Microsoft オープンソース MMLSpark ライブラリを使用して ML アプリケーションをビルドする
サンプルへのリンク	Jupyter サンプル: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Server (Spark コンテキスト): /dsvm/samples/MRS/MRSSparkContextSample.R
DSVM 上の関連ツール	PySpark、Scala Jupyter (Spark/PySpark カーネル) Microsoft Machine Learning Server、SparkR、Sparklyr Apache Drill

使用方法

spark-submit または pyspark コマンドを実行して、コマンドラインで Spark ジョブを送信します。 Spark カーネルを使用して新しいノートブックを作成しても、Jupyter Notebook を作成できます。

R から Spark を使用するには、DSVM で使用できる SparkR、Sparklyr、Microsoft Machine Learning Server などのライブラリを使用します。前述のテーブルのサンプルへのリンクを参照してください。

セットアップ

Ubuntu Linux DSVM エディションの Microsoft Machine Learning Server で Spark コンテキストで実行する前に、ローカルの単一ノード Hadoop HDFS と Yarn インスタンスを有効にする 1 回限りのセットアップ手順を完了する必要があります。 Hadoop サービスはインストールされていますが、既定では DSVM で無効になっています。これらを有効にするには、最初に次のコマンドを root 権限で実行します。

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Hadoop 関連サービスが不要になり、停止する場合は、systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn を実行します。

MRS をリモート Spark コンテキスト (つまり DSVM 上のスタンドアロン Spark インスタンス) で開発およびテストする方法を示したサンプルは、/dsvm/samples/MRS ディレクトリで入手して使用することができます。

DSVM での構成とインストール方法

プラットフォーム	インストール場所 ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Microsoft MMLSpark 機械学習ライブラリを使用して、Azure BLOB ストレージまたはAzure Data Lake Storageからデータにアクセスするためのライブラリは、$SPARK_HOME/jars にプレインストールされています。これらの JAR は Spark の起動時に自動的に読み込まれます。既定では、Spark はローカルディスクにあるデータを使用します。

DSVM 上の Spark インスタンスは、Blob Storage またはAzure Data Lake Storageに格納されているデータにアクセスできます。まず $SPARK_HOME/conf/core-site.xml.template にあるテンプレートに基づいて、core-site.xml ファイルを作成して構成する必要があります。 BLOB ストレージとAzure Data Lake Storageにアクセスするための適切な資格情報も必要です。テンプレートファイルでは、BLOB ストレージとAzure Data Lake Storage構成にプレースホルダーが使用されます。

Azure Data Lake Storage サービス資格情報の作成の詳細については、「authentication with Azure Data Lake Storage Gen1」を参照してください。 BLOB ストレージまたは Azure Data Lake Storage の資格情報を core-site.xml ファイルに入力した後は、wasb:// または adl:// の URI プレフィックスを使用して、そのデータを参照できます。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-10

Data Science Virtual Machineでサポートされているデータ プラットフォーム

SQL Server Developer Edition

Windows

セットアップ

使用と実行方法

DSVM での構成とインストール方法

Ubuntu

Apache Spark 2.x (スタンドアロン)

使用方法

セットアップ

DSVM での構成とインストール方法

フィードバック

その他のリソース

Data Science Virtual Machineでサポートされているデータプラットフォーム