Data Science Virtual Machine (DSVM) を使用すると、さまざまなデータ プラットフォームに対して分析リソースを構築できます。 リモート データ プラットフォームへのインターフェイスに加えて、DSVM は、迅速な開発およびプロトタイプ作成のためのローカル インスタンスを提供します。
DSVM は、次のデータ プラットフォーム ツールをサポートします:
SQL Server Developer Edition
| カテゴリ | 値 |
|---|---|
| 紹介 | ローカルのリレーショナル データベース インスタンス |
| サポートされている DSVM エディション | Windows 2019、Linux (SQL Server 2019) |
| 標準的な使用 |
|
| サンプルへのリンク |
|
| DSVM 上の関連ツール |
|
Note
SQL Server Developer Edition は、開発とテストの目的でのみ使用できます。 運用環境で実行するには、ライセンスまたは SQL Server VM のいずれかが必要です。
Note
Machine Learning Server スタンドアロンのサポートは、2021 年 7 月 1 日に終了しました。 2021 年 6 月 30 日に DSVM イメージから削除されました。 既存の展開では引き続きソフトウェアにアクセスできますが、サポートは 2021 年 7 月 1 日以降に終了しました。
Note
SQL Server Developer Edition は、2021 年 11 月に DSVM イメージから削除されました。 既存のデプロイには引き続き SQL Server Developer Edition がインストールされています。 新しいデプロイでは、SQL Server Developer Edition にアクセスするには、Docker サポートを使用してインストールして使用します。 詳細については、「Quickstart: Docker でコンテナー イメージSQL Server実行するを参照してください。
Windows
セットアップ
データベース サーバーは既に事前構成されており、SQL Serverに関連するWindows サービス (SQL Server (MSSQLSERVER) など) が自動的に実行されるように設定されています。 唯一の手動手順では、Microsoft Machine Learning Server を使用してデータベース内分析を有効にします。 次のコマンドを実行して、SQL Server Management Studio (SSMS) で 1 回限りのアクションとして分析を有効にします。 マシン管理者としてログインし、SSMS で新しいクエリを開き、master データベースを選択してから、このコマンドを実行します。
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(%COMPUTERNAME% を自分の VM 名に置き換えます。)
SQL Server Management Studioを実行するには、プログラムの一覧で "SQL Server Management Studio" を検索するか、Windows Search を使用して検索して実行します。 資格情報の入力を求められたら、Windows 認証 を選択し、localhost フィールドでコンピューター名または を使用します。
使用と実行方法
既定では、既定のデータベース インスタンスがあるデータベース サーバーは自動的に実行されます。 VM 上のSQL Server Management Studioなどのツールを使用して、SQL Server データベースにローカルでアクセスできます。 ローカル管理者アカウントには、データベースへの管理者アクセス権があります。
さらに、DSVM には、次の相手と通信するための ODBC ドライバーと JDBC ドライバーが付属しています。
- SQL Server
- Azure SQL データベース
- Python や Machine Learning Server など、複数の言語で記述されたアプリケーションからリソースをAzure Synapse Analyticsします。
DSVM での構成とインストール方法
SQL Serverは標準の方法でインストールされます。
C:\Program Files\Microsoft SQL Serverで見つけることができます。 データベース内Machine Learningサーバー インスタンスは、C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES にあります。 DSVM には、C:\Program Files\Microsoft\R Server\R_SERVER にインストールされた独立したスタンドアロン Machine Learning Server インスタンスもあります。 これら 2 つの Machine Learning Server インスタンスはライブラリを共有しません。
Ubuntu
使用する前に、まず Ubuntu DSVM SQL Server Developer Edition をインストールする必要があります。 詳細については、「Quickstart: install SQL Server and create a database on Ubuntu」を参照してください。
Apache Spark 2.x (スタンドアロン)
| カテゴリ | 値 |
|---|---|
| 紹介 | 広く普及した Apache Spark プラットフォームのスタンドアロン (シングル ノード インプロセス) インスタンス、高速で大規模なデータ処理および機械学習のためのシステム |
| サポートされている DSVM エディション | Linux |
| 標準的な使用 |
|
| サンプルへのリンク | Jupyter サンプル:
Microsoft Machine Learning Server (Spark コンテキスト): /dsvm/samples/MRS/MRSSparkContextSample.R |
| DSVM 上の関連ツール |
|
使用方法
spark-submit または pyspark コマンドを実行して、コマンド ラインで Spark ジョブを送信します。 Spark カーネルを使用して新しいノートブックを作成しても、Jupyter Notebook を作成できます。
R から Spark を使用するには、DSVM で使用できる SparkR、Sparklyr、Microsoft Machine Learning Server などのライブラリを使用します。 前述のテーブルのサンプルへのリンクを参照してください。
セットアップ
Ubuntu Linux DSVM エディションの Microsoft Machine Learning Server で Spark コンテキストで実行する前に、ローカルの単一ノード Hadoop HDFS と Yarn インスタンスを有効にする 1 回限りのセットアップ手順を完了する必要があります。 Hadoop サービスはインストールされていますが、既定では DSVM で無効になっています。 これらを有効にするには、最初に次のコマンドを root 権限で実行します。
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Hadoop 関連サービスが不要になり、停止する場合は、systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn を実行します。
MRS をリモート Spark コンテキスト (つまり DSVM 上のスタンドアロン Spark インスタンス) で開発およびテストする方法を示したサンプルは、/dsvm/samples/MRS ディレクトリで入手して使用することができます。
DSVM での構成とインストール方法
| プラットフォーム | インストール場所 ($SPARK_HOME) |
|---|---|
| Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Microsoft MMLSpark 機械学習ライブラリを使用して、Azure BLOB ストレージまたはAzure Data Lake Storageからデータにアクセスするためのライブラリは、$SPARK_HOME/jars にプレインストールされています。 これらの JAR は Spark の起動時に自動的に読み込まれます。 既定では、Spark はローカル ディスクにあるデータを使用します。
DSVM 上の Spark インスタンスは、Blob Storage またはAzure Data Lake Storageに格納されているデータにアクセスできます。 まず $SPARK_HOME/conf/core-site.xml.template にあるテンプレートに基づいて、core-site.xml ファイルを作成して構成する必要があります。 BLOB ストレージとAzure Data Lake Storageにアクセスするための適切な資格情報も必要です。 テンプレート ファイルでは、BLOB ストレージとAzure Data Lake Storage構成にプレースホルダーが使用されます。
Azure Data Lake Storage サービス資格情報の作成の詳細については、「authentication with Azure Data Lake Storage Gen1」を参照してください。 BLOB ストレージまたは Azure Data Lake Storage の資格情報を core-site.xml ファイルに入力した後は、wasb:// または adl:// の URI プレフィックスを使用して、そのデータを参照できます。