Microsoft Fabric で Apache Spark ライブラリを管理する

ライブラリは、PyPI の Python パッケージ、CRAN の R パッケージ、Java JAR などの再利用可能なコードパッケージであり、ノートブックと Spark ジョブ定義にインポートして、ゼロから記述せずに機能を追加できます。 Microsoft Fabric では、ライブラリの管理と使用に役立つ複数のメカニズムが提供されています。

組み込みのライブラリ: 各 Fabric Spark ランタイムには、人気のあるプレインストール済みライブラリの豊富なセットが用意されています。すべての組み込みライブラリの一覧は、Fabric Spark ランタイムに関する記事に記載されています。
パブリックライブラリ: パブリックライブラリは、現在サポートされている PyPI や Conda などのリポジトリから提供されます。
カスタムライブラリ: カスタムライブラリとは、自身または自身の組織がビルドしたコードのことです。 Fabric では、それらは .whl、.jar、および .tar.gz 形式でサポートされています。 R 言語については、Fabric では .tar.gz のみがサポートされています。 Python カスタムライブラリの場合は、.whl 形式を使用します。

ライブラリ管理のベストプラクティスの概要

以下のシナリオでは、Microsoft Fabric でライブラリを使うときのベストプラクティスについて説明します。

環境パブリッシングモード（クイックモードとフルモード）

Fabric 環境にライブラリをインストールする場合は、ライブラリを Spark セッションに配信する方法を制御する発行モードを選択します。

クイックモード では、約 5 秒で発行されます。ライブラリは、発行時ではなくノートブックセッションの開始時にインストールされます。クイックモードパッケージの名前がフルモードパッケージと同じ場合、クイックモードバージョンは、そのセッションのフルモードバージョンのみをオーバーライドします。クイックモードを使用して、迅速で反復的なノートブック開発と初期段階の実験を行います。
フルモード では、安定した再現可能なライブラリスナップショットが作成されます。システムが依存関係を解決し、互換性を検証するため、発行には通常 3 ~ 6 分かかります。セッションのスタートアップでは、依存関係のサイズに応じて、依存関係のデプロイに 1 ~ 3 分が追加されます。一貫性のある再現可能な環境を必要とするパイプライン、スケジュールされた実行、共有ワークロードにはフルモードを使用します。

カスタムライブプールを使用したフルモード

フルモードの安定性と高速セッション開始を組み合わせるには、フルモード環境に接続するカスタムライブプールを構成します。ライブプールは、事前にフルモードライブラリスナップショットを使用してクラスターをハイドレートし、再現可能なスナップショットを保持しながら、約 5 秒のセッション開始時刻を有効にします。

各モードの詳細については、 Fabric 環境でのライブラリの管理に関するページを参照してください。

シナリオ 1: 管理者がワークスペースの既定のライブラリを設定する

既定のライブラリを設定するには、ワークスペースの管理者である必要があります。管理者として、次のタスクを実行できます。

ワークスペースの設定にアタッチされたノートブックと Spark ジョブ定義は、ワークスペースの既定の環境にインストールされたライブラリを使ってセッションを開始します。

シナリオ 2: 1 つまたは複数のコード項目のライブラリ仕様を保持する

コード項目ごとに共通のライブラリがあり、頻繁に更新する必要がない場合は、環境にライブラリをインストールしてコード項目にアタッチします。

発行時間は、選択したモードによって異なります。クイックモードでは、約 5 秒で発行され、セッション開始時にライブラリがインストールされます。フルモードでは依存関係が解決され、安定したスナップショットが作成されます。通常、公開には 3 ~ 6 分かかり、セッションのスタートアップでは依存関係のデプロイに 1 分から 3 分かかります。

この方法の利点は、正常にインストールされたライブラリは、接続された環境で Spark セッションが開始されたときに使用可能であることが保証されることです。プロジェクトの共通ライブラリを維持する手間を省き、安定性のためにパイプラインシナリオに推奨されます。

シナリオ 3: 対話型実行でのインラインインストール

ノートブックで対話形式でコードを記述する場合は、 PyPI または conda ライブラリを追加したり、1 回限りの使用のためにカスタムライブラリを検証したりするには、インラインインストールが最適な方法です。インラインコマンドを使用すると、現在のノートブック Spark セッションでのみライブラリを使用できるようになります。これにより、迅速なインストールが可能になりますが、インストールされているライブラリはセッション間で保持されません。

%pip installは実行から実行まで異なる依存関係ツリーを生成できるため、ライブラリの競合につながる可能性があるため、パイプラインの実行ではインラインコマンドが既定でオフになり、パイプラインには推奨されません。

注

インラインコマンド ( %pip install や %conda installなど) を使用してインストールされたライブラリと、ノートブックまたは環境リソースフォルダーから追加されたライブラリは、現在のセッションまたはノートブックにスコープが設定されます。それらは、クイックモードまたはフルモードで環境を発行しても影響を受けません。

サポートされるライブラリの種類の概要

ライブラリの種類	環境ライブラリ管理	インラインインストール
Python パブリック (PyPI および Conda)	サポートされています	サポートされています
Python カスタム (.whl)	サポートされています	サポートされています
R パブリック (CRAN)	サポートされていません	サポートされています
R カスタム版 (.tar.gz)	カスタムライブラリとしてサポート	サポートされています
JARファイル	カスタムライブラリとしてサポート	サポートされています

インラインインストール

インラインコマンドを使用すると、個々のノートブックセッション内のライブラリを管理できます。

Python のインラインインストール

システムは Python インタープリターを再起動してライブラリの変更を適用します。コマンドセルを実行する前に定義された変数は失われます。 Python パッケージを追加、削除、または更新するためのすべてのコマンドを ノートブックの先頭に配置します。

Python ライブラリを管理するためのインラインコマンドは、既定でノートブックパイプラインの実行で無効になっています。パイプラインの%pip installを有効にするには、ノートブックアクティビティのパラメーターに_inlineInstallationEnabledするように設定されたブール型パラメーターとしてTrueを追加します。

注

%pip install コマンドを実行すると、実行から実行までの一貫性のない結果が生成される可能性があります。環境にライブラリをインストールし、代わりにパイプラインで環境を使用します。 %pip install コマンドは、高コンカレンシーモードではサポートされていません。ノートブック参照の実行では、Python ライブラリを管理するためのインラインコマンドはサポートされていません。正しく実行されるように、参照先のノートブックからこれらのインラインコマンドを削除します。

%pipの代わりに !pip を使用します。 !pip コマンドは IPython 組み込みシェルコマンドであり、次の制限があります。

!pip は、Executor ノードではなく、ドライバーノードにのみパッケージをインストールします。
!pipによってインストールされたパッケージは、ノートブックに既にインポートされている組み込みパッケージまたはパッケージとの競合を考慮しません。

%pip は、これらのシナリオを処理します。 %pipによってインストールされたライブラリは、ドライバーノードと Executor ノードの両方で使用でき、ライブラリが既にインポートされている場合でも有効になります。

ヒント

通常、%conda install コマンドは、新しい Python ライブラリをインストールする %pip install コマンドよりも時間がかかります。完全な依存関係をチェックし、競合を解決します。

%conda installを使用して、信頼性と安定性を高めます。インストールするライブラリがランタイム環境にプレインストールされているライブラリと競合しないことを確認する場合は、 %pip install を使用します。

使用可能なすべての Python インラインコマンドとその説明については、「%pip コマンド」と「%conda コマンド」を参照してください。

インラインインストールを使用して Python パブリックライブラリを管理する

この例では、インラインコマンドを使用してライブラリを管理する方法を示します。 Python 用の強力な視覚化ライブラリである altair を 1 回限りのデータ探索に使用し、ライブラリがワークスペースにインストールされていないとします。次の例では、conda コマンドを使用して手順を説明します。

インラインコマンドを使用すると、ノートブックの他のセッションや他のアイテムに影響を与えることなく、ノートブックセッションで altair を有効にすることができます。

ノートブックコードセルで次のコマンドを実行します。最初のコマンドでは、altair ライブラリをインストールします。また、視覚化に使用できるセマンティックモデルを含む vega_datasets をインストールします。
```
%conda install altair          # install latest version through conda command
%conda install vega_datasets   # install latest version through conda command
```
セルの出力は、インストールの結果を示します。
別のノートブックセルで次のコードを実行することで、パッケージとセマンティックモデルをインポートします。
```
import altair as alt
from vega_datasets import data
```

これで、セッションスコープの altair ライブラリを試すことができます。

# load a simple dataset as a pandas DataFrame
cars = data.cars()
alt.Chart(cars).mark_point().encode(
x='Horsepower',
y='Miles_per_Gallon',
color='Origin',
).interactive()

インラインインストールを使用して Python カスタムライブラリを管理する

Python カスタムライブラリは、ノートブックのリソースフォルダーまたはアタッチされた環境にアップロードできます。 resources フォルダーは、各ノートブックと環境によって提供される組み込みのファイルシステムです。詳しくは、「Notebook のリソース」をご覧ください。ライブラリをアップロードしたら、ライブラリをコードセルにドラッグアンドドロップして、インストールコマンドを自動的に生成できます。または、次のコマンドを実行できます。

# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"

注

インラインコマンドを使用して Resources フォルダーからインストールされるカスタムライブラリは、セッションごとおよびノートブック単位です。これらは、環境のデプロイの影響を受けません。

R のインラインインストール

R ライブラリを管理するために、Fabric では install.packages()、remove.packages()、および devtools:: コマンドがサポートされています。使用可能なすべての R インラインコマンドと説明については、「install.packages コマンド」と「remove.package コマンド」を参照してください。

インラインインストールを使用して R パブリックライブラリを管理する

次の例を使用して、R パブリックライブラリをインストールする手順について説明します。

R フィードライブラリをインストールするには:

ノートブックリボンで作業言語を SparkR(R) に切り替えます。
ノートブックセルで次のコマンドを実行して、caesar ライブラリをインストールします。
```
install.packages("caesar")
```

これで、Spark ジョブでセッションスコープの caesar ライブラリを試すことができます。

library(SparkR)
sparkR.session()

hello <- function(x) {
library(caesar)
caesar(x)
}
spark.lapply(c("hello world", "good morning", "good evening"), hello)

インラインインストールによるJarライブラリの管理

次のコマンドを使用して、ノートブックセッションに.jar ファイルを追加できます。

%%configure -f
{
    "conf": {
        "spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
    }
}

上記のコードセルでは、lakehouse ストレージを例として使用しています。ノートブックエクスプローラーでは、ファイルの完全な ABFS パスをコピーし、コード内で置き換えることができます。

Microsoft Fabric で環境を作成して構成し、使用する

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-31

Microsoft Fabric で Apache Spark ライブラリを管理する

ライブラリ管理のベスト プラクティスの概要

環境パブリッシングモード（クイックモードとフルモード）

カスタム ライブ プールを使用したフル モード

シナリオ 1: 管理者がワークスペースの既定のライブラリを設定する

シナリオ 2: 1 つまたは複数のコード項目のライブラリ仕様を保持する

シナリオ 3: 対話型実行でのインライン インストール

サポートされるライブラリの種類の概要

インライン インストール

Python のインライン インストール

インライン インストールを使用して Python パブリック ライブラリを管理する

インライン インストールを使用して Python カスタム ライブラリを管理する

R のインライン インストール

インライン インストールを使用して R パブリック ライブラリを管理する

インライン インストールによるJarライブラリの管理

関連するコンテンツ