データの前処理と特徴量化の構成

完了

自動機械学習 (AutoML) 実験を実行する前に、データを準備する必要があります。 分類モデルをトレーニングする場合は、トレーニング データを指定するだけで済みます。

データを収集したら、Azure Machine Learning で データ資産 を作成する必要があります。 AutoML でデータの読み取り方法を理解するには、データのスキーマを含む MLTable データ資産を作成する必要があります。

MLTable ファイルと共にフォルダーにデータが格納されている場合は、MLTable データ資産を作成できます。 データ資産を作成したら、次のコードを使用して入力として指定できます。

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

データ資産を作成したら、AutoML 実験を構成できます。 AutoML が分類モデルをトレーニングする前に、前処理変換をデータに適用できます。

スケーリングと正規化について

AutoML は、スケーリングと正規化を数値データに自動的に適用し、大規模な機能がトレーニングを支配するのを防ぎます。 AutoML 実験中に、複数のスケーリングまたは正規化手法が適用されます。

省略可能な特徴量化を構成する

AutoML で次のような前処理変換を適用するように選択できます。

  • トレーニング データセット内の null を排除するための値補完がありません。
  • カテゴリ特徴を数値インジケーターに変換するカテゴリ エンコード。
  • レコード ID などのカーディナリティの高い特徴を削除する。
  • 特徴エンジニアリング (たとえば、DateTime 特徴から個々の日付部分を派生する)

既定では、AutoML はデータに対して特徴量化を実行します。 データを変換しない場合は無効にすることができます。

統合された特徴量化機能を使用する場合は、それをカスタマイズできます。 たとえば、特定の機能に使用する補完方法を指定できます。

AutoML 実験が完了すると、適用されたスケーリングと正規化の方法を確認できます。 また、不足値やクラスの不均衡があるかどうかなど、データに関する問題が AutoML によって検出された場合にも通知されます。