Preprocesamiento de datos y configuración de la caracterización

6 minutos

Para poder ejecutar un experimento de aprendizaje automático automatizado (AutoML), debe preparar los datos. Cuando quiera entrenar un modelo de clasificación, solo tendrá que proporcionar los datos de entrenamiento.

Después de recopilar los datos, debe crear un recurso de datos en Azure Machine Learning. Para que AutoML comprenda cómo leer los datos, debe crear un recurso de datos MLTable que incluya el esquema de los datos.

Puede crear un recurso de datos de MLTable cuando los datos se almacenan en una carpeta junto con un archivo MLTable. Cuando haya creado el recurso de datos, puede especificarlo como entrada con el código siguiente:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

Sugerencia

Obtenga más información sobre cómo crear un recurso de datos MLTable en Azure Machine Learning.

Una vez creado el recurso de datos, puede configurar el experimento de AutoML. Antes de que AutoML entrene un modelo de clasificación, las transformaciones de preprocesamiento se pueden aplicar a los datos.

Entender el escalado y la normalización

AutoML aplica el escalado y la normalización a los datos numéricos automáticamente, lo que ayuda a evitar que las características a gran escala dominen el entrenamiento. Durante un experimento de AutoML, se aplicarán varias técnicas de escalado o normalización.

Configuración de características opcionales

Puede elegir que AutoML aplique transformaciones de preprocesamiento, como:

Falta la imputación de valor para eliminar los valores NULL del conjunto de datos de entrenamiento.
Codificación de categorías para convertir características de categorías en indicadores numéricos.
Colocación de características de cardinalidad alta, como los identificadores de registro.
Ingeniería de características (por ejemplo, la derivación de partes de fecha individuales de características DateTime)

De manera predeterminada, AutoML realizará la caracterización en los datos. Puede deshabilitarlos si no desea que se transformen los datos.

Si quiere usar la función de caracterización integrada, puede personalizarla. Por ejemplo, puede especificar qué método de imputación se debe usar para una característica específica.

Una vez completado un experimento de AutoML, podrá revisar qué métodos de escalado y normalización se han aplicado. También recibirá una notificación si AutoML ha detectado algún problema con los datos, como si faltan valores o desequilibrio de clases.

Comentarios

¿Le ha resultado útil esta página?