Captura datos de Event Hubs en formato Delta Lake

En este artículo se explica cómo usar el editor sin código para capturar automáticamente datos de streaming en Event Hubs en una cuenta de Azure Data Lake Storage Gen2 en formato Delta Lake.

Requisitos previos

  • Debe hacer que los recursos de Azure Event Hubs y Azure Data Lake Storage Gen2 sean accesibles públicamente. No colóquelos detrás de un firewall ni los proteja en una Azure Virtual Network.
  • Debe serializar los datos en tus Event Hubs en los formatos JSON, CSV o Avro.

Configuración de un trabajo para capturar datos

Siga estos pasos para configurar un trabajo de Stream Analytics para capturar datos en Azure Data Lake Storage Gen2.

  1. En Azure Portal, vaya al centro de eventos.

  2. Seleccione Características>Procesar datos, y seleccione Iniciar en la tarjeta Capturar datos a ADLS Gen2 en formato de Delta Lake.
    Captura de pantalla que muestra las tarjetas de inicio de datos del procesamiento de Event Hubs.

    Como alternativa, seleccione Captura de características> y seleccione la opción Delta Lake en Formato de serialización de eventos de salida. A continuación, seleccione Iniciar configuración de captura de datos. Captura de pantalla que muestra el punto de entrada de la creación de datos de captura.

  3. Escriba un nombre para identificar el trabajo de Stream Analytics. Seleccione Crear.
    Captura de pantalla que muestra la ventana Nuevo trabajo de Stream Analytics donde se especifica el nombre del trabajo.

  4. Especifique el tipo de Serialización de los datos en Event Hubs y el Método de autenticación que usa el trabajo para conectarse a Event Hubs. A continuación, seleccione Conectar. Captura de pantalla que muestra la configuración de conexión de Event Hubs.

  5. Cuando la conexión se establezca correctamente, verá lo siguiente:

    • Campos que están presentes en los datos de entrada. Puede elegir Agregar campo o puede seleccionar el símbolo de los tres puntos junto a un campo para, opcionalmente, eliminar, renombrar o cambiar su nombre.
    • Una muestra en tiempo real de los datos entrantes en la tabla de Vista previa de datos dentro de la vista de diagrama. Se actualiza periódicamente. Puede seleccionar Pausar la versión preliminar del streaming para ver una vista estática de la entrada de la muestra.
      Captura de pantalla que muestra datos de ejemplo en Vista previa de datos.
  6. Seleccione el mosaico Azure Data Lake Storage Gen2 para editar la configuración.

  7. En la página de configuración de Azure Data Lake Storage Gen2, siga estos pasos:

    1. Seleccione la suscripción, el nombre de la cuenta de almacenamiento y el contenedor en el menú desplegable.

    2. Después de seleccionar la suscripción, el método de autenticación y la clave de la cuenta de almacenamiento se rellenan automáticamente.

    3. Para Delta table path, especifique la ubicación y el nombre de la tabla de Delta Lake almacenada en Azure Data Lake Storage Gen2. Puede optar por usar uno o varios segmentos de ruta de acceso para definir la ruta de acceso a la tabla Delta y el nombre de la tabla Delta. Para más información, consulte Escribir en la tabla de Delta Lake.

    4. Seleccione Conectar.

      Primera captura de pantalla que muestra la ventana Blob donde se edita una configuración de conexión de blob.

  8. Cuando se establezca la conexión, verá los campos que están presentes en los datos de salida.

  9. Seleccione Guardar en la barra de comandos para guardar la configuración.

  10. Seleccione Iniciar en la barra de comandos para iniciar el flujo de streaming y capturar datos. A continuación, en la ventana Iniciar trabajo de Stream Analytics :

    1. Seleccione la hora de inicio de la salida.
    2. Seleccione el número de Unidades de streaming (SU) con las que se ejecuta el trabajo. Las unidades de transmisión (SUs) representan los recursos informáticos que se asignan para ejecutar un trabajo de Stream Analytics. Para más información, consulte Unidades de streaming en Azure Stream Analytics.
      Captura de pantalla que muestra la ventana Inicio del trabajo de Stream Analytics donde se especifica la hora de inicio de salida, las unidades de streaming y el control de errores.
  11. Después de seleccionar Iniciar, el trabajo comienza a ejecutarse en dos minutos y las métricas se abren en la sección de pestañas, como se muestra en la siguiente imagen. Captura de pantalla que muestra el gráfico de métricas.

  12. Puede ver el nuevo trabajo en la pestaña Trabajos de Stream Analytics . Captura de pantalla que muestra el vínculo Abrir métricas seleccionado.

Comprobar salida

Compruebe que los archivos Parquet con formato Delta Lake se generan en el contenedor de Azure Data Lake Storage.

Captura de pantalla que muestra los archivos Parquet generados en el contenedor de Azure Data Lake Storage (ADLS).

Consideraciones al usar la característica de replicación geográfica de Event Hubs

Azure Event Hubs lanzó recientemente la característica Replicación geográfica en versión preliminar pública. Esta característica es diferente de la característica de Recuperación ante desastres geográfica de Azure Event Hubs.

Cuando el tipo de conmutación por error es Forzado y la coherencia de la replicación es Asincrónica, el trabajo de Stream Analytics no garantiza entrega exactamente una vez a una entrada de Azure Event Hubs.

Azure Stream Analytics, como productor con un centro de eventos como salida, podría observar el retraso de la marca de agua durante la conmutación por error en el trabajo y durante la limitación por Event Hubs en caso de que el retraso de replicación entre el nodo principal y el secundario alcance el retraso máximo configurado.

Azure Stream Analytics, como consumidor con Event Hubs como entrada, puede observar el retraso de la marca de agua en el trabajo durante la duración de la conmutación por error y podría omitir los datos o buscar datos duplicados una vez completada la conmutación por error.

Debido a estas consideraciones, reinicie la tarea de Stream Analytics con la hora de inicio adecuada inmediatamente después de que se complete la conmutación por error de Event Hubs. Además, dado que la característica de replicación geográfica de Event Hubs está en versión preliminar pública, no use este patrón para los trabajos de Stream Analytics de producción en este momento. El comportamiento actual de Stream Analytics mejorará antes de que la característica de replicación geográfica de Event Hubs esté disponible con carácter general y se pueda usar en trabajos de producción de Stream Analytics.

Pasos siguientes

Ya sabe cómo usar el editor sin código de Stream Analytics para crear un trabajo que capture datos de Event Hubs en Azure Data Lake Storage Gen2 en formato Delta Lake. A continuación, puede obtener más información sobre Azure Stream Analytics y cómo supervisar el trabajo que ha creado.