Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Apache Spark Structured Streaming es un motor de procesamiento casi en tiempo real que ofrece tolerancia a fallos de un extremo a otro con garantías de procesamiento exactamente una vez, utilizando las conocidas API de Spark. Structured Streaming permite expresar el cálculo de los datos de streaming de la misma manera en que se expresa un cálculo por lotes en datos estáticos. El motor de flujo estructurado realiza el cálculo de forma incremental y actualiza continuamente el resultado a medida que llegan los datos de streaming.
Para ver un tutorial paso a paso, consulte Ejecución de la primera carga de trabajo de Structured Streaming.
Leer desde un flujo de datos
Utiliza Structured Streaming para ingerir datos de manera incremental desde fuentes de datos compatibles.
| Feature | Descripción |
|---|---|
| Cargador automático | Procesar de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube. |
| Lecturas y escrituras en streaming de tablas delta | Use tablas de Delta Lake como orígenes de streaming y receptores con garantías de procesamiento exactamente una vez. |
| Conectores estándar | Conéctese a buses de mensajes, colas y aplicaciones empresariales mediante conectores estándar. |
| Tamaño de microlote | Limite las tasas de entrada para mantener tamaños de lote coherentes y evitar retrasos en el procesamiento. |
Escribir en un receptor de datos
Configure cómo Structured Streaming entrega datos a los sistemas de destino.
| Feature | Descripción |
|---|---|
| Puntos de comprobación | Almacene el estado de procesamiento para habilitar la tolerancia a errores y la semántica de entrega exactamente una vez. |
| Modo de salida | Elija entre anexar, actualizar y completar modos para las consultas de streaming con estado. |
| Intervalos de desencadenador | Establezca intervalos de desencadenador para equilibrar la latencia y el costo de los requisitos de procesamiento. |
| Modo en tiempo real en Structured Streaming | Procese datos para cargas de trabajo en tiempo real con una latencia de extremo a extremo tan baja como cinco milisegundos. |
Procesamiento con estado y sin estado
Las consultas sin estado procesan filas sin conservar el estado. Las consultas con estado mantienen el estado intermedio para agregaciones, combinaciones y desduplicación.
| Feature | Descripción |
|---|---|
| Consultas de streaming sin estado | Optimice las consultas que procesan datos sin mantener el estado intermedio. |
| Marcas de agua | Controlar cuánto tiempo espera Structured Streaming para los datos de llegada tardía en operaciones con estado. |
| Transmisión con estado | Administre agregaciones, combinaciones de secuencias y desduplicación mediante operadores con estado. |
Supervisión y administración
Realice un seguimiento del rendimiento de las consultas, aplique optimizaciones y controle el acceso a los datos para cargas de trabajo de Structured Streaming de producción.
| Feature | Descripción |
|---|---|
| Supervisión con StreamingQueryListener | Realice un seguimiento de las métricas de progreso y rendimiento de las consultas mediante la INTERFAZ de usuario de Spark y la API del agente de escucha. |
| Gestionar con Unity Catalog | Configure Unity Catalog para las cargas de trabajo de streaming con gobernanza y control de acceso. |