Conceptos de Structured Streaming

Apache Spark Structured Streaming es un motor de procesamiento casi en tiempo real que ofrece tolerancia a fallos de un extremo a otro con garantías de procesamiento exactamente una vez, utilizando las conocidas API de Spark. Structured Streaming permite expresar el cálculo de los datos de streaming de la misma manera en que se expresa un cálculo por lotes en datos estáticos. El motor de flujo estructurado realiza el cálculo de forma incremental y actualiza continuamente el resultado a medida que llegan los datos de streaming.

Para ver un tutorial paso a paso, consulte Ejecución de la primera carga de trabajo de Structured Streaming.

Leer desde un flujo de datos

Utiliza Structured Streaming para ingerir datos de manera incremental desde fuentes de datos compatibles.

Feature	Descripción
Cargador automático	Procesar de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube.
Lecturas y escrituras en streaming de tablas delta	Use tablas de Delta Lake como orígenes de streaming y receptores con garantías de procesamiento exactamente una vez.
Conectores estándar	Conéctese a buses de mensajes, colas y aplicaciones empresariales mediante conectores estándar.
Tamaño de microlote	Limite las tasas de entrada para mantener tamaños de lote coherentes y evitar retrasos en el procesamiento.

Escribir en un receptor de datos

Configure cómo Structured Streaming entrega datos a los sistemas de destino.

Feature	Descripción
Puntos de comprobación	Almacene el estado de procesamiento para habilitar la tolerancia a errores y la semántica de entrega exactamente una vez.
Modo de salida	Elija entre anexar, actualizar y completar modos para las consultas de streaming con estado.
Intervalos de desencadenador	Establezca intervalos de desencadenador para equilibrar la latencia y el costo de los requisitos de procesamiento.
Modo en tiempo real en Structured Streaming	Procese datos para cargas de trabajo en tiempo real con una latencia de extremo a extremo tan baja como cinco milisegundos.

Procesamiento con estado y sin estado

Las consultas sin estado procesan filas sin conservar el estado. Las consultas con estado mantienen el estado intermedio para agregaciones, combinaciones y desduplicación.

Feature	Descripción
Consultas de streaming sin estado	Optimice las consultas que procesan datos sin mantener el estado intermedio.
Marcas de agua	Controlar cuánto tiempo espera Structured Streaming para los datos de llegada tardía en operaciones con estado.
Transmisión con estado	Administre agregaciones, combinaciones de secuencias y desduplicación mediante operadores con estado.

Supervisión y administración

Realice un seguimiento del rendimiento de las consultas, aplique optimizaciones y controle el acceso a los datos para cargas de trabajo de Structured Streaming de producción.

Feature	Descripción
Supervisión con StreamingQueryListener	Realice un seguimiento de las métricas de progreso y rendimiento de las consultas mediante la INTERFAZ de usuario de Spark y la API del agente de escucha.
Gestionar con Unity Catalog	Configure Unity Catalog para las cargas de trabajo de streaming con gobernanza y control de acceso.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-11