Trabalho com ficheiros ORC

Apache ORC é um formato de ficheiro colunar que oferece otimizações para acelerar consultas. É mais eficiente do que CSV ou JSON. O Azure Databricks suporta ORC tanto para leitura como para escrita com o Apache Spark. Para mais informações, consulte a documentação do Apache Spark sobre Ficheiros ORC.

Pré-requisitos

O Azure Databricks não requer configuração adicional para utilizar ficheiros ORC. No entanto, para transmitir ficheiros ORC, precisas do Auto Loader.

Configurar e usar o ORC com a API DataFrame

Use a API Apache Spark DataFrame para ler e escrever ficheiros ORC quando precisar de controlo total sobre o esquema, particionamento ou comportamento de escrita.

Opções de leitura e escrita

Consulte os seguintes artigos de referência do Apache Spark para opções de leitura e escrita da API DataFrame suportadas.

Ler
- Python
- Scala
Escrever
- Python
- Scala

Ler e escrever ficheiros ORC

Por exemplo, ler data.orc num DataFrame df e escrevê-lo em orc_output.

Python

# Read an ORC file into a DataFrame
df = spark.read.format("orc").load("/tmp/data.orc")
df.show()

# Write a DataFrame to ORC format
df.write.format("orc").save("/tmp/orc_output")

# Write with overwrite mode
df.write.format("orc").mode("overwrite").save("/tmp/orc_output")

Scala

// Read an ORC file into a DataFrame
val df = spark.read.format("orc").load("/tmp/data.orc")
df.show()

// Write a DataFrame to ORC format
df.write.format("orc").save("/tmp/orc_output")

// Write with overwrite mode
df.write.format("orc").mode("overwrite").save("/tmp/orc_output")

SQL

-- Query ORC files directly
SELECT * FROM orc.`/tmp/data.orc`;

-- Create a table from ORC files
CREATE TABLE orc_table
USING ORC
OPTIONS (path "/tmp/data.orc");

SELECT * FROM orc_table;

Leia ficheiros ORC com especificação de esquema

Especifique um esquema ao ler ficheiros ORC para evitar a sobrecarga da inferência de esquemas. Por exemplo, defina um esquema com os campos name, age e city e leia data.orc num DataFrame df.

Python

from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True),
    StructField("city", StringType(), True)
])

df = spark.read.format("orc").schema(schema).load("/tmp/data.orc")
df.printSchema()
df.show()

Scala

import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}

val schema = StructType(Array(
  StructField("name", StringType, nullable = true),
  StructField("age", IntegerType, nullable = true),
  StructField("city", StringType, nullable = true)
))

val df = spark.read.format("orc").schema(schema).load("/tmp/data.orc")
df.printSchema()
df.show()

SQL

-- Create a table with an explicit schema from ORC files
CREATE TABLE orc_table (
  name STRING,
  age INT,
  city STRING
)
USING ORC
OPTIONS (path "/tmp/data.orc");

SELECT * FROM orc_table;

Escrever ficheiros ORC particionados

Escrever ficheiros ORC particionados para otimizar o desempenho das consultas em grandes conjuntos de dados. Por exemplo, crie um DataFrame df com colunas year, month, name e amount, e escreva-o em partitioned_orc particionado por year e month.

Python

df = spark.createDataFrame(
    [
        (2023, 1, "Alice", 100),
        (2023, 1, "Bob", 200),
        (2023, 2, "Alice", 150),
        (2024, 1, "Alice", 300),
    ],
    ["year", "month", "name", "amount"]
)

# Write partitioned by year and month
df.write.format("orc").partitionBy("year", "month").save("/tmp/partitioned_orc")

Scala

val df = Seq(
  (2023, 1, "Alice", 100),
  (2023, 1, "Bob", 200),
  (2023, 2, "Alice", 150),
  (2024, 1, "Alice", 300)
).toDF("year", "month", "name", "amount")

// Write partitioned by year and month
df.write.format("orc").partitionBy("year", "month").save("/tmp/partitioned_orc")

SQL

-- Create a partitioned ORC table
CREATE TABLE partitioned_orc_table (
  name STRING,
  amount INT
)
USING ORC
PARTITIONED BY (year INT, month INT);

Leia ficheiros ORC usando SQL

Uso read_files para consultar ficheiros ORC diretamente a partir de armazenamento na cloud usando SQL sem criar uma tabela. Por exemplo, consultar um ficheiro ORC armazenado em armazenamento na cloud usando o caminho para o ficheiro e o orc especificador de formato.

SELECT * FROM read_files(
  's3://<bucket>/<path>/<file>.orc',
  format => 'orc'
)

Configurar compressão ORC

Configure a compressão ORC usando a compression opção. Os codecs suportados incluem none, snappy, zlib, e lzo. Por exemplo, escrever df para compressed_orc usando zlib compressão, ou para snappy_orc usando snappy compressão.

Python

# Write with zlib compression
df.write.format("orc").option("compression", "zlib").save("/tmp/compressed_orc")

# Write with snappy compression (default)
df.write.format("orc").option("compression", "snappy").save("/tmp/snappy_orc")

Scala

// Write with zlib compression
df.write.format("orc").option("compression", "zlib").save("/tmp/compressed_orc")

// Write with snappy compression (default)
df.write.format("orc").option("compression", "snappy").save("/tmp/snappy_orc")

SQL

-- Create an ORC table with zlib compression
CREATE TABLE compressed_orc_table (
  name STRING,
  age INT,
  city STRING
)
USING ORC
TBLPROPERTIES ('orc.compress' = 'ZLIB');

-- Create an ORC table with snappy compression
CREATE TABLE snappy_orc_table (
  name STRING,
  age INT,
  city STRING
)
USING ORC
TBLPROPERTIES ('orc.compress' = 'SNAPPY');

Comentários

Esta página foi útil?

Last updated on 2026-04-04

Partilhar via

Trabalho com ficheiros ORC

Pré-requisitos

Configurar e usar o ORC com a API DataFrame

Opções de leitura e escrita

Ler e escrever ficheiros ORC

Python

Scala

SQL

Leia ficheiros ORC com especificação de esquema

Python

Scala

SQL

Escrever ficheiros ORC particionados

Python

Scala

SQL

Leia ficheiros ORC usando SQL

Configurar compressão ORC

Python

Scala

SQL

Comentários

Recursos adicionais