Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Beräknar hash-koden för angivna kolumner med 64-bitarsvarianten av xxHash-algoritmen och returnerar resultatet som en lång kolumn. Hash-beräkningen använder ett första frö på 42. Stöder Spark Connect.
För motsvarande Databricks SQL-funktion, se xxhash64 funktion.
Syntax
from pyspark.sql import functions as dbf
dbf.xxhash64(*cols)
Parameterar
| Parameter | Typ | Description |
|---|---|---|
cols |
pyspark.sql.Column eller str |
En eller flera kolumner att beräkna på. |
Retur
pyspark.sql.Column: hash-värde som lång kolumn.
Examples
Exempel 1: Databehandling xxhash64 i en enda kolumn
from pyspark.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1')).show()
+---+---+-------------------+
| c1| c2| xxhash64(c1)|
+---+---+-------------------+
|ABC|DEF|4105715581806190027|
+---+---+-------------------+
Exempel 2: Databehandling xxhash64 av flera kolumner
from pyspark.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1', df.c2)).show()
+---+---+-------------------+
| c1| c2| xxhash64(c1, c2)|
+---+---+-------------------+
|ABC|DEF|3233247871021311208|
+---+---+-------------------+