Freigeben über


BpeTrainer Konstruktoren

Definition

Überlädt

BpeTrainer()

Erstellen Sie ein neues BpeTrainer-Objekt mit den Standardwerten.

BpeTrainer(IEnumerable<AddedToken>, Int32, Int32, ReportProgress, Nullable<Int32>, HashSet<Char>, String, String)

Erstellen Sie ein neues BpeTrainer-Objekt.

BpeTrainer()

Erstellen Sie ein neues BpeTrainer-Objekt mit den Standardwerten.

public BpeTrainer();
Public Sub New ()

Gilt für:

BpeTrainer(IEnumerable<AddedToken>, Int32, Int32, ReportProgress, Nullable<Int32>, HashSet<Char>, String, String)

Erstellen Sie ein neues BpeTrainer-Objekt.

public BpeTrainer(System.Collections.Generic.IEnumerable<Microsoft.ML.Tokenizers.AddedToken>? specialTokens, int minFrequency = 0, int vocabSize = 30000, Microsoft.ML.Tokenizers.ReportProgress? progress = default, int? limitAlphabet = default, System.Collections.Generic.HashSet<char>? initialAlphabet = default, string? continuingSubwordPrefix = default, string? endOfWordSuffix = default);
new Microsoft.ML.Tokenizers.BpeTrainer : seq<Microsoft.ML.Tokenizers.AddedToken> * int * int * Microsoft.ML.Tokenizers.ReportProgress * Nullable<int> * System.Collections.Generic.HashSet<char> * string * string -> Microsoft.ML.Tokenizers.BpeTrainer
Public Sub New (specialTokens As IEnumerable(Of AddedToken), Optional minFrequency As Integer = 0, Optional vocabSize As Integer = 30000, Optional progress As ReportProgress = Nothing, Optional limitAlphabet As Nullable(Of Integer) = Nothing, Optional initialAlphabet As HashSet(Of Char) = Nothing, Optional continuingSubwordPrefix As String = Nothing, Optional endOfWordSuffix As String = Nothing)

Parameter

specialTokens
IEnumerable<AddedToken>

Die Liste der speziellen Token, die das Modell kennen sollte.

minFrequency
Int32

Die Mindesthäufigkeit, die ein Paar haben sollte, um zusammengeführt zu werden.

vocabSize
Int32

die Größe des endgültigen Vokabulars, einschließlich aller Token und des Alphabets.

progress
ReportProgress

Rückruf für die Aktualisierungen des Trainingsstatus.

limitAlphabet
Nullable<Int32>

Die Liste der Zeichen, die in das Anfangsalphabet aufgenommen werden sollen.

initialAlphabet
HashSet<Char>

Der JSON-Dateipfad, der das Wörterbuch der Zeichenfolgenschlüssel und deren ID enthält

continuingSubwordPrefix
String

das Präfix, das für jedes Unterwort verwendet werden soll, das kein Wortanfang ist.

endOfWordSuffix
String

das Suffix, das für jedes Unterwort verwendet werden soll, das ein Wortende ist.

Gilt für: