Codierungsunterstützung für Codepages

Aktualisiert: November 2007

Die Verwendung von Unicode in .NET Framework vereinfacht die Entwicklung weltweit einsetzbarer Anwendungen, da die Anwendungen Verweise auf eine Codepage nicht mehr erfordern. Eine Codepage ist eine Liste ausgewählter Zeichencodes (als Codepunkte dargestellte Zeichen) in einer bestimmten Reihenfolge. Codepages werden in der Regel für die Unterstützung bestimmter Sprachen oder Sprachgruppen definiert, für die ein gemeinsames Schriftsystem verwendet wird.

Windows-Codepages enthalten 256 Codepunkte und sind nullbasiert. Bei den meisten Codepages stellen die Codepunkte 0 bis 127 dieselben Zeichen dar. Dies gewährleistet die Kontinuität und erneute Verwendung von Code. Die Codepunkte 128 bis 255 sind für die einzelnen Codepages sehr verschieden. Die Codepage 1253 enthält z. B. die Zeichencodes für das griechische Schreibsystem. Die Codepage 1252 enthält die Zeichen für lateinische Schreibsysteme, einschließlich Englisch, Deutsch und Französisch. Die letzten 128 Codepunkte in Codepage 1253 enthalten die griechischen Zeichen, und die letzten 128 Codepunkte in Codepage 1252 enthalten Umlaute und Zeichen mit Akzenten. Daher kann die Anwendung Griechisch und Deutsch nur dann in demselben Codestream speichern, wenn sie einen Bezeichner einschließt, der die referenzierte Codepage angibt.

Das DBCS-Schema (Double-Byte Character Set, Doppelbyte-Zeichensatz) wurde für Sprachen wie Chinesisch, Japanisch und Koreanisch entwickelt, die mehr als 256 Zeichen benötigen. In einem DBCS wird jedes Zeichen durch ein Paar Codepunkte (ein Doppelbyte) dargestellt. Bei der Verarbeitung von DBCS-Daten wird das erste Byte eines DBCS-Zeichens (das führende Byte) nicht allein verarbeitet. Es wird zusammen mit dem direkt nachfolgenden Byte verarbeitet. Mit diesem Schema ist die Kombination zweier Sprachen, z. B. Japanisch und Chinesisch, in ein und demselben Datenstream jedoch weiterhin nicht möglich. Der Grund dafür ist, dass durch ein Paar Doppelbyte-Codepunkte in Abhängigkeit von der Codepage jeweils ein anderes Zeichen dargestellt werden kann.

.NET Framework unterstützt Zeichen, die mithilfe von Codepages codiert wurden. Die Anwendung kann die GetEncoding-Methode verwenden, um ein Zielcodierungsobjekt für eine bestimmte Codepage zu erstellen. Mit dem folgenden Codebeispiel wird eine Codierung für die Codepage 1252 erstellt.

Encoding enc = Encoding.GetEncoding(1252)
Encoding enc = Encoding.GetEncoding(1252);

Nachdem die Anwendung ein Encoding-Objekt erstellt hat, das der angegebenen Codepage entspricht, kann sie das Objekt verwenden, um andere Operationen durchzuführen, die von der Encoding-Klasse unterstützt werden. Ein Beispiel zur Verwendung dieser Klasse finden Sie im untergeordneten Thema "Verwenden der Encoding-Klasse" des Themas Verwenden der Unicode-Codierung.

Siehe auch

Konzepte

Unicode in .NET Framework