UnicodeCategory Enum

Definitie

Hiermee definieert u de Unicode-categorie van een teken.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Overname
UnicodeCategory
Kenmerken

Velden

Name Waarde Description
UppercaseLetter 0

Hoofdletters. Ondertekend door de Unicode-aanduiding 'Lu' (letter, hoofdletter). De waarde is 0.

LowercaseLetter 1

Kleine letter. Ondertekend door de Unicode-aanduiding 'Ll' (letter, kleine letter). De waarde is 1.

TitlecaseLetter 2

Titelletter. Ondertekend door de Unicode-aanduiding 'Lt' (letter, titelcase). De waarde is 2.

ModifierLetter 3

Modifier letter teken, dat is vrije afstand teken dat aangeeft wijzigingen van een voorgaande letter. Ondertekend door de Unicode-aanduiding Lm (letter, modifier). De waarde is 3.

OtherLetter 4

Een letter die geen hoofdletter is, een kleine letter, een titelletter of een wijzigingsletter. Ondertekend door de Unicode-aanduiding 'Lo' (letter, overige). De waarde is 4.

NonSpacingMark 5

Niet-pacing-teken dat wijzigingen van een basisteken aangeeft. Ondertekend door de Unicode-aanduiding 'Mn' (markering, niet-pacing). De waarde is 5.

SpacingCombiningMark 6

Afstand die wijzigingen van een basisteken aangeeft en van invloed is op de breedte van het symbool voor dat basisteken. Aangeduid met de Unicode-aanduiding 'Mc' (markering, spatiëring). De waarde is 6.

EnclosingMark 7

Het omsluiten van een tekenteken, een niet-pacing die een combinatie is van een teken dat alle vorige tekens omringt tot en met een basisteken. Ondertekend door de Unicode-aanduiding 'Ik' (markering, insluiten). De waarde is 7.

DecimalDigitNumber 8

Decimaalteken, dat wil gezegd, een teken dat een geheel getal vertegenwoordigt in het bereik 0 tot en met 9. Ondertekend door de Unicode-aanduiding 'Nd' (getal, decimaalteken). De waarde is 8.

LetterNumber 9

Getal dat wordt vertegenwoordigd door een letter, in plaats van een decimaal cijfer, bijvoorbeeld het Romeinse getal voor vijf, dat 'V' is. De indicator wordt aangeduid met de Unicode-aanduiding Nl (getal, letter). De waarde is 9.

OtherNumber 10

Getal dat geen decimaal getal of een letternummer is, bijvoorbeeld de breuk 1/2. De indicator wordt aangeduid met de Unicode-aanduiding 'Nee' (getal, overige). De waarde is 10.

SpaceSeparator 11

Spatieteken, dat geen symbool heeft, maar geen besturingselement of opmaakteken is. Aangeduid met de Unicode-aanduiding Zs (scheidingsteken, spatie). De waarde is 11.

LineSeparator 12

Teken dat wordt gebruikt om regels tekst te scheiden. Ondertekend door de Unicode-aanduiding 'Zl' (scheidingsteken, lijn). De waarde is 12.

ParagraphSeparator 13

Teken dat wordt gebruikt om alinea's te scheiden. Ondertekend door de Unicode-aanduiding 'Zp' (scheidingsteken, alinea). De waarde is 13.

Control 14

Besturingselementcodeteken, met een Unicode-waarde van U+007F of in het bereik U+0000 tot en met U+001F of U+0080 tot en met U+009F. Ondertekend door de Unicode-aanduiding 'CC' (ander, besturingselement). De waarde is 14.

Format 15

Teken opmaken dat van invloed is op de indeling van tekst of de werking van tekstprocessen, maar die normaal gesproken niet wordt weergegeven. Ondertekend door de Unicode-aanduiding 'Cf' (andere indeling). De waarde is 15.

Surrogate 16

Hoog surrogaat of een laag surrogaatteken. Surrogaatcodewaarden bevinden zich in het bereik U+D800 tot en met U+DFFF. Ondertekend door de Unicode-aanduiding 'Cs' (ander, surrogaat). De waarde is 16.

PrivateUse 17

Het teken Privégebruik, met een Unicode-waarde in het bereik U+E000 tot en met U+F8FF. Ondertekend door de Unicode-aanduiding 'Co' (ander, privégebruik). De waarde is 17.

ConnectorPunctuation 18

Interpunctieteken van verbindingslijn waarmee twee tekens worden verbonden. Ondertekend door de Unicode-aanduiding 'Pc' (interpunctie, verbindingslijn). De waarde is 18.

DashPunctuation 19

Streepje of afbreekstreepje. Ondertekend door de Unicode-aanduiding 'Pd' (interpunctie, streepje). De waarde is 19.

OpenPunctuation 20

Het openingsteken van een van de gekoppelde interpunctiemarkeringen, zoals haakjes, vierkante haken en accolades. Ondertekend door de Unicode-aanduiding 'Ps' (interpunctie, open). De waarde is 20.

ClosePunctuation 21

Sluitteken van een van de gekoppelde interpunctiemarkeringen, zoals haakjes, vierkante haken en accolades. Ondertekend door de Unicode-aanduiding 'Pe' (interpunctie, sluiten). De waarde is 21.

InitialQuotePunctuation 22

Aanhalingsteken openen of initiële aanhalingstekens. Ondertekend door de Unicode-aanduiding "Pi" (interpunctie, initiële aanhalingsteken). De waarde is 22.

FinalQuotePunctuation 23

Aanhalingsteken sluiten of definitief aanhalingsteken. Ondertekend door de Unicode-aanduiding 'Pf' (interpunctie, eindcitaat). De waarde is 23.

OtherPunctuation 24

Interpunctieteken dat geen verbindingslijn is, een streepje, leestekens openen, interpunctie sluiten, een eerste aanhalingsteken of een eindcitaat. Ondertekend door de Unicode-aanduiding 'Po' (interpunctie, overig). De waarde is 24.

MathSymbol 25

Wiskundig symbool, zoals '+' of '= '. Ondertekend door de Unicode-aanduiding "Sm" (symbool, wiskunde). De waarde is 25.

CurrencySymbol 26

Valutasymbool. Ondertekend door de Unicode-aanduiding Sc (symbool, valuta). De waarde is 26.

ModifierSymbol 27

Wijzigingssymbool, waarmee wijzigingen van omringende tekens worden aangegeven. De breukslash geeft bijvoorbeeld aan dat het getal links de teller is en het getal rechts de noemer is. De indicator wordt aangeduid met de Unicode-aanduiding 'Sk' (symbool, modifier). De waarde is 27.

OtherSymbol 28

Symboolteken dat geen wiskundig symbool, een valutasymbool of een wijzigingssymbool is. Ondertekend door de Unicode-aanduiding 'So' (symbool, overige). De waarde is 28.

OtherNotAssigned 29

Teken dat niet is toegewezen aan een Unicode-categorie. Ondertekend door de Unicode-aanduiding 'Cn' (overige, niet toegewezen). De waarde is 29.

Voorbeelden

In het volgende voorbeeld worden de tekens en de bijbehorende codepunten weergegeven voor tekens in de categorie HoofdletterLetter. U kunt het voorbeeld wijzigen om de letters in een andere categorie weer te geven door HoofdletterLetter te vervangen door de categorie waarin u geïnteresseerd bent in de toewijzing aan de category variabele. Houd er rekening mee dat de uitvoer voor sommige categorieën uitgebreid kan zijn.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Opmerkingen

Een lid van de UnicodeCategory opsomming wordt geretourneerd door de Char.GetUnicodeCategory en CharUnicodeInfo.GetUnicodeCategory methoden. De UnicodeCategory opsomming wordt ook gebruikt ter ondersteuning Char van methoden, zoals IsUpper(Char). Dergelijke methoden bepalen of een opgegeven teken lid is van een bepaalde Algemene Unicode-categorie. Een algemene Unicode-categorie definieert de brede classificatie van een teken, dat wil gezegd, aanduiding als een type letter, decimaalteken, scheidingsteken, wiskundig symbool, interpunctie, enzovoort.

Deze opsomming is gebaseerd op De Unicode Standard, versie 5.0. Zie de subonderwerpen 'UCD-bestandsindeling' en 'Algemene categoriewaarden' in de Unicode-tekendatabase voor meer informatie.

De Unicode-standaard definieert het volgende:

Een surrogaatpaar is een gecodeerde tekenweergave voor één abstract teken dat bestaat uit een reeks van twee code-eenheden, waarbij de eerste eenheid van het paar een hoog surrogaat is en de tweede een laag surrogaat is. Een hoog surrogaat is een Unicode-codepunt in het bereik U+D800 tot en met U+DBFF en een laag surrogaat is een Unicode-codepunt in het bereik U+DC00 tot en met U+DFFF.

Een combinatie van tekenreeksen is een combinatie van een basisteken en een of meer combinaties van tekens. Een surrogaatpaar vertegenwoordigt een basisteken of een combinatieteken. Een combinatieteken is afstand of niet-pacing. Een spatiëring die teken combineert, neemt zelf een afstandspositie in beslag wanneer deze wordt weergegeven, terwijl een niet-pacing-combinatieteken dat niet doet. Diakritische tekens zijn een voorbeeld van niet-pacing waarbij tekens worden gecombineerd.

Een wijzigingsletter is een vrije afstand die, zoals een combinatieteken, wijzigingen van een voorgaande letter aangeeft.

Een insluitteken is een niet-pacing-combinatie van tekens die alle vorige tekens omringt tot en met een basisteken.

Een opmaakteken is een teken dat normaal gesproken niet wordt weergegeven, maar die van invloed is op de indeling van tekst of de werking van tekstprocessen.

De Unicode-standaard definieert verschillende variaties op enkele interpunctiemarkeringen. Een afbreekstreepje kan bijvoorbeeld een van de verschillende codewaarden zijn die een afbreekstreepje vertegenwoordigen, zoals U+002D (afbreekstreepje) of U+00AD (zacht afbreekstreepje) of U+2010 (afbreekstreepje) of U+2011 (vast afbreekstreepje). Hetzelfde geldt voor streepjes, spatietekens en aanhalingstekens.

De Unicode-standaard wijst ook codes toe aan weergaven van decimale cijfers die specifiek zijn voor een bepaald script of een bepaalde taal, bijvoorbeeld U+0030 (cijfer nul) en U+0660 (Arabic-Indic cijfer nul).

Van toepassing op

Zie ook