UnicodeCategory Enum
Definitie
Belangrijk
Bepaalde informatie heeft betrekking op een voorlopige productversie die aanzienlijk kan worden gewijzigd voordat deze wordt uitgebracht. Microsoft biedt geen enkele expliciete of impliciete garanties met betrekking tot de informatie die hier wordt verstrekt.
Hiermee definieert u de Unicode-categorie van een teken.
public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory =
[<System.Serializable>]
type UnicodeCategory =
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =
Public Enum UnicodeCategory
- Overname
- Kenmerken
Velden
| Name | Waarde | Description |
|---|---|---|
| UppercaseLetter | 0 | Hoofdletters. Ondertekend door de Unicode-aanduiding 'Lu' (letter, hoofdletter). De waarde is 0. |
| LowercaseLetter | 1 | Kleine letter. Ondertekend door de Unicode-aanduiding 'Ll' (letter, kleine letter). De waarde is 1. |
| TitlecaseLetter | 2 | Titelletter. Ondertekend door de Unicode-aanduiding 'Lt' (letter, titelcase). De waarde is 2. |
| ModifierLetter | 3 | Modifier letter teken, dat is vrije afstand teken dat aangeeft wijzigingen van een voorgaande letter. Ondertekend door de Unicode-aanduiding Lm (letter, modifier). De waarde is 3. |
| OtherLetter | 4 | Een letter die geen hoofdletter is, een kleine letter, een titelletter of een wijzigingsletter. Ondertekend door de Unicode-aanduiding 'Lo' (letter, overige). De waarde is 4. |
| NonSpacingMark | 5 | Niet-pacing-teken dat wijzigingen van een basisteken aangeeft. Ondertekend door de Unicode-aanduiding 'Mn' (markering, niet-pacing). De waarde is 5. |
| SpacingCombiningMark | 6 | Afstand die wijzigingen van een basisteken aangeeft en van invloed is op de breedte van het symbool voor dat basisteken. Aangeduid met de Unicode-aanduiding 'Mc' (markering, spatiëring). De waarde is 6. |
| EnclosingMark | 7 | Het omsluiten van een tekenteken, een niet-pacing die een combinatie is van een teken dat alle vorige tekens omringt tot en met een basisteken. Ondertekend door de Unicode-aanduiding 'Ik' (markering, insluiten). De waarde is 7. |
| DecimalDigitNumber | 8 | Decimaalteken, dat wil gezegd, een teken dat een geheel getal vertegenwoordigt in het bereik 0 tot en met 9. Ondertekend door de Unicode-aanduiding 'Nd' (getal, decimaalteken). De waarde is 8. |
| LetterNumber | 9 | Getal dat wordt vertegenwoordigd door een letter, in plaats van een decimaal cijfer, bijvoorbeeld het Romeinse getal voor vijf, dat 'V' is. De indicator wordt aangeduid met de Unicode-aanduiding Nl (getal, letter). De waarde is 9. |
| OtherNumber | 10 | Getal dat geen decimaal getal of een letternummer is, bijvoorbeeld de breuk 1/2. De indicator wordt aangeduid met de Unicode-aanduiding 'Nee' (getal, overige). De waarde is 10. |
| SpaceSeparator | 11 | Spatieteken, dat geen symbool heeft, maar geen besturingselement of opmaakteken is. Aangeduid met de Unicode-aanduiding Zs (scheidingsteken, spatie). De waarde is 11. |
| LineSeparator | 12 | Teken dat wordt gebruikt om regels tekst te scheiden. Ondertekend door de Unicode-aanduiding 'Zl' (scheidingsteken, lijn). De waarde is 12. |
| ParagraphSeparator | 13 | Teken dat wordt gebruikt om alinea's te scheiden. Ondertekend door de Unicode-aanduiding 'Zp' (scheidingsteken, alinea). De waarde is 13. |
| Control | 14 | Besturingselementcodeteken, met een Unicode-waarde van U+007F of in het bereik U+0000 tot en met U+001F of U+0080 tot en met U+009F. Ondertekend door de Unicode-aanduiding 'CC' (ander, besturingselement). De waarde is 14. |
| Format | 15 | Teken opmaken dat van invloed is op de indeling van tekst of de werking van tekstprocessen, maar die normaal gesproken niet wordt weergegeven. Ondertekend door de Unicode-aanduiding 'Cf' (andere indeling). De waarde is 15. |
| Surrogate | 16 | Hoog surrogaat of een laag surrogaatteken. Surrogaatcodewaarden bevinden zich in het bereik U+D800 tot en met U+DFFF. Ondertekend door de Unicode-aanduiding 'Cs' (ander, surrogaat). De waarde is 16. |
| PrivateUse | 17 | Het teken Privégebruik, met een Unicode-waarde in het bereik U+E000 tot en met U+F8FF. Ondertekend door de Unicode-aanduiding 'Co' (ander, privégebruik). De waarde is 17. |
| ConnectorPunctuation | 18 | Interpunctieteken van verbindingslijn waarmee twee tekens worden verbonden. Ondertekend door de Unicode-aanduiding 'Pc' (interpunctie, verbindingslijn). De waarde is 18. |
| DashPunctuation | 19 | Streepje of afbreekstreepje. Ondertekend door de Unicode-aanduiding 'Pd' (interpunctie, streepje). De waarde is 19. |
| OpenPunctuation | 20 | Het openingsteken van een van de gekoppelde interpunctiemarkeringen, zoals haakjes, vierkante haken en accolades. Ondertekend door de Unicode-aanduiding 'Ps' (interpunctie, open). De waarde is 20. |
| ClosePunctuation | 21 | Sluitteken van een van de gekoppelde interpunctiemarkeringen, zoals haakjes, vierkante haken en accolades. Ondertekend door de Unicode-aanduiding 'Pe' (interpunctie, sluiten). De waarde is 21. |
| InitialQuotePunctuation | 22 | Aanhalingsteken openen of initiële aanhalingstekens. Ondertekend door de Unicode-aanduiding "Pi" (interpunctie, initiële aanhalingsteken). De waarde is 22. |
| FinalQuotePunctuation | 23 | Aanhalingsteken sluiten of definitief aanhalingsteken. Ondertekend door de Unicode-aanduiding 'Pf' (interpunctie, eindcitaat). De waarde is 23. |
| OtherPunctuation | 24 | Interpunctieteken dat geen verbindingslijn is, een streepje, leestekens openen, interpunctie sluiten, een eerste aanhalingsteken of een eindcitaat. Ondertekend door de Unicode-aanduiding 'Po' (interpunctie, overig). De waarde is 24. |
| MathSymbol | 25 | Wiskundig symbool, zoals '+' of '= '. Ondertekend door de Unicode-aanduiding "Sm" (symbool, wiskunde). De waarde is 25. |
| CurrencySymbol | 26 | Valutasymbool. Ondertekend door de Unicode-aanduiding Sc (symbool, valuta). De waarde is 26. |
| ModifierSymbol | 27 | Wijzigingssymbool, waarmee wijzigingen van omringende tekens worden aangegeven. De breukslash geeft bijvoorbeeld aan dat het getal links de teller is en het getal rechts de noemer is. De indicator wordt aangeduid met de Unicode-aanduiding 'Sk' (symbool, modifier). De waarde is 27. |
| OtherSymbol | 28 | Symboolteken dat geen wiskundig symbool, een valutasymbool of een wijzigingssymbool is. Ondertekend door de Unicode-aanduiding 'So' (symbool, overige). De waarde is 28. |
| OtherNotAssigned | 29 | Teken dat niet is toegewezen aan een Unicode-categorie. Ondertekend door de Unicode-aanduiding 'Cn' (overige, niet toegewezen). De waarde is 29. |
Voorbeelden
In het volgende voorbeeld worden de tekens en de bijbehorende codepunten weergegeven voor tekens in de categorie HoofdletterLetter. U kunt het voorbeeld wijzigen om de letters in een andere categorie weer te geven door HoofdletterLetter te vervangen door de categorie waarin u geïnteresseerd bent in de toewijzing aan de category variabele. Houd er rekening mee dat de uitvoer voor sommige categorieën uitgebreid kan zijn.
using System;
using System.Globalization;
public class Example
{
public static void Main()
{
int ctr = 0;
UnicodeCategory category = UnicodeCategory.UppercaseLetter;
for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
Char ch = (char)codePoint;
if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
if (ctr % 5 == 0)
Console.WriteLine();
Console.Write("{0} (U+{1:X4}) ", ch, codePoint);
ctr++;
}
}
Console.WriteLine();
Console.WriteLine("\n{0} characters are in the {1:G} category",
ctr, category);
}
}
Imports System.Globalization
Module Example
Public Sub Main()
Dim ctr As Integer = 0
Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
For codePoint As UShort = 0 To UShort.MaxValue - 1
Dim ch As Char = Convert.ToChar(codePoint)
If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
If ctr Mod 5 = 0 Then Console.WriteLine()
Console.Write("{0} (U+{1:X4}) ", ch, codePoint)
ctr += 1
End If
Next
Console.WriteLine()
Console.WriteLine()
Console.WriteLine("{0} characters are in the {1:G} category",
ctr, category)
End Sub
End Module
Opmerkingen
Een lid van de UnicodeCategory opsomming wordt geretourneerd door de Char.GetUnicodeCategory en CharUnicodeInfo.GetUnicodeCategory methoden. De UnicodeCategory opsomming wordt ook gebruikt ter ondersteuning Char van methoden, zoals IsUpper(Char). Dergelijke methoden bepalen of een opgegeven teken lid is van een bepaalde Algemene Unicode-categorie. Een algemene Unicode-categorie definieert de brede classificatie van een teken, dat wil gezegd, aanduiding als een type letter, decimaalteken, scheidingsteken, wiskundig symbool, interpunctie, enzovoort.
Deze opsomming is gebaseerd op De Unicode Standard, versie 5.0. Zie de subonderwerpen 'UCD-bestandsindeling' en 'Algemene categoriewaarden' in de Unicode-tekendatabase voor meer informatie.
De Unicode-standaard definieert het volgende:
Een surrogaatpaar is een gecodeerde tekenweergave voor één abstract teken dat bestaat uit een reeks van twee code-eenheden, waarbij de eerste eenheid van het paar een hoog surrogaat is en de tweede een laag surrogaat is. Een hoog surrogaat is een Unicode-codepunt in het bereik U+D800 tot en met U+DBFF en een laag surrogaat is een Unicode-codepunt in het bereik U+DC00 tot en met U+DFFF.
Een combinatie van tekenreeksen is een combinatie van een basisteken en een of meer combinaties van tekens. Een surrogaatpaar vertegenwoordigt een basisteken of een combinatieteken. Een combinatieteken is afstand of niet-pacing. Een spatiëring die teken combineert, neemt zelf een afstandspositie in beslag wanneer deze wordt weergegeven, terwijl een niet-pacing-combinatieteken dat niet doet. Diakritische tekens zijn een voorbeeld van niet-pacing waarbij tekens worden gecombineerd.
Een wijzigingsletter is een vrije afstand die, zoals een combinatieteken, wijzigingen van een voorgaande letter aangeeft.
Een insluitteken is een niet-pacing-combinatie van tekens die alle vorige tekens omringt tot en met een basisteken.
Een opmaakteken is een teken dat normaal gesproken niet wordt weergegeven, maar die van invloed is op de indeling van tekst of de werking van tekstprocessen.
De Unicode-standaard definieert verschillende variaties op enkele interpunctiemarkeringen. Een afbreekstreepje kan bijvoorbeeld een van de verschillende codewaarden zijn die een afbreekstreepje vertegenwoordigen, zoals U+002D (afbreekstreepje) of U+00AD (zacht afbreekstreepje) of U+2010 (afbreekstreepje) of U+2011 (vast afbreekstreepje). Hetzelfde geldt voor streepjes, spatietekens en aanhalingstekens.
De Unicode-standaard wijst ook codes toe aan weergaven van decimale cijfers die specifiek zijn voor een bepaald script of een bepaalde taal, bijvoorbeeld U+0030 (cijfer nul) en U+0660 (Arabic-Indic cijfer nul).