SITE SØGNING

Unicode-kodning: tegnkodningsstandard

Hver internetbruger i forsøgindstille en eller anden af ​​dens funktioner mindst en gang set på skærmen skrevet i latinske bogstaver ordet "Unicode". Hvad er det, vil du lære ved at læse denne artikel.

Unicode hvad er det

definition

"Unicode" -kodning er en kodningsstandardtegn. Det blev foreslået af nonprofitorganisationen Unicode Inc. i 1991. Standarden er designet til at kombinere så mange forskellige typer symboler som muligt i et dokument. Siden, der er oprettet på grundlag af den, kan indeholde breve og hieroglyffer fra forskellige sprog (fra russisk til koreansk) og matematiske tegn. Alle tegn i denne kodning vises uden problemer.

Årsager til at skabe

Engang, længe før fremkomsten af ​​et samlet system"Unicode", blev kodningen valgt ud fra indstillingerne for forfatteren af ​​dokumentet. Af denne grund, ofte for at læse et dokument, måtte du bruge forskellige tabeller. Nogle gange måtte det gøres flere gange, hvilket betydeligt komplicerede livet for en almindelig bruger. Som allerede nævnt blev løsningen på dette problem i 1991 foreslået af nonprofitorganisationen Unicode Inc., som foreslog en ny type tegnkodning. Han blev kaldt for at kombinere moralsk forældede og forskellige standarder. "Unicode" -kodning, som gjorde det muligt at opnå det utænkelige på det tidspunkt: At oprette et værktøj, der understøtter et stort antal tegn. Resultatet overgik mange forventninger - dokumenter fremkom, der samtidig indeholdt både engelsk og russisk tekst, latin og matematiske udtryk.

Men oprettelsen af ​​en enkelt kodning foregikbehovet for at løse en række problemer, der opstod på grund af de mange forskellige standarder, der allerede eksisterede på det tidspunkt. De mest almindelige er:

  • elfiske skrifter eller "karkozyabry";
  • begrænset tegn sæt;
  • problemet med kodning af konvertering;
  • duplikering af skrifttyper.

Unicode standard

En kort historisk nedbrydning

Forestil dig at værftet er 80'erne. Computer hardware er ikke så almindeligt og har en form anderledes end i dag. Mens hver OS er unik og raffineret hver entusiast specifikke behov. Behov for udveksling af informationer omdannes til en ekstra omarbejde alt. Forsøger at læse et dokument oprettet af et andet operativsystem, viser ofte en mærkelig sæt af tegn, og spillet starter med kodningen. Det behøver ikke altid gøre det hurtigt, og nogle gange nødvendigt dokument Kan ikke åbne i seks måneder, og endnu senere. Folk, der jævnligt udveksle oplysninger, skaber for sig selv en omregningstabel. Og derefter arbejde på dem afslører en interessant detalje: behovet for at skabe dem i to retninger, "fra min i din" frem og tilbage. Gør banale inversion computing maskine ikke kan, for det i den højre kolonne af kilden, og venstre - resultatet, men ikke omvendt. Hvis du ser behovet for at bruge specialtegn i dokumentet, måtte de blive tilføjet først, og derefter en anden, og at forklare til partneren, hvad han skal gøre for at disse tegn ikke bliver en "volapyk". Og lad os ikke glemme, at for hver kodning måtte udvikle eller gennemføre deres egne skrifter, som førte til oprettelsen af ​​et stort antal dubletter i OS.

Forestil dig også det på siden af ​​skrifttyper digDu vil se 10 stykker af identiske Times New Roman med små noteringer: til utf-8, UTF-16, ANSI, UCS-2. Nu forstår du, at udviklingen af ​​en universel standard var en presserende nødvendighed?

Unicode-kodning

"grundlæggerne af skaberne af"

Oprindelsen af ​​oprettelsen af ​​Unicode bør søges i 1987året da Joe Becker fra Xerox sammen med Lee Collins og Mark Davis fra Apple begyndte at undersøge den praktiske oprettelse af et universelt tegnsæt. I august 1988 udgav Joe Becker et udkast til forslag til oprettelse af et 16-bit internationalt flersproget kodningssystem.

Et par måneder senere, Unicode-arbejdsgruppenblev udvidet til at omfatte Ken Whistler og Mike Kernegan fra RLG, Glenn Wright fra Sun Microsystems og flere andre specialister, som gjorde det muligt at afslutte arbejdet med den foreløbige dannelse af en enkelt kodningsstandard.

Unicode-kodning

Generel beskrivelse

Unicode er baseret på begrebet et symbol. Denne definition forstås som et abstrakt fænomen, der findes i en bestemt form for skrivning og realiseret gennem graphemes (dens "portrætter"). Hver tegn er angivet i Unicode med en unik kode, der tilhører en bestemt blok af standarden. For eksempel er grafeme B i både engelske og russiske alfabeter, men i Unicode svarer det til 2 forskellige tegn. De konverteres til små bogstaver, det vil sige hver af dem er beskrevet af en database nøgle, et sæt egenskaber og et fuldt navn.

Fordele ved Unicode

Fra andre samtidige, der koder for "Unicode"adskilt en stor reserver af tegn til "kryptering" af symboler. Faktum er, at hans forgængere havde 8 bits, det vil sige de understøttede 28 tegn, men den nye udvikling havde allerede 216 tegn, hvilket var et stort fremskridt. Dette tillod at kode for næsten alle eksisterende og distribuerede alfabeter.

Med fremkomsten af ​​"Unicode" er det ikke længere nødvendigtbrug konverteringstabeller: som en enkelt standard, ophæver det simpelthen deres behov. Ligeledes har de gået i glemmebogen, og "volapyk" - en enkelt standard gjort dem umuligt, samt regel ud behovet for at skabe duplikerede skrifttyper.

Unicode udvikling

Selvfølgelig står fremgangen ikke stille, og lige fra øjeblikketDen første præsentation er allerede gået 25 år. Imidlertid opretholder Unicode-kodningen stædigt sin position i verden. I mange henseender blev det muligt, fordi det blev let implementeret og spredt, hvilket blev anerkendt af udviklerne af proprietært (betalt) og open source-software.

unicode-kodning (tegnkodningsstandard)

I dette tilfælde er det ikke nødvendigt at tro, at vi i dagDen samme Unicode-kodning er tilgængelig som kvart for et århundrede siden. I øjeblikket, blev det erstattet af versionen 5.h.h, og antallet af kodede symboler er steget til 231. På muligheden for at anvende en større margen mærker nægtede at stadig fastholde støtten til Unicode-16 (kodning, hvor den maksimale mængde af deres begrænsede antal 216). Fra tidspunktet for udseendet til version 2.0.0 øgede "Unicode-standard" antallet af tegn, der inkluderede det, næsten 2 gange. Væksten af ​​muligheder fortsatte i de følgende år. Til version 4.0.0 var der allerede behov for at øge standarden selv, hvilket blev gjort. Som følge heraf har Unicode erhvervet den form, som vi kender det i dag.

Unicode hvad er det sådan

Hvad er der mere i Unicode?

Ud over den enorme, konstant påfyldningAntallet af tegn, "Unicode" -kodning af tekstinformation har endnu en nyttig funktion. Vi taler om den såkaldte normalisering. I stedet for at rulle hele dokumentets symbol ved tegn og erstatte tilsvarende ikoner fra kamptabellen anvendes en af ​​de eksisterende normaliseringsalgoritmer. Hvad taler vi om?

I stedet for at spilde computeremaskiner til regelmæssigt at kontrollere det samme symbol, som kan være ens i forskellige alfabeter, bruger en særlig algoritme. Det giver dig mulighed for at udtage lignende tegn i en separat graf af opslagstabellen og henvise til dem allerede, og ikke at gentage alle dataene gentagne gange.

Der er fire sådanne algoritmer udviklet og implementeret. Hver konvertering finder sted ved strengt konkret princip, forskellig fra den anden, så at kalde en af ​​dem er ikke den mest effektive. Hver blev udviklet til specifikke behov, blev implementeret og med succes anvendt.

Unicode-tekstkodning

Spredningen af ​​standarden

I 25 års historie har kodningen "Unicode"sandsynligvis modtaget den største distribution i verden. Under denne standard tilpasses programmer og websider også. Bredden af ​​ansøgningen kan siges ved, at Unicode i dag bruger mere end 60% af internetressourcerne.

Nu ved du, hvornår standarden "Unicode" dukkede op. Hvad er det, du ved og vil også kunne sætte pris på hele værdien af ​​opfindelsen lavet af en gruppe specialister fra Unicode Inc. mere end 25 år siden.

</ p>
  • Evaluering: