Unificarea Han - Han unification

Diferențe pentru același caracter Unicode (U + 8FD4) în versiunile regionale ale Source Han Sans

Acest articol conține caractere speciale . Fără suport de redare adecvat , este posibil să vedeți semne de întrebare, cutii sau alte simboluri .

Unificarea Han este un efort al autorilor Unicode și al setului de caractere universal pentru a mapa mai multe seturi de caractere ale caracterelor Han ale așa-numitelor limbi CJK într-un singur set de caractere unificate . Caracterele Han sunt o caracteristică comună de chineză scrisă ( hanzi ), japoneză ( kanji ) și coreeană ( hanja ).

Tipurile de caractere moderne chinezești, japoneze și coreene folosesc de obicei variante regionale sau istorice ale unui caracter Han dat . În formularea Unicode, s-a încercat unificarea acestor variante considerându-le diferite glifuri reprezentând același „ grafem ”, sau unitate ortografică , deci „unificarea Han”, cu repertoriul de caractere rezultat contractat uneori către Unihan . Cu toate acestea, multe caractere au variante regionale atribuite diferite puncte de cod , cum ar fi Tradițional 個(U + 500B) versus simplificată 个(U + 4E2A).

Unihan se poate referi și la baza de date Unihan menținută de Unicode Consortium , care oferă informații despre toate caracterele Han unificate codificate în standardul Unicode, inclusiv mapări la diferite standarde naționale și industriale, indici în dicționare standard, variante codificate, pronunții în diverse limbi și o definiție în engleză. Baza de date este disponibilă publicului sub formă de fișiere text și printr-un site web interactiv. Aceasta din urmă include , de asemenea , glifele reprezentative și definiții pentru cuvinte compuse trase din japoneză liber edictul și chineză CEDICT proiecte de dicționar (care sunt prevăzute pentru comoditate și nu sunt o parte formală a standardului Unicode).

Raționament și controversă

Standardul Unicode detaliază principiile unificării Han. Grupul de cercetare ideografică (IRG), format din experți din țările vorbitoare de chineză, Coreea de Nord și de Sud, Japonia, Vietnam și alte țări, este responsabil pentru acest proces.

Un posibil motiv este dorința de a limita dimensiunea setului complet de caractere Unicode, unde caracterele CJK, reprezentate de ideograme discrete, pot apropia sau depăși 100.000 de caractere. Versiunea 1 a Unicode a fost concepută pentru a se încadra în 16 biți și doar 20.940 de caractere (32%) din 65.536 posibile au fost rezervate pentru aceste ideografii unificate CJK . Unicode a fost ulterior extins la 21 de biți, permițând mult mai multe caractere CJK (92.865 sunt alocați, cu spațiu pentru mai multe).

Articolul Viața secretă a Unicode , situat pe IBM DeveloperWorks încearcă să ilustreze o parte din motivația pentru unificarea Han:

Problema provine din faptul că Unicode codifică caractere mai degrabă decât „glife”, care sunt reprezentări vizuale ale personajelor. Există patru tradiții de bază pentru formele de caractere din Asia de Est: chineză tradițională, chineză simplificată, japoneză și coreeană. În timp ce caracterul rădăcină Han poate fi același pentru limbile CJK, glifele utilizate în mod obișnuit pentru aceleași caractere pot să nu fie. De exemplu, gliful tradițional chinezesc pentru „iarbă” folosește patru linii pentru radicalul „iarbă” [ ⺿ ], în timp ce glifele simplificate chineze, japoneze și coreene [ ⺾ ] folosesc trei. Dar există un singur punct Unicode pentru caracterul iarbă (U + 8349) [草], indiferent de sistemul de scriere. Un alt exemplu este ideografia pentru „una”, care este diferită în chineză, japoneză și coreeană. Mulți oameni cred că cele trei versiuni ar trebui codificate diferit.

De fapt, cele trei kanji pentru „unul“ (一,壹sau壱) sunt codificate separat în Unicode, deoarece acestea nu sunt considerate a fi variante naționale. Prima este forma comună în toate cele trei țări, în timp ce a doua și a treia sunt utilizate pe instrumente financiare pentru a preveni manipularea (acestea pot fi considerate variante).

Cu toate acestea, unificarea Han a provocat, de asemenea, controverse considerabile, în special în rândul publicului japonez, care, împreună cu literatii națiunii, au protestat împotriva eliminării variantelor semnificative din punct de vedere istoric și cultural. (A se vedea Kanji § Reforma ortografică și listele kanji . Astăzi, lista personajelor recunoscute oficial pentru utilizarea în nume proprii continuă să se extindă într-un ritm modest.)

În 1993, Asociația Japoneză pentru Dezvoltarea Industriilor Electronice (JEIDA) a publicat un pamflet intitulat „未来の文字コード体系に達は不安をもっています” (Ne simțim nerăbdători pentru viitorul sistem de codificare a caracterelor JPNO 20985671 ), rezumând criticile majore împotriva abordarea Han Unification adoptată de Unicode.

Grafeme versus glife

Minuscula latină „ a ” are glifuri foarte diferite, toate reprezentând instanțe concrete ale aceluiași grafem abstract. Deși un cititor nativ al oricărei limbi care folosește scrierea latină recunoaște aceste două glifuri ca fiind același grafem, altora ar putea părea că nu au nicio legătură.

Un grafem este cea mai mică unitate abstractă de semnificație dintr-un sistem de scriere. Orice grafem are multe expresii posibile de glif, dar toate sunt recunoscute ca același grafem de către cei cu cunoștințe de citire și scriere ale unui anumit sistem de scriere. Deși Unicode atribuie de obicei caractere punctelor de cod pentru a exprima grafemele într-un sistem de scriere, Standardul Unicode ( secțiunea 3.4 D7 ) face cu prudență:

Un caracter abstract nu corespunde neapărat cu ceea ce un utilizator crede că este un „personaj” și nu trebuie confundat cu un grafem .

Cu toate acestea, acest citat se referă la faptul că unele grafeme sunt compuse din mai multe caractere. Deci, de exemplu, caracterul U + 0061 a LITERA MICĂ LATINĂ A combinat cu U + 030A ING COMBINING RING Deasupra (adică combinația „å”) ar putea fi înțeles de un utilizator ca un singur grafem în timp ce este compus din mai multe abstract Unicode personaje. În plus, Unicode atribuie, de asemenea, unele puncte de cod unui număr mic (altul decât din motive de compatibilitate) de caractere de formatare, caractere în spații albe și alte caractere abstracte care nu sunt grafeme, ci utilizate în schimb pentru a controla pauzele dintre linii, cuvinte, grafeme și grupuri de grafeme. Cu ideografiile Han unificate, Standardul Unicode se îndepărtează de practicile anterioare în atribuirea caracterelor abstracte nu ca grafeme, ci în funcție de semnificația subiacentă a grafemului: ceea ce lingviștii numesc uneori sememe . Prin urmare, această plecare nu este explicată pur și simplu prin distincția des citată între un caracter abstract și un glif, ci este mai înrădăcinată în diferența dintre un caracter abstract atribuit ca grafem și un caracter abstract atribuit ca semem. În schimb, luați în considerare unificarea ASCII de punctuație și diacritice , unde grafemele cu semnificații foarte diferite (de exemplu, un apostrof și un ghilimel unic) sunt unificate deoarece glifele sunt aceleași. Pentru Unihan personajele nu sunt unificate prin aspectul lor, ci prin definiția sau semnificația lor.

Pentru ca un grafem să fie reprezentat de diferiți glifi înseamnă că grafemul are variații de glif care sunt de obicei determinate prin selectarea unui font sau altul sau folosind caracteristici de substituție a glifului în care mai mulți glifuri sunt incluși într-un singur font. Astfel de variații de glif sunt considerate de Unicode o caracteristică a protocoalelor de text îmbogățit și nu sunt tratate în mod corespunzător de obiectivele de text simplu ale Unicode. Cu toate acestea, atunci când schimbarea de la un glif la altul constituie o schimbare de la un grafem la altul - unde un glif nu poate, în continuare, să însemne același grafem înțeles ca litera mică „a” - Unicode le separă în puncte de cod separate. Pentru Unihan se face același lucru ori de câte ori se schimbă sensul abstract, însă, mai degrabă decât să vorbim despre semnificația abstractă a unui grafem (litera „a”), unificarea ideografiilor Han atribuie un nou punct de cod pentru fiecare semnificație diferită - chiar dacă sensul este exprimat prin grafeme distincte în diferite limbi. Deși un grafem precum „ö” ar putea însemna ceva diferit în engleză (așa cum este folosit în cuvântul „coördinated”) decât în germană, acesta este în continuare același grafem și poate fi ușor unificat, astfel încât engleza și germana să poată împărtăși sistem abstract de scriere latină (împreună cu latina însăși). Acest exemplu indică, de asemenea, un alt motiv pentru care „caracterul abstract” și grafemul ca unitate abstractă într-un limbaj scris nu neapărat mapează unul la unu. În engleză, combinarea diarezei, „¨” și „o” pe care o modifică pot fi văzute ca două grafeme separate, în timp ce în limbi precum suedeza, litera „ö” poate fi văzută ca un singur grafem. În mod similar, în limba engleză, punctul de pe un „i” este înțeles ca o parte a grafemului „i”, în timp ce în alte limbi, cum ar fi turca, punctul poate fi văzut ca un grafem separat adăugat la „ı” fără puncte.

Pentru a face față utilizării diferitelor grafeme pentru același semem Unihan, Unicode s-a bazat pe mai multe mecanisme: mai ales în ceea ce privește redarea textului. Una a fost să o tratezi ca o simplă problemă de font, astfel încât să poată fi folosite diferite fonturi pentru a reda chineza, japoneza sau coreeana. De asemenea, formatele de fonturi, cum ar fi OpenType, permit maparea glifelor alternative în funcție de limbă, astfel încât un sistem de redare a textului să poată privi setările de mediu ale utilizatorului pentru a determina ce glif să utilizeze. Problema cu aceste abordări este că nu reușesc să îndeplinească obiectivele Unicode pentru a defini un mod consecvent de codificare a textului multilingv.

Deci, mai degrabă decât să trateze problema ca pe o problemă cu text bogat a alternativelor de glif, Unicode a adăugat conceptul de selectoare de variație , introdus pentru prima dată în versiunea 3.2 și completat în versiunea 4.0. În timp ce selectorii de variație sunt tratați ca combinând caractere, nu au diacritic sau marcaj asociat. În schimb, prin combinarea cu un caracter de bază, acestea semnalizează că secvența de două caractere selectează o variație (de obicei în termeni de grafem, dar și în ceea ce privește semnificația subiacentă, ca în cazul unui nume de locație sau alt nume propriu) a caracterului de bază. Aceasta nu este deci o selecție a unui glif alternativ, ci alegerea unei variații grafeme sau a unei variații a caracterului abstract de bază. Totuși, o astfel de secvență de două caractere poate fi mapată cu ușurință la un singur glif separat în fonturile moderne. Deoarece Unicode a atribuit 256 de selectoare de variație separate, este capabil să aloce 256 de variante pentru orice ideograf Han. Astfel de variații pot fi specifice unei limbi sau altei și permit codificarea textului simplu care include astfel de variații grafeme.

Unihan „personaje abstracte”

Deoarece standardul Unihan codifică „caractere abstracte”, nu „glife”, artefactele grafice produse de Unicode au fost considerate obstacole tehnice temporare și cel mult cosmetice. Cu toate acestea, din nou, în special în Japonia, datorită parțial modului în care caracterele chineze au fost încorporate în sistemele de scriere japoneze din punct de vedere istoric, incapacitatea de a specifica o anumită variantă a fost considerată un obstacol semnificativ în calea utilizării Unicode în munca științifică. De exemplu, unificarea „ierbii” (explicată mai sus) înseamnă că un text istoric nu poate fi codificat astfel încât să-și păstreze ortografia specifică. În schimb, de exemplu, savantului i se va cere să localizeze gliful dorit într-un tip de caractere specific pentru a transmite textul ca scris, învingând scopul unui set de caractere unificat. Unicode a răspuns acestor nevoi prin atribuirea unor selectoare de variație, astfel încât autorii să poată selecta variații grafeme ale anumitor ideografii (sau chiar alte caractere).

Micile diferențe în reprezentarea grafică sunt, de asemenea, problematice atunci când afectează lizibilitatea sau aparțin unei tradiții culturale greșite. Pe lângă faptul că unele fonturi Unicode sunt inutilizabile pentru textele care implică mai multe „limbi Unihan”, numele sau alte terminologii sensibile din punct de vedere ortografic pot fi afișate incorect. (Numele proprii tind să fie conservatoare în special din punct de vedere ortografic - comparați acest lucru cu schimbarea ortografiei numelui cuiva pentru a se potrivi unei reforme lingvistice din SUA sau Marea Britanie.) Deși acest lucru poate fi considerat în primul rând o reprezentare grafică sau o problemă de redare care trebuie depășită de fonturi mai ingenioase , utilizarea pe scară largă a Unicode ar face dificilă păstrarea unor astfel de distincții. Problema unui personaj care reprezintă concepte semantic diferite este prezentă și în partea latină a Unicode. Caracterul Unicode pentru un apostrof este același cu caracterul pentru un ghilimel drept ('). Pe de altă parte, de capital litere latine A nu este unificată cu litera grecească Α sau litere chirilice al . Acest lucru este, desigur, de dorit din motive de compatibilitate și se referă la un set de caractere alfabetice mult mai mic.

În timp ce aspectul de unificare al Unicode este controversat în unele sfere din motivele prezentate mai sus, Unicode în sine codifică acum un număr mare de caractere rareori folosite, de natură mai mult sau mai puțin antică.

Unele dintre controverse provin din faptul că însăși decizia de a efectua unificarea Han a fost luată de Consorțiul Unicode inițial, care la acea vreme era un consorțiu de companii și organizații din America de Nord (majoritatea din California), dar nu a inclus niciunul din Asia de Est. reprezentanții guvernului. Scopul inițial de proiectare a fost crearea unui standard pe 16 biți, iar unificarea Han a fost, prin urmare, un pas critic pentru evitarea zeci de mii de duplicări de caractere. Această cerință de 16 biți a fost ulterior abandonată, ceea ce face ca dimensiunea setului de caractere să fie mai puțin problematică astăzi.

Controversa s-a extins mai târziu la reprezentantul internațional ISO: grupul inițial comun de cercetare CJK (CJK-JRG) a favorizat o propunere (DIS 10646) pentru un set de caractere neunificat, „care a fost aruncat în favoarea unificării cu unificarea consorțiului Unicode caracter stabilit de voturile membrilor ISO americani și europeni "(chiar dacă poziția japoneză era neclară). Aprobarea unificării Unicode Han a fost un pas necesar pentru fuziunea ISO 10646 / Unicode încălzită.

O mare parte a controversei din jurul unificării Han se bazează pe distincția dintre glifi , așa cum este definită în Unicode, și pe ideea legată, dar distinctă de grafeme . Unicode atribuie caractere abstracte (grafeme), spre deosebire de glifele, care reprezintă o reprezentare vizuală particulară a unui caracter într-un tip de caractere specific . Un caracter poate fi reprezentat de multe glifuri distincte, de exemplu un "g" sau un "a", ambele putând avea o buclă ( ɑ , ɡ ) sau două ( a , g ). Cu toate acestea, pentru un cititor de limbi bazate pe scripturi latine, cele două variante ale caracterului „a” sunt recunoscute ca fiind același grafem. Grafemele prezente în standardele naționale de coduri de caractere au fost adăugate la Unicode, așa cum este cerut de regula de separare a surselor Unicode, chiar și atunci când pot fi compuse din caractere deja disponibile. Standardele naționale de coduri de caractere existente în limbile CJK sunt considerabil mai implicate, având în vedere limitele tehnologice sub care au evoluat, astfel încât participanții CJK oficiali la unificarea Han ar fi putut fi supuși reformei.

Spre deosebire de versiunile europene, fonturile Unicode CJK, datorită unificării Han, au modele mari, dar neregulate de suprapunere, care necesită fonturi specifice limbii. Din păcate, fonturile specifice limbii fac, de asemenea, dificilă accesarea unei variante care, ca și în cazul exemplului „iarbă”, apare mai tipic într-un alt stil de limbă. (Adică, ar fi dificil să se acceseze „iarba” cu radicalul în patru timpi mai tipic chinezilor tradiționali într-un mediu japonez, care fonturi ar descrie de obicei radicalul în trei timpi.) Susținătorii Unihan tind să favorizeze limbajele de marcare pentru definirea șirurilor de limbă, dar acest lucru nu ar asigura utilizarea unei variante specifice în cazul dat, doar fontul specific limbii este mai probabil să descrie un caracter ca variantă. (În acest moment, intră doar diferențe stilistice, întrucât este puțin probabil ca o selecție de fonturi japoneze și chineze să fie compatibile vizual.)

Utilizatorii chinezi par să aibă mai puține obiecții la unificarea Han, în mare parte deoarece Unicode nu a încercat să unească caracterele chineze simplificate cu caracterele chineze tradiționale . (Caracterele chinezești simplificate sunt utilizate în rândul vorbitorilor de chineză din Republica Populară Chineză , Singapore și Malaezia . Caracterele chinezești tradiționale sunt folosite în Hong Kong și Taiwan ( Big5 ) și sunt, cu unele diferențe, mai familiare utilizatorilor coreeni și japonezi. ) Unicode este văzut ca neutru în ceea ce privește această problemă încărcată politic și a codificat separat glifurile simplificate și tradiționale din chineză (de exemplu, ideograma pentru „aruncați” este丟U + 4E1F pentru chineza tradițională Big5 # A5E1 și丢U + 4E22 pentru chineza simplificată GB # 2210). De asemenea, se remarcă faptul că caracterele tradiționale și simplificate ar trebui să fie codificate separat în conformitate cu regulile Unicode Han Unification, deoarece acestea se disting în seturi de caractere preexistente PRC. Mai mult, ca și în cazul altor variante, caracterele tradiționale până la simplificate nu sunt o relație de tip unu la unu.

Alternative

Există mai multe seturi de caractere alternative care nu codifică în conformitate cu principiul Unificării Han și, prin urmare, sunt libere de restricțiile sale:

Aceste seturi de caractere dependente de regiune sunt, de asemenea, văzute ca neafectate de Unificarea Han din cauza naturii lor specifice regiunii:

ISO / IEC 2022 (pe baza codurilor de secvență pentru a comuta între seturile de caractere chinezești, japoneze, coreene - deci fără unificare)
Extensii Big5
GCCS și succesorul său HKSCS

Cu toate acestea, niciunul dintre aceste standarde alternative nu a fost adoptat la fel de larg ca Unicode , care este acum setul de caractere de bază pentru multe standarde și protocoale noi, adoptate la nivel internațional, și este încorporat în arhitectura sistemelor de operare ( Microsoft Windows , Apple macOS și multe altele Sisteme de tip Unix ), limbaje de programare ( Perl , Python , C # , Java , Common Lisp , APL , C , C ++ ) și biblioteci (IBM International Components for Unicode (ICU) împreună cu Pango , Graphite , Scribe , Uniscribe și Motoare de redare ATSUI ), formate de fonturi ( TrueType și OpenType ) și așa mai departe.

În martie 1989, un sistem bazat pe TRON (B) a fost adoptat de organizațiile guvernamentale japoneze „Centrul pentru calcul educațional” ca sistem de alegere pentru educația școlară, inclusiv învățământul obligatoriu . Cu toate acestea, în aprilie, un raport intitulat „Raportul estimării comerțului național din 1989 privind barierele comerciale externe” de la Biroul Reprezentantului Comerțului din Statele Unite a enumerat în mod specific sistemul ca o barieră comercială în Japonia. Raportul susținea că adoptarea sistemului TRON de către guvernul japonez este avantajoasă pentru producătorii japonezi, excluzând astfel sistemele de operare americane de pe noua piață imensă; în mod specific, raportul listează MS-DOS, OS / 2 și UNIX ca exemple. Oficiul USTR ar fi fost sub influența Microsoft, deoarece fostul său ofițer Tom Robertson a primit apoi o poziție profitabilă de către Microsoft. În timp ce sistemul TRON în sine a fost ulterior eliminate din lista de sancțiuni prin secțiunea 301 din Legea Comerțului din 1974 , după protestele de către organizația mai 1989, litigiul comercial cauzat Ministerului Comerțului Internațional și Industrie a accepta o cerere din partea Masayoshi Son la anulați selecția de către Centrul de Calcul Educațional a sistemului TRON pentru utilizarea computerelor educaționale. Incidentul este considerat un eveniment simbolic pentru pierderea impulsului și eventuala dispariție a sistemului BTRON, care a dus la adoptarea pe scară largă a MS-DOS în Japonia și la adoptarea eventuală a Unicode cu succesorul său Windows.

Fuziunea tuturor caracterelor echivalente

Nu a existat nici un impuls pentru unificarea semantică completă a tuturor caracterelor semantically-legate, deși ideea ar trata utilizatorii respectivi de limbi din Asia de Est aceeași, indiferent dacă scrie în limba coreeană, chineză simplificată, chineză tradițională, Kyūjitai japoneză, Shinjitai japoneză sau Vietnameză. În loc ca unele variante să obțină puncte de cod distincte, în timp ce alte grupuri de variante trebuie să partajeze puncte de cod unice, toate variantele ar putea fi exprimate în mod fiabil numai cu etichete de metadate (de exemplu, formatarea CSS în paginile web). Sarcina ar fi asupra tuturor celor care utilizează versiuni diferite ale lui直,別,兩,兔, indiferent dacă această diferență se datorează simplificării, varianței internaționale sau varianței internaționale. Cu toate acestea, pentru unele platforme (de exemplu, smartphone-uri), un dispozitiv poate veni cu un singur font preinstalat. Fontul sistemului trebuie să ia o decizie pentru gliful implicit pentru fiecare punct de cod și acești glifuri pot diferi foarte mult, indicând diferite grafeme care stau la baza lor.

În consecință, bazându-se pe marcarea limbajului pe ansamblu, ca abordare, există două probleme majore. În primul rând, există contexte în care limbajul de limbaj nu este disponibil (coduri de confirmare, text simplu). În al doilea rând, orice soluție ar necesita ca fiecare sistem de operare să fie preinstalat cu multe glifuri pentru caractere identice semantic care au multe variante. În plus față de seturile de caractere standard în chineză simplificată, chineză tradițională, coreeană, vietnameză, japoneză Kyūjitai și japoneză Shinjitai, există și forme de caractere „antice” care prezintă interes pentru istorici, lingviști și filologi.

Baza de date Unichan a Unicode a trasat deja conexiuni între multe caractere. Baza de date Unicode catalogează conexiunile dintre variante de caractere cu puncte de cod distincte deja. Cu toate acestea, pentru caracterele cu un punct de cod partajat, imaginea glifă de referință este de obicei părtinitoare spre versiunea tradițională chineză. De asemenea, decizia de a clasifica perechile ca variante semantice sau variante z nu este întotdeauna consecventă sau clară, în ciuda raționalizărilor din manual.

Așa-numitele variante semantice ale丟(U + 4E1F) și丢(U + 4E22) sunt exemple pe care Unicode le prezintă diferind într-un mod semnificativ în formele lor abstracte, în timp ce Unicode listează佛și仏ca variante z, diferind doar în font coafare. În mod paradoxal, Unicode consideră兩și両ca fiind aproape identice cu variante z, clasificându-le în același timp ca variante semantice semnificativ diferite. Există, de asemenea, cazuri în care unele perechi de caractere sunt simultan variante semantice și variante semantice specializate și variante simplificate:個(U + 500B) și个(U + 4E2A). Există cazuri de echivalență non-reciprocă. De exemplu, intrarea de bază de date Unihan pentru亀(U + 4E80) consideră龜(U + 9F9C) varianta sa z, dar intrarea pentru龜nu listează亀ca variantă z, chiar dacă龜era evident deja în baza de date în momentul în care a fost scrisă intrarea pentru亀.

Unele erori clericale au dus la dublarea caracterelor complet identice, cum ar fi﨣(U + FA23) și 𧺯 (U + 27EAF). Dacă un font are glifuri codificate în ambele puncte, astfel încât un font să fie utilizat pentru ambele, acestea ar trebui să pară identice. Aceste cazuri sunt enumerate ca variante z, deși nu au deloc variații. Au fost adăugate caractere duplicate intenționat pentru a facilita conversia dus-întors bit-bit . Deoarece conversia dus-întors a fost un punct de vânzare timpuriu al Unicode, aceasta a însemnat că, dacă un standard național în utilizare a duplicat inutil un caracter, Unicode a trebuit să facă același lucru. Unicode numește aceste duplicări intenționate „ variante de compatibilitate ” la fel ca 漢 (U + FA9A) care numește漢(U + 6F22) varianta sa de compatibilitate. Atâta timp cât o aplicație folosește același font pentru ambele, acestea ar trebui să pară identice. Uneori, ca în cazul lui車cu U + 8ECA și U + F902, caracterul de compatibilitate adăugat listează versiunea deja prezentă a lui車atât ca variantă de compatibilitate, cât și ca variantă z. Câmpul variantei de compatibilitate suprascrie câmpul variantei z, forțând normalizarea sub toate formele, inclusiv echivalența canonică. În ciuda numelui, variantele de compatibilitate sunt de fapt echivalente din punct de vedere canonic și sunt unite în orice schemă de normalizare Unicode și nu numai sub normalizarea compatibilității. Acest lucru este similar cu modul în care U + 212B Å ANGSTROM SIGN este canonic echivalent cu un U + 00C5 Å LITERA MAJUSCĂ LATINĂ PRE-compusă A CU INEL DE MAI SUS . Multe programe (cum ar fi software-ul MediaWiki care găzduiește Wikipedia) vor înlocui toate caracterele echivalente din punct de vedere canonic care sunt descurajate (de exemplu, simbolul angstrom) cu echivalentul recomandat. În ciuda numelui, „variantele de compatibilitate” CJK sunt caractere echivalente din punct de vedere canonic și nu caractere de compatibilitate.

漢 (U + FA9A) a fost adăugat la baza de date mai târziu decât a fost漢(U + 6F22) și intrarea sa informează utilizatorul despre informațiile de compatibilitate. Pe de altă parte,漢(U + 6F22) nu are această echivalență listată în această intrare. Unicode cere ca toate intrările, odată admise, să nu poată schimba compatibilitatea sau echivalența, astfel încât regulile de normalizare pentru caracterele deja existente să nu se schimbe.

Unele perechi de tradiționale și simplificate sunt, de asemenea, considerate a fi variante semantice. Conform definițiilor Unicode, este logic că toate simplificările (care nu duc la îmbinarea caracterelor cu totul diferite pentru omofonia lor) vor fi o formă de variantă semantică. Unicode clasifică丟și丢ca variantele tradiționale și simplificate ale celuilalt și, de asemenea, ca variante semantice. Cu toate acestea, în timp ce Unicode clasifică億(U + 5104) și亿(U + 4EBF) ca variantele tradiționale și simplificate ale celuilalt, Unicode nu consideră億și亿ca fiind variante semantice.

Unicode susține că „în mod ideal, nu ar exista perechi de variante z în standardul Unicode”. Acest lucru ar face să pară că scopul este cel puțin să unifice toate variantele minore, redundanțele de compatibilitate și redundanțele accidentale, lăsând diferențierea la fonturi și la etichetele lingvistice. Acest lucru intră în conflict cu obiectivul declarat al Unicode de a elimina acele cheltuieli generale și de a permite oricărui număr de scripturi din lume să fie pe același document cu un singur sistem de codificare. Capitolul 1 al manualului afirmă că „Cu Unicode, industria tehnologiei informației a înlocuit seturile de caractere proliferante cu stabilitatea datelor, interoperabilitatea globală și schimbul de date, software simplificat și costuri reduse de dezvoltare. Unicode Standard depășește cu mult capacitatea limitată a ASCII de a codifica numai literele majuscule și minuscule de la A la Z. Oferă capacitatea de a codifica toate caracterele folosite pentru limbile scrise ale lumii - mai mult de 1 milion de caractere pot fi codate. sau codul de control este necesar pentru a specifica orice caracter în orice limbă. Codificarea caracterelor Unicode tratează în mod echivalent caractere alfabetice, caractere ideografice și simboluri, ceea ce înseamnă că pot fi utilizate în orice amestec și cu facilități egale. "

Acest lucru ne lasă să ne stabilim pe un grafem de referință unificat pentru toate variantele z, care este controversat, deoarece puțini în afara Japoniei ar recunoaște佛și仏ca echivalent. Chiar și în Japonia, variantele sunt pe diferite laturi ale unei simplificări majore numite Shinjitai. Unicode ar face efectiv simplificarea prin PRC a lui侣(U + 4FA3) și侶(U + 4FB6) o diferență monumentală prin comparație. Un astfel de plan ar elimina, de asemenea, variațiile foarte distincte vizual pentru personaje precum直(U + 76F4) și雇(U + 96C7).

Ne-am aștepta ca toate caracterele simplificate să fie simultan și variante-z sau variante semantice cu omologii lor tradiționali, dar multe nu sunt nici una, nici alta. Este mai ușor să explicăm cazul ciudat că variantele semantice pot fi simultan atât variante semantice, cât și variante specializate atunci când definiția Unicode este că variantele semantice specializate au același sens doar în anumite contexte. Limbile le folosesc diferit. Este posibil ca o pereche ale cărei caractere să fie înlocuite 100% în limba japoneză unul cu altul în japoneză să nu fie atât de flexibilă în chineză. Astfel, orice fuziune cuprinzătoare a punctelor de cod recomandate ar trebui să mențină unele variante care diferă doar ușor în aparență, chiar dacă sensul este 100% același pentru toate contextele într-o limbă, deoarece într-o altă limbă cele două caractere s-ar putea să nu scadă 100% -în înlocuiri.

Exemple de glifi dependenți de limbă

În fiecare rând al tabelului următor, același caracter se repetă în toate cele șase coloane. Cu toate acestea, fiecare coloană este marcată (de langatribut) ca fiind într-o altă limbă: chineză ( simplificată și două tipuri de tradiționale ), japoneză , coreeană sau vietnameză . Browser - ul ar trebui să selecteze, pentru fiecare caracter, un simbol ( de la un font ) potrivit pentru limba specificată. (Pe lângă variația reală a caracterelor - căutați diferențe în ordinea, numărul sau direcția loviturilor - fonturile pot reflecta, de asemenea, diferite stiluri tipografice, ca și în alfabetele serif și non-serif.) Acest lucru funcționează doar pentru selectarea glifului alternativ dacă aveți instalate fonturi CJK pe sistemul dvs. și fontul selectat pentru a afișa acest articol nu include glifele pentru aceste caractere.

Punct de cod	Chineză (simplificată) ( `zh-Hans`)	Chineză (tradițională) ( `zh-Hant`)	Chineză (tradițională, Hong Kong) ( `zh-Hant-HK`)	Japoneză ( `ja`)	Coreeană ( `ko`)	Vietnameză ( `vi-Hani`)	Engleză
U + 4ECA	今	今	今	今	今	今	acum
U + 4EE4	令	令	令	令	令	令	cauza / comanda
U + 514D	免	免	免	免	免	免	scutit / de rezervă
U + 5165	入	入	入	入	入	入	introduce
U + 5168	全	全	全	全	全	全	total / total
U + 5173	关	关	关	关	关	关	aproape (simplificat) / râde (tradițional)
U + 5177	具	具	具	具	具	具	instrument
U + 5203	刃	刃	刃	刃	刃	刃	muchie de cuțit
U + 5316	化	化	化	化	化	化	transforma / schimba
U + 5916	外	外	外	外	外	外	in afara
U + 60C5	情	情	情	情	情	情	sentiment
U + 624D	才	才	才	才	才	才	talent
U + 62B5	抵	抵	抵	抵	抵	抵	ajunge / rezista
U + 6B21	次	次	次	次	次	次	secundar / urma
U + 6D77	海	海	海	海	海	海	mare
U + 76F4	直	直	直	直	直	直	direct / drept
U + 771F	真	真	真	真	真	真	Adevărat
U + 793a	示	示	示	示	示	示	spectacol
U + 795E	神	神	神	神	神	神	dumnezeu
U + 7A7A	空	空	空	空	空	空	gol / aer
U + 8005	者	者	者	者	者	者	cel care face / -ist / -er
U + 8349	草	草	草	草	草	草	iarbă
U + 8525	蔥	蔥	蔥	蔥	蔥	蔥	ceapă
U + 89D2	角	角	角	角	角	角	margine / corn
U + 9053	道	道	道	道	道	道	cale / cale / drum
U + 96C7	雇	雇	雇	雇	雇	雇	angaja
U + 9AA8	骨	骨	骨	骨	骨	骨	os

Nicio variantă de caractere care este exclusivă coreeană sau vietnameză nu a primit propriul punct de cod, în timp ce aproape toate variantele japoneze Shinjitai sau variantele chinezești simplificate au fiecare puncte de cod distincte și glifuri de referință neechivoce în standardul Unicode.

În secolul al XX-lea, țările din Asia de Est și-au creat propriile standarde de codificare. În cadrul fiecărui standard, au coexistat variante cu puncte de cod distincte, de aici și punctele de cod distincte din Unicode pentru anumite seturi de variante. Luând ca exemplu chineza simplificată, cele două variante de caractere ale lui內(U + 5167) și内(U + 5185) diferă exact în același mod ca și variantele coreene și necoreene ale lui全(U + 5168). Fiecare variantă respectivă a primului caracter are fie入(U + 5165), fie人(U + 4EBA). Fiecare variantă respectivă a celui de-al doilea caracter are fie入(U + 5165), fie人(U + 4EBA). Ambele variante ale primului personaj au obținut propriile puncte de cod distincte. Cu toate acestea, cele două variante ale celui de-al doilea personaj trebuiau să împărtășească același punct de cod.

Justificarea pe care o oferă Unicode este că organismul național de standardizare din RPC a făcut puncte de cod distincte pentru cele două variante ale primului caracter內/内, în timp ce Coreea nu a făcut niciodată puncte de cod separate pentru diferitele variante de全. Există un motiv pentru aceasta care nu are nimic de-a face cu modul în care corpurile domestice privesc personajele în sine. China a trecut printr-un proces în secolul al XX-lea care a schimbat (dacă nu simplificat) mai multe personaje. În timpul acestei tranziții, a fost nevoie să puteți codifica ambele variante în cadrul aceluiași document. Coreeana a folosit întotdeauna varianta lui全cu radicalul入(U + 5165) deasupra. Prin urmare, nu avea niciun motiv să codeze ambele variante. Documentele în limba coreeană realizate în secolul al XX-lea nu aveau prea puține motive pentru a reprezenta ambele versiuni în același document.

Aproape toate variantele pe care RPC le-a dezvoltat sau standardizat au obținut puncte de cod distincte datorită pur și simplu averii tranziției chineze simplificate care se desfășoară în era calculatoare. Cu toate acestea, acest privilegiu pare să se aplice inconsecvent, în timp ce majoritatea simplificărilor efectuate în Japonia și China continentală cu puncte de cod în standardele naționale, inclusiv caractere simplificate diferit în fiecare țară, au făcut din Unicode puncte de cod distincte.

Șaizeci și două de caractere „simplificate” Shinjitai cu puncte de cod distincte în Japonia s-au îmbinat cu echivalentele lor tradiționale Kyūjitai, cum ar fi海. Acest lucru poate cauza probleme strategiei de etichetare a limbii. Nu există o etichetă universală pentru versiunile tradiționale și „simplificate” ale japonezei ca și pentru chineză. Astfel, orice scriitor japonez care dorește să afișeze forma Kyūjitai de海poate fi nevoit să eticheteze caracterul ca „chineză tradițională” sau să aibă încredere că fontul japonez al destinatarului folosește doar glifele Kyūjitai, dar etichetele de chineză tradițională și chineză simplificată pot fi necesare pentru a afișa cele două forme unul lângă altul într-un manual japonez. Cu toate acestea, acest lucru ar împiedica folosirea aceluiași font pentru un document întreg. Există două puncte de cod distincte pentru海în Unicode, dar numai din „motive de compatibilitate”. Orice font conform Unicode trebuie să afișeze punctele de cod echivalente ale versiunilor Kyūjitai și Shinjitai în Unicode la fel. Neoficial, un font poate afișa海diferit cu 海 (U + 6D77) ca versiune Shinjitai și 海 (U + FA45) ca versiune Kyūjitai (care este identică cu versiunea tradițională în chineză și coreeană scrisă).

Radicalul糸(U + 7CF8) este utilizat în caractere precum紅/红, cu două variante, a doua formă fiind pur și simplu forma cursivă. Componentele radicale ale lui紅(U + 7D05) și红(U + 7EA2) sunt identice din punct de vedere semantic, iar glifele diferă doar în acesta din urmă utilizând o versiune cursivă a componentei糸. Cu toate acestea, în China continentală, organismele de standardizare au dorit să standardizeze forma cursivă atunci când sunt utilizate în caractere precum红. Deoarece această schimbare a avut loc relativ recent, a existat o perioadă de tranziție. Atât紅(U + 7D05), cât și红(U + 7EA2) au primit puncte de cod separate în textul RPC care codifică organismele de standardizare, astfel încât documentele în limba chineză să poată utiliza ambele versiuni. Cele două variante au primit puncte de cod distincte și în Unicode.

Cazul radicalului艸(U + 8278) demonstrează cât de arbitrară este starea lucrurilor. Când a fost folosit pentru a compune caractere precum草(U + 8349), radicalul a fost plasat în partea de sus, dar avea două forme diferite. Chineză tradițională și coreeană folosesc o versiune în patru timpi. În partea de sus a lui草ar trebui să fie ceva care să arate ca două semne plus ( ⺿ ). Chineza simplificată, japoneza Kyūjitai și japoneza Shinjitai folosesc o versiune în trei timpi, ca două semne plus care împart cursurile lor orizontale ( ⺾ , adică草). Corpurile de codare a textului din RPC nu au codat diferit cele două variante. Faptul că aproape orice altă modificare adusă de RPC, oricât de minoră ar fi, și-a justificat propriul punct de cod, sugerează că această excepție ar fi putut fi neintenționată. Unicode a copiat standardele existente așa cum este, păstrând astfel de nereguli.

Consorțiul Unicode a recunoscut erori în alte cazuri. Multitudinea de blocuri Unicode pentru ideografiile Han CJK au redundanțe în standardele originale, redundanțe provocate de importarea defectuoasă a standardelor originale, precum și fuziuni accidentale care ulterior sunt corectate, oferind precedent pentru dezunificarea caracterelor.

Pentru vorbitorii nativi, variantele pot fi ininteligibile sau inacceptabile în contexte educate. Vorbitorii de limbă engleză pot înțelege o notă scrisă de mână care spune „4P5 kg” ca „495 kg”, dar scrierea celor nouă înapoi (deci pare un „P”) poate fi deranjantă și ar fi considerată incorectă în orice școală. În mod similar, pentru utilizatorii unei limbi CJK care citesc un document cu glifuri „străine”: variantele lui骨pot apărea ca imagini oglindă,者poate lipsi un accident vascular cerebral / poate avea un accident vascular cerebral străin și令poate fi ilizibil sau poate fi confundat cu今în funcție de ce variantă de令(de ex.令) este utilizată.

Exemple ale unor ideografii Han neunificate

În unele cazuri, adesea în care modificările sunt cele mai izbitoare, Unicode a codat variante de caractere, făcând inutilă comutarea între fonturi sau langatribute. Cu toate acestea, unele variante cu diferențe, probabil, minime, obțin puncte de cod distincte, și nu fiecare variantă cu modificări substanțiale poate primi un punct de cod unic. De exemplu, luați un caracter precum入(U + 5165), pentru care singurul mod de a afișa variantele este să schimbați fontul (sau langatributul) așa cum este descris în tabelul anterior. Pe de altă parte, pentru內(U + 5167), varianta lui内(U + 5185) obține un punct de cod unic. Pentru unele caractere, cum ar fi兌/兑(U + 514C / U + 5151), oricare dintre metode poate fi utilizată pentru a afișa diferitele glifuri. În tabelul următor, fiecare rând compară variantele cărora li s-au atribuit diferite puncte de cod. Pentru scurtă durată, rețineți că variantele shinjitai cu componente diferite vor lua de obicei (și în mod surprinzător) puncte de cod unice (de exemplu, 氣 / 気). Nu vor apărea aici și nici nu vor apărea caracterele chinezești simplificate care iau componente radicale simplificate în mod constant (de exemplu, 紅 / 红, 語 / 语). Această listă nu este exhaustivă.

Simplificat	Tradiţional	japonez	Altă variantă	Engleză
U + 4E22 丢	U + 4E1F 丟			a pierde
U + 4E24 两	U + 5169 兩	U + 4E21 両	U + 34B3 㒳	doi, amândoi
U + 4E58 乘	U + 4E58 乘	U + 4E57 乗	U + 6909 椉	a calari
U + 4EA7 产	U + 7522 產	U + 7523 産		da naștere
U + 4FA3 侣	U + 4FB6 侶			tovarăș
U + 5151 兑	U + 514C 兌			a încasa
U + 5185 内	U + 5167 內			interior
U + 522B 别	U + 5225 別			a pleca
U + 7985 禅	U + 79AA 禪	U + 7985 禅		meditație (Zen)
U + 7A0E 税	U + 7A05 稅			impozite
U + 997F 饿	U + 9913 餓			flămând
U + 9AD8 高	U + 9AD8 高		U + 9AD9 髙	înalt
U + 9F9F 龟	U + 9F9C 龜	U + 4E80 亀		broască-țestoasă
U + 7814 硏	U + 7814 硏	U + 784F 研		a cerceta
Surse : Dicționar chinez-englez MDBG

Baza de date Ideographic Variation (IVD)

Pentru a rezolva problemele aduse de unificarea Han, a fost creat un standard tehnic Unicode cunoscut sub numele de baza de date de variații ideografice Unicode pentru a rezolva problema specificării glifului specific în mediul text simplu. Prin înregistrarea colecțiilor de glifuri în baza de date Ideographic Variation Database (IVD), este posibil să utilizați selectoare de variații ideografice pentru a forma secvența de variație ideografică (IVS) pentru a specifica sau a restricționa gliful adecvat în procesarea textului într-un mediu Unicode.

Intervalele Unicode

Caracterele ideografice atribuite de Unicode apar în următoarele blocuri:

CJK Unified Ideographs (4E00–9FFF) (Altfel cunoscut sub numele de URO, abreviere de Unified Repertoire and Ordering)
CJK Unified Ideographs Extension A (3400–4DBF)
CJK Unified Ideographs Extension B (20000-2A6DF)
CJK Unified Ideographs Extension C (2A700–2B73F)
CJK Unified Ideographs Extension D (2B740–2B81F)
CJK Unified Ideographs Extension E (2B820–2CEAF)
CJK Unified Ideographs Extension F (2CEB0–2EBEF)
CJK Unified Ideographs Extension G (30000-3134F)
Ideografele de compatibilitate CJK (F900 – FAFF) (cele douăsprezece caractere de la FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 și FA29 sunt de fapt „ideografe unificate” nu „ideografe de compatibilitate”)

Unicode include suport pentru radicali CJKV, linii, punctuație, semne și simboluri în următoarele blocuri:

Supliment CJK Radicals (2E80-2EFF)
Accidente vasculare cerebrale (31C0-31EF)
Simboluri CJK și punctuație (3000-303F)
Caracterele de descriere ideografică (2FF0–2FFF)

Caracterele suplimentare de compatibilitate (utilizare descurajată) apar în aceste blocuri:

Compatibilitate CJK (3300–33FF)
Formulare de compatibilitate CJK (FE30 – FE4F)
Ideografe de compatibilitate CJK (F900 – FAFF)
Supliment Ideografe de compatibilitate CJK (2F800–2FA1F)
Scrisori și luni CJK anexate (3200-32FF)
Supliment ideografic inclus (1F200-1F2FF)
Radicali Kangxi (2F00–2FDF)

Aceste caractere de compatibilitate (cu excepția celor douăsprezece ideografe unificate din blocul Ideografe de compatibilitate CJK) sunt incluse pentru compatibilitatea cu sistemele de manipulare a textelor moștenite și alte seturi de caractere moștenite. Acestea includ forme de caractere pentru aspectul vertical al textului și caractere cu text îmbogățit pe care Unicode le recomandă să le manipuleze prin alte mijloace.

Ideografe internaționale de bază

International Ideographs Core (IICore) este un subset de 9810 ideografe derivate din tabelele CJK Unified Ideographs, concepute pentru a fi implementate pe dispozitive cu memorie limitată, capacitate de intrare / ieșire și / sau aplicații în care se utilizează repertoriul complet de ideografe ISO 10646 nu este fezabil. Există 9810 caractere în standardul actual.

Fișiere de baze de date Unihan

Proiectul Unihan a făcut întotdeauna un efort pentru a pune la dispoziție baza lor de date de construcție.

Proiectul libUnihan oferă o bază de date SQLite Unihan normalizată și o bibliotecă C corespunzătoare. Toate tabelele din această bază de date sunt în a cincea formă normală . libUnihan este lansat sub LGPL , în timp ce baza sa de date, UnihanDb, este eliberată sub licența MIT .

Languages

In other projects