Scris de mana recunoscut - Handwriting recognition

Semnătura vedetei country Tex Williams.

Recunoașterea scrisului de mână ( HWR ), cunoscută și sub numele de recunoaștere a textului manual ( HTR ), este capacitatea unui computer de a primi și interpreta intrări scrise de mână inteligibile din surse precum documente pe hârtie , fotografii , ecrane tactile și alte dispozitive. Imaginea textului scris poate fi sesizată „off line” dintr-o bucată de hârtie prin scanare optică ( recunoaștere optică a caracterelor ) sau prin recunoaștere inteligentă a cuvintelor . Alternativ, mișcările vârfului stiloului pot fi sesizate „on-line”, de exemplu printr-o suprafață a ecranului computerului pe bază de stilou, o sarcină în general mai ușoară, deoarece există mai multe indicii disponibile. Un sistem de recunoaștere a scrisului de mână gestionează formatarea, efectuează segmentarea corectă în caractere și găsește cuvintele cele mai plauzibile.

Recunoașterea offline

Recunoașterea scrisului de mână offline implică conversia automată a textului dintr-o imagine în coduri de litere care pot fi utilizate în cadrul aplicațiilor de computer și de procesare a textului. Datele obținute prin acest formular sunt considerate ca o reprezentare statică a scrisului de mână. Recunoașterea scrierii de mână offline este relativ dificilă, deoarece diferite persoane au stiluri de scriere de mână diferite. Și, începând de astăzi, motoarele OCR se concentrează în principal pe textul tipărit pe mașină și ICR pentru textul „tipărit” manual (scris cu majuscule).

Tehnici tradiționale

Extragerea caracterului

Recunoașterea caracterelor offline implică adesea scanarea unui formular sau a unui document. Aceasta înseamnă că caracterele individuale conținute în imaginea scanată vor trebui extrase. Există instrumente capabile să efectueze acest pas. Cu toate acestea, există mai multe imperfecțiuni comune în acest pas. Cel mai frecvent este atunci când caracterele conectate sunt returnate ca o singură imagine secundară care conține ambele caractere. Acest lucru cauzează o problemă majoră în etapa de recunoaștere. Cu toate acestea, sunt disponibili mulți algoritmi care reduc riscul caracterelor conectate.

Recunoașterea caracterelor

După extragerea caracterelor individuale, se utilizează un motor de recunoaștere pentru a identifica caracterul computerizat corespunzător. În prezent sunt disponibile mai multe tehnici de recunoaștere diferite.

Extragerea caracteristicilor

Extragerea caracteristicilor funcționează într-un mod similar cu cele de recunoaștere a rețelei neuronale. Cu toate acestea, programatorii trebuie să determine manual proprietățile pe care le consideră importante. Această abordare oferă recunoscătorului mai mult control asupra proprietăților utilizate în identificare. Cu toate acestea, orice sistem care utilizează această abordare necesită mult mai mult timp de dezvoltare decât o rețea neuronală, deoarece proprietățile nu sunt învățate automat.

Tehnici moderne

Acolo unde tehnicile tradiționale se concentrează pe segmentarea caracterelor individuale pentru recunoaștere, tehnicile moderne se concentrează pe recunoașterea tuturor personajelor dintr-o linie de text segmentată. În special, se concentrează pe tehnici de învățare automată care sunt capabile să învețe caracteristici vizuale, evitând ingineria caracteristicilor limitative utilizate anterior. Metodele de ultimă oră utilizează rețele convoluționale pentru a extrage caracteristici vizuale pe mai multe ferestre suprapuse ale unei imagini de linie de text pe care o rețea neuronală recurentă le folosește pentru a produce probabilități de caracter.

Recunoaștere online

Recunoașterea scrisului de mână online implică conversia automată a textului, așa cum este scris pe un digitalizator special sau PDA , unde un senzor preia mișcările vârfului stiloului, precum și comutarea stiloului în sus / în jos. Acest tip de date este cunoscut sub numele de cerneală digitală și poate fi privit ca o reprezentare digitală a scrisului de mână. Semnalul obținut este convertit în coduri de litere care pot fi utilizate în cadrul aplicațiilor de calculator și de procesare a textului.

Elementele unei interfețe de recunoaștere a scrisului de mână online includ de obicei:

un stilou sau un stilou pentru care utilizatorul să poată scrie.
o suprafață sensibilă la atingere, care poate fi integrată sau adiacentă unui afișaj de ieșire.
o aplicație software care interpretează mișcările stylusului pe suprafața de scriere, traducând cursele rezultate în text digital.

Procesul de recunoaștere a scrisului de mână online poate fi împărțit în câțiva pași generali:

preprocesare,
extragerea caracteristicilor și
clasificare

Scopul preprocesării este de a elimina informațiile irelevante din datele de intrare, care pot afecta negativ recunoașterea. Aceasta privește viteza și precizia. Preprocesarea constă, de regulă, în binarizare, normalizare, eșantionare, netezire și decolorare. Al doilea pas este extragerea caracteristicilor. Din câmpul vectorial cu două sau mai multe dimensiuni primit din algoritmii de preprocesare, sunt extrase date cu dimensiuni superioare. Scopul acestui pas este de a evidenția informații importante pentru modelul de recunoaștere. Aceste date pot include informații precum presiunea stiloului, viteza sau modificările direcției de scriere. Ultimul mare pas este clasificarea. În acest pas, diferite modele sunt utilizate pentru a mapa caracteristicile extrase la diferite clase și astfel identificarea caracterelor sau cuvintelor pe care le reprezintă caracteristicile.

Hardware

Produsele comerciale care încorporează recunoașterea scrisului de mână ca înlocuitor pentru introducerea tastaturii au fost introduse la începutul anilor 1980. Exemplele includ terminale de scris de mână, cum ar fi Pencept Penpad și terminalul punct de vânzare Inforite. Odată cu apariția marii piețe de consum pentru computerele personale, au fost introduse mai multe produse comerciale pentru a înlocui tastatura și mouse-ul de pe un computer personal cu un singur sistem de indicare / scriere de mână, cum ar fi cele de la Pencept, CIC și altele. Primul computer portabil de tip tabletă disponibil comercial a fost GRiDPad de la GRiD Systems , lansat în septembrie 1989. Sistemul său de operare a fost bazat pe MS-DOS .

La începutul anilor 1990, producătorii de hardware , inclusiv NCR , IBM și EO lansat computere tabletă care rulează PenPoint sistemul de operare dezvoltat de GO Corp. . PenPoint a folosit recunoașterea scrierii de mână și gesturi în toată lumea și a oferit facilitățile software-ului terților. Computerul tabletă IBM a fost primul care a folosit numele ThinkPad și a folosit recunoașterea scrisului de mână IBM. Acest sistem de recunoaștere a fost ulterior portat la Microsoft Windows pentru Pen Computing și IBM Pen pentru OS / 2 . Niciuna dintre acestea nu a avut succes comercial.

Progresele în electronică au permis ca puterea de calcul necesară recunoașterii scrierii de mână să se încadreze într-un factor de formă mai mic decât computerele tabletă, iar recunoașterea scrierii de mână este adesea utilizată ca metodă de intrare pentru PDA - urile portabile . Primul PDA care a furnizat informații scrise a fost Apple Newton , care a expus publicul la avantajul unei interfețe de utilizator simplificate. Cu toate acestea, dispozitivul nu a avut un succes comercial, din cauza fiabilității software-ului, care a încercat să învețe tiparele de scriere ale unui utilizator. Până la lansarea sistemului Newton OS 2.0, în care recunoașterea scrisului de mână a fost mult îmbunătățită, incluzând caracteristici unice care încă nu se găsesc în sistemele de recunoaștere actuale, cum ar fi corectarea erorilor fără model, se făcuse prima impresie în mare parte negativă. După întreruperea utilizării Apple Newton , funcția a fost încorporată în Mac OS X 10.2 și ulterior sub numele de Inkwell .

Palm a lansat ulterior o serie de PDA-uri de succes bazate pe sistemul de recunoaștere Graffiti . Graffiti-ul a îmbunătățit gradul de utilizare prin definirea unui set de „unistrokes”, sau forme cu o singură lovitură, pentru fiecare personaj. Acest lucru a restrâns posibilitatea introducerii eronate, deși memorarea modelelor de accident vascular cerebral a crescut curba de învățare pentru utilizator. S-a constatat că recunoașterea scrisului de mână Graffiti încalcă un brevet deținut de Xerox, iar Palm a înlocuit Graffiti cu o versiune licențiată a recunoașterii scrierii de mână CIC, care, deși susținea și formulare unistroke, a datat anterior brevetului Xerox. Constatarea de către instanță a încălcării a fost anulată la apel, iar apoi a fost anulată din nou la un recurs ulterior. Părțile implicate au negociat ulterior o soluție privind acest brevet și alte brevete.

Un Tablet PC este un computer notebook cu o tabletă digitalizatoare și un stylus, care permite utilizatorului să scrie text de mână pe ecranul unității. Sistemul de operare recunoaște scrierea de mână și o convertește în text. Windows Vista și Windows 7 includ caracteristici de personalizare care învață modelele de scriere ale utilizatorului sau vocabularul pentru engleză, japoneză, chineză tradițională, chineză simplificată și coreeană. Funcțiile includ un „expert de personalizare” care solicită mostre ale scrisului de mână al unui utilizator și le folosește pentru a recalifica sistemul pentru o recunoaștere de precizie mai mare. Acest sistem este distinct de sistemul de recunoaștere a scrierii de mână mai puțin avansat utilizat în sistemul său de operare Windows Mobile pentru PDA-uri.

Deși recunoașterea scrisului de mână este o formă de intrare cu care publicul s-a obișnuit, nu a realizat o utilizare pe scară largă nici pe computerele desktop, nici pe laptopurile. În general, este încă acceptat faptul că introducerea tastaturii este atât mai rapidă, cât și mai fiabilă. Începând cu 2006, multe PDA-uri oferă intrare de scriere de mână, acceptând uneori chiar scrierea de mână cursivă naturală, dar acuratețea este încă o problemă, iar unii oameni consideră că o tastatură simplă pe ecran este mai eficientă.

Software

Software-ul timpuriu ar putea înțelege scrierea de mână tipărită unde personajele erau separate; cu toate acestea, scrierea de mână cursivă cu personaje conectate a prezentat Paradoxul lui Sayre , o dificultate care implică segmentarea personajelor. În 1962 Shelia Guberman , apoi la Moscova, a scris primul program aplicat de recunoaștere a modelelor. Exemple comerciale au venit de la companii precum Communications Intelligence Corporation și IBM.

La începutul anilor 1990, două companii - ParaGraph International și Lexicus - au venit cu sisteme care ar putea înțelege recunoașterea cursivă a scrisului de mână. ParaGraph a avut sediul în Rusia și a fost fondat de informaticianul Stepan Pachikov, în timp ce Lexicus a fost fondat de Ronjon Nag și Chris Kortge, care erau studenți la Universitatea Stanford. Sistemul ParaGraph CalliGrapher a fost implementat în sistemele Apple Newton, iar sistemul Lexicus Longhand a fost disponibil comercial pentru sistemul de operare PenPoint și Windows. Lexicus a fost achiziționată de Motorola în 1993 și a continuat să dezvolte sisteme de recunoaștere a scrierii de mână și sisteme de text predictive pentru Motorola. ParaGraph a fost achiziționată în 1997 de SGI, iar echipa sa de recunoaștere a scrisului de mână a format o divizie P&I, achiziționată ulterior de la SGI de Vadem. Microsoft a achiziționat recunoașterea scrisului de mână CalliGrapher și alte tehnologii de cerneală digitală dezvoltate de P&I de la Vadem în 1999.

Wolfram Mathematica (8.0 sau o versiune ulterioară) oferă, de asemenea, o funcție de scriere de mână sau de recunoaștere a textului TextRecognize.

Cercetare

Metodă utilizată pentru exploatarea informațiilor contextuale în primul sistem de interpretare a adreselor scrise de mână dezvoltat de Sargur Srihari și Jonathan Hull

Recunoașterea scrisului de mână are o comunitate activă de academicieni care o studiază. Cele mai mari conferințe pentru recunoașterea scrisului de mână sunt Conferința internațională privind frontierele în recunoașterea scrisului de mână (ICFHR), desfășurată în ani pare, și Conferința internațională privind analiza și recunoașterea documentelor (ICDAR), desfășurată în ani impari. Ambele conferințe sunt susținute de IEEE și IAPR . În 2021, procedurile ICDAR vor fi publicate de LNCS , Springer.

Domeniile active de cercetare includ:

Recunoaștere online
Recunoașterea offline
Verificarea semnăturii
Interpretarea adreselor poștale
Prelucrarea cecului bancar
Recunoașterea scriitorului

Rezultate din 2009

Din 2009, a rețelelor neuronale recurente și profunde feedforward rețelele neuronale dezvoltate în grupul de cercetare de Jürgen Schmidhuber la Swiss AI Lab IDSIA au câștigat mai multe concursuri internaționale de scriere de mână. În special, memoria bidirecțională și multidimensională pe termen scurt (LSTM) a lui Alex Graves și colab. a câștigat trei concursuri de recunoaștere a scrisului de mână conectat la Conferința internațională de analiză și recunoaștere a documentelor din 2009 (ICDAR), fără cunoștințe prealabile despre cele trei limbi diferite (franceză, arabă, persană ) care trebuie învățate. Metode recente de învățare profundă bazate pe GPU pentru rețelele feedforward de către Dan Ciresan și colegii de la IDSIA au câștigat concursul de recunoaștere a scrisului de mână offline offline ICDAR 2011; rețelele lor neuronale au fost, de asemenea, primele recunoașteri de modele artificiale care au obținut performanțe umane competitive în faimoasa problemă a cifrelor scrise de mână MNIST a lui Yann LeCun și a colegilor de la NYU .

Languages

In other projects