Algoritm fonetic - Phonetic algorithm
Un algoritm fonetic este un algoritm de indexare a cuvintelor de către lor pronunția . Majoritatea algoritmilor fonetici au fost dezvoltați pentru limba engleză și nu sunt utili pentru indexarea cuvintelor în alte limbi. Deoarece ortografia engleză variază semnificativ în funcție de mai mulți factori, cum ar fi originea și utilizarea cuvântului în timp și împrumuturile din alte limbi, algoritmii fonetici iau în considerare în mod necesar numeroase reguli și excepții.
Algoritmi
Printre cei mai cunoscuți algoritmi fonetici se numără:
- Soundex , care a fost dezvoltat pentru a codifica numele de familie pentru a fi utilizate în recensământ. Codurile Soundex sunt șiruri de patru caractere compuse dintr-o singură literă urmată de trei numere.
- Daitch – Mokotoff Soundex , care este un rafinament al Soundex conceput pentru a se potrivi mai bine cu numele de origine slavă și germanică. Codurile Daitch – Mokotoff Soundex sunt șiruri compuse din șase cifre numerice.
- Fonetica din Köln : este similară cu Soundex, dar este mai potrivită pentru cuvintele germane.
- Metafon și metafon dublu, care sunt potrivite pentru a fi utilizate cu majoritatea cuvintelor în limba engleză, nu doar cu numele. Algoritmii metafonici stau la baza multor verificatori ortografici populari .
- New York State Identification and Intelligence System (NYSIIS), care mapează foneme similare cu aceeași literă. Rezultatul este un șir care poate fi pronunțat de cititor fără decodificare.
- Abordare de evaluare a meciurilor dezvoltată de Western Airlines în 1977 - acest algoritm are o tehnică de codificare și comparare a intervalului.
- Caverphone , creat pentru a ajuta la potrivirea datelor între listele electorale de la sfârșitul secolului al XIX-lea și începutul secolului al XX-lea, optimizat pentru accente prezente în părți din Noua Zeelandă.
Utilizări comune
- Verificatoarele ortografice pot conține adesea algoritmi fonetici. Metafonie Algoritmul, de exemplu, poate avea un cuvânt incorect scris și de a crea un cod. Codul este apoi căutat în director pentru cuvinte cu același metafon sau similar. Cuvintele care au aceeași metafonă sau similară devin posibile ortografii alternative.
- Funcționalitatea de căutare va folosi adesea algoritmi fonetici pentru a găsi rezultate care nu se potrivesc exact cu termenii utilizați în căutare. Căutarea de nume poate fi dificilă, deoarece există adesea mai multe ortografii alternative pentru nume. Un exemplu este numele Claire . Are două alternative, Clare / Clair, care sunt ambele pronunțate la fel. Căutarea unei ortografii nu ar afișa rezultate pentru celelalte două. Folosind Soundex, toate cele trei variante produc același cod Soundex, C460. Căutând nume bazate pe codul Soundex, toate cele trei variante vor fi returnate.
Vezi si
- Potrivirea aproximativă a șirurilor
- Distanța de lovire
- Distanța Levenshtein
- Distanța Damerau – Levenshtein
Referințe
- Acest articol încorporează materiale din domeniul public din documentul NIST : Black, Paul E. „codificare fonetică” . Dicționar de algoritmi și structuri de date .
linkuri externe
- Algoritm pentru conversia cuvintelor în foneme și înapoi.
- StringMetric proiectează o bibliotecă Scala de algoritmi fonetici.
- clj-fuzzy project o bibliotecă Clojure de algoritmi fonetici.
- SoundexBR bibliotecă de algoritm fonetic implementat în R .
- Talisman o bibliotecă JavaScript care colectează diverși algoritmi fonetici pe care îi puteți încerca online.