Trigramă - Trigram

Trigramele sunt un caz special al n -gramei , unde n este 3. Ele sunt adesea utilizate în prelucrarea limbajului natural pentru efectuarea analizei statistice a textelor și în criptografie pentru controlul și utilizarea cifrelor și codurilor .

Frecvență

Contextul este foarte important, clasificările și procentele variate ale analizei sunt ușor derivate prin extragerea din diferite dimensiuni ale eșantionului, diferiți autori; sau diferite tipuri de documente: poezie, science-fiction, documentare tehnologică; și niveluri de scriere: povești pentru copii versus adulți, ordine militare și rețete.

Analiza tipică a frecvenței criptanalitice constată că cele mai comune 16 trigrame la nivel de caracter în limba engleză sunt:

Rang Trigramă Frecvență
(sursă diferită)
1 the 1,81%
2 și 0,73%
3 tha 0,33%
4 ent 0,42%
5 ing 0,72%
6 ion 0,42%
7 tio 0,31%
8 pentru 0,34%
9 nde
10 are
11 nce
12 EDT
13 este
14 adesea 0,22%
15 sth 0,21%
16 bărbați

Deoarece mesajele criptate trimise prin telegraf omit deseori punctuația și spațiile, analiza de frecvență criptografică a acestor mesaje include trigrame care se încadrează în limitele cuvintelor. Acest lucru face ca trigrame cum ar fi „edt” să apară frecvent, chiar dacă nu poate apărea niciodată în niciun cuvânt al mesajelor respective.

Exemple

Propoziția „vulpea roșie rapidă sare peste câinele leneș maro” are următoarele trigrame la nivel de cuvânt:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

Iar trigrama la nivel de cuvânt „roșu rapid” are următoarele trigrame la nivel de caracter (unde un subliniat „_” marchează un spațiu):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Referințe