CRM114 (program) - CRM114 (program)

CRM114 (nume complet: „Discriminatorul CRM114”) este un program bazat pe o abordare statistică pentru clasificarea datelor și utilizat în special pentru filtrarea spamului de e-mail .

Originea numelui

Numele vine de la CRM-114 Discriminator în Stanley Kubrick filmul Dr. Strangelove - un echipament radio , concepute pentru a filtra mesajele cărora le lipsește un anumit cod de -prefix.

Operațiune

În timp ce alții au efectuat filtrarea statistică bayesiană a spamului pe baza frecvenței apariției unui singur cuvânt în e-mail, CRM114 realizează o rată mai mare de recunoaștere a spamului prin crearea de accesări bazate pe fraze de până la cinci cuvinte. Aceste fraze sunt folosite pentru a forma un câmp aleatoriu Markov reprezentând textele primite. Cu această recunoaștere contextuală suplimentară, este unul dintre cele mai precise filtre de spam disponibile. Testarea inițială în 2002 a autorului Bill Yerazunis a dat o precizie de 99,87%; Holden și TREC 2005 și 2006 . a dat rezultate mai bune de 99%, cu variații semnificative în funcție de corpusul particular.

CRM114 lui clasificator poate fi comutat pentru a utiliza Littlestone lui vântura algoritm, caracter cu caracter de corespondență , o variantă pe KNN ( K-cel mai apropiat algoritm vecin ) clasificare numită Hyperspace, un clasificator de biți entropic că utilizările entropică care codifică pentru a determina similaritate, un SVM , prin compresibilitate reciprocă calculată de un algoritm LZ77 modificat și alți clasificatori mai experimentali. Caracteristicile reale potrivite se bazează pe o generalizare a skip-grame .

Algoritmii CRM114 sunt multi-linguali (compatibili cu codificările UTF-8 ) și null-safe. S-a demonstrat că un set de voturi de clasificatori CRM114 detectează documente confidențiale versus documente neconfidențiale scrise în japoneză la o rată de detectare mai mare de 99,9% și o rată de alarmă falsă de 5,3%.

CRM114 este un bun exemplu de software de recunoaștere a modelelor , demonstrând modul în care învățarea automată poate fi realizată cu un algoritm rezonabil de simplu. Codul sursă C al programului este disponibil în GPL .

La un nivel mai profund, CRM114 este, de asemenea, un limbaj de potrivire a modelelor de șiruri, similar cu grep sau chiar Perl ; deși este complet Turing , este foarte adaptat pentru potrivirea textului și chiar o definiție simplă (recursivă) a factorialului durează aproape zece linii. O parte din aceasta se datorează faptului că sintaxa limbajului crm114 nu este pozițională , ci declinală . Ca limbaj de programare, poate fi folosit pentru multe alte aplicații, în afară de detectarea spamului. CRM114 utilizează motorul regex cu potrivire aproximativă TRE , deci este posibil să scrieți programe care nu depind de șiruri absolut identice care se potrivesc pentru a funcționa corect.

CRM114 a fost aplicat filtrării e-mailurilor în clientul KMail și o serie de alte aplicații, inclusiv detectarea roboților pe Twitter și Yahoo, precum și filtrului de primul nivel din sistemul de detectare a defectelor vehiculelor din cadrul Departamentului de Transport din SUA. De asemenea, a fost folosit ca metodă predictivă pentru clasificarea modulelor software predispuse la erori.

Vezi si

Referințe

linkuri externe