Distanța Mahalanobis - Mahalanobis distance

Distanta Mahalanobis este o măsură a distanței dintre un punct P și o distribuție D , introdusă de P. C. Mahalanobis în 1936. Este o generalizare multidimensională a ideii de măsurare cât de multe deviații standard de la distanță P este de medie a D . Această distanță este zero pentru P la media lui D și crește pe măsură ce P se îndepărtează de medie de-a lungul fiecărei axe componente principale . Dacă fiecare dintre aceste axe este redimensionată pentru a avea varianța unității, atunci distanța Mahalanobis corespunde distanței euclidiene standard în spațiul transformat. Distanta Mahalanobis este , așadar , fără unități , la scară invariante , și ia în considerare corelațiile ale setului de date .

Definiție și proprietăți

Distanța Mahalanobis a unei observații de la un set de observații cu matrice medie și covarianță S este definită ca

Distanța Mahalanobis (sau „distanța punctului intermitent generalizat” pentru valoarea sa pătrată) poate fi, de asemenea, definită ca o măsură de diferențiere între doi vectori aleatori și de aceeași distribuție cu matricea de covarianță :

Așa cum este matricea de covarianță, ea este semidefinită pozitivă , iar inversul unei matrice semidefinite pozitive este, de asemenea, semidefinit pozitiv, avem că este și semidefinit pozitiv. Aceasta explică de ce poate fi luată rădăcina pătrată, deoarece toate valorile sunt pozitive.

Dacă matricea de covarianță este matricea identității, distanța Mahalanobis se reduce la distanța euclidiană . Dacă matricea de covarianță este diagonală , atunci măsurarea distanței rezultată se numește distanță euclidiană standardizată :

unde s i este abaterea standard a lui x i și y i asupra setului de eșantioane.

Distanța Mahalanobis este păstrată sub transformări liniare de rang complet ale spațiului cuprins de date. Aceasta înseamnă că, dacă datele au un spațiu nul netivial , distanța Mahalanobis poate fi calculată după proiectarea datelor (nedegenerativ) în jos pe orice spațiu cu dimensiunea adecvată pentru date.

Putem găsi descompuneri utile ale distanței pătrate Mahalanobis care ajută la explicarea unor motive ale periferiei observațiilor multivariate și oferă, de asemenea, un instrument grafic pentru identificarea valorilor aberante.

Explicație intuitivă

Luați în considerare problema estimării probabilității ca un punct de testare în spațiul euclidian N- dimensional să aparțină unei mulțimi, unde ni se dau puncte de probă care cu siguranță aparțin acelei mulțimi. Primul nostru pas ar fi să găsim centroidul sau centrul de masă al punctelor de eșantionare. Intuitiv, cu cât punctul în cauză este mai aproape de acest centru de masă, cu atât este mai probabil să aparțină setului.

Cu toate acestea, trebuie să știm, de asemenea, dacă setul este întins pe o gamă largă sau pe o gamă mică, astfel încât să putem decide dacă o distanță dată de centru este demnă de remarcat sau nu. Abordarea simplistă este de a estima abaterea standard a distanțelor punctelor de eșantionare de la centrul de masă. Dacă distanța dintre punctul de testare și centrul de masă este mai mică de o abatere standard, atunci am putea concluziona că este foarte probabil ca punctul de testare să aparțină setului. Cu cât este mai departe, cu atât este mai probabil ca punctul de testare să nu fie clasificat ca aparținând setului.

Această abordare intuitivă se poate face prin definirea cantitativă distanța normalizată între punctul de încercare și setul de a fi , care prevede: . Conectând acest lucru la distribuția normală putem obține probabilitatea ca punctul de testare să aparțină setului.

Dezavantajul abordării de mai sus a fost acela că am presupus că punctele de eșantionare sunt distribuite în jurul sferei în centrul de masă. Dacă distribuția ar fi în mod hotărât non-sferică, de exemplu elipsoidală, atunci ne-am aștepta ca probabilitatea ca punctul de testare să aparțină setului să depindă nu numai de distanța de la centrul de masă, ci și de direcție. În acele direcții în care elipsoidul are o axă scurtă, punctul de testare trebuie să fie mai aproape, în timp ce în acele unde axa este lungă, punctul de testare poate fi mai departe de centru.

Punând acest lucru pe o bază matematică, elipsoidul care reprezintă cel mai bine distribuția probabilității setului poate fi estimat prin construirea matricei de covarianță a probelor. Distanța Mahalanobis este distanța punctului de testare de la centrul de masă împărțit la lățimea elipsoidului în direcția punctului de testare.

Distribuții normale

Pentru o distribuție normală în orice număr de dimensiuni, densitatea probabilității unei observații este determinată în mod unic de distanța Mahalanobis :

Mai exact, urmează distribuția chi-pătrat cu grade de libertate, unde este numărul de dimensiuni ale distribuției normale. Dacă numărul de dimensiuni este 2, de exemplu, probabilitatea ca un anumit calculat să fie mai mic decât un anumit prag este . Pentru a determina un prag pentru a atinge o anumită probabilitate ,, utilizați , pentru 2 dimensiuni. Pentru numărul de dimensiuni altele decât 2, ar trebui consultată distribuția cumulată chi-pătrat.

Într-o distribuție normală, regiunea în care distanța Mahalanobis este mai mică decât una (adică regiunea din interiorul elipsoidului la distanța unu) este exact regiunea în care distribuția probabilității este concavă .

Distanța Mahalanobis este proporțională, pentru o distribuție normală, la rădăcina pătrată a log-probabilității negative (după adăugarea unei constante, deci minimul este la zero).

Relația cu variabilele aleatoare normale

În general, având în vedere o variabilă aleatorie normală ( gaussiană ) cu varianță și medie , orice altă variabilă normală aleatorie (cu medie și varianță ) poate fi definită în termeni de ecuație invers, pentru a recupera o variabilă aleatorie normalizată din orice variabilă aleatoare normală, se poate rezolva de obicei pentru . Dacă pătrăm ambele părți și luăm rădăcina pătrată, vom obține o ecuație pentru o metrică care seamănă foarte mult cu distanța Mahalanobis:

Mărimea rezultată este întotdeauna negativă și variază în funcție de distanța datelor de la medie, atribute care sunt convenabile atunci când se încearcă definirea unui model pentru date.

Relația cu pârghia

Mahalanobis distanța este strâns legată de statistica efectului de levier , dar are o scară diferită:

Aplicații

Definiția lui Mahalanobis a fost determinată de problema identificării asemănărilor craniilor pe baza măsurătorilor din 1927.

Distanța Mahalanobis este utilizată pe scară largă în analiza clusterelor și tehnicile de clasificare . Este strâns legată de distribuția în pătrat T a lui Hotelling utilizată pentru testarea statistică multivariată și de analiza discriminatorie liniară a lui Fisher care este utilizată pentru clasificarea supravegheată .

Pentru a utiliza distanța Mahalanobis pentru a clasifica un punct de testare ca aparținând uneia dintre clasele N , se estimează mai întâi matricea de covarianță a fiecărei clase, de obicei pe baza eșantioanelor despre care se știe că aparțin fiecărei clase. Apoi, având în vedere un eșantion de testare, se calculează distanța Mahalanobis la fiecare clasă și se clasifică punctul de testare ca aparținând acelei clase pentru care distanța Mahalanobis este minimă.

Distanța și pârghia Mahalanobis sunt adesea folosite pentru a detecta valori aberante , în special în dezvoltarea modelelor de regresie liniară . Se spune că un punct care are o distanță mai mare de Mahalanobis față de restul populației de eșantion de puncte are o pârghie mai mare, deoarece are o influență mai mare asupra pantei sau coeficienților ecuației de regresie. Distanța Mahalanobis este, de asemenea, utilizată pentru a determina valori anormale multivariate. Tehnicile de regresie pot fi folosite pentru a determina dacă un caz specific dintr-o populație eșantion este un outlier prin combinația a două sau mai multe scoruri variabile. Chiar și pentru distribuții normale, un punct poate fi un outlier multivariat, chiar dacă nu este un outlier univariant pentru orice variabilă (luăm în considerare o densitate de probabilitate concentrată de-a lungul liniei , de exemplu), făcând distanța Mahalanobis o măsură mai sensibilă decât verificarea dimensiunilor individual.

Implementări software

Multe programe și pachete de statistici, cum ar fi R , Python etc., includ implementări ale distanței Mahalanobis.

Limbă / program Funcţie Ref.
R mahalanobis(x, center, cov, inverted = FALSE, ...) [1]
SciPy ( Python ) mahalanobis(u, v, VI) [2]
Julia mahalanobis(x, y, Q) [3]

Vezi si

Referințe

linkuri externe