Tendință centrală - Central tendency

În statistici , o tendință centrală (sau măsura tendinței centrale ) este o valoare centrală sau tipică pentru o distribuție de probabilitate . Poate fi numit și un centru sau o locație a distribuției. În mod colocvial, măsurile de tendință centrală sunt adesea numite medii . Termenul de tendință centrală datează de la sfârșitul anilor 1920.

Cele mai frecvente măsuri ale tendinței centrale sunt media aritmetică , mediana și modul . O tendință de mijloc poate fi calculată fie pentru un set finit de valori, fie pentru o distribuție teoretică, cum ar fi distribuția normală . Ocazional, autorii folosesc tendința centrală pentru a denota „tendința datelor cantitative de a se grupa în jurul valorii centrale”.

Tendința centrală a unei distribuții este de obicei contrastată cu dispersia sau variabilitatea acesteia ; dispersia și tendința centrală sunt proprietățile adesea caracterizate ale distribuțiilor. Analiza poate judeca dacă datele au o tendință centrală puternică sau slabă, pe baza dispersiei lor.

Măsuri

Următoarele pot fi aplicate datelor unidimensionale. În funcție de circumstanțe, poate fi adecvată transformarea datelor înainte de a calcula o tendință centrală. Exemple sunt pătratul valorilor sau luarea logaritmilor. Dacă o transformare este adecvată și ce ar trebui să fie, depinde în mare măsură de datele analizate.

Media aritmetică sau pur și simplu, medie
suma tuturor măsurătorilor împărțită la numărul de observații din setul de date.
Median
valoarea mijlocie care separă jumătatea superioară de jumătatea inferioară a setului de date. Mediana și modul sunt singurele măsuri ale tendinței centrale care pot fi utilizate pentru datele ordinale , în care valorile sunt clasificate una față de cealaltă, dar nu sunt măsurate absolut.
Mod
cea mai frecventă valoare din setul de date. Aceasta este singura măsură centrală a tendinței care poate fi utilizată cu datele nominale , care au atribuții de categorii pur calitative.
Media geometrică
a n- a rădăcină a produsului valorilor datelor, unde există n dintre acestea. Această măsură este valabilă numai pentru datele care sunt măsurate absolut pe o scară strict pozitivă.
Media armonică
reciproca a mediei aritmetice a inversului valorilor date. Această măsură este valabilă și pentru datele care sunt măsurate absolut pe o scară strict pozitivă.
Media aritmetică ponderată
o medie aritmetică care încorporează ponderarea anumitor elemente de date.
Media trunchiată sau medie redusă
media aritmetică a valorilor datelor după un anumit număr sau proporție dintre cele mai mari și cele mai mici valori ale datelor au fost eliminate.
Interquartile medie
o medie trunchiată bazată pe date din intervalul intercuartil .
Midrange
media aritmetică a valorilor maxime și minime ale unui set de date.
Midhinge
media aritmetică a primului și al treilea quartile .
Trimean
media aritmetică ponderată a medianei și a celor două quartile.
Mediu câștigat
o medie aritmetică în care valorile extreme sunt înlocuite cu valori mai apropiate de mediană.

Oricare dintre cele de mai sus poate fi aplicată fiecărei dimensiuni a datelor multidimensionale, dar rezultatele nu pot fi invariante la rotațiile spațiului multidimensional. În plus, există

Mediană geometrică
ceea ce minimizează suma distanțelor până la punctele de date. Aceasta este la fel ca mediana atunci când este aplicată datelor unidimensionale, dar nu este același lucru cu a lua mediana fiecărei dimensiuni în mod independent. Nu este invariantă pentru redimensionarea diferită a diferitelor dimensiuni.
Media pătratică (adesea cunoscută sub numele de pătrat mediu rădăcină )
util în inginerie, dar nu este folosit adesea în statistici. Acest lucru se datorează faptului că nu este un bun indicator al centrului distribuției atunci când distribuția include valori negative.
Adâncimea simplă
probabilitatea ca un simplex ales aleatoriu cu vârfuri din distribuția dată să conțină centrul dat
Mediană Tukey
un punct cu proprietatea că fiecare jumătate de spațiu care îl conține conține, de asemenea, multe puncte de probă

Soluții la probleme variaționale

Mai multe măsuri ale tendinței centrale pot fi caracterizate ca rezolvând o problemă variațională, în sensul calculului variațiilor , și anume minimizarea variației de la centru. Adică, având în vedere o măsură a dispersiei statistice , se cere o măsură a tendinței centrale care minimizează variația: astfel încât variația de la centru să fie minimă între toate opțiunile de centru. Într-un quip, „dispersia precede locația”. Aceste măsuri sunt definite inițial într-o singură dimensiune, dar pot fi generalizate la mai multe dimensiuni. Acest centru poate fi sau nu unic. În sensul spațiilor L p , corespondența este:

L p dispersie tendinta centrala
L 0 raport de variație modul
L 1 deviația absolută medie mediană ( mediană geometrică )
L 2 deviație standard medie ( centroid )
L abaterea maximă midrange

Funcțiile asociate sunt numite p -norms : respectiv 0- "normă", 1-normă, 2-normă și ∞-normă. Funcția corespunzătoare spațiului L 0 nu este o normă și, prin urmare, este adesea menționată între ghilimele: 0- "normă".

În ecuații, pentru un set de date dat (finit) X , considerat ca un vector x = ( x 1 , ..., x n ) , dispersia în jurul unui punct c este „distanța” de la x la vectorul constant c = ( c ,…, c ) în p -norm (normalizat prin numărul de puncte n ):

Pentru p = 0 și p = ∞ aceste funcții sunt definite luând limite, respectiv ca p → 0 și p → ∞ . Pentru p = 0 valorile limită sunt 0 0 = 0 și a 0 = 0 sau a ≠ 0 , deci diferența devine pur și simplu egalitate, deci norma 0 contează numărul de puncte inegale . Pentru p = ∞ cel mai mare număr domină, și astfel norma ∞ este diferența maximă.

Unicitate

Media ( centrul L 2 ) și gama medie ( centrul L ) sunt unice (atunci când există), în timp ce mediana ( centrul L 1 ) și modul ( centrul L 0 ) nu sunt, în general, unice. Acest lucru poate fi înțeles în termeni de convexitate a funcțiilor asociate ( funcții coercitive ).

Norma 2 și norma ∞ sunt strict convexe și astfel (prin optimizare convexă) minimizatorul este unic (dacă există) și există pentru distribuții mărginite. Astfel, abaterea standard despre medie este mai mică decât abaterea standard despre orice alt punct, iar abaterea maximă despre intervalul mediu este mai mică decât abaterea maximă despre orice alt punct.

Norma 1 nu este strict convexă, în timp ce convexitatea strictă este necesară pentru a asigura unicitatea minimizatorului. În mod corespunzător, mediana (în acest sens de minimizare) nu este, în general, unică și, de fapt, orice punct dintre cele două puncte centrale ale unei distribuții discrete minimizează deviația absolută medie.

0- „norma” nu este convexă (deci nu este o normă). În mod corespunzător, modul nu este unic - de exemplu, într-o distribuție uniformă, orice punct este modul.

Clustering

În loc de un singur punct central, se pot cere mai multe puncte, astfel încât variația de la aceste puncte să fie minimizată. Acest lucru duce la analiza clusterului , în care fiecare punct din setul de date este grupat cu cel mai apropiat „centru”. Cel mai frecvent, utilizarea normei 2 generalizează media la k- înseamnă grupare , în timp ce utilizarea normei 1 generalizează mediana (geometrică) la k- mediane . Utilizarea normei 0 generalizează pur și simplu modul (cea mai comună valoare) la utilizarea celor mai comune valori k ca centre.

Spre deosebire de statisticile cu un singur centru, acest cluster multi-centru nu poate fi calculat, în general, într-o expresie în formă închisă și, în schimb, trebuie calculat sau aproximat printr-o metodă iterativă ; o abordare generală este algoritmii de așteptare-maximizare .

Geometria informației

Noțiunea de „centru” ca variație minimizantă poate fi generalizată în geometria informației ca o distribuție care minimizează divergența (o distanță generalizată) față de un set de date. Cel mai frecvent caz este estimarea maximă a probabilității , unde estimarea maximă a probabilității (MLE) maximizează probabilitatea (minimizează surprinderea așteptată ), care poate fi interpretată geometric folosind entropia pentru a măsura variația: MLE minimizează entropia încrucișată (echivalent, entropie relativă , Kullback– Divergența Leibler).

Un exemplu simplu în acest sens este pentru centrul de date nominale: în loc să utilizați modul (singurul „centru” cu o singură valoare), se folosește adesea măsura empirică ( distribuția frecvenței împărțită la dimensiunea eșantionului ) ca „centru” . De exemplu, date date binare , să spunem capete sau cozi, dacă un set de date constă din 2 capete și 1 cozi, atunci modul este „capete”, dar măsura empirică este de 2/3 capete, 1/3 cozi, ceea ce minimizează entropie încrucișată (surprindere totală) din setul de date. Această perspectivă este, de asemenea, utilizată în analiza de regresie , unde cele mai mici pătrate găsesc soluția care minimizează distanțele față de aceasta și, în mod analog, în regresia logistică , o estimare a probabilității maxime minimizează surprinderea (distanța informațională).

Relațiile dintre medie, mediană și mod

Pentru distribuțiile unimodale , următoarele limite sunt cunoscute și sunt ascuțite:

unde μ este media, ν este mediana, θ este modul și σ este abaterea standard.

Pentru fiecare distribuție,

Vezi si

Note

Referințe