Gama interquartile - Interquartile range

Grafic cu căsuțe (cu un interval interquartil) și o funcție a densității de probabilitate (pdf) a unui Normal N (0, σ 2 ) Populație

În statisticile descriptive , intervalul intercuartil ( IQR ), numit și mijlociu , 50% mediu sau H-spread , este o măsură a dispersiei statistice , fiind egal cu diferența dintre percentilele 75 și 25 , sau între quartile superioare și inferioare , IQR = Q 3  -  Q 1 . Cu alte cuvinte, IQR este prima quartilă scăzută din a treia quartilă; aceste quartile pot fi văzute clar pe un grafic de cutie pe date. Este un estimator tăiat , definit ca intervalul tăiat de 25% și este o măsură robustă de scară utilizată în mod obișnuit .

IQR este o măsură a variabilității, bazată pe împărțirea unui set de date în quartile. Cvartilele împart un set de date ordonat în ordine în patru părți egale. Valorile care separă părțile sunt numite primul, al doilea și al treilea quartile; și sunt notate cu Q1, numită și cuartila inferioară, Q2 și Q3, numită și cuartila superioară, respectiv. Aceste quartile sunt determinate prin interpolare liniară.

Utilizare

Spre deosebire de intervalul total , intervalul intercuartil are un punct de defalcare de 25% și, prin urmare, este adesea preferat intervalului total.

IQR este utilizat pentru a construi graficele cutiei , reprezentări grafice simple ale unei distribuții de probabilitate .

IQR este utilizat în întreprinderi ca indicator pentru ratele veniturilor lor .

Pentru o distribuție simetrică (unde mediana este egală cu midhinge , media primului și al treilea quartile), jumătate din IQR este egală cu deviația absolută mediană (MAD).

Mediană este măsura corespunzătoare a tendinței centrale .

IQR poate fi utilizat pentru identificarea valorilor aberante (a se vedea mai jos ). IQR poate indica, de asemenea, asimetria setului de date.

Abaterea quartilei sau gama semi-interquartilei este definită ca jumătate din IQR.

Algoritm

IQR-ul unui set de valori se calculează ca diferență între sferturile superioare și inferioare, Q 3 și Q 1 . Fiecare quartilă este o mediană calculată după cum urmează.

Având un număr par 2n sau impar 2n + 1 de valori

prima quartilă Q 1 = mediana celor mai mici valori n
treia cvartilei Q 3 = median al n cele mai mari valori

A doua quartilă Q 2 este aceeași cu mediana obișnuită.

Exemple

Set de date într-un tabel

Următorul tabel are 13 rânduri și respectă regulile pentru numărul impar de intrări.

eu x [i] Median Quartile
1 7 Q 2 = 87
(mediana întregului tabel)
Q 1 = 31
(mediana jumătății superioare, de la rândul 1 la 6)
2 7
3 31
4 31
5 47
6 75
7 87
8 115
Q 3 = 119
(mediana jumătății inferioare, de la rândul 8 la 13)
9 116
10 119
11 119
12 155
13 177

Pentru datele din acest tabel, intervalul intercuartil este IQR = Q 3 - Q 1 = 119 - 31 = 88.

Set de date într-o casetă de text simplu

                    
                             + −−−−− + - +     
               * | −−−−−−−−−− | | | | −−−−−−−−−− | |
                             + −−−−− + - +    
                    
 + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + + −−− + −−− + −−− + −−− + + număr linia
 0 1 2 3 4 5 6 7 8 9 10 11 12
  

Pentru setul de date din această casetă grafic :

  • (prima) quartilă inferioară Q 1 = 7
  • mediană (al doilea quartil) Q 2 = 8,5
  • (a treia) quartilă superioară Q 3 = 9
  • interval intercuartil, IQR = Q 3 - Q 1 = 2
  • 1.5 mai mic * IQR mustață = Q 1 - 1.5 * IQR = 7 - 3 = 4. (Dacă nu există niciun punct de date la 4, atunci cel mai mic punct este mai mare decât 4.)
  • sus 1,5 * IQR mustață = Q 3 + 1,5 * IQR = 9 + 3 = 12. (Dacă nu există un punct de date la 12, atunci cel mai înalt punct mai mic de 12.)

Acest lucru înseamnă că mustățile IQR de 1,5 * pot avea o lungime neuniformă. Mediana, minimul, maximul și primul și al treilea quartile sunt „verile cu cinci numere” sugerate de JW Tukey.

Distribuții

Gama intercuartilă a unei distribuții continue poate fi calculată prin integrarea funcției de densitate a probabilității (care produce funcția de distribuție cumulativă - vor funcționa și alte mijloace de calcul al CDF). Cuartila inferioară, Q 1 , este un număr astfel încât integralul PDF-ului de la -∞ la Q 1 este egal cu 0,25, în timp ce quartila superioară, Q 3 , este un astfel de număr încât integralul de la -∞ la Q 3 este egal cu 0,75; în ceea ce privește CDF, quartile pot fi definite după cum urmează:

unde CDF -1 este funcția cuantilă .

Gama intercuartilă și mediana unor distribuții comune sunt prezentate mai jos

Distribuție Median IQR
Normal μ 2 Φ −1 (0,75) σ ≈ 1,349σ ≈ (27/20) σ
Laplace μ 2 b  ln (2) ≈ 1,386 b
Cauchy μ

Testul intervalului intercuartil pentru normalitatea distribuției

IQR, media și deviația standard a unei populații P pot fi utilizate într-un test simplu dacă P este normal distribuit sau nu sau Gauss. Dacă P este distribuit în mod normal, atunci scorul standard al primei quartile, z 1 , este −0,67, iar scorul standard al celui de-al treilea quartile, z 3 , este +0,67. Având în vedere media  =  și deviația standard  = σ pentru P , dacă P este distribuită în mod normal, prima quartilă

iar al treilea quartile

Dacă valorile reale ale primului sau celui de-al treilea quartile diferă substanțial de valorile calculate, P nu este distribuită în mod normal. Cu toate acestea, o distribuție normală poate fi perturbată în mod trivial pentru a-și menține standardele Q1 și Q2. scorurile la 0,67 și -0,67 și să nu fie distribuite în mod normal (deci testul de mai sus ar produce un fals pozitiv). Un test mai bun de normalitate, cum ar fi complotul Q-Q, ar fi indicat aici.

Valori aberante

Complot de tip box-and-whisker, cu patru valori aberante ușoare și unul anormal extrem. În acest grafic, valorile aberante sunt definite ca fiind ușoare peste Q3 + 1,5 IQR și extreme peste Q3 + 3 IQR.

Gama intercuartilă este adesea utilizată pentru a găsi valori aberante în date. Valorile aberante aici sunt definite ca observații care scad sub Q1 - 1,5 IQR sau peste Q3 + 1,5 IQR. Într-un boxplot, cea mai mare și cea mai mică valoare care apare în această limită sunt indicate de mustățile cutiei (frecvent cu o bară suplimentară la capătul mustaței) și orice valori externe ca puncte individuale.

Vezi si

Referințe

linkuri externe