Deviație standard - Standard deviation

Un grafic de distribuție normală (sau curbă în formă de clopot) în care fiecare bandă are o lățime de 1 deviație standard - Vezi și: regula 68-95-99.7 .
Probabilitatea cumulativă a unei distribuții normale cu valoarea așteptată 0 și deviația standard 1

În statistici , abaterea standard este o măsură a cantității de variație sau dispersie a unui set de valori. O abatere standard scăzută indică faptul că valorile tind să fie apropiate de media (numită și valoarea așteptată ) a setului, în timp ce o abatere standard ridicată indică faptul că valorile sunt răspândite într-un interval mai larg.

Abaterea standard poate fi abreviată SD și este reprezentată cel mai frecvent în textele și ecuațiile matematice prin litera greacă minusculă sigma σ , pentru abaterea standard a populației sau litera latină s , pentru abaterea standard a eșantionului.

Abaterea standard a unei variabile aleatoare , a eșantionului , a populației statistice , a setului de date sau a distribuției de probabilitate este rădăcina pătrată a varianței sale . Este algebric mai simplu, deși în practică, mai puțin robust decât deviația absolută medie . O proprietate utilă a deviației standard este că, spre deosebire de varianță, este exprimată în aceeași unitate ca și datele.

Abaterea standard a unei populații sau eșantion și eroarea standard a unei statistici (de exemplu, a eșantionului mediu) sunt destul de diferite, dar corelate. Eroarea standard a mediei eșantionului este abaterea standard a setului de medii care ar fi găsită prin extragerea unui număr infinit de eșantioane repetate din populație și calcularea unei medii pentru fiecare eșantion. Eroarea standard a mediei se dovedește a fi egală cu abaterea standard a populației împărțită la rădăcina pătrată a mărimii eșantionului și este estimată utilizând abaterea standard a eșantionului împărțită la rădăcina pătrată a dimensiunii eșantionului. De exemplu, eroarea standard a unui sondaj (ceea ce este raportat ca marja de eroare a sondajului) este abaterea standard așteptată a mediei estimate dacă același sondaj ar fi efectuat de mai multe ori. Astfel, eroarea standard estimează abaterea standard a unei estimări, care în sine măsoară cât de mult depinde estimarea de eșantionul particular care a fost preluat de la populație.

În știință, este obișnuit să se raporteze atât abaterea standard a datelor (ca statistică sumară), cât și eroarea standard a estimării (ca măsură a erorii potențiale în constatări). Prin convenție, numai efectele aflate la mai mult de două erori standard departe de o așteptare nulă sunt considerate „semnificative statistic” , o protecție împotriva concluziilor false care se datorează într-adevăr unei erori de eșantionare aleatorie.

Când este disponibil doar un eșantion de date dintr-o populație, termenul deviație standard a eșantionului sau deviația standard a eșantionului se poate referi fie la cantitatea menționată mai sus aplicată acelor date, fie la o cantitate modificată care este o estimare imparțială a abaterea standard a populației ( abaterea standard a întregii populații).

Exemple de bază

Abaterea standard a populației de note de opt elevi

Să presupunem că întreaga populație de interes este de opt studenți într-o anumită clasă. Pentru un set finit de numere, abaterea standard a populației se găsește luând rădăcina pătrată a mediei abaterilor pătrate ale valorilor scăzute din valoarea lor medie. Notele unei clase de opt elevi (adică o populație statistică ) sunt următoarele opt valori:

Aceste opt puncte de date au media (medie) de 5:

Mai întâi, calculați abaterile fiecărui punct de date față de medie și păstrați rezultatul fiecăruia:

Variația este media acestor valori:

iar deviația standard a populației este egală cu rădăcina pătrată a varianței:

Această formulă este valabilă numai dacă cele opt valori cu care am început formează populația completă. Dacă valorile au fost în schimb un eșantion aleatoriu extras dintr-o populație mare de părinți (de exemplu, au fost 8 studenți aleși aleatoriu și independent dintr-o clasă de 2 milioane), atunci unul se împarte la 7 (care este n - 1) în loc de 8 ( care este n ) în numitorul ultimei formule, iar rezultatul este În acest caz, rezultatul formulei originale s-ar numi deviația standard a eșantionului și se notează cu s în loc de Împărțirea cu n  - 1 mai degrabă decât cu n dă o estimare imparțială a varianței populației părinte mai mari. Aceasta este cunoscută drept corecția lui Bessel . Aproximativ, motivul este că formula pentru varianța eșantionului se bazează pe calcularea diferențelor de observații de la media eșantionului, iar media eșantionului în sine a fost construită pentru a fi cât mai aproape de observații, astfel încât doar împărțirea la n ar subestima variabilitate.

Abaterea standard a înălțimii medii pentru bărbații adulți

Dacă populația de interes este distribuită aproximativ în mod normal, abaterea standard oferă informații cu privire la proporția de observații peste sau sub anumite valori. De exemplu, înălțimea medie pentru bărbații adulți din Statele Unite este de aproximativ 70 inci (177,8 cm), cu o abatere standard de aproximativ 3 inci (7,62 cm). Aceasta înseamnă că majoritatea bărbaților (aproximativ 68%, presupunând o distribuție normală ) au o înălțime de 3 inci (7,62 cm) față de media (67–73 inci (170,18–185,42 cm)) - o abatere standard - și aproape toți bărbații ( aproximativ 95%) au o înălțime de 15,24 cm (6 inci) față de media (162,56-193,04 cm) - două abateri standard. Dacă abaterea standard ar fi zero, atunci toți bărbații ar avea exact 177,8 cm înălțime. Dacă abaterea standard ar fi de 20,8 inci (50,8 cm), atunci bărbații ar avea înălțimi mult mai variabile, cu un interval tipic de aproximativ 50-90 inci (127-228,6 cm). Trei abateri standard reprezintă 99,7% din populația eșantionului studiat, presupunând că distribuția este normală sau în formă de clopot (a se vedea regula 68-95-99.7 , sau regula empirică, pentru mai multe informații).

Definiția valorilor populației

Lăsați μ să fie valoarea așteptată (media) de variabila aleatoare X cu densitate f ( x ):

Abaterea standard σ a lui X este definită ca

care se poate arăta egal

Folosind cuvinte, abaterea standard este rădăcina pătrată a varianței lui X .

Abaterea standard a unei distribuții de probabilitate este aceeași cu cea a unei variabile aleatorii care are această distribuție.

Nu toate variabilele aleatorii au o abatere standard. Dacă distribuția are cozi de grăsime care ies la infinit, abaterea standard ar putea să nu existe, deoarece integrala ar putea să nu convergă. Distribuția normală are cozile care ies la infinit, dar deviația medie și standard există, deoarece cozile se diminuează suficient de repede. Distribuția Pareto cu parametru are o abatere medie, dar nu o deviație standard (vorbind liber, abaterea standard este infinită). Distribuția Cauchy nu are nici o medie, nici o abatere standard.

Variabilă discretă aleatorie

În cazul în care X ia valori aleatorii dintr-un set de date finit x 1 , x 2 ,…, x N , fiecare valoare având aceeași probabilitate, abaterea standard este

sau, folosind notația de însumare ,

Dacă, în loc să aibă probabilități egale, valorile au diferite probabilități, să x 1 au probabilitate p 1 , x 2 au probabilitate p 2 , ..., x N au probabilitate p N . În acest caz, abaterea standard va fi

Variabilă continuă aleatorie

Abaterea standard a unei variabile aleatoare X cu valoare reală continuă cu funcția densității probabilității p ( x ) este

și unde integralele sunt integralele definite luate pentru x variind peste setul de valori posibile ale variabilei aleatoare  X .

În cazul unei familii parametrice de distribuții , abaterea standard poate fi exprimată în termeni de parametri. De exemplu, în cazul distribuției log-normale cu parametrii μ și σ 2 , abaterea standard este

Estimare

Se poate găsi abaterea standard a unei întregi populații în cazurile (cum ar fi testarea standardizată ) în care fiecare membru al unei populații este eșantionat. În cazurile în care acest lucru nu se poate face, abaterea standard σ este estimată prin examinarea unui eșantion aleatoriu preluat din populație și calcularea unei statistici a eșantionului, care este utilizată ca o estimare a abaterii standard a populației. O astfel de statistică se numește estimator , iar estimatorul (sau valoarea estimatorului, și anume estimarea) se numește deviație standard eșantion și este notat cu s (posibil cu modificatori).

Spre deosebire de cazul estimării mediei populației, pentru care media eșantionului este un estimator simplu cu multe proprietăți dorite ( imparțială , eficientă , cu probabilitate maximă), nu există un singur estimator pentru deviația standard cu toate aceste proprietăți și estimarea imparțială a deviația standard este o problemă foarte implicată tehnic. Cel mai adesea, abaterea standard este estimată folosind abaterea standard corectată a eșantionului (folosind N  - 1), definită mai jos, și aceasta este adesea denumită „abaterea standard a eșantionului”, fără calificative. Cu toate acestea, alți estimatori sunt mai buni în alte privințe: estimatorul necorectat (folosind N ) produce o eroare pătrată medie mai mică, în timp ce utilizarea N  - 1,5 (pentru distribuția normală) elimină aproape complet prejudecata.

Abaterea standard a eșantionului necorectat

Formula pentru deviația standard a populației (a unei populații finite) poate fi aplicată eșantionului, folosind dimensiunea eșantionului ca dimensiune a populației (deși dimensiunea reală a populației din care este extras eșantionul poate fi mult mai mare). Acest estimator, notat cu s N , este cunoscut ca deviația standard a eșantionului necorectat sau, uneori, deviația standard a eșantionului (considerată ca fiind întreaga populație) și este definit după cum urmează:

unde sunt valorile observate ale elementelor eșantionului și este valoarea medie a acestor observații, în timp ce numitorul  N reprezintă mărimea eșantionului: aceasta este rădăcina pătrată a varianței eșantionului, care este media abaterilor pătrate de aproximativ media eșantionului.

Acesta este un estimator consistent (converge în probabilitate la valoarea populației pe măsură ce numărul eșantioanelor merge la infinit) și este estimarea maximă a probabilității atunci când populația este distribuită în mod normal. Cu toate acestea, acesta este un estimator părtinitor , deoarece estimările sunt în general prea mici. Biasul scade pe măsură ce mărimea eșantionului crește, scăzând ca 1 / N și, prin urmare, este cel mai semnificativ pentru dimensiunile eșantioanelor mici sau moderate; deoarece prejudecata este sub 1%. Astfel, pentru mărimi foarte mari ale eșantionului, deviația standard a eșantionului necorectată este în general acceptabilă. Acest estimator are, de asemenea, o eroare pătrată medie uniform mai mică decât deviația standard a eșantionului corectat.

Abaterea standard a eșantionului corectată

Dacă varianța eșantionului părtinitoare (al doilea moment central al eșantionului, care este o estimare părtinitoare descendentă a varianței populației) este utilizată pentru a calcula o estimare a deviației standard a populației, rezultatul este

Aici luarea rădăcinii pătrate introduce o prejudecată în jos, prin inegalitatea lui Jensen , datorită faptului că rădăcina pătrată este o funcție concavă . Biasul în varianță este ușor corectat, dar biasul din rădăcina pătrată este mai dificil de corectat și depinde de distribuția în cauză.

Un estimator imparțial pentru varianță este dat prin aplicarea corecției Bessel , folosind N  - 1 în loc de N pentru a obține varianța eșantionului imparțială, notată s 2 :

Acest estimator este imparțial dacă varianța există și valorile eșantionului sunt trase independent cu înlocuirea. N  - 1 corespunde numărului de grade de libertate în vectorul abaterilor de la medie,

Luarea rădăcinilor pătrate reintroduce părtinire (deoarece rădăcina pătrată este o funcție neliniară, care nu face naveta cu așteptarea), producând abaterea standard a eșantionului corectat, notat cu s:

Așa cum s-a explicat mai sus, în timp ce s 2 este un estimator imparțial pentru varianța populației, s este încă un estimator părtinitor pentru deviația standard a populației, deși în mod semnificativ mai puțin părtinitor decât deviația standard a eșantionului necorectat. Acest estimator este utilizat în mod obișnuit și, în general, este cunoscut pur și simplu ca „deviație standard eșantion”. Biasul poate fi încă mare pentru eșantioane mici ( N mai puțin de 10). Pe măsură ce mărimea eșantionului crește, cantitatea de prejudecată scade. Obținem mai multe informații și diferența dintre și devine mai mică.

Abaterea standard a eșantionului standard

Pentru estimarea imparțială a deviației standard , nu există nicio formulă care să funcționeze în toate distribuțiile, spre deosebire de medie și varianță. În schimb, s este utilizat ca bază și este scalat de un factor de corecție pentru a produce o estimare imparțială. Pentru distribuția normală, un estimator imparțial este dat de s / c 4 , unde factorul de corecție (care depinde de N ) este dat în funcție de funcția Gamma și este egal cu:

Acest lucru apare deoarece distribuția eșantionării abaterii standard a eșantionului urmează o distribuție chi (la scară) , iar factorul de corecție este media distribuției chi.

O aproximare poate fi dată prin înlocuirea lui N  - 1 cu N  - 1,5, rezultând:

Eroarea acestei aproximări se descompune cvadrat (ca 1 / N 2 ) și este potrivită pentru toate, cu excepția celor mai mici eșantioane sau pentru cea mai mare precizie: pentru N = 3 polarizarea este egală cu 1,3%, iar pentru N = 9 polarizarea este deja mai puțin de 0,1%.

O aproximare mai precisă este înlocuirea de mai sus cu .

Pentru alte distribuții, formula corectă depinde de distribuție, dar o regulă generală este de a utiliza rafinamentul suplimentar al aproximării:

unde γ 2 denotă excesul de kurtoză al populației . Excesul de kurtoză poate fi cunoscut în prealabil pentru anumite distribuții sau estimat din date.

Interval de încredere al unei abateri standard eșantionate

Abaterea standard pe care o obținem prin eșantionarea unei distribuții nu este în sine absolut precisă, atât din motive matematice (explicate aici prin intervalul de încredere), cât și din motive practice de măsurare (eroare de măsurare). Efectul matematic poate fi descris prin intervalul de încredere sau CI.

Pentru a arăta cum un eșantion mai mare va reduce intervalul de încredere, luați în considerare următoarele exemple: O populație mică de N = 2 are doar 1 grad de libertate pentru estimarea abaterii standard. Rezultatul este că un CI de 95% din SD rulează de la 0,45 × SD la 31,9 × SD; factorii de aici sunt următorii :

unde este p -a cuantilă a distribuției chi-pătrat cu k grade de libertate și este nivelul de încredere. Acest lucru este echivalent cu următorul:

Cu k = 1 și . Reciprocele rădăcinilor pătrate ale acestor două numere ne dau factorii 0,45 și 31,9 dați mai sus.

O populație mai mare de N = 10 are 9 grade de libertate pentru estimarea abaterii standard. Aceleași calcule ca mai sus ne oferă în acest caz un CI de 95% care rulează de la 0,69 × SD la 1,83 × SD. Deci, chiar și cu o populație de eșantion de 10, SD real poate fi în continuare cu aproape un factor 2 mai mare decât SD eșantionat. Pentru un eșantion de populație N = 100, acesta scade la 0,88 × SD până la 1,16 × SD. Pentru a fi mai siguri că SD eșantionat este aproape de SD real, trebuie să prelevăm un număr mare de puncte.

Aceleași formule pot fi folosite pentru a obține intervale de încredere asupra varianței reziduurilor de la cel puțin pătrate care se încadrează în teoria normală standard, unde k este acum numărul de grade de libertate pentru eroare.

Limită la abaterea standard

Pentru un set de N > 4 date care acoperă o gamă de valori R , o limită superioară a deviației standard s este dată de s = 0,6R . O estimare a deviației standard pentru datele N > 100 luate ca fiind aproximativ normale rezultă din euristică că 95% din aria de sub curba normală se află aproximativ două abateri standard către fiecare parte a mediei, astfel încât, cu probabilitate de 95%, gama totală de valori R reprezintă patru abateri standard, astfel încât s ≈ R / 4 . Această așa-numită regulă de interval este utilă în estimarea dimensiunii eșantionului , întrucât intervalul de valori posibile este mai ușor de estimat decât deviația standard. Alți divizori K (N) din gama astfel încât s ≈ R / K (N) sunt disponibili pentru alte valori ale lui N și pentru distribuții non-normale.

Identități și proprietăți matematice

Abaterea standard este invariantă în cazul schimbărilor de locație și se scalează direct cu scala variabilei aleatorii. Astfel, pentru o constantă c și variabile aleatoare X și Y :

Abaterea standard a sumei a două variabile aleatorii poate fi legată de abaterile standard individuale și de covarianța dintre ele:

unde și reprezintă varianța și , respectiv, covarianța .

Calculul sumei deviațiilor pătrate poate fi legat de momentele calculate direct din date. În următoarea formulă, litera E este interpretată ca valoare așteptată, adică medie.

Abaterea standard eșantion poate fi calculată ca:

Pentru o populație finită cu probabilități egale în toate punctele, avem

ceea ce înseamnă că abaterea standard este egală cu rădăcina pătrată a diferenței dintre media pătratelor valorilor și pătratul valorii medii.

A se vedea formula de calcul pentru varianța pentru dovadă și pentru un rezultat analog pentru deviația standard a eșantionului.

Interpretare și aplicare

Exemplu de probe din două populații cu aceeași medie, dar abateri standard diferite. Populația roșie are media 100 și SD 10; populația albastră are media 100 și SD 50.

O deviație standard mare indică faptul că punctele de date se pot răspândi departe de medie și o mică abatere standard indică faptul că acestea sunt grupate strâns în jurul mediei.

De exemplu, fiecare dintre cele trei populații {0, 0, 14, 14}, {0, 6, 8, 14} și {6, 6, 8, 8} are o medie de 7. Abaterile lor standard sunt 7, 5 și, respectiv, 1. A treia populație are o abatere standard mult mai mică decât celelalte două, deoarece valorile sale sunt aproape de 7. Aceste abateri standard au aceleași unități ca punctele de date în sine. Dacă, de exemplu, setul de date {0, 6, 8, 14} reprezintă vârstele unei populații de patru frați în ani, abaterea standard este de 5 ani. Ca un alt exemplu, populația {1000, 1006, 1008, 1014} poate reprezenta distanțele parcurse de patru sportivi, măsurate în metri. Are o medie de 1007 metri și o abatere standard de 5 metri.

Abaterea standard poate servi ca o măsură a incertitudinii. În știința fizică, de exemplu, abaterea standard raportată a unui grup de măsurători repetate oferă precizia acestor măsurători. Atunci când se decide dacă măsurătorile sunt de acord cu o predicție teoretică, deviația standard a acestor măsurători este de o importanță crucială: dacă media măsurătorilor este prea departe de predicție (cu distanța măsurată în deviații standard), atunci teoria testată probabil trebuie revizuită. Acest lucru are sens, deoarece acestea nu se încadrează în intervalul de valori care ar putea fi în mod rezonabil de așteptat să apară, dacă predicția ar fi corectă și abaterea standard cuantificată în mod corespunzător. Vezi intervalul de predicție .

În timp ce abaterea standard măsoară cât de departe tind să fie valorile tipice față de medie, sunt disponibile și alte măsuri. Un exemplu este deviația absolută medie , care ar putea fi considerată o măsură mai directă a distanței medii, comparativ cu distanța pătrată medie a rădăcinii inerentă abaterii standard.

Exemple de aplicații

Valoarea practică a înțelegerii abaterii standard a unui set de valori constă în aprecierea cantității de variație de la medie (medie).

Testarea experimentală, industrială și ipoteză

Abaterea standard este adesea utilizată pentru a compara datele din lumea reală cu un model pentru a testa modelul. De exemplu, în aplicațiile industriale, greutatea produselor care ies dintr-o linie de producție poate fi necesară pentru a respecta o valoare legală impusă. Prin cântărirea unei fracțiuni din produse se poate găsi o greutate medie, care va fi întotdeauna ușor diferită de media pe termen lung. Utilizând abateri standard, se poate calcula o valoare minimă și maximă pentru ca greutatea medie să se situeze într-un procent foarte mare din timp (99,9% sau mai mult). Dacă se încadrează în afara domeniului, procesul de producție poate fi necesar să fie corectat. Testele statistice precum acestea sunt deosebit de importante atunci când testarea este relativ costisitoare. De exemplu, dacă produsul trebuie deschis, drenat și cântărit sau dacă produsul a fost epuizat în alt mod de testare.

În știința experimentală, se folosește un model teoretic al realității. Fizica particulelor folosește în mod convențional un standard de „ 5 sigma ” pentru declararea unei descoperiri. Un nivel de cinci sigme se traduce printr-o singură șansă în 3,5 milioane ca o fluctuație aleatorie să dea rezultatul. Acest nivel de certitudine a fost necesar pentru a afirma că o particulă în concordanță cu bosonul Higgs a fost descoperită în două experimente independente la CERN , conducând, de asemenea, la declararea primei observații a undelor gravitaționale și la confirmarea încălzirii globale .

Vreme

Ca un exemplu simplu, luați în considerare temperaturile maxime zilnice medii pentru două orașe, unul în interior și unul pe coastă. Este util să înțelegem că intervalul de temperaturi maxime zilnice pentru orașele din apropierea coastei este mai mic decât pentru orașele din interior. Astfel, în timp ce aceste două orașe pot avea fiecare aceeași temperatură maximă medie, abaterea standard a temperaturii maxime zilnice pentru orașul de coastă va fi mai mică decât cea a orașului interior, întrucât, într-o anumită zi, temperatura maximă reală este mai probabilă să fie mai departe de temperatura maximă medie pentru orașul interior decât pentru cea de coastă.

Finanţa

În finanțe, abaterea standard este adesea utilizată ca măsură a riscului asociat cu fluctuațiile de preț ale unui activ dat (acțiuni, obligațiuni, proprietăți etc.) sau riscul unui portofoliu de active (fonduri mutuale gestionate activ, mutuale indexate fonduri sau ETF-uri). Riscul este un factor important în determinarea modului de gestionare eficientă a unui portofoliu de investiții, deoarece determină variația randamentelor activului și / sau portofoliului și oferă investitorilor o bază matematică pentru deciziile de investiții (cunoscută sub numele de optimizare a varianței medii ). Conceptul fundamental al riscului este că, pe măsură ce crește, rentabilitatea așteptată a investiției ar trebui să crească și ea, o creștere cunoscută sub numele de prima de risc. Cu alte cuvinte, investitorii ar trebui să se aștepte la o rentabilitate mai mare a investiției atunci când acea investiție prezintă un nivel mai ridicat de risc sau incertitudine. La evaluarea investițiilor, investitorii ar trebui să estimeze atât randamentul așteptat, cât și incertitudinea veniturilor viitoare. Abaterea standard oferă o estimare cuantificată a incertitudinii randamentelor viitoare.

De exemplu, să presupunem că un investitor a trebuit să aleagă între două acțiuni. Stocul A în ultimii 20 de ani a avut o rentabilitate medie de 10 procente, cu o abatere standard de 20 puncte procentuale (pp), iar stocul B, în aceeași perioadă, a avut randamente medii de 12 procente, dar o abatere standard mai mare de 30 pp. Pe baza riscului și randamentului, un investitor poate decide că stocul A este alegerea mai sigură, deoarece cele două puncte procentuale suplimentare ale randamentului stocului B nu merită deviația standard suplimentară de 10 pp (risc mai mare sau incertitudine a randamentului așteptat). Este posibil ca stocul B să nu fie mai mic decât investiția inițială (dar, de asemenea, să depășească investiția inițială) mai des decât stocul A în aceleași circumstanțe și se estimează că va întoarce în medie cu doar două procente mai mult. În acest exemplu, se așteaptă ca stocul A să câștige aproximativ 10%, plus sau minus 20 pp (un interval cuprins între 30% și -10%), aproximativ două treimi din anul viitor. Atunci când ia în considerare rentabilități sau rezultate posibile mai extreme în viitor, un investitor ar trebui să se aștepte la rezultate de până la 10 la sută plus sau minus 60 pp, sau un interval de la 70 la sută la -50 la sută, care include rezultatele pentru trei abateri standard de la randamentul mediu (aproximativ 99,7 la sută din rentabilitățile probabile).

Calculul mediei (sau mediei aritmetice) a randamentului unui titlu pe o anumită perioadă va genera rentabilitatea preconizată a activului. Pentru fiecare perioadă, scăderea randamentului așteptat din randamentul real rezultă diferența de medie. Cadrarea diferenței în fiecare perioadă și luarea mediei oferă varianța generală a randamentului activului. Cu cât este mai mare varianța, cu atât riscul este mai mare. Găsirea rădăcinii pătrate a acestei varianțe va da abaterea standard a instrumentului de investiții în cauză.

Abaterea standard a populației este utilizată pentru a seta lățimea benzilor Bollinger , un instrument de analiză tehnică adoptat pe scară largă . De exemplu, banda superioară Bollinger este dată ca Valoarea cea mai frecvent utilizată pentru n este 2; există o șansă de aproximativ cinci procente de a ieși afară, presupunând o distribuție normală a rentabilităților.

Se știe că seriile temporale financiare sunt serii non-staționare, în timp ce calculele statistice de mai sus, cum ar fi abaterea standard, se aplică numai seriilor staționare. Pentru a aplica instrumentele statistice de mai sus la seriile ne staționare, seria trebuie mai întâi transformată într-o serie staționară, permițând utilizarea instrumentelor statistice care au acum o bază validă de la care să lucreze.

Interpretarea geometrică

Pentru a obține câteva perspective geometrice și clarificări, vom începe cu o populație de trei valori, x 1 , x 2 , x 3 . Aceasta definește un punct P = ( x 1 , x 2 , x 3 ) în R 3 . Se consideră dreapta L = {( r , r , r ): rR }. Aceasta este „diagonala principală” care trece prin origine. Dacă trei valori noastre date au fost toate egale, atunci deviația standard ar fi zero , iar P ar minți pe L . Deci, nu este rezonabil să presupunem că abaterea standard este legată de distanța de P la L . Acesta este într-adevăr cazul. Pentru a vă deplasa ortogonal de la L la punctul P , începeți de la punctul:

ale căror coordonate reprezintă media valorilor cu care am început.

Derivarea de

este activat, prin urmare, pentru unii .

Linia trebuie să fie ortogonală cu vectorul de la . Prin urmare:

O mică algebră arată că distanța dintre P și M (care este aceeași cu distanța ortogonală dintre P și linia L ) este egală cu abaterea standard a vectorului ( x 1 , x 2 , x 3 ), înmulțită cu rădăcină pătrată a numărului de dimensiuni ale vectorului (3 în acest caz).

Inegalitatea lui Chebyshev

O observație este rareori la mai mult de câteva abateri standard de la medie. Inegalitatea lui Chebyshev asigură că, pentru toate distribuțiile pentru care este definită abaterea standard, cantitatea de date dintr-un număr de abateri standard ale mediei este cel puțin la fel de mare ca în tabelul următor.

Distanța de la medie Populația minimă
50%
2 σ 75%
3 σ 89%
4 σ 94%
5 σ 96%
6 σ 97%

Reguli pentru datele distribuite în mod normal

Albastrul închis este o abatere standard pe ambele părți ale mediei. Pentru distribuția normală, aceasta reprezintă 68,27% din set; în timp ce două abateri standard de la medie (albastru mediu și închis) reprezintă 95,45 la sută; trei abateri standard (deschis, mediu și albastru închis) reprezintă 99,73%; iar patru abateri standard reprezintă 99,994%. Cele două puncte ale curbei care sunt o abatere standard de la medie sunt, de asemenea, punctele de inflexiune .

Limita centrală teoremă afirmă că distribuția medie a multor independente, identic repartizate variabile aleatoare tinde spre celebra distribuția normală în formă de clopot , cu o funcție de densitate de probabilitate de

unde μ este valoarea așteptată a variabilelor aleatoare, σ este egală cu abaterea standard a distribuției lor împărțită la n 1/2 , iar n este numărul de variabile aleatoare. Prin urmare, abaterea standard este pur și simplu o variabilă de scalare care ajustează cât de largă va fi curba, deși apare și în constanta de normalizare .

Dacă o distribuție a datelor este aproximativ normală, atunci proporția valorilor datelor în cadrul z abateri standard ale mediei este definită de:

unde este funcția de eroare . Proporția care este mai mică sau egală cu un număr, x , este dată de funcția de distribuție cumulativă :

.

Dacă o distribuție a datelor este aproximativ normală, atunci aproximativ 68 la sută din valorile datelor se încadrează într-o abatere standard a mediei (matematic, μ  ±  σ , unde μ este media aritmetică), aproximativ 95 la sută se încadrează în două abateri standard ( μ  ± 2 σ ), iar aproximativ 99,7% se află în trei deviații standard ( μ  ± 3 σ ). Aceasta este cunoscută sub numele de regula 68-95-99.7 sau regula empirică .

Pentru diferite valori ale lui z , procentul de valori așteptat să se situeze în și în afara intervalului simetric, CI = (- ), este după cum urmează:

Procent din ( z )
z (Procentaj în interior)


Interval de încredere
Proporția în interior Proporția fără
Procent Procent Fracțiune
0,318 639 σ 25% 75% 3/4
0,674 490 σ 50 % 50 % 1 / 2
0,977 925 σ 66,6667% 33,3333% 1/3
0,994 458 σ 68% 32% 1 / 3,125
1 σ 68.268 9492 % 31,731 0508 % 1 / 3.151 4872
1.281 552 σ 80% 20% 1/5
1.644 854 σ 90% 10% 1/10
1,959 964 σ 95% 5% 1/20
2 σ 95,449 9736 % 4.550 0264 % 1 / 21,977 895
2,575 829 σ 99% 1% 1/100
3 σ 99,730 0204 % 0,269 9796 % 1 / 370.398
3,290 527 σ 99,9% 0,1% 1 / 1000
3,890 592 σ 99,99% 0,01% 1 / 10 000
4 σ 99,993 666 % 0,006 334 % 1 / 15 787
4.417 173 σ 99,999% 0,001% 1 / 100 000
4,5 σ 99,999 320 465 3751% 0,000 679 534 6249% 1 / 147 159 .5358
6,8 / 1 000 000
4.891 638 σ 99,9999 % 0,0001 % 1 / 1 000 000
5 σ 99,999 942 6697 % 0,000 057 3303 % 1 / 1 744 278
5,326 724 σ 99,999 99 % 0,000 01 % 1 / 10 000 000
5,730 729 σ 99,999 999 % 0,000 001 % 1 / 100 000 000
6 σ 99,999 999 8027 % 0,000 000 1973 % 1 / 506 797 346
6,109 410 σ 99,999 9999 % 0,000 0001 % 1 / 1 000 000 000
6,466 951 σ 99,999 999 99 % 0,000 000 01 % 1 / 10 000 000 000
6,806 502 σ 99,999 999 999 % 0,000 000 001 % 1 / 100 000 000 000
7 σ 99,999 999 999 7440% 0,000 000 000 256 % 1 / 390 682 215 445

Relația dintre deviația standard și medie

Media și abaterea standard a unui set de date sunt statistici descriptive raportate de obicei împreună. Într-un anumit sens, abaterea standard este o măsură „naturală” a dispersiei statistice dacă centrul datelor este măsurat în jurul valorii medii. Acest lucru se datorează faptului că abaterea standard de la medie este mai mică decât din orice alt punct. Afirmația precisă este următoarea: să presupunem că x 1 , ..., x n sunt numere reale și definim funcția:

Folosind calculul sau completând pătratul , este posibil să se arate că σ ( r ) are un minim unic la medie:

Variabilitatea poate fi măsurată și prin coeficientul de variație , care este raportul dintre deviația standard și medie. Este un număr adimensional .

Abaterea standard a mediei

Adesea, dorim câteva informații despre precizia mediei pe care am obținut-o. Putem obține acest lucru determinând abaterea standard a mediei eșantionate. Presupunând independența statistică a valorilor din eșantion, abaterea standard a mediei este legată de abaterea standard a distribuției prin:

unde N este numărul de observații din eșantionul utilizat pentru a estima media. Acest lucru poate fi ușor dovedit cu (a se vedea proprietățile de bază ale varianței ):

(Se presupune independența statistică.)

de aici

Rezultând:

Pentru a estima abaterea standard a mediei este necesar să cunoașteți în prealabil abaterea standard a întregii populații . Cu toate acestea, în majoritatea aplicațiilor, acest parametru este necunoscut. De exemplu, dacă într-un laborator se efectuează o serie de 10 măsurători ale unei cantități necunoscute anterior, este posibil să se calculeze media eșantionului rezultat și deviația standard a eșantionului, dar este imposibil să se calculeze abaterea standard a mediei.

Metode rapide de calcul

Următoarele două formule pot reprezenta o abatere standard care se execută (actualizată în mod repetat). Un set de două sume de putere s 1 și s 2 sunt calculate pe un set de N valori de x , notate ca x 1 , ..., x N :

Având în vedere rezultatele acestor sume de rulare, valorile N , s 1 , s 2 pot fi folosite în orice moment pentru a calcula valoarea curentă a abaterii standard de rulare:

Unde N, așa cum s-a menționat mai sus, este dimensiunea setului de valori (sau poate fi considerat și ca s 0 ).

În mod similar pentru deviația standard a eșantionului,

Într - o implementare calculator, ca și cele două s j sume devin mari, trebuie să ia în considerare eroarea de rotunjire , depășire aritmetică , și underflow aritmetică . Metoda de mai jos calculează metoda sumelor care rulează cu erori de rotunjire reduse. Acesta este un algoritm cu o singură trecere pentru calcularea varianței a n eșantioane, fără a fi nevoie să stocați datele anterioare în timpul calculului. Aplicarea acestei metode unei serii temporale va avea ca rezultat valori succesive ale deviației standard corespunzătoare a n puncte de date pe măsură ce n crește cu fiecare eșantion nou, mai degrabă decât un calcul al ferestrei glisante cu lățime constantă.

Pentru k = 1, ..., n :

unde A este valoarea medie.

Notă: din moment ce sau

Eșantion de varianță:

Variația populației:

Calcul ponderat

Când valorile x i sunt ponderate cu greutăți inegale w i , sumele de putere s 0 , s 1 , s 2 sunt calculate fiecare ca:

Și ecuațiile deviației standard rămân neschimbate. s 0 este acum suma greutăților și nu numărul de eșantioane N .

Se poate aplica și metoda incrementală cu erori de rotunjire reduse, cu o oarecare complexitate suplimentară.

Trebuie calculată o sumă curentă de greutăți pentru fiecare k de la 1 la n :

și locurile unde 1 / n este utilizat mai sus trebuie înlocuite cu w i / W n :

În divizia finală,

și

sau

unde n este numărul total de elemente, iar n ' este numărul de elemente cu greutăți diferite de zero.

Formulele de mai sus devin egale cu formulele mai simple date mai sus dacă greutățile sunt luate ca fiind egale cu una.

Istorie

Termenul de deviere standard a fost folosit pentru prima dată în scris de Karl Pearson în 1894, în urma utilizării sale în prelegeri. Acesta a fost un înlocuitor pentru denumirile alternative anterioare pentru aceeași idee: de exemplu, Gauss a folosit eroarea medie .

Dimensiuni mai mari

În două dimensiuni, deviația standard poate fi ilustrată cu elipsa deviației standard, vezi Distribuție normală multivariată § Interpretare geometrică .

Elipsa deviației standard (verde) a unei distribuții normale bidimensionale.

Vezi si

Referințe

linkuri externe