Eroare standard - Standard error

Pentru o valoare eșantionată cu o eroare imparțială distribuită în mod normal , cele de mai sus descriu proporția eșantioanelor care ar scădea între 0, 1, 2 și 3 abateri standard peste și sub valoarea reală.

Eroarea standard ( SE ) a unei statistică ( de obicei , o estimare a unui parametru ) este deviația standard a acesteia de distribuție de eșantionare sau o estimare a abaterii standard care. Dacă statistica este media eșantionului, se numește eroarea standard a mediei ( SEM ).

Distribuția eșantionării unei medii este generată de eșantionarea repetată din aceeași populație și înregistrarea eșantionului mediu obținut. Aceasta formează o distribuție a diferitelor mijloace, iar această distribuție are propria medie și varianță . Matematic, varianța distribuției de eșantionare obținută este egală cu varianța populației împărțită la dimensiunea eșantionului. Acest lucru se datorează faptului că, pe măsură ce mărimea eșantionului crește, eșantionul înseamnă gruparea mai strânsă în jurul populației.

Prin urmare, relația dintre eroarea standard a mediei și abaterea standard este de așa natură încât, pentru o dimensiune eșantion dată, eroarea standard a mediei este egală cu abaterea standard împărțită la rădăcina pătrată a dimensiunii eșantionului. Cu alte cuvinte, eroarea standard a mediei este o măsură a dispersiei mediilor eșantionului în jurul mediei populației.

În analiza de regresie , termenul „eroare standard” se referă fie la rădăcina pătrată a statisticii chi-pătrate reduse , fie la eroarea standard pentru un anumit coeficient de regresie (așa cum este utilizat în, să zicem, intervale de încredere ).

Eroare standard a mediei

Valoare exacta

Dacă un eșantion statistic independent de observații este preluat dintr-o populație statistică cu o abatere standard de , atunci valoarea medie calculată din eșantion va avea o eroare standard asociată cu media dată de: ${\ displaystyle n}$ ${\ displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}}$ ${\ displaystyle \ sigma}$ ${\ displaystyle {\ bar {x}}}$ ${\ displaystyle {\ sigma} _ {\ bar {x}}}$

{\ displaystyle {\ sigma} _ {\ bar {x}} \ = {\ frac {\ sigma} {\ sqrt {n}}}}

.

Practic, acest lucru ne spune că, atunci când încercăm să estimăm valoarea unei populații, datorită factorului , reducerea erorii la estimare cu un factor de doi necesită obținerea de patru ori mai multe observații în eșantion; reducerea acestuia cu un factor de zece necesită de o sută de ori mai multe observații. ${\ displaystyle 1 / {\ sqrt {n}}}$

Estima

Abaterea standard a populației care este eșantionată este rareori cunoscută. Prin urmare, eroarea standard a mediei este de obicei estimată prin înlocuirea cu deviația standard a eșantionului în schimb: ${\ displaystyle \ sigma}$ ${\ displaystyle \ sigma}$ ${\ displaystyle \ sigma _ {x}}$

{\ displaystyle {\ sigma} _ {\ bar {x}} \ \ approx {\ frac {\ sigma _ {x}} {\ sqrt {n}}}}

.

Deoarece acesta este doar un estimator pentru adevărata „eroare standard”, este obișnuit să vedeți alte notații aici, cum ar fi:

{\ displaystyle {\ widehat {\ sigma}} _ {\ bar {x}} = {\ frac {\ sigma _ {x}} {\ sqrt {n}}}}

sau alternativ .

{\ displaystyle {s} _ {\ bar {x}} \ = {\ frac {s} {\ sqrt {n}}}}

O sursă comună de confuzie se produce atunci când nu a distinge clar între deviația standard a populației ( ), abaterea standard a eșantionului ( ), abaterea standard a mediei în sine ( care este eroarea standard), iar estimatorul de deviația standard a mediei ( , care este cantitatea calculată cel mai adesea și este adesea denumită în mod colocvial eroarea standard ). ${\ displaystyle \ sigma}$ ${\ displaystyle \ sigma _ {x}}$ ${\ displaystyle \ sigma _ {\ bar {x}}}$ ${\ displaystyle {\ widehat {\ sigma}} _ {\ bar {x}}}$

Precizia estimatorului

Atunci când dimensiunea eșantionului este mică, utilizarea abaterii standard a eșantionului în loc de abaterea standard adevărată a populației va tinde să subestimeze sistematic abaterea standard a populației și, prin urmare, și eroarea standard. Cu n = 2, subestimarea este de aproximativ 25%, dar pentru n = 6, subestimarea este de numai 5%. Gurland și Tripathi (1971) oferă o corecție și o ecuație pentru acest efect. Sokal și Rohlf (1981) oferă o ecuație a factorului de corecție pentru eșantioane mici de n <20. Vezi estimarea imparțială a deviației standard pentru discuții ulterioare.

Derivare

Eroarea standard a mediei poate fi derivată din varianța unei sume de variabile aleatoare independente, având în vedere definiția varianței și unele proprietăți simple ale acesteia. Dacă sunt observații independente dintr-o populație cu deviație medie și standard , atunci putem defini totalul ${\ displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}}$ ${\ displaystyle n}$ ${\ displaystyle {\ bar {x}}}$ ${\ displaystyle \ sigma}$

{\ displaystyle T = (x_ {1} + x_ {2} + \ cdots + x_ {n})}

care datorită formulei Bienaymé va avea varianță

{\ displaystyle \ operatorname {Var} (T) = {\ big (} \ operatorname {Var} (x_ {1}) + \ operatorname {Var} (x_ {2}) + \ cdots + \ operatorname {Var} ( x_ {n}) {\ big)} = n \ sigma ^ {2}.}

Media acestor măsurători este dată pur și simplu de ${\ displaystyle {\ bar {x}}}$

{\ displaystyle {\ bar {x}} = T / n}

.

Varianța mediei este atunci

{\ displaystyle \ operatorname {Var} ({\ bar {x}}) = \ operatorname {Var} \ left ({\ frac {T} {n}} \ right) = {\ frac {1} {n ^ { 2}}} \ operatorname {Var} (T) = {\ frac {1} {n ^ {2}}} n \ sigma ^ {2} = {\ frac {\ sigma ^ {2}} {n}} .}

Eroarea standard este, prin definiție, a cărei abatere standard este pur și simplu rădăcina pătrată a varianței: ${\ displaystyle {\ bar {x}}}$

{\ displaystyle \ sigma _ {\ bar {x}} = {\ sqrt {\ frac {\ sigma ^ {2}} {n}}} = {\ frac {\ sigma} {\ sqrt {n}}}}

.

Pentru variabilele aleatorii corelate, varianța eșantionului trebuie calculată în conformitate cu teorema limitei centrale a lanțului Markov .

Variabile aleatorii independente și distribuite identic, cu mărimea probei aleatorii

Există cazuri când se prelevează un eșantion fără să știe, în prealabil, câte observații vor fi acceptabile în funcție de un anumit criteriu. În astfel de cazuri, dimensiunea eșantionului este o variabilă aleatorie a cărei variație se adaugă variației astfel încât, ${\ displaystyle N}$ ${\ displaystyle X}$

{\ displaystyle \ operatorname {Var} (T) = \ operatorname {E} (N) \ operatorname {Var} (X) + \ operatorname {Var} (N) {\ big (} \ operatorname {E} (X) {\ big)} ^ {2}}

Dacă are o distribuție Poisson , atunci cu estimator . Prin urmare, estimatorul lui devine , conducând următoarea formulă pentru eroarea standard: ${\ displaystyle N}$ ${\ displaystyle \ operatorname {E} (N) = \ operatorname {Var} (N)}$ ${\ displaystyle N = n}$ ${\ displaystyle \ operatorname {Var} (T)}$ ${\ displaystyle nS_ {X} ^ {2} + n {\ bar {X}} ^ {2}}$

{\ displaystyle \ operatorname {Standard ~ Error} ({\ bar {X}}) = {\ sqrt {\ frac {S_ {X} ^ {2} + {\ bar {X}} ^ {2}} {n }}}}

(deoarece deviația standard este rădăcina pătrată a varianței)

Aproximarea studentului când valoarea σ este necunoscută

În multe aplicații practice, adevărata valoare a lui σ este necunoscută. Ca rezultat, trebuie să folosim o distribuție care să țină seama de răspândirea posibilelor σ . Când se știe că adevărata distribuție subiacentă este Gaussiană, deși cu σ necunoscută, atunci distribuția estimată rezultată urmează distribuția t Student. Eroarea standard este abaterea standard a distribuției t Student. Distribuțiile T sunt ușor diferite de Gauss și variază în funcție de mărimea eșantionului. Eșantioanele mici sunt oarecum mai susceptibile de a subestima deviația standard a populației și au o medie care diferă de media reală a populației, iar distribuția t Student reprezintă probabilitatea acestor evenimente cu cozi oarecum mai grele comparativ cu un Gaussian. Pentru a estima eroarea standard a unei distribuții t Student este suficient să se utilizeze deviația standard eșantion „s” în loc de σ și am putea folosi această valoare pentru a calcula intervalele de încredere.

Notă: Distribuția de probabilitate a Studentului este apropiată de distribuția Gaussiană atunci când dimensiunea eșantionului este peste 100. Pentru astfel de eșantioane se poate utiliza ultima distribuție, care este mult mai simplă.

Ipoteze și utilizare

Un exemplu al modului de utilizare este acela de a face media intervalelor de încredere ale populației necunoscute. Dacă distribuția eșantionării este distribuită în mod normal , media eșantionului, eroarea standard și cuantilele distribuției normale pot fi utilizate pentru a calcula intervalele de încredere pentru media reală a populației. Următoarele expresii pot fi folosite pentru a calcula limitele superioare și inferioare de încredere de 95%, unde este egal cu media eșantionului, este egal cu eroarea standard pentru media eșantionului și 1,96 este valoarea aproximativă a punctului percentil 97,5 al normalului distribuție : ${\ displaystyle \ operatorname {SE}}$ ${\ displaystyle {\ bar {x}}}$ ${\ displaystyle \ operatorname {SE}}$

Limita superioară de 95% și

{\ displaystyle = {\ bar {x}} + (\ operatorname {SE} \ times 1.96),}

Limita inferioară de 95%

{\ displaystyle = {\ bar {x}} - (\ operatorname {SE} \ times 1.96).}

În special, eroarea standard a unei statistici a eșantionului (cum ar fi media eșantionului ) este deviația standard reală sau estimată a eșantionului mediu în procesul prin care a fost generată. Cu alte cuvinte, este abaterea standard reală sau estimată a distribuției de eșantionare a statisticii eșantionului. Notația pentru eroarea standard poate fi oricare dintre SE, SEM (pentru eroarea standard de măsurare sau medii ) sau S _E .

Erorile standard oferă măsuri simple de incertitudine într-o valoare și sunt adesea folosite pentru că:

în multe cazuri, dacă este cunoscută eroarea standard a mai multor mărimi individuale, atunci eroarea standard a unei anumite funcții a mărimilor poate fi ușor calculată;
când se cunoaște distribuția probabilității valorii, aceasta poate fi utilizată pentru a calcula un interval exact de încredere ;
atunci când distribuția probabilității este necunoscută, inegalitățile lui Chebyshev sau Vysochanskiï-Petunin pot fi utilizate pentru a calcula un interval de încredere conservator; și
deoarece dimensiunea eșantionului tinde la infinit, teorema limită centrală garantează că distribuția eșantionării mediei este asimptotică normală .

Eroare standard a mediei versus deviația standard

În literatura științifică și tehnică, datele experimentale sunt adesea rezumate fie folosind media și deviația standard a datelor eșantionului, fie media cu eroarea standard. Acest lucru duce adesea la confuzie cu privire la interschimbabilitatea lor. Cu toate acestea, media și abaterea standard sunt statistici descriptive , în timp ce eroarea standard a mediei este descriptivă a procesului de eșantionare aleatorie. Abaterea standard a datelor eșantionului este o descriere a variației măsurătorilor, în timp ce eroarea standard a mediei este o afirmație probabilistică despre modul în care dimensiunea eșantionului va oferi o legătură mai bună cu estimările mediei populației, în lumina limitei centrale teorema.

Pur și simplu, eroarea standard a mediei eșantionului este o estimare a distanței probei medii eșantionului față de media populației, în timp ce abaterea standard a eșantionului este gradul în care indivizii din eșantion diferă de media eșantionului. Dacă deviația standard a populației este finită, eroarea standard a mediei eșantionului va tinde la zero odată cu creșterea dimensiunii eșantionului, deoarece estimarea mediei populației se va îmbunătăți, în timp ce abaterea standard a eșantionului va tinde să se apropie de standardul populației deviație pe măsură ce mărimea eșantionului crește.

Extensii

Corecția populației finite (FPC)

Formula dată mai sus pentru eroarea standard presupune că dimensiunea eșantionului este mult mai mică decât dimensiunea populației, astfel încât populația poate fi considerată ca fiind efectiv infinită ca dimensiune. Acesta este de obicei cazul chiar și în cazul populațiilor finite, deoarece de cele mai multe ori, oamenii sunt interesați în primul rând de gestionarea proceselor care au creat populația finită existentă; aceasta se numește studiu analitic , în urma lui W. Edwards Deming . Dacă oamenii sunt interesați să gestioneze o populație finită existentă care nu se va schimba în timp, atunci este necesar să se adapteze la dimensiunea populației; aceasta se numește studiu enumerativ .

Când fracțiunea de eșantionare (denumită adesea f ) este mare (aproximativ 5% sau mai mult) într-un studiu enumerativ , estimarea erorii standard trebuie corectată prin înmulțirea cu o „corecție a populației finite” (aka: fpc ):

{\ displaystyle \ operatorname {FPC} = {\ sqrt {\ frac {Nn} {N-1}}}}

care, pentru N mare :

{\ displaystyle \ operatorname {FPC} \ approx {\ sqrt {1 - {\ frac {n} {N}}}} = {\ sqrt {1-f}}}

pentru a ține cont de precizia adăugată obținută prin eșantionare aproape de un procent mai mare din populație. Efectul CFP este că eroarea devine zero , atunci când dimensiunea eșantionului n este egal cu mărimea populației N .

Acest lucru se întâmplă în metodologia sondajului atunci când eșantionarea fără înlocuire . Dacă eșantionarea cu înlocuire, atunci FPC nu intră în joc.

Corecție pentru corelație în eșantion

Eroare așteptată în media lui A pentru un eșantion de n puncte de date cu coeficientul de polarizare a eșantionului ρ . Eroarea standard imparțială este reprezentată ca linia diagonală ρ = 0 cu panta log-log −½.

Dacă valorile mărimii măsurate A nu sunt statistic independente, dar au fost obținute din locații cunoscute în spațiul parametrului x , se poate obține o estimare imparțială a adevăratei erori standard a mediei (de fapt o corecție a părții de deviație standard) prin multiplicarea eroare standard calculată a eșantionului de factorul f :

{\ displaystyle f = {\ sqrt {\ frac {1+ \ rho} {1- \ rho}}},}

unde coeficientul de polarizare a eșantionului ρ este estimarea Prais – Winsten utilizată pe scară largă a coeficientului de autocorelație (o cantitate între -1 și +1) pentru toate perechile de puncte de eșantionare. Această formulă aproximativă este pentru eșantioane moderate până la mari; referința oferă formulele exacte pentru orice dimensiune a eșantionului și poate fi aplicată seriilor cronologice puternic corelate, cum ar fi cotațiile de acțiuni de pe Wall Street. Mai mult, această formulă funcționează atât pentru pozitiv cât și pentru negativ ρ. Vezi și estimarea imparțială a deviației standard pentru mai multe discuții.

Languages

In other projects