Interval de încredere - Confidence interval

În statistici , un interval de încredere ( IC ) este un tip de estimare calculată din datele observate. Aceasta oferă o gamă de valori pentru un parametru necunoscut (de exemplu, o medie a populației). Intervalul are un nivel de încredere asociat ales de investigator. Pentru o estimare dată într-un eșantion dat, utilizarea unui nivel de încredere mai mare generează un interval de încredere mai larg (adică mai puțin precis). În termeni generali, un interval de încredere pentru un parametru necunoscut se bazează pe eșantionarea distribuției unui estimator corespunzător .

Aceasta înseamnă că nivelul de încredere reprezintă frecvența teoretică pe termen lung (adică, proporția) intervalelor de încredere care conțin valoarea reală a parametrului populației necunoscute. Cu alte cuvinte, 90% din intervalele de încredere calculate la nivelul de încredere de 90% conțin parametrul, 95% din intervalele de încredere calculate la nivelul de încredere de 95% conțin parametrul, 99% din intervalele de încredere calculate la nivelul de încredere de 99% conțin parametru etc.

Nivelul de încredere este desemnat înainte de examinarea datelor. Cel mai frecvent, se folosește un nivel de încredere de 95%. Cu toate acestea, alte niveluri de încredere, cum ar fi 90% sau 99%, sunt uneori utilizate.

Factorii care afectează lățimea intervalului de încredere includ dimensiunea eșantionului, nivelul de încredere și variabilitatea eșantionului. Un eșantion mai mare va tinde să producă o estimare mai bună a parametrului populației, atunci când toți ceilalți factori sunt egali. Un nivel de încredere mai mare va tinde să producă un interval de încredere mai larg.

Un alt mod de a exprima forma intervalului de încredere este un set de doi parametri: (estimare punct - legat eroare, estimare punct + legat eroare) , sau exprimat simbolic ca (–EBM, + EBM) , unde (estimare punct) servește ca estimarea pentru m (media populației) și EBM este eroarea legată de media populației.

Marja de eroare (EBM) depinde de nivelul de încredere.

O definiție generală riguroasă:

Să presupunem că este dat un set de date, modelat ca realizare a variabilelor aleatorii . Fie parametrul de interes și un număr între 0 și 1. Dacă există exemple de statistici și astfel încât:

pentru fiecare valoare a

atunci , unde și , se numește interval de încredere pentru . Numărul se numește nivelul de încredere .

Baza conceptuală

În această diagramă cu bare , capetele superioare ale barelor maronii indică mijloacele observate , iar segmentele de linie roșie („bare de eroare”) reprezintă intervalele de încredere din jurul lor. Deși barele de eroare sunt afișate ca simetrice în jurul mijloacelor, nu este întotdeauna cazul. În majoritatea graficelor, barele de eroare nu reprezintă intervale de încredere (de exemplu, ele reprezintă adesea erori standard sau abateri standard )

Introducere

Estimarea intervalului poate fi contrastată cu estimarea punctuală . O estimare punctuală este o singură valoare dată ca estimare a unui parametru de populație care prezintă interes, de exemplu, media unei cantități. O estimare de interval specifică în schimb un interval în care se estimează că se află parametrul. Intervalele de încredere sunt raportate în mod obișnuit în tabele sau grafice, împreună cu estimări punctuale ale acelorași parametri, pentru a arăta fiabilitatea estimărilor.

De exemplu, un interval de încredere poate fi folosit pentru a descrie cât de fiabile sunt rezultatele sondajului. Într-un sondaj privind intențiile electorale de vot, rezultatul ar putea fi că 40% dintre respondenți intenționează să voteze pentru un anumit partid. Un interval de încredere de 99% pentru proporția din întreaga populație care are aceeași intenție în cadrul sondajului ar putea fi de 30% până la 50%. Din aceleași date se poate calcula un interval de încredere de 90%, care în acest caz ar putea fi de la 37% la 43%. Un factor major care determină lungimea unui interval de încredere este mărimea eșantionului utilizat în procedura de estimare, de exemplu, numărul de persoane care participă la un sondaj.


Înțeles și interpretare

Se pot da diverse interpretări ale unui interval de încredere (luând ca exemplu intervalul de încredere de 90% în cele ce urmează).

  • Intervalul de încredere poate fi exprimat în termeni de eșantioane (sau eșantioane repetate ): „ Dacă această procedură ar fi repetată pe numeroase eșantioane, fracțiunea intervalelor de încredere calculate (care ar diferi pentru fiecare eșantion) care cuprind parametrul populației adevărat ar tinde spre 90%. "
  • Intervalul de încredere poate fi exprimat în termeni de un singur eșantion: " Există o probabilitate de 90% ca intervalul de încredere calculat dintr-un experiment viitor să cuprindă valoarea reală a parametrului populației." Aceasta este o afirmație de probabilitate despre intervalul de încredere, nu despre parametrul populației. Aceasta ia în considerare probabilitatea asociată cu un interval de încredere dintr-un punct de vedere pre-experiment, în același context în care se fac argumente pentru alocarea aleatorie a tratamentelor pentru studierea itemilor. Aici experimentatorul stabilește modul în care intenționează să calculeze un interval de încredere și să știe, înainte de a face experimentul propriu-zis, că intervalul pe care îl vor calcula are o șansă specială de a acoperi valoarea adevărată, dar necunoscută. Acest lucru este foarte asemănător cu interpretarea „eșantionului repetat” de mai sus, cu excepția faptului că evită să se bazeze pe luarea în considerare a repetărilor ipotetice ale unei proceduri de eșantionare care poate să nu fie repetabilă în nici un sens semnificativ. Vezi construcția Neyman .
  • Explicația unui interval de încredere se poate ridica la ceva de genul: „ Intervalul de încredere reprezintă valori pentru parametrul populației pentru care diferența dintre parametru și estimarea observată nu este semnificativă statistic la nivelul de 10% ”. Această interpretare este obișnuită în articolele științifice care utilizează intervale de încredere pentru a-și valida experimentele, deși dependența excesivă de intervale de încredere poate provoca și probleme .

În fiecare dintre cele de mai sus, se aplică următoarele: Dacă valoarea reală a parametrului se află în afara intervalului de încredere de 90%, atunci a avut loc un eveniment de eșantionare (și anume, obținerea unei estimări punctuale a parametrului cel puțin atât de departe de valoarea parametrului adevărat ) care avea o probabilitate de 10% (sau mai puțin) să se întâmple întâmplător.

Neînțelegeri

Intervalele și nivelurile de încredere sunt adesea înțelese greșit, iar studiile publicate au arătat că chiar și oamenii de știință profesioniști le interpretează greșit.

  • Un nivel de încredere de 95% nu înseamnă că pentru un anumit interval realizat există o probabilitate de 95% ca parametrul populației să se afle în interval (adică, o probabilitate de 95% ca intervalul să acopere parametrul populației). Conform interpretării stricte frecventiste, odată calculat un interval, acest interval fie acoperă valoarea parametrului, fie nu; nu mai este o chestiune de probabilitate. Probabilitatea de 95% se referă la fiabilitatea procedurii de estimare, nu la un anumit interval calculat. Neyman însuși (susținătorul inițial al intervalelor de încredere) a subliniat acest lucru în lucrarea sa originală:

    "Se va observa că, în descrierea de mai sus, afirmațiile de probabilitate se referă la problemele de estimare cu care statisticianul va fi preocupat în viitor. De fapt, am afirmat în repetate rânduri că frecvența rezultatelor corecte va tinde la α . Luați în considerare Acum este cazul când un eșantion este deja extras, iar calculele au dat [limite speciale]. Putem spune că în acest caz particular probabilitatea ca valoarea adevărată [să se încadreze între aceste limite] este egală cu α ? Răspunsul este evident în negativ. Parametrul este o constantă necunoscută și nu se poate face nicio afirmație de probabilitate cu privire la valoarea sa ... "

Deborah Mayo se extinde în acest sens, după cum urmează:

„Trebuie subliniat totuși că, având în vedere valoarea [datelor], teoria Neyman-Pearson nu permite niciodată să se concluzioneze că intervalul de încredere specific format acoperă adevărata valoare 0 cu fie (1 -  α ) 100% probabilitate sau (1 -  α ) 100% grad de încredere. Remarca lui Seidenfeld pare înrădăcinată într-o dorință (neobișnuită) ca intervalele de încredere ale lui Neyman-Pearson să ofere ceva ce nu pot fi furnizate în mod legitim; și anume, o măsură a gradului de probabilitate, credință, sau susțineți că o valoare a parametrului necunoscut se află într-un interval specific. După Savage (1962), probabilitatea ca un parametru să se afle într-un interval specific poate fi denumită o măsură a preciziei finale. În timp ce o măsură a preciziei finale poate părea de dorit, și deși nivelurile de încredere sunt deseori (greșit) interpretate ca oferind o astfel de măsură, nu este justificată o astfel de interpretare. Desigur, o astfel de interpretare greșită este încurajată de cuvântul „încredere”. "

  • Un nivel de încredere de 95% nu înseamnă că 95% din datele eșantionului se află în intervalul de încredere.
  • Un interval de încredere nu este un interval definitiv de valori plauzibile pentru parametrul eșantion, deși poate fi înțeles ca o estimare a valorilor plauzibile pentru parametrul populației.
  • Un nivel particular de încredere de 95% calculat dintr-un experiment nu înseamnă că există o probabilitate de 95% ca un parametru eșantion dintr-o repetare a experimentului să se încadreze în acest interval.

Istorie

Intervalele de încredere au fost introduse în statistici de Jerzy Neyman într-o lucrare publicată în 1937. Cu toate acestea, a fost nevoie de ceva timp pentru ca intervalele de încredere să fie utilizate cu precizie și rutină.

În cel mai vechi studiu clinic controlat modern al unui tratament medical pentru accident vascular cerebral acut , publicat de Dyken și White în 1959, anchetatorii nu au putut respinge ipoteza nulă a niciunui efect al cortizolului asupra accidentului vascular cerebral. Cu toate acestea, au ajuns la concluzia că studiul lor „nu a indicat în mod clar niciun avantaj posibil al tratamentului cu cortizon”. Dyken și White nu au calculat intervalele de încredere, care erau rare în acel moment în medicină. Când Peter Sandercock a reevaluat datele în 2015, a constatat că intervalul de încredere de 95% se întindea de la o reducere de 12% a riscului la o creștere de 140% a riscului. Prin urmare, declarația autorilor nu a fost susținută de experimentul lor. Sandercock a concluzionat că, în special în științele medicale, unde seturile de date pot fi mici, intervalele de încredere sunt mai bune decât testele de ipoteză pentru cuantificarea incertitudinii în jurul mărimii și direcției unui efect.

Abia în anii 1980, jurnalele au cerut ca intervalele de încredere și valorile p să fie raportate în lucrări. Până în 1992, estimările imprecise erau încă frecvente, chiar și pentru studiile de mari dimensiuni. Acest lucru a împiedicat o decizie clară cu privire la ipoteza nulă. De exemplu, un studiu al terapiilor medicale pentru accident vascular cerebral acut a ajuns la concluzia că tratamentele cu AVC ar putea reduce mortalitatea sau o pot crește cu 10% -20%. Admiterea strictă la studiu a introdus erori neprevăzute, sporind și mai mult incertitudinea în concluzie. Studiile au persistat și abia în 1997 un studiu cu un lot masiv de eșantioane și un interval de încredere acceptabil a reușit să ofere un răspuns definitiv: terapia cu cortizol nu reduce riscul de accident vascular cerebral acut.

Probleme filozofice

Principiul din spatele intervalelor de încredere a fost formulat pentru a oferi un răspuns la întrebarea ridicată în deducerea statistică a modului în care se poate face față incertitudinii inerente rezultatelor derivate din date care sunt ele însele doar un subset selectat aleatoriu al unei populații. Există și alte răspunsuri, în special cel oferit de inferența bayesiană sub formă de intervale credibile . Intervalele de încredere corespund unei reguli alese pentru determinarea limitelor de încredere, în care această regulă este determinată în esență înainte de obținerea oricărei date sau înainte de efectuarea unui experiment. Regula este definită astfel încât, peste toate seturile de date posibile care ar putea fi obținute, există o mare probabilitate („ridicat” este cuantificat în mod specific) ca intervalul determinat de regulă să includă valoarea reală a cantității luate în considerare. Abordarea bayesiană pare să ofere intervale care pot, sub rezerva acceptării unei interpretări a „probabilității” ca probabilitate bayesiană , să fie interpretate în sensul că intervalul specific calculat dintr-un set de date dat are o probabilitate specială de a include adevărata valoare, condiționată de date și alte informații disponibile. Abordarea intervalului de încredere nu permite acest lucru, deoarece în această formulare și în aceeași etapă, atât limitele intervalului, cât și valorile adevărate sunt valori fixe și nu există implicarea aleatorie. Pe de altă parte, abordarea bayesiană este valabilă doar ca probabilitatea anterioară utilizată în calcul, în timp ce intervalul de încredere nu depinde de ipotezele cu privire la probabilitatea anterioară.

Întrebările referitoare la modul în care ar putea fi formulat un interval care exprimă incertitudinea într-o estimare și la modul în care astfel de intervale ar putea fi interpretate, nu sunt strict probleme matematice și sunt problematice din punct de vedere filosofic. Matematica poate prelua o dată stabilite principiile de bază ale unei abordări a „inferenței”, dar are doar un rol limitat în a spune de ce o abordare ar trebui preferată unei alte: De exemplu, un nivel de încredere de 95% este adesea utilizat în în științele biologice , dar aceasta este o chestiune de convenție sau de arbitraj. În științele fizice , se poate folosi un nivel mult mai înalt.

Relația cu alte subiecte statistice

Testarea statistică a ipotezelor

Intervalele de încredere sunt strâns legate de testarea semnificației statistice . De exemplu, dacă pentru un parametru estimat θ se dorește testarea ipotezei nuleθ  = 0 față de alternativa că θ  ≠ 0, atunci acest test poate fi efectuat prin determinarea dacă intervalul de încredere pentru θ conține 0.

Mai general, având în vedere disponibilitatea unei proceduri de testare a ipotezelor care poate testa ipoteza nulă θ  =  θ 0 împotriva alternativei că θ  ≠  θ 0 pentru orice valoare de θ 0 , atunci un interval de încredere cu nivel de încredere  γ  = 1 -  α poate fi definit ca conținând orice număr θ 0 pentru care ipoteza nulă corespunzătoare nu este respinsă la nivelul de semnificație  α .

Dacă estimările a doi parametri (de exemplu, valorile medii ale unei variabile în două grupuri independente) au intervale de încredere care nu se suprapun, atunci diferența dintre cele două valori este mai semnificativă decât cea indicată de valorile individuale ale lui α . Deci, acest „test” este prea conservator și poate duce la un rezultat mai semnificativ decât ar indica valorile individuale ale lui α . Dacă două intervale de încredere se suprapun, cele două mijloace pot fi în continuare semnificativ diferite. În consecință, și în concordanță cu testul Chi-pătrat Mantel-Haenszel , este o soluție propusă prin care se reduce limitele de eroare pentru cele două mijloace înmulțindu-le cu rădăcina pătrată de ½ (0,707107) înainte de a face comparația.

În timp ce formulările noțiunilor de intervale de încredere și de testare a ipotezelor statistice sunt distincte, ele sunt în anumite sensuri legate și într-o oarecare măsură complementare. Deși nu toate intervalele de încredere sunt construite în acest fel, o abordare cu scop general pentru construirea intervalelor de încredere este de a defini un interval de încredere de 100 (1 -  α )% care să conțină toate acele valori θ 0 pentru care un test al ipotezei θ  =  θ 0 nu este respins la un nivel de semnificație de 100α%. O astfel de abordare nu este întotdeauna disponibilă, deoarece presupune disponibilitatea practică a unui test de semnificație adecvat. Bineînțeles, orice ipoteză necesară pentru testul de semnificație ar fi transferată la intervalele de încredere.

Poate fi convenabil să se facă corespondența generală că valorile parametrilor într-un interval de încredere sunt echivalente cu acele valori care nu ar fi respinse de un test de ipoteză, dar acest lucru ar fi periculos. În multe cazuri, intervalele de încredere citate sunt doar aproximativ valabile, probabil derivate din „plus sau minus dublu față de eroarea standard”, iar implicațiile acestui lucru pentru presupusele teste de ipoteză corespunzătoare sunt de obicei necunoscute.

Este demn de remarcat faptul că intervalul de încredere pentru un parametru nu este același cu regiunea de acceptare a unui test pentru acest parametru, așa cum se crede uneori. Intervalul de încredere face parte din spațiul parametrilor, în timp ce regiunea de acceptare face parte din spațiul eșantion. Din același motiv, nivelul de încredere nu este același cu probabilitatea complementară a nivelului de semnificație.

Regiunea de încredere

Regiunile de încredere generalizează conceptul intervalului de încredere pentru a trata cantități multiple. Astfel de regiuni pot indica nu numai gradul probabil de erori de eșantionare, dar pot dezvălui, de asemenea, dacă (de exemplu) este cazul în care dacă estimarea pentru o cantitate nu este fiabilă, atunci cealaltă este, de asemenea, probabil să nu fie fiabilă.

Trupa de încredere

O bandă de încredere este utilizată în analiza statistică pentru a reprezenta incertitudinea într-o estimare a unei curbe sau a unei funcții pe baza datelor limitate sau zgomotoase. În mod similar, o bandă de predicție este utilizată pentru a reprezenta incertitudinea cu privire la valoarea unui nou punct de date pe curbă, dar supusă zgomotului. Încrederea și benzile de predicție sunt adesea utilizate ca parte a prezentării grafice a rezultatelor unei analize de regresie .

Benzile de încredere sunt strâns legate de intervalele de încredere, care reprezintă incertitudinea într-o estimare a unei singure valori numerice. „Întrucât intervalele de încredere, prin construcție, se referă doar la un singur punct, ele sunt mai înguste (în acest moment) decât o bandă de încredere care ar trebui să se mențină simultan în multe puncte.”

Pași de bază

Acest exemplu presupune că probele sunt extrase dintr-o distribuție normală . Procedura de bază pentru calcularea unui interval de încredere pentru o medie a populației este următoarea:

  1. Identificați media eșantionului .
  2. Identificați dacă deviația standard a populației este cunoscută sau este necunoscută și este estimată prin deviația standard a eșantionului .
    • Dacă este cunoscută abaterea standard a populației , unde este nivelul de încredere și este CDF- ul distribuției normale standard , utilizat ca valoare critică. Această valoare depinde doar de nivelul de încredere pentru test. Nivelurile tipice de încredere pe două fețe sunt:
      C z *
      99% 2,576
      98% 2.326
      95% 1,96
      90% 1.645
    • Dacă abaterea standard a populației este necunoscută, atunci se utilizează distribuția t a Studentului ca valoare critică. Această valoare depinde de nivelul de încredere (C) pentru test și de gradele de libertate. Gradele de libertate se găsesc scăzând unul din numărul de observații, n  - 1. Valoarea critică se găsește din tabelul de distribuție t. În acest tabel valoarea critică este scrisă , unde sunt gradele de libertate și .
  3. Înlocuiți valorile găsite în ecuațiile corespunzătoare:
    • Pentru o abatere standard cunoscută:
    • Pentru o abatere standard necunoscută:
Distribuție normală: reprezentarea grafică a defalcării intervalului de încredere și relația intervalelor de încredere cu scorurile z- și t.

Semnificația tabelelor t și a tabelelor z

Intervalele de încredere pot fi calculate utilizând două valori diferite: valori t sau valori z, așa cum se arată în exemplul de bază de mai sus. Ambele valori sunt tabelate în tabele, pe baza gradelor de libertate și a cozii unei distribuții de probabilitate. Mai des, se folosesc valorile z. Acestea sunt valorile critice ale distribuției normale cu probabilitatea cozii drepte. Cu toate acestea, valorile t sunt utilizate atunci când dimensiunea eșantionului este sub 30 și abaterea standard nu este cunoscută.

Atunci când variația nu este cunoscută, trebuie să folosim un estimator de diferit: . Aceasta permite formarea unei distribuții care depinde doar de și a cărei densitate poate fi exprimată în mod explicit.

Definiție: O variabilă continuă aleatorie are o distribuție t cu parametrul m, unde este un număr întreg, dacă densitatea sa de probabilitate este dată de for , unde . Această distribuție este notată și este denumită distribuția t cu m grade de libertate.

Exemplu

Utilizarea tabelului de distribuire t

  1. Găsiți grade de libertate (df) față de dimensiunea eșantionului:
    Dacă dimensiunea eșantionului = 10, df = 9.
  2. Scadeți intervalul de încredere (CL) de la 1 și apoi împărțiți-l la doi. Această valoare este nivelul alfa. (alfa + CL = 1)
  3. Căutați df și alfa în tabelul de distribuție t. Pentru df = 9 și alfa = 0,01, tabelul dă o valoare de 2,821. Această valoare obținută din tabel este scorul t.

Teoria statistică

Definiție

Fie X un eșantion aleatoriu dintr-o distribuție de probabilitate cu parametrul statistic θ , care este o cantitate care trebuie estimată și φ , reprezentând cantități care nu sunt de interes imediat. Un interval de încredere pentru parametrul θ , cu nivel de încredere sau coeficient de încredere γ , este un interval cu puncte finale aleatorii ( u ( X ),  v ( X )), determinat de perechea de variabile aleatoare u ( X ) și v ( X ) , cu proprietatea:

Cantitățile φ în care nu există interes imediat se numesc parametri de neplăcere , deoarece teoria statistică mai trebuie să găsească o modalitate de a le face față. Numărul γ , cu valori tipice apropiate, dar nu mai mari de 1, este dat uneori sub forma 1 -  α (sau procentual 100% · (1 -  α )), unde α este un număr mic negativ, aproape la 0.

Aici Pr θ , φ indică distribuția probabilității lui X caracterizată prin ( θφ ). O parte importantă a acestei specificații este că intervalul aleatoriu ( u ( X ),  v ( X )) acoperă valoarea necunoscută θ cu o probabilitate ridicată, indiferent de valoarea reală a lui θ .

Rețineți că aici Pr θ , φ nu trebuie să se refere la o familie de distribuții parametrizată dată în mod explicit, deși se întâmplă adesea. La fel cum variabila aleatorie X corespunde în mod noțional cu alte realizări posibile ale x din aceeași populație sau din aceeași versiune a realității, parametrii ( θφ ) indică faptul că trebuie să luăm în considerare alte versiuni ale realității în care distribuția lui X ar putea au caracteristici diferite.

Într-o situație specifică, când x este rezultatul eșantionului X , intervalul ( u ( x ),  v ( x )) este denumit și interval de încredere pentru θ . Rețineți că nu se mai poate spune că intervalul (observat) ( u ( x ),  v ( x )) are probabilitatea γ de a conține parametrul θ . Acest interval observat este doar o realizare a tuturor intervalelor posibile pentru care se menține declarația de probabilitate.

Intervalele aproximative de încredere

În multe aplicații, intervalele de încredere care au exact nivelul de încredere cerut sunt greu de construit. Dar încă se pot găsi intervale practice utile: regula pentru construirea intervalului poate fi acceptată ca oferind un interval de încredere la nivel dacă

la un nivel acceptabil de aproximare. Alternativ, unii autori pur și simplu necesită acest lucru

ceea ce este util dacă probabilitățile sunt doar parțial identificate sau imprecise și, de asemenea, atunci când este vorba de distribuții discrete . Limitele de încredere ale formei și sunt numite conservatoare ; în consecință, se vorbește de intervale conservatoare de încredere și, în general, de regiuni.

Proprietăți dorite

Atunci când se aplică proceduri statistice standard, vor exista deseori modalități standard de construire a intervalelor de încredere. Acestea vor fi concepute astfel încât să îndeplinească anumite proprietăți dezirabile, care vor fi valabile în condițiile în care ipotezele pe care se bazează procedura sunt adevărate. Aceste proprietăți dorite pot fi descrise ca: validitate, optimitate și invarianță. Dintre acestea „valabilitatea” este cea mai importantă, urmată îndeaproape de „optimitate”. „Invarianța” poate fi considerată ca o proprietate a metodei de derivare a unui interval de încredere mai degrabă decât a regulii de construire a intervalului. În aplicații non-standard, ar fi căutate aceleași proprietăți dorite.

  • Valabilitate. Aceasta înseamnă că probabilitatea nominală de acoperire (nivelul de încredere) al intervalului de încredere ar trebui să se mențină, fie exact, fie cu o bună aproximare.
  • Optimitate. Aceasta înseamnă că regula pentru construirea intervalului de încredere ar trebui să utilizeze cât mai mult informațiile din setul de date. Amintiți-vă că s-ar putea arunca jumătate dintr-un set de date și totuși să puteți obține un interval valid de încredere. O modalitate de evaluare a optimității este după lungimea intervalului, astfel încât o regulă pentru construirea unui interval de încredere este judecată mai bine decât alta dacă conduce la intervale ale căror lungimi sunt de obicei mai mici.
  • Invarianță. În multe aplicații, cantitatea estimată ar putea să nu fie bine definită ca atare. De exemplu, un sondaj ar putea avea ca rezultat o estimare a venitului mediu într-o populație, dar ar putea fi considerat, în egală măsură, că oferă o estimare a logaritmului venitului mediu, având în vedere că aceasta este o scară obișnuită pentru prezentarea rezultatelor grafice. Ar fi de dorit ca metoda utilizată pentru construirea unui interval de încredere pentru venitul mediu să dea rezultate echivalente atunci când se aplică construcției unui interval de încredere pentru logaritmul venitului mediu: în mod specific, valorile de la capetele ultimului interval ar fi logaritmii a valorilor la capetele intervalului anterior.

Metode de derivare

Pentru aplicații non-standard, există mai multe rute care ar putea fi luate pentru a obține o regulă pentru construirea intervalelor de încredere. Regulile stabilite pentru procedurile standard ar putea fi justificate sau explicate prin mai multe dintre aceste rute. De regulă, o regulă pentru construirea intervalelor de încredere este strâns legată de un mod particular de a găsi o estimare punctuală a cantității luate în considerare.

Rezumatul statisticilor
Acest lucru este strâns legat de metoda momentelor de estimare. Un exemplu simplu apare în cazul în care cantitatea de estimat este media, caz în care o estimare naturală este media eșantionului. Argumentele obișnuite indică faptul că varianța eșantionului poate fi utilizată pentru a estima varianța mediei eșantionului. Un interval de încredere pentru media adevărată poate fi construit centrat pe media eșantionului cu o lățime care este un multiplu al rădăcinii pătrate a varianței eșantionului.
Teoria probabilității
În cazul în care estimările sunt construite folosind principiul probabilității maxime , teoria pentru aceasta oferă două modalități de a construi intervale de încredere sau regiuni de încredere pentru estimări. O modalitate este folosirea teoremei lui Wilks pentru a găsi toate valorile posibile care îndeplinesc următoarea restricție:
Estimarea ecuațiilor
Abordarea estimativă aici poate fi considerată atât ca o generalizare a metodei momentelor, cât și ca o generalizare a abordării cu maximă probabilitate. Există generalizări corespunzătoare ale rezultatelor teoriei probabilității maxime care permit construirea intervalelor de încredere pe baza estimărilor derivate din estimarea ecuațiilor .
Testarea ipotezei
Dacă testele de semnificație sunt disponibile pentru valorile generale ale unui parametru, intervale de încredere atunci / regiuni pot fi construite prin includerea în 100 p regiune% încredere în toate aceste puncte pentru care testul de semnificație a ipotezei nule că valoarea reală este valoarea dată este nu respins la un nivel de semnificație de (1 -  p ).
Bootstrapping
În situațiile în care ipotezele de distribuție pentru metodele de mai sus sunt incerte sau încălcate, metodele de eșantionare permit construirea unor intervale de încredere sau intervale de predicție. Distribuția datelor observate și corelațiile interne sunt utilizate ca surogat pentru corelațiile din populația mai largă.

Exemple

Exemple medicale

Cercetările medicale estimează adesea efectele unei intervenții sau expuneri la o anumită populație. De obicei, cercetătorii au determinat semnificația efectelor pe baza valorii p; cu toate acestea, recent a existat un impuls pentru mai multe informații statistice pentru a oferi o bază mai solidă pentru estimări. O modalitate de a rezolva această problemă este, de asemenea, necesitatea raportării intervalului de încredere. Mai jos sunt două exemple despre modul în care sunt utilizate și raportate intervalele de încredere pentru cercetare.

Într-un studiu din 2004, britanicul și colegii au realizat un studiu privind evaluarea relației infertilității cu cancerul ovarian. Raportul de incidență de 1,98 a fost raportat pentru un interval de încredere de 95% (CI) cu un raport de 1,4 până la 2,6. Statistica a fost raportată după cum urmează în lucrare: „(raportul de incidență standardizat = 1,98; IC 95%, 1,4-2,6)”. Aceasta înseamnă că, pe baza eșantionului studiat, femelele infertile au o incidență a cancerului ovarian de 1,98 ori mai mare decât femelele neinfertile. Mai mult decât atât, înseamnă, de asemenea, că suntem încrezători în proporție de 95% că raportul de incidență reală la toată populația feminină infertilă se situează în intervalul de la 1,4 la 2,6. În general, intervalul de încredere a furnizat mai multe informații statistice prin faptul că a raportat cele mai mici și cele mai mari efecte care sunt susceptibile să apară pentru variabila studiată, oferind în același timp informații despre semnificația efectelor observate.

Într-un studiu din 2018, prevalența și sarcina bolii dermatitei atopice în populația adultă din SUA a fost înțeleasă cu utilizarea unor intervale de încredere de 95%. Sa raportat că, în rândul celor 1.278 de adulți participanți, prevalența dermatitei atopice a fost de 7,3% (5,9-8,8). Mai mult, 60,1% (56,1-64,1) dintre participanți au fost clasificați ca având dermatită atopică ușoară, în timp ce 28,9% (25,3-32,7) au avut moderată și 11% (8,6-13,7) au avut severitate. Studiul a confirmat că există o prevalență ridicată și o sarcină a bolii de dermatită atopică în populație.

Exemplu teoretic

Să presupunem că { X 1 ,…,  X n } este un eșantion independent dintr-o populație distribuită în mod normal cu media μ ( parametri ) necunoscută și varianța σ 2 . Lăsa

Unde X este media eșantionului și S 2 este varianța eșantionului . Atunci

are o distribuție t Student cu n - 1 grade de libertate. Rețineți că distribuția lui T nu depinde de valorile parametrilor neobservabili μ și σ 2 ; adică este o cantitate esențială . Să presupunem că am vrut să calculăm un interval de încredere de 95% pentru  μ . Apoi, notând c ca percentila 97,5 a acestei distribuții,

Rețineți că „97.5th” și „0.95” sunt corecte în expresiile precedente. Există o șansă de 2,5% să fie mai mică de și o șansă de 2,5% să fie mai mare decât . Astfel, probabilitatea care va fi între și este de 95%.

Prin urmare,

și avem un interval teoretic (stocastic) de încredere de 95% pentru  μ .

După observarea eșantionului, găsim valori x pentru X și s pentru S , din care calculăm intervalul de încredere

un interval cu numere fixe ca puncte finale, din care nu mai putem spune că există o anumită probabilitate să conțină parametrul  μ ; fie μ este în acest interval, fie nu este.

Alternative și critici

Intervalele de încredere sunt o metodă de estimare a intervalelor și cele mai utilizate în statistici frecventiste . Un concept analog în statistica bayesiană este intervalele credibile , în timp ce o metodă alternativă frecventistă este aceea a intervalelor de predicție care, mai degrabă decât estimarea parametrilor, estimează rezultatul eșantioanelor viitoare . Pentru alte abordări ale exprimării incertitudinii folosind intervale, a se vedea estimarea intervalului .

Comparație cu intervalele de predicție

Un interval de predicție pentru o variabilă aleatorie este definit în mod similar cu un interval de încredere pentru un parametru statistic . Luați în considerare o variabilă aleatoare suplimentară Y care poate fi sau nu dependentă statistic de eșantionul X aleatoriu . Apoi ( u ( X ),  v ( X )) oferă un interval de predicție pentru valoarea y încă observată a lui Y dacă

Aici Pr θ , φ indică distribuția comună a probabilității variabilelor aleatorii ( XY ), unde această distribuție depinde de parametrii statistici  ( θφ ).

Comparație cu estimările intervalului bayesian

O estimare a intervalului bayesian se numește interval credibil . Folosind o mare parte din aceeași notație ca mai sus, definiția unui interval credibil pentru valoarea adevărată necunoscută a lui θ este, pentru un dat γ ,

Aici Θ este folosit pentru a sublinia că valoarea necunoscută a lui θ este tratată ca o variabilă aleatorie. Definițiile celor două tipuri de intervale pot fi comparate după cum urmează.

  • Definiția unui interval de încredere implică probabilități calculate din distribuția lui X pentru un anumit ( θφ ) (sau condiționat de aceste valori) și condiția trebuie să fie valabilă pentru toate valorile lui ( θφ ).
  • Definiția unui interval credibil implică probabilități calculate din distribuția lui Θ condiționată de valorile observate ale lui X  =  x și marginalizate (sau mediate) peste valorile lui Φ, unde această ultimă cantitate este variabila aleatorie corespunzătoare incertitudinii cu privire la neplăceri parametrii în  φ .

Rețineți că tratamentul parametrilor de deranjament de mai sus este adesea omis din discuțiile care compară încrederea și intervalele credibile, dar este semnificativ diferit între cele două cazuri.

În unele cazuri, un interval de încredere și un interval credibil calculat pentru un parametru dat folosind un set de date dat sunt identice. Dar în alte cazuri, cele două pot fi foarte diferite, mai ales dacă informațiile anterioare informative sunt incluse în analiza bayesiană .

Există dezacord cu privire la care dintre aceste metode produce cele mai utile rezultate: matematica calculelor este rar pusă la îndoială - intervalele de încredere se bazează pe distribuții de eșantionare, intervalele credibile se bazează pe teorema lui Bayes - dar aplicarea acestor metode, utilitatea și interpretarea statisticilor produse, este dezbătută.

Intervalele de încredere pentru proporții și cantități conexe

Un interval de încredere aproximativ pentru o medie a populației poate fi construit pentru variabilele aleatorii care nu sunt distribuite în mod normal în populație, bazându-se pe teorema limitei centrale , dacă dimensiunile și numărul eșantioanelor sunt suficient de mari. Formulele sunt identice cu cazul de mai sus (unde media eșantionului este de fapt distribuită în mod normal în funcție de media populației). Aproximarea va fi destul de bună, cu doar câteva zeci de observații în eșantion dacă distribuția probabilității variabilei aleatorii nu este prea diferită de distribuția normală (de exemplu, funcția sa de distribuție cumulativă nu are discontinuități și asimetria este moderată).

Un tip de medie eșantion este media unei variabile indicator , care preia valoarea 1 pentru adevărat și valoarea 0 pentru fals. Media unei astfel de variabile este egală cu proporția care are variabila egală cu una (atât în ​​populație, cât și în orice eșantion). Aceasta este o proprietate utilă a variabilelor indicator, în special pentru testarea ipotezelor. Pentru a aplica teorema limitei centrale, trebuie să utilizați un eșantion suficient de mare. O regulă generală este că trebuie să vedem cel puțin 5 cazuri în care indicatorul este 1 și cel puțin 5 în care este 0. Intervalele de încredere construite folosind formulele de mai sus pot include numere negative sau numere mai mari de 1, dar proporții evident nu poate fi negativ sau să depășească 1. În plus, proporțiile eșantionului pot lua doar un număr finit de valori, astfel încât teorema limitei centrale și distribuția normală nu sunt cele mai bune instrumente pentru construirea unui interval de încredere. A se vedea „ Intervalul de încredere a proporției binomiale ” pentru metode mai bune specifice acestui caz.

Contra-exemple

De când a fost propusă teoria intervalului de încredere, au fost dezvoltate o serie de contraexemple ale teoriei pentru a arăta cum interpretarea intervalelor de încredere poate fi problematică, cel puțin dacă le interpretăm naiv.

Procedura de încredere pentru localizarea uniformă

Welch a prezentat un exemplu care arată clar diferența dintre teoria intervalelor de încredere și alte teorii ale estimării intervalului (incluzând intervalele fiduciale ale lui Fisher și intervalele bayesiene obiective ). Robinson a numit acest exemplu „[p] în mod considerabil cel mai cunoscut contraexemplu pentru versiunea lui Neyman a teoriei intervalului de încredere”. Pentru Welch, a arătat superioritatea teoriei intervalului de încredere; pentru criticii teoriei, aceasta arată o deficiență. Aici vă prezentăm o versiune simplificată.

Să presupunem că sunt observații independente dintr-o distribuție uniformă ( θ - 1/2, θ + 1/2). Atunci procedura optimă de încredere de 50% este

Un argument bayesian fiducial sau obiectiv poate fi folosit pentru a obține estimarea intervalului

care este și o procedură de încredere de 50%. Welch a arătat că prima procedură de încredere domină a doua, conform dezideratelor din teoria intervalului de încredere; pentru fiecare , probabilitatea ca prima procedură să conțină este mai mică sau egală cu probabilitatea pe care o conține a doua procedură . Lățimea medie a intervalelor de la prima procedură este mai mică decât cea a celei de-a doua. Prin urmare, prima procedură este preferată în teoria clasică a intervalului de încredere.

Cu toate acestea, când , intervalele de la prima procedură sunt garantate să conțină valoarea adevărată : Prin urmare, coeficientul nominal de încredere de 50% nu are legătură cu incertitudinea, ar trebui să avem că un interval specific conține valoarea adevărată. A doua procedură nu are această proprietate.

Mai mult, atunci când prima procedură generează un interval foarte scurt, aceasta indică faptul că sunt foarte apropiate și, prin urmare, oferă informațiile doar într-un singur punct de date. Cu toate acestea, primul interval va exclude aproape toate valorile rezonabile ale parametrului datorită lățimii sale scurte. A doua procedură nu are această proprietate.

Cele două proprietăți contra-intuitive ale primei proceduri - o acoperire de 100% atunci când sunt la distanță și o acoperire de aproape 0% când sunt apropiate - se echilibrează pentru a obține o acoperire de 50% în medie. Cu toate acestea, în ciuda faptului că prima procedură este optimă, intervalele sale nu oferă nici o evaluare a preciziei estimării, nici o evaluare a incertitudinii pe care ar trebui să o aibă faptul că intervalul conține valoarea reală.

Acest contra-exemplu este folosit pentru a argumenta împotriva interpretărilor naive ale intervalelor de încredere. Dacă se afirmă că o procedură de încredere are proprietăți dincolo de cea a acoperirii nominale (cum ar fi relația cu precizia sau o relație cu inferența bayesiană), aceste proprietăți trebuie dovedite; nu rezultă din faptul că o procedură este o procedură de încredere.

Procedura de încredere pentru ω 2

Steiger a sugerat o serie de proceduri de încredere pentru măsurile comune ale dimensiunii efectului în ANOVA . Morey și colab. subliniază că mai multe dintre aceste proceduri de încredere, inclusiv cea pentru ω 2 , au proprietatea că, pe măsură ce statistica F devine din ce în ce mai mică - indicând inadecvarea cu toate valorile posibile de ω 2 - intervalul de încredere se micșorează și poate conține doar valoarea unică ω 2  = 0; adică CI este infinit de îngustă (aceasta apare atunci când pentru un CI).

Acest comportament este în concordanță cu relația dintre procedura de încredere și testarea semnificației: deoarece F devine atât de mic încât grupul înseamnă că sunt mult mai apropiați decât ne-am aștepta din întâmplare, un test de semnificație ar putea indica respingerea pentru majoritatea sau toate valorile lui ω 2 . Prin urmare, intervalul va fi foarte îngust sau chiar gol (sau, printr-o convenție sugerată de Steiger, conținând doar 0). Cu toate acestea, acest lucru nu indică faptul că estimarea lui ω 2 este foarte precisă. Într-un anumit sens, indică opusul: că încrederea rezultatelor în sine poate fi pusă la îndoială. Acest lucru este contrar interpretării obișnuite a intervalelor de încredere pe care le dezvăluie precizia estimării.

Vezi si

Interval de încredere pentru distribuții specifice

Referințe

Bibliografie

linkuri externe