Interval de încredere în proporția binomială - Binomial proportion confidence interval

În statistici , un interval de încredere în proporție binomială este un interval de încredere pentru probabilitatea de succes calculat din rezultatul unei serii de experimente succes-eșec ( studii Bernoulli ). Cu alte cuvinte, un interval de încredere în proporție binomială este o estimare a intervalului unei probabilități de succes p atunci când se cunoaște doar numărul de experimente n și numărul de succese n S.

Există mai multe formule pentru un interval de încredere binomial, dar toate se bazează pe presupunerea unei distribuții binomiale . În general, o distribuție binomială se aplică atunci când un experiment se repetă de un număr fix de ori, fiecare studiu al experimentului are două rezultate posibile (succes și eșec), probabilitatea de succes este aceeași pentru fiecare studiu, iar studiile sunt statistice independente . Deoarece distribuția binomială este o distribuție discretă de probabilitate (adică, nu continuă) și dificil de calculat pentru un număr mare de încercări, se utilizează o varietate de aproximări pentru a calcula acest interval de încredere, toate cu propriile compromisuri în ceea ce privește precizia și intensitatea calculului.

Un exemplu simplu de distribuție binomială este setul diferitelor rezultate posibile și probabilitățile acestora, pentru numărul de capete observate când o monedă este răsturnată de zece ori. Proporția binomială observată este fracțiunea flipurilor care se dovedesc a fi capete. Având în vedere această proporție observată, intervalul de încredere pentru probabilitatea reală a aterizării monedei pe capete este un interval de proporții posibile, care pot conține sau nu proporția reală. Un interval de încredere de 95% pentru proporție, de exemplu, va conține proporția reală 95% de ori în care se utilizează procedura de construire a intervalului de încredere.

Interval de aproximare normal

Trasarea intervalului normal de aproximare pe o curbă logistică arbitrară relevă probleme de depășire și intervale de lățime zero .

O formulă frecvent utilizată pentru un interval de încredere binomial se bazează pe aproximarea distribuției erorii despre o observație distribuită binomial , cu o distribuție normală . Această aproximare se bazează pe teorema limitei centrale și nu este fiabilă atunci când dimensiunea eșantionului este mică sau probabilitatea de succes este aproape de 0 sau 1.

Folosind aproximarea normală, probabilitatea de succes p este estimată ca

sau echivalentul

unde este proporția de reușite într-un proces de încercare Bernoulli , măsurată cu teste care produc succese și eșecuri, și este cuantila unei distribuții normale standard (adică, probit ) corespunzătoare ratei de eroare țintă . Pentru un nivel de încredere de 95%, eroarea , așa și .

O derivare teoretică importantă a acestui interval de încredere implică inversarea unui test de ipoteză. Conform acestei formulări, intervalul de încredere reprezintă acele valori ale parametrului populației care ar avea valori p mari dacă ar fi testate ca proporție de populație ipotezată . Colecția de valori,, pentru care este valabilă aproximarea normală, poate fi reprezentată ca

unde este cuantila unei distribuții normale standard . Deoarece testul din mijlocul inegalității este un test Wald , intervalul normal de aproximare este uneori numit interval Wald , dar a fost descris pentru prima dată de Pierre-Simon Laplace în 1812.

Eroare standard a unei estimări a proporției atunci când se utilizează date ponderate

Să fie un eșantion aleatoriu simplu în cazul în care fiecare este IID dintr - un Bernoulli (p) și distribuția greutății este greutatea pentru fiecare observație. Standardizeze masele (pozitive) , astfel încât acestea însumează 1. eșantion ponderată proporție este: . Deoarece sunt independenți și fiecare are varianță , varianța eșantionării proporției este, prin urmare ,:

.

Eroarea standard a este rădăcina pătrată din această cantitate. Pentru că nu știm , trebuie să o estimăm. Deși există mulți estimatori posibili, trebuie utilizat unul convențional , media eșantionului, și conectați-l la formulă. Acest lucru oferă:

Pentru date neponderate ,, oferind . SE devine , conducând la formulele familiare, arătând că calculul pentru datele ponderate este o generalizare directă a acestora.

Interval scor Wilson

Intervalele de scor Wilson reprezentate pe o curbă logistică, dezvăluind asimetrie și performanță bună pentru n mic și unde p este la sau aproape de 0 sau 1.

Intervalul scorului Wilson este o îmbunătățire față de intervalul normal de aproximare din mai multe puncte de vedere. A fost dezvoltat de Edwin Bidwell Wilson (1927). Spre deosebire de intervalul simetric de aproximare normală (de mai sus), intervalul scorului Wilson este asimetric . Nu suferă de probleme de depășire și intervale de lățime zero care afectează intervalul normal și poate fi utilizat în siguranță cu probe mici și observații înclinate. Probabilitatea de acoperire observată este constant mai aproape de valoarea nominală ,.

La fel ca intervalul normal, dar spre deosebire de intervalul Clopper-Pearson , intervalul poate fi calculat direct dintr-o formulă.

Wilson a început cu aproximarea normală la binom:

cu formula analitică pentru deviația standard a eșantionului dată de

.

Combinând cele două, și împărțind radicalul, se obține o ecuație care este pătratică în p :

Transformând relația într-o ecuație pătratică de formă standard pentru p , tratând și n ca valori cunoscute din eșantion (vezi secțiunea anterioară) și folosind valoarea z care corespunde încrederii dorite pentru estimarea lui p, se obține:

,

unde toate valorile dintre paranteze sunt mărimi cunoscute. Soluția pentru p estimează limitele superioare și inferioare ale intervalului de încredere pentru p . Prin urmare, probabilitatea de succes p este estimată de

sau echivalentul

Observația practică de la utilizarea acestui interval este că are proprietăți bune chiar și pentru un număr mic de încercări și / sau o probabilitate extremă.

Intuitiv, valoarea centrală a acestui interval este media ponderată a și , cu o greutate mai mare pe măsură ce mărimea eșantionului crește. În mod formal, valoarea centrală corespunde utilizării unui pseudocont de 1/2 z ² , numărul de deviații standard ale intervaluluiîncredere: adăugați acest număr atât numărătoarea succeselor și eșecurilor pentruobține estimarea raportului. Pentru cele două abateri standard comune în fiecare interval de direcție (aproximativ 95% acoperire, care în sine este de aproximativ 1,96 abateri standard), aceasta dă o estimare, care este cunoscută sub numele de „regula plus patru”.

Deși pătraticul poate fi rezolvat în mod explicit, în majoritatea cazurilor ecuațiile lui Wilson pot fi rezolvate și numeric folosind iterația în punct fix

cu .

Intervalul Wilson poate fi, de asemenea, derivat din testul z al eșantionului unic sau testul chi-pătrat al lui Pearson cu două categorii. Intervalul rezultat,

poate fi apoi rezolvat pentru a produce intervalul scor Wilson. Testul în mijlocul inegalității este un test de scor .

Principiul egalității intervalului

Funcția densității probabilității pentru intervalul scor Wilson, plus pdf-uri la limite de interval. Zonele cozii sunt egale.

Deoarece intervalul este derivat prin rezolvarea de la aproximarea normală la binom, intervalul scor Wilson are proprietatea de a fi garantat pentru a obține același rezultat ca testul z echivalent sau testul chi-pătrat .

Această proprietate poate fi vizualizată prin reprezentarea grafică a funcției densității probabilității pentru intervalul de scor Wilson (vezi Wallis 2021: 297-313) și apoi reprezentarea unui pdf normal la fiecare legătură. Zonele de coadă ale rezultatului Wilson și distribuțiile normale, reprezentând șansa unui rezultat semnificativ în acea direcție, trebuie să fie egale.

Intervalul scorului corectat de continuitate Wilson și intervalul Clopper-Pearson sunt, de asemenea, conforme cu această proprietate. Importantul practic este că aceste intervale pot fi utilizate ca teste de semnificație , cu rezultate identice cu testul sursă, iar noi teste pot fi derivate prin geometrie.

Interval de scor Wilson cu corecție de continuitate

Intervalul Wilson poate fi modificat utilizând o corecție de continuitate , pentru a alinia probabilitatea minimă de acoperire , mai degrabă decât probabilitatea medie de acoperire, cu valoarea nominală ,.

La fel cum intervalul Wilson reflectă testul chi-pătrat al lui Pearson , intervalul Wilson cu corecție de continuitate reflectă testul chi-pătrat echivalent al lui Yates .

Următoarele formule pentru limitele inferioare și superioare ale intervalului de scor Wilson cu corecție de continuitate sunt derivate din Newcombe (1998).

Cu toate acestea, dacă p  = 0, trebuie luat ca 0; dacă p  = 1, este atunci 1.

Wallis (2021) identifică o metodă mai simplă pentru calcularea intervalelor Wilson corectate prin continuitate care utilizează funcții. Pentru limita inferioară, permiteți , unde este nivelul de eroare selectat . Apoi . Această metodă are avantajul de a fi în continuare descompozabilă.

Intervalul Jeffreys

Intervalul Jeffreys are o derivare Bayesian, dar are proprietăți frecventistä bune. În special, are proprietăți de acoperire similare cu cele ale intervalului Wilson, dar este unul dintre puținele intervale cu avantajul de a avea coadă egală (de exemplu, pentru un interval de încredere de 95%, probabilitățile intervalului de mai sus sau sub valoarea reală sunt ambele aproape de 2,5%). În contrast, intervalul Wilson are o prejudecată sistematică astfel încât este centrată prea aproape de p = 0,5.

Intervalul Jeffreys este Bayesian intervalul credibil obținut atunci când se utilizează neinformative Jeffreys prealabilă pentru binomial proporția p . De Jeffreys anterior pentru această problemă este o distribuție Beta cu parametrii (1/2, 1/2) , este o prealabilă conjugat . După observarea x succese în n studii, distribuția posterioară pentru p este o distribuție Beta cu parametri ( x  + 1/2,  n  -  x  + 1/2) .

Când x  ≠ 0 și x  ≠  n , intervalul Jeffreys este considerat a fi intervalul de probabilitate posterioară de 100 (1 -  α )% cu coadă egală, adică, cuantilele α  / 2 și 1 -  α  / 2 ale unei distribuții beta cu parametri ( x  + 1/2,  n  -  x  + 1/2) . Aceste cuantile trebuie să fie calculate numeric, deși acest lucru este rezonabil de simplu cu software-ul statistic modern.

Pentru a evita probabilitatea de acoperire care tinde la zero atunci când p  → 0 sau 1 , când x  = 0 limita superioară este calculată ca înainte, dar limita inferioară este setată la 0 și când x  =  n limita inferioară este calculată ca înainte, dar limita superioară este setată la 1.

Interval Clopper – Pearson

Intervalul Clopper – Pearson este o metodă timpurie și foarte comună pentru calcularea intervalelor de încredere binomiale. Aceasta se numește adesea o metodă „exactă”, deoarece se bazează pe probabilitățile cumulative ale distribuției binomiale (adică exact distribuția corectă mai degrabă decât o aproximare). Cu toate acestea, în cazurile în care cunoaștem dimensiunea populației, este posibil ca intervalele să nu fie cât mai mici. De exemplu, pentru o populație de dimensiunea 20 cu proporție reală de 50%, Clopper – Pearson dă [0,272, 0,728], care are lățimea 0,456 (și unde limitele sunt la 0,0280 distanță de „următoarele valori realizabile” de 6/20 și 14 / 20); întrucât al lui Wilson dă [0,299, 0,701], care are lățimea 0,401 (și se află la 0,0007 distanță de următoarele valori realizabile).

Intervalul Clopper – Pearson poate fi scris ca

sau echivalent,

cu

unde 0 ≤ xn este numărul de succese observate în eșantion și Bin ( nθ ) este o variabilă aleatoare binomială cu n teste și probabilitate de succes  θ .

În mod echivalent, putem spune că intervalul Clopper – Pearson este cu un nivel de încredere dacă este cel mai mic dintre acestea astfel încât următoarele teste de ipoteză să aibă succes cu semnificație :

  1. H 0 : cu H A :
  2. H 0 : cu H A : .

Din cauza unei relații între distribuția binomială și distribuția beta , intervalul Clopper – Pearson este uneori prezentat într-un format alternativ care utilizează cuantile din distribuția beta.

unde x este numărul de reușite, n este numărul de încercări, iar B ( p ; v , w ) este al p- lea cuantil dintr-o distribuție beta cu parametrii de formă v și w .

Astfel ,, unde:

Intervalul de încredere în proporția binomială este , după cum urmează, din relația dintre funcția de distribuție cumulativă de distribuție binomială și funcția beta incompletă regularizată .

Când este fie sau , sunt disponibile expresii în formă închisă pentru limitele intervalului: când intervalul este și când este .

Distribuția beta este, la rândul ei, legată de distribuția F, astfel încât o a treia formulare a intervalului Clopper-Pearson poate fi scrisă folosind cuantile F:

unde x este numărul de succese, n este numărul de încercări, iar F ( c ; d 1 , d 2 ) este c cuantila dintr-o distribuție F cu d 1 și d 2 grade de libertate.

Intervalul Clopper – Pearson este un interval exact, deoarece se bazează direct pe distribuția binomială, mai degrabă decât pe orice aproximare la distribuția binomială. Acest interval nu are niciodată mai puțin decât acoperirea nominală pentru orice proporție de populație, dar asta înseamnă că este de obicei conservator. De exemplu, rata de acoperire reală a unui interval Clopper-Pearson de 95% poate fi cu mult peste 95%, în funcție de n și  θ . Astfel, intervalul poate fi mai larg decât trebuie pentru a obține încredere de 95%. În contrast, este demn de remarcat faptul că alte limite de încredere pot fi mai restrânse decât lățimea lor nominală de încredere, adică intervalul de aproximare normală (sau „standard”), intervalul Wilson, intervalul Agresti – Coull etc., cu o acoperire nominală de 95 % poate acoperi de fapt mai puțin de 95%.

Definiția intervalului Clopper – Pearson poate fi, de asemenea, modificată pentru a obține intervale exacte de încredere pentru diferite distribuții. De exemplu, poate fi aplicat și în cazul în care probele sunt extrase fără înlocuire dintr-o populație de o mărime cunoscută, în loc de extrageri repetate ale unei distribuții binomiale. În acest caz, distribuția subiacentă ar fi distribuția hipergeometrică .

Limitele intervalului sunt ușor de calculat cu funcții de bibliotecă precum scipy.stats.beta.ppf .

Agresti – Coull interval

Intervalul Agresti – Coull este, de asemenea, un alt interval de încredere binomial aproximativ.

Având în vedere succesele în încercări, definiți

și

Apoi, un interval de încredere pentru este dat de

unde este cuantila unei distribuții normale standard, ca înainte (de exemplu, un interval de încredere de 95% necesită , producând astfel ). Potrivit lui Brown , Cai și DasGupta, luarea în loc de 1,96 produce intervalul „adăugați 2 succese și 2 eșecuri” descris anterior de Agresti și Coull .

Acest interval poate fi rezumat ca folosind ajustarea punctului central ,, al intervalului scor Wilson, și apoi aplicând aproximarea normală la acest punct.

Transformarea arcsinei

Transformarea arcului are ca efect extragerea capetelor distribuției. Deși poate stabiliza varianța (și, astfel, intervalele de încredere) a datelor proporționale, utilizarea sa a fost criticată în mai multe contexte.

Fie X numărul de succese din n încercări și fii p = X / n . Varianța lui p este

Folosind transformarea sinusului de arc, varianța arcsinei de p 1/2 este

Deci, intervalul de încredere în sine are următoarea formă:

unde este cuantila unei distribuții normale standard.

Această metodă poate fi utilizată pentru a estima varianța lui p, dar utilizarea sa este problematică atunci când p este aproape de 0 sau 1.

t o transformare

Fie p proporția succeselor. Pentru 0 ≤ a ≤ 2,

Această familie este o generalizare a transformării logit, care este un caz special cu a = 1 și poate fi utilizată pentru a transforma o distribuție proporțională a datelor într-o distribuție aproximativ normală . Parametrul A trebuie să fie estimată pentru setul de date.

Regula celor trei - pentru când nu se observă succese

Regula de trei este utilizat pentru a oferi un mod simplu de a afirma un interval aproximativ de încredere 95% pentru p , în cazul special că nu succese ( au fost observate). Intervalul este (0,3 / n ) .

Prin simetrie, ne-am putea aștepta doar la succese ( ), intervalul este (1 - 3 / n , 1) .

Comparație și discuție

Există mai multe lucrări de cercetare care compară aceste și alte intervale de încredere pentru proporția binomială. Atât Agresti, cât și Coull (1998) și Ross (2003) subliniază că metode exacte precum intervalul Clopper – Pearson s-ar putea să nu funcționeze la fel de bine ca anumite aproximări. Intervalul de aproximare normală și prezentarea sa în manuale a fost criticat puternic, mulți statisticiști susținând ca acesta să nu fie utilizat. Principalele probleme sunt depășirea (limitele depășesc [0, 1]), intervalele de lățime zero la = 0 și 1 (ceea ce implică în mod fals o certitudine) și inconsecvența generală cu testarea semnificației.

Dintre aproximările enumerate mai sus, metodele intervalului de scor Wilson (cu sau fără corecție de continuitate) s-au dovedit a fi cele mai exacte și cele mai robuste, deși unii preferă abordarea Agresti – Coull pentru dimensiuni mai mari ale eșantionului. Metodele Wilson și Clopper-Pearson obțin rezultate consistente cu testele de semnificație a sursei, iar această proprietate este decisivă pentru mulți cercetători.

Multe dintre aceste intervale pot fi calculate în R folosind pachete precum „binom” .

Vezi si

Referințe