Regiunea de încredere - Confidence region

În statistici , o regiune de încredere este o generalizare multidimensională a unui interval de încredere . Este un set de puncte dintr-un spațiu n- dimensional, adesea reprezentat ca un elipsoid în jurul unui punct care reprezintă o soluție estimată la o problemă, deși pot apărea și alte forme.

Interpretare

Regiunea de încredere este calculată în așa fel încât dacă un set de măsurători ar fi repetat de mai multe ori și o regiune de încredere calculată în același mod pe fiecare set de măsurători, atunci un anumit procent din timp (de ex. 95%) regiunea de încredere ar fi include punctul care reprezintă valorile „adevărate” ale setului de variabile estimate. Cu toate acestea, dacă nu se fac anumite ipoteze cu privire la probabilitățile anterioare , nu înseamnă, atunci când a fost calculată o regiune de încredere, că există o probabilitate de 95% ca valorile „adevărate” să se afle în interiorul regiunii, deoarece nu presupunem nicio probabilitate specială distribuirea valorilor „adevărate” și este posibil să avem sau nu alte informații despre locul în care acestea se află probabil.

Cazul erorilor independente, distribuite în mod normal în mod identic

Să presupunem că am găsit o soluție la următoarea problemă supradeterminată: ${\ displaystyle {\ boldsymbol {\ beta}}}$

{\ displaystyle \ mathbf {Y} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}}}

unde Y este un vector de coloană n- dimensională care conține valori observate ale variabilei dependente , X este o matrice n- by- p a valorilor observate ale variabilelor independente (care pot reprezenta un model fizic) care se presupune că este cunoscut exact, este un vector de coloană care conține parametrii p care urmează să fie estimate și este un vector de coloană n- dimensional cu erori care se presupune că este distribuit independent cu distribuții normale cu medie zero și fiecare având aceeași varianță necunoscută . ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle {\ boldsymbol {\ varepsilon}}}$ ${\ displaystyle \ sigma ^ {2}}$

O regiune comună de încredere de 100 (1 - α )% pentru elementele de este reprezentată de setul de valori ale vectorului b care satisfac următoarea inegalitate: ${\ displaystyle {\ boldsymbol {\ beta}}}$

{\ displaystyle ({\ boldsymbol {\ hat {\ beta}}} - \ mathbf {b}) ^ {\ prime} \ mathbf {X} ^ {\ prime} \ mathbf {X} ({\ boldsymbol {\ hat {\ beta}}} - \ mathbf {b}) \ leq ps ^ {2} F_ {1- \ alpha} (p, \ nu),}

în cazul în care variabila b reprezintă orice punct din zona de încredere, p este numărul de parametri, adică numărul de elemente ale vectorului este vectorul parametrilor estimați, și s ² este redus chi-pătrat , o estimare imparțială a egala ${\ displaystyle {\ boldsymbol {\ beta}},}$ ${\ displaystyle {\ boldsymbol {\ hat {\ beta}}}}$ ${\ displaystyle \ sigma ^ {2}}$

{\ displaystyle s ^ {2} = {\ frac {\ varepsilon ^ {\ prime} \ varepsilon} {np}}.}

Mai mult, F este funcția cuantilă a distribuției F , cu p și grade de libertate , este nivelul de semnificație statistică , iar simbolul înseamnă transpunerea lui . ${\ displaystyle \ nu = np}$ ${\ displaystyle \ alpha}$ ${\ displaystyle X ^ {\ prime}}$ ${\ displaystyle X}$

Expresia poate fi rescrisă ca:

{\ displaystyle ({\ boldsymbol {\ hat {\ beta}}} - \ mathbf {b}) ^ {\ prime} \ mathbf {C} _ {\ mathbf {\ beta}} ^ {- 1} ({\ boldsymbol {\ hat {\ beta}}} - \ mathbf {b}) \ leq pF_ {1- \ alpha} (p, \ nu),}

unde este matricea de covarianță scalată a celor mai mici pătrate . ${\ displaystyle \ mathbf {C} _ {\ mathbf {\ beta}} = s ^ {2} \ left (\ mathbf {X} ^ {\ prime} \ mathbf {X} \ right) ^ {- 1}}$ ${\ displaystyle {\ boldsymbol {\ hat {\ beta}}}}$

Inegalitatea de mai sus definește o regiune elipsoidală în spațiul parametrului cartezian p -dimensional R ^p . Centrul elipsoidului este la estimare . Potrivit Press și colab., Este mai ușor să trasați elipsoidul după efectuarea descompunerii valorii singulare . Lungimile axelor elipsoidului sunt proporționale cu reciprocele valorilor de pe diagonalele matricei diagonale, iar direcțiile acestor axe sunt date de rândurile celei de-a 3-a matrici a descompunerii. ${\ displaystyle {\ boldsymbol {\ hat {\ beta}}}}$

Cele mai mici pătrate ponderate și generalizate

Acum luați în considerare cazul mai general în care unele elemente distincte ale au cunoscut covarianța diferită de zero (cu alte cuvinte, erorile din observații nu sunt distribuite independent) și / sau abaterile standard ale erorilor nu sunt toate egale. Să presupunem că matricea de covarianță este , unde V este o n -by- n matrice nesingular care era egal în cazul mai specific manipulate în secțiunea anterioară, (unde I este matricea identitate ,) dar aici este permis să aibă nenul off -elemente diagonale care reprezintă covarianța perechilor de observații individuale, precum și care nu au neapărat toate elementele diagonale egale. ${\ displaystyle {\ boldsymbol {\ varepsilon}}}$ ${\ displaystyle {\ boldsymbol {\ varepsilon}}}$ ${\ displaystyle \ mathbf {V} \ sigma ^ {2}}$ ${\ displaystyle \ mathbf {I}}$

Este posibil să se găsească o matrice simetrică nesingulară P astfel încât

{\ displaystyle \ mathbf {P} ^ {\ prime} \ mathbf {P} = \ mathbf {P} \ mathbf {P} = \ mathbf {V}}

De fapt, P este rădăcina pătrată a matricei de covarianță V .

Problema celor mai mici pătrate

{\ displaystyle \ mathbf {Y} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}}}

poate fi apoi transformat prin multiplicarea la stânga a fiecărui termen cu inversul lui P , formând noua formulare a problemei

{\ displaystyle \ mathbf {Z} = \ mathbf {Q} {\ boldsymbol {\ beta}} + \ mathbf {f},}

Unde

{\ displaystyle \ mathbf {Z} = \ mathbf {P} ^ {- 1} \ mathbf {Y}}

{\ displaystyle \ mathbf {Q} = \ mathbf {P} ^ {- 1} \ mathbf {X}}

și

{\ displaystyle \ mathbf {f} = \ mathbf {P} ^ {- 1} {\ boldsymbol {\ varepsilon}}}

O regiune de încredere comună pentru parametri, adică pentru elementele de , este apoi delimitată de elipsoidul dat de: ${\ displaystyle {\ boldsymbol {\ beta}}}$

{\ displaystyle (\ mathbf {b} - {\ boldsymbol {\ hat {\ beta}}}) ^ {\ prime} \ mathbf {Q} ^ {\ prime} \ mathbf {Q} (\ mathbf {b} - {\ boldsymbol {\ hat {\ beta}}}) = {\ frac {p} {np}} (\ mathbf {Z} ^ {\ prime} \ mathbf {Z} - \ mathbf {b} ^ {\ prime } \ mathbf {Q} ^ {\ prime} \ mathbf {Z}) F_ {1- \ alpha} (p, np).}

Aici F reprezintă punctul procentual al distribuției F și cantitățile p și np sunt gradele de libertate care sunt parametrii acestei distribuții.

Probleme neliniare

Regiunile de încredere pot fi definite pentru orice distribuție de probabilitate. Experimentatorul poate alege nivelul de semnificație și forma regiunii, iar dimensiunea regiunii este determinată de distribuția probabilității. O alegere naturală este de a folosi ca graniță un set de puncte cu valori constante ( chi-pătrat ). ${\ displaystyle \ chi ^ {2}}$

O abordare este de a utiliza o aproximare liniară la modelul neliniar, care poate fi o aproximare apropiată în vecinătatea soluției, și apoi se aplică analiza pentru o problemă liniară pentru a găsi o regiune de încredere aproximativă. Aceasta poate fi o abordare rezonabilă dacă regiunea de încredere nu este foarte mare și al doilea derivat al modelului nu este, de asemenea, foarte mare.

Se pot utiliza și abordări de bootstrapping .

A se vedea Metodologiile de cuantificare a incertitudinii pentru propagarea incertitudinii directe pentru concepte conexe.

Vezi si

Note

Referințe

Draper, NR; H. Smith (1981) [1966]. Analiza regresiei aplicate (ediția a II-a). SUA: John Wiley and Sons Ltd. ISBN 0-471-02995-5 .
Apăsați, WH; SA Teukolsky; WT Vetterling; BP Flannery (1992) [1988]. Rețete numerice în C: Arta calculelor științifice (ediția a II-a). Cambridge UK: Cambridge University Press.

Languages

In other projects