Inferință cauzală - Causal inference

Inferența cauzală este procesul de determinare a efectului independent, real al unui anumit fenomen care este o componentă a unui sistem mai mare. Principala diferență între inferența cauzală și inferența asocierii este că inferența cauzală analizează răspunsul unei variabile de efect atunci când se modifică cauza variabilei de efect. Știința de ce apar lucrurile se numește etiologie . Se spune că inferența cauzală oferă dovezi ale cauzalității teoretizate de raționamentul cauzal .

Inferența cauzală este studiată pe scară largă în toate științele. Mai multe inovații în dezvoltarea și implementarea metodologiei concepute pentru a determina cauzalitatea au proliferat în ultimele decenii. Inferența cauzală rămâne deosebit de dificilă acolo unde experimentarea este dificilă sau imposibilă, ceea ce este comun în majoritatea științelor.

Abordările referitoare la inferența cauzală sunt aplicabile în general pe toate tipurile de discipline științifice, iar multe metode de inferență cauzală care au fost concepute pentru anumite discipline și-au găsit folosirea în alte discipline. Acest articol prezintă procesul de bază din spatele inferenței cauzale și detaliază unele dintre testele mai convenționale utilizate în diferite discipline; cu toate acestea, acest lucru nu trebuie confundat ca o sugestie că aceste metode se aplică numai acelor discipline, doar că acestea sunt cele mai frecvent utilizate în acea disciplină.

Inferența cauzală este dificil de realizat și există dezbateri semnificative în rândul oamenilor de știință cu privire la modul adecvat de a determina cauzalitatea. În ciuda altor inovații, există îngrijorări privind atribuirea greșită de către oamenii de știință a rezultatelor corelative ca fiind cauzale, a utilizării metodologiilor incorecte de către oamenii de știință și a manipulării deliberate de către oamenii de știință a rezultatelor analitice pentru a obține estimări semnificative statistic. O preocupare deosebită este ridicată în utilizarea modelelor de regresie, în special a modelelor de regresie liniară.

Definiție

A deduce cauza a ceva a fost descrisă ca:

  • „... motivează [concluzia] la concluzia că ceva este sau este probabil să fie cauza altceva”.
  • „Identificarea cauzei sau cauzelor unui fenomen, prin stabilirea covariației cauzei și efectului, o relație de timp în timp cu cauza care precede efectul și eliminarea unor cauze alternative plauzibile.”

Metodologie

General

Inferența cauzală se realizează prin studiul sistemelor în care se suspectează că măsurarea unei variabile afectează măsura alteia. Inferența cauzală se efectuează în ceea ce privește metoda științifică . Primul pas al inferenței cauzale este de a formula o ipoteză nulă falsificabilă , care este testată ulterior cu metode statistice . Inferența statistică frecventistă este utilizarea metodelor statistice pentru a determina probabilitatea ca datele să apară sub ipoteza nulă întâmplător: inferența bayesiană este utilizată pentru a determina efectul unei variabile independente. Inferența statistică, în general, este utilizată pentru a determina diferența dintre variațiile din datele originale care sunt variații aleatorii sau efectul unui mecanism cauzal bine specificat. În special, corelația nu implică cauzalitate , astfel încât studiul cauzalității este la fel de preocupat de studiul mecanismelor cauzale potențiale, precum și de variația datelor. Un standard frecvent căutat după inferență cauzală este un experiment în care tratamentul este atribuit aleatoriu, dar toți ceilalți factori de confuzie sunt menținuți constanți. Majoritatea eforturilor de inferență cauzală sunt în încercarea de a reproduce condițiile experimentale.

Studiile epidemiologice utilizează diferite metode epidemiologice de colectare și măsurare a dovezilor despre factorii de risc și efect și diferite moduri de măsurare a asocierii dintre cei doi. Rezultatele unei analize din 2020 a metodelor de inferență cauzală au constatat că utilizarea literaturii existente pentru programele de instruire clinică poate fi o provocare. Acest lucru se datorează faptului că articolele publicate presupun adesea un fundal tehnic avansat, pot fi scrise din multiple perspective statistice, epidemiologice, informatică sau filosofice, abordările metodologice continuă să se extindă rapid și multe aspecte ale inferenței cauzale primesc o acoperire limitată.

Cadrele comune pentru inferența cauzală sunt modelarea ecuației structurale și modelul cauzal Rubin .

Experimental

Verificarea experimentală a mecanismelor cauzale este posibilă utilizând metode experimentale. Principala motivație din spatele unui experiment este de a menține constante alte variabile experimentale, manipulând în mod intenționat variabila de interes. Dacă experimentul produce efecte semnificative statistic ca urmare a manipulării numai a variabilei de tratament, există motive să credem că un efect cauzal poate fi atribuit variabilei de tratament, presupunând că au fost îndeplinite alte standarde pentru proiectarea experimentală.

Cvasi-experimental

Verificarea cvasi-experimentală a mecanismelor cauzale se efectuează atunci când metodele experimentale tradiționale nu sunt disponibile. Acest lucru poate fi rezultatul costurilor prohibitive ale desfășurării unui experiment sau al ineficienței inerente a desfășurării unui experiment, în special a experimentelor care se referă la sisteme mari, cum ar fi economiile sistemelor electorale, sau la tratamente care sunt considerate a prezenta un pericol pentru fântână. -ființa subiecților de testare. Cvasi-experimente pot apărea și în cazul în care informațiile sunt reținute din motive legale.

Abordări în epidemiologie

Epidemiologia studiază modele de sănătate și boală la populații definite de ființe vii pentru a deduce cauzele și efectele. O asociere între expunerea la un factor de risc presupus și o boală poate fi sugestivă, dar nu este echivalentă cu cauzalitatea, deoarece corelația nu implică cauzalitate . Din punct de vedere istoric, postulatele lui Koch au fost folosite încă din secolul al XIX-lea pentru a decide dacă un microorganism a fost cauza unei boli. În secolul al XX-lea, criteriile Bradford Hill , descrise în 1965, au fost utilizate pentru a evalua cauzalitatea variabilelor în afara microbiologiei, deși nici aceste criterii nu sunt modalități exclusive de determinare a cauzalității.

În epidemiologia moleculară , fenomenele studiate sunt la nivel de biologie moleculară , inclusiv genetică, unde biomarkerii sunt dovezi ale cauzei sau efectelor.

O tendință recentă este de a identifica dovezi pentru influența expunerii asupra patologiei moleculare în țesutul sau celulele bolnave , în domeniul emergent interdisciplinar al epidemiologiei patologice moleculare (MPE). Legarea expunerii la semnăturile patologice moleculare ale bolii poate ajuta la evaluarea cauzalității. Având în vedere natura inerentă a eterogenității unei boli date, principiul unic al bolii, fenotiparea și subtiparea bolii sunt tendințe în științele biomedicale și ale sănătății publice , exemplificate ca medicină personalizată și medicină de precizie .

Abordări în informatică

Determinarea cauzei și efectului din datele observaționale comune pentru două variabile independente de timp, spunem X și Y, a fost abordată folosind asimetria între dovezile pentru un anumit model în direcții, X → Y și Y → X. Abordările primare se bazează pe algoritmic modele de teoria informației și modele de zgomot.

Modele de zgomot

Incorporați un termen de zgomot independent în model pentru a compara dovezile celor două direcții.

Iată câteva dintre modelele de zgomot pentru ipoteza Y → X cu zgomotul E:

  • Zgomot aditiv:
  • Zgomot liniar:
  • Post neliniar:
  • Zgomot heteroskedastic:
  • Zgomot funcțional:

Presupunerea comună în aceste modele este:

  • Nu există alte cauze ale Y.
  • X și E nu au cauze comune.
  • Distribuția cauzei este independentă de mecanismele cauzale.

La un nivel intuitiv, ideea este că factorizarea distribuției articulare P (Cauză, Efect) în P (Cauză) * P (Efect | Cauză) produce de obicei modele cu o complexitate totală mai mică decât factorizarea în P (Efect) * P (Cauză | Efect). Deși noțiunea de „complexitate” este atrăgătoare intuitiv, nu este evident cum ar trebui definită cu precizie. O altă familie de metode încearcă să descopere „amprente” cauzale din cantități mari de date etichetate și să permită predicția unor relații cauzale mai flexibile.

Abordări în științele sociale

Stiinte Sociale

Științele sociale în general s-au îndreptat din ce în ce mai mult spre includerea cadrelor cantitative pentru evaluarea cauzalității. O mare parte din acestea au fost descrise ca un mijloc de a oferi o mai mare rigoare metodologiei științelor sociale. Știința politică a fost influențată în mod semnificativ de publicarea publicației Designing Social Inquiry , de Gary King, Robert Keohane și Sidney Verba, în 1994. King, Keohane și Verba recomandă cercetătorilor să aplice atât metode cantitative cât și calitative și să adopte limbajul inferenței statistice la să fie mai clari cu privire la subiectele lor de interes și unitățile de analiză. Susținătorii metodelor cantitative au adoptat tot mai mult cadrul potențial al rezultatelor , dezvoltat de Donald Rubin , ca standard pentru deducerea cauzalității.

În timp ce o mare parte a accentului rămâne pe inferența statistică în cadrul rezultatelor potențiale, metodologii din științele sociale au dezvoltat noi instrumente pentru a efectua inferența cauzală atât prin metode calitative, cât și cantitative, uneori numite o abordare „metode mixte”. Susținătorii diverselor abordări metodologice susțin că metodologiile diferite sunt mai potrivite pentru diferite subiecte de studiu. Sociologul Herbert Smith și oamenii de știință politici James Mahoney și Gary Goertz au citat observația lui Paul Holland, statistician și autor al articolului din 1986 „Statistics and Causal Inference”, că inferența statistică este cea mai potrivită pentru evaluarea „efectelor cauzelor”, mai degrabă decât „cauzele efectelor”. Metodologii calitativi au susținut că modelele formalizate ale cauzalității, inclusiv urmărirea proceselor și teoria seturilor fuzzy , oferă oportunități de a deduce cauzalitatea prin identificarea factorilor critici în cadrul studiilor de caz sau printr-un proces de comparație între mai multe studii de caz. Aceste metodologii sunt valoroase și pentru subiecții la care un număr limitat de observații potențiale sau prezența unor variabile confuze ar limita aplicabilitatea inferenței statistice.

Economie și științe politice

În științele economice și științele politice, inferența cauzală este adesea dificilă, din cauza complexității lumii reale a realităților economice și politice și a incapacității de a recrea multe fenomene la scară largă în cadrul experimentelor controlate. Inferența cauzală în științele economice și politice continuă să vadă îmbunătățirea metodologiei și a rigurozității, datorită nivelului crescut de tehnologie disponibilă oamenilor de știință sociali, creșterii numărului de oameni de știință sociali și a cercetărilor și îmbunătățirilor aduse metodologiilor de inferență cauzală în toate științele sociale.

În ciuda dificultăților inerente în determinarea cauzalității în sistemele economice, există mai multe metode utilizate pe scară largă în aceste domenii.

Metode teoretice

Economiștii și politologii pot folosi teoria (deseori studiată în econometrie bazată pe teorie) pentru a estima amploarea relațiilor presupuse cauzale în cazurile în care cred că există o relație cauzală. Teoreticienii pot presupune un mecanism considerat a fi cauzal și pot descrie efectele folosind analiza datelor pentru a justifica teoria propusă. De exemplu, teoreticienii pot folosi logica pentru a construi un model, cum ar fi teoretizarea că ploaia provoacă fluctuații ale productivității economice, dar că inversul nu este adevărat. Cu toate acestea, utilizarea afirmațiilor pur teoretice care nu oferă nici o perspectivă predictivă a fost numită „pre-științifică”, deoarece nu există capacitatea de a prezice impactul presupuselor proprietăți cauzale. Merită să reiterăm faptul că analiza regresiei în știința socială nu implică inerent cauzalitatea, întrucât multe fenomene se pot corela pe termen scurt sau în anumite seturi de date, dar nu demonstrează nicio corelație în alte perioade de timp sau alte seturi de date. Astfel, atribuirea cauzalității proprietăților corelative este prematură absența unui mecanism cauzal bine definit și motivat.

Variabile instrumentale

Tehnica variabilelor instrumentale (IV) este o metodă de determinare a cauzalității care implică eliminarea unei corelații între una dintre variabilele explicative ale unui model și termenul de eroare al modelului. Credința este că, dacă termenul de eroare al unui model merge mână în mână cu variația unei alte variabile, termenul de eroare al modelului este probabil un efect al variației în acea variabilă explicativă. Eliminarea acestei corelații prin introducerea unei noi variabile instrumentale reduce astfel eroarea prezentă în model ca întreg.

Specificația modelului

Specificația modelului este actul de a selecta un model care să fie utilizat în analiza datelor. Oamenii de știință sociali (și, într-adevăr, toți oamenii de știință) trebuie să determine modelul corect de utilizat, deoarece diferite modele sunt bune la estimarea relațiilor diferite.

Specificația modelului poate fi utilă pentru determinarea cauzalității care este lent să apară, unde efectele unei acțiuni într-o perioadă sunt resimțite doar într-o perioadă ulterioară. Merită să ne amintim că corelațiile măsoară doar dacă două variabile au varianță similară, nu dacă se afectează reciproc într-o anumită direcție; astfel, nu se poate determina direcția unei relații cauzale numai pe baza corelațiilor. Deoarece actele cauzale sunt considerate a preceda efectele cauzale, oamenii de știință sociali pot folosi un model care caută în mod specific efectul unei variabile asupra alteia într-o perioadă de timp. Acest lucru duce la utilizarea variabilelor care reprezintă fenomene care se întâmplă mai devreme ca efecte de tratament, unde testele econometrice sunt utilizate pentru a căuta modificări ulterioare ale datelor care sunt atribuite efectului unor astfel de efecte de tratament, unde o diferență semnificativă în rezultate după o diferență semnificativă în efectele tratamentului poate indica cauzalitatea între efectele tratamentului și efectele măsurate (de exemplu, teste de cauzalitate Granger). Astfel de studii sunt exemple de analiză a seriilor temporale .

Analiza de sensibilitate

Alte variabile, sau regresori în analiza de regresie, sunt fie incluși, fie nu sunt incluși în diferite implementări ale aceluiași model pentru a se asigura că diferite surse de variație pot fi studiate mai separat unul de celălalt. Aceasta este o formă de analiză a sensibilității: este studiul cât de sensibilă este implementarea unui model la adăugarea uneia sau mai multor variabile noi.

O preocupare principală motivantă în utilizarea analizei sensibilității este urmărirea descoperirii variabilelor confuze . Variabilele de confuzie sunt variabile care au un impact mare asupra rezultatelor unui test statistic, dar nu sunt variabile pe care încearcă să le studieze inferența cauzală. Variabilele de confuzie pot determina un regresor să pară semnificativ într-o implementare, dar nu și în alta.

Multicoliniaritate

Un alt motiv pentru utilizarea analizei sensibilității este detectarea multicoliniarității . Multicoliniaritatea este fenomenul în care corelația dintre două variabile este foarte mare. Un nivel ridicat de corelație între două variabile poate afecta dramatic rezultatul unei analize statistice, unde mici variații ale datelor foarte corelate pot întoarce efectul unei variabile de la o direcție pozitivă la o direcție negativă sau invers. Aceasta este o proprietate inerentă a testării varianței. Determinarea multicoliniarității este utilă în analiza sensibilității, deoarece eliminarea variabilelor foarte corelate în diferite implementări ale modelului poate preveni schimbările dramatice ale rezultatelor care rezultă din includerea acestor variabile.

Cu toate acestea, există limite ale capacității analizei de sensibilitate de a preveni efectele dăunătoare ale multicoliniarității, în special în științele sociale, unde sistemele sunt complexe. Deoarece este teoretic imposibil să se includă sau chiar să se măsoare toți factorii de confuzie într-un sistem suficient de complex, modelele econometrice sunt susceptibile de eroarea cauzei comune, unde efectele cauzale sunt atribuite incorect variabilei greșite, deoarece variabila corectă nu a fost capturată în datele originale. Acesta este un exemplu al eșecului de a explica o variabilă ascunsă .

Econometrie bazată pe proiectare

Recent, o metodologie îmbunătățită în econometrie bazată pe proiectare a popularizat utilizarea atât a experimentelor naturale, cât și a proiectelor de cercetare cvasi-experimentale pentru a studia mecanismele cauzale pe care se crede că astfel de experimente le identifică.

Malpraxis în inferența cauzală

În ciuda progreselor în dezvoltarea metodologiilor utilizate pentru a determina cauzalitatea, rămân slăbiciuni semnificative în determinarea cauzalității. Aceste puncte slabe pot fi atribuite atât dificultății inerente de determinare a relațiilor cauzale în sisteme complexe, cât și cazurilor de malpraxis științific.

Separat de dificultățile inferenței cauzale, percepția că un număr mare de cercetători în științele sociale se angajează în metodologie non-științifică există în rândul unor grupuri mari de oameni de știință sociali. Critica la adresa economiștilor și a oamenilor de știință socială ca studii de descriere ca studii cauzale sunt răspândite în aceste domenii.

Malpraxis științific și metodologie defectuoasă

În științe, în special în științele sociale, există îngrijorare în rândul cercetătorilor că malpraxisul științific este răspândit. Deoarece studiul științific este un subiect larg, teoretic există modalități nelimitate de a avea o inferență cauzală subminată fără vina unui cercetător. Cu toate acestea, rămâne îngrijorarea în rândul oamenilor de știință că un număr mare de cercetători nu îndeplinesc sarcini de bază sau practică metode suficient de diverse în inferența cauzală.

Un exemplu important de metodologie comună non-cauzală este asumarea eronată a proprietăților corelative ca proprietăți cauzale. Nu există nicio cauzalitate inerentă în fenomenona care să se coreleze. Modelele de regresie sunt concepute pentru a măsura varianța în cadrul datelor în raport cu un model teoretic: nu există nimic care să sugereze că datele care prezintă niveluri ridicate de covarianță au o relație semnificativă (absent un mecanism cauzal propus cu proprietăți predictive sau o atribuire aleatorie a tratamentului). S-a pretins că utilizarea metodologiei defectuoase este larg răspândită, exemplele obișnuite de astfel de malpraxis fiind utilizarea excesivă a modelelor corelative, în special utilizarea excesivă a modelelor de regresie și în special a modelelor de regresie liniară. Presupoziția că două fenomene corelate sunt legate în mod inerent este o eroare logică cunoscută sub numele de corelație falsă . Unii oameni de știință sociali susțin că utilizarea pe scară largă a metodologiei care atribuie cauzalitatea corelațiilor false a fost în detrimentul integrității științelor sociale, deși au fost observate îmbunătățiri care rezultă din metodologii mai bune.

Un efect potențial al studiilor științifice care combină în mod eronat corelația cu cauzalitatea este creșterea numărului de descoperiri științifice ale căror rezultate nu sunt reproductibile de către terți. O astfel de nereproductibilitate este o consecință logică a constatării că corelația este suprageneralizată doar temporar în mecanisme care nu au nicio relație inerentă, în care datele noi nu conțin corelațiile anterioare, idiosincratice ale datelor originale. Dezbaterile despre efectul malpraxisului versus efectul dificultăților inerente de căutare a cauzalității sunt în curs. Criticii metodologiilor practicate pe scară largă susțin că cercetătorii au angajat manipulări statistice în publicarea articolelor care se presupune că demonstrează dovezi ale cauzalității, dar sunt de fapt exemple de corelație falsă care sunt susținute ca dovezi ale cauzalității: astfel de eforturi pot fi denumite P hacking . Pentru a preveni acest lucru, unii au susținut că cercetătorii își preînregistrează proiectele de cercetare înainte de a efectua studiile lor, astfel încât să nu sublinieze în mod accidental o constatare nereproductibilă care nu a fost subiectul inițial al anchetei, dar sa dovedit a fi statistic semnificativă în timpul analizei datelor.

Vezi si

Referințe

Bibliografie

linkuri externe