Teoria răspunsului articolului - Item response theory

În psihometrie , teoria răspunsului item ( IRT ) ( de asemenea , cunoscut sub numele de teoria latentă trăsătură , teoria puternică scor adevărată , sau teoria modernă de testare mentală ) este o paradigmă pentru proiectarea, analiza și notarea testelor , chestionare și instrumente similare de măsurare abilități, atitudini sau alte variabile. Este o teorie a testării bazată pe relația dintre performanțele indivizilor pe un element de testare și nivelurile de performanță ale participanților la testare pe o măsură generală a capacității pe care elementul a fost conceput să o măsoare. Sunt folosite mai multe modele statistice diferite pentru a reprezenta atât caracteristicile elementului, cât și ale testatorului. Spre deosebire de alternativele mai simple pentru crearea unor scale și evaluarea răspunsurilor la chestionar, nu presupune că fiecare articol este la fel de dificil. Acest lucru distinge IRT de, de exemplu, scalarea Likert , în care Se presupune că toate articolele sunt replici reciproce sau cu alte cuvinte, articolele sunt considerate instrumente paralele” (p. 197). În schimb, teoria răspunsului articolului tratează dificultatea fiecărui element (curbele caracteristice articolelor sau ICC-uri ) ca informații care trebuie încorporate în elementele de scalare.

Se bazează pe aplicarea modelelor matematice aferente testării datelor . Deoarece este adesea considerat superior teoriei testelor clasice , este metoda preferată pentru dezvoltarea scalei în Statele Unite, mai ales atunci când sunt solicitate decizii optime, ca în așa-numitele teste cu miză mare , de exemplu, examenul de înregistrare absolvent (GRE ) și testul de admitere în managementul absolvenților (GMAT).

Teoria răspunsului la denumirea articolului se datorează focalizării teoriei asupra articolului, spre deosebire de concentrarea la nivel de test a teoriei testului clasic. Astfel, IRT modelează răspunsul fiecărui examinator al unei abilități date la fiecare element din test. Termenul de articol este generic, acoperind tot felul de articole informative. Acestea ar putea fi întrebări cu alegere multiplă care au răspunsuri incorecte și corecte, dar sunt, de asemenea, în mod obișnuit afirmații pe chestionare care permit respondenților să indice nivelul de acord (o evaluare sau o scală Likert ), sau simptomele pacienților notate ca prezente / absente sau informații diagnostice în complexe. sisteme.

IRT se bazează pe ideea că probabilitatea unui răspuns corect / tastat la un articol este o funcție matematică a parametrilor persoanei și articolului . (Expresia „o funcție matematică a parametrilor persoanei și articolelor” este analogă ecuației lui Kurt Lewin B = f (P, E) , care afirmă că comportamentul este o funcție a persoanei din mediul lor.) Parametrul persoană este interpretat ca ( de obicei) o singură trăsătură sau dimensiune latentă. Exemplele includ inteligența generală sau forța unei atitudini. Parametrii pe care sunt caracterizați elementele includ dificultatea lor (cunoscută sub numele de „locație” pentru locația lor pe intervalul de dificultate); discriminare (panta sau corelație), reprezentând cât de abrupt variază rata de succes a indivizilor în funcție de capacitatea lor; și un parametru de pseudoguiziune, care caracterizează asimptota (inferioară) la care vor înscrie chiar și persoanele mai puțin capabile datorită ghicirii (de exemplu, 25% pentru șansa pură la un articol cu ​​alegere multiplă cu patru răspunsuri posibile).

În același mod, IRT poate fi utilizat pentru a măsura comportamentul uman în rețelele sociale online. Opiniile exprimate de diferite persoane pot fi agregate pentru a fi studiate folosind IRT. A fost evaluată și utilizarea sa în clasificarea informațiilor ca dezinformare sau informații adevărate.

Prezentare generală

Conceptul funcției de răspuns la articol a fost în jurul valorii de înainte de 1950. Lucrarea de pionierat a IRT ca teorie a avut loc în anii 1950 și 1960. Trei dintre pionieri au fost psihometrul Serviciului de Testare Educațională Frederic M. Lord , matematicianul danez Georg Rasch și sociologul austriac Paul Lazarsfeld , care au urmărit cercetări paralele în mod independent. Cifrele cheie care au promovat progresul IRT includ Benjamin Drake Wright și David Andrich . IRT nu a fost utilizat pe scară largă până la sfârșitul anilor 1970 și 1980, când practicienilor li s-a spus „utilitatea” și „avantajele” IRT pe de o parte, iar computerele personale au oferit multor cercetători acces la puterea de calcul necesară pentru IRT, pe de altă parte.

Printre altele, scopul IRT este de a oferi un cadru pentru evaluarea modului în care funcționează evaluările și a funcționării elementelor individuale ale evaluărilor. Cea mai obișnuită aplicație a IRT este în educație, unde psihometricienii îl folosesc pentru dezvoltarea și proiectarea examenelor , menținerea unor banci de articole pentru examene și echivalarea dificultăților articolelor pentru versiunile succesive ale examenelor (de exemplu, pentru a permite comparații între rezultate în timp) .

Modelele IRT sunt adesea denumite modele de trăsături latente . Termenul latent este folosit pentru a sublinia faptul că răspunsurile discrete ale articolelor sunt considerate manifestări observabile ale trăsăturilor ipotetizate, constructelor sau atributelor, care nu sunt observate direct, dar care trebuie deduse din răspunsurile manifeste. Modelele de trăsături latente au fost dezvoltate în domeniul sociologiei, dar sunt practic identice cu modelele IRT.

IRT este, în general, revendicat ca o îmbunătățire față de teoria testelor clasice (CTT). Pentru sarcinile care pot fi realizate folosind CTT, IRT aduce în general o mai mare flexibilitate și oferă informații mai sofisticate. Unele aplicații, cum ar fi testarea adaptivă computerizată , sunt activate de IRT și nu pot fi efectuate în mod rezonabil folosind doar teoria testelor clasice. Un alt avantaj al IRT față de CTT este că informațiile mai sofisticate pe care le oferă IRT permit unui cercetător să îmbunătățească fiabilitatea unei evaluări.

IRT implică trei ipoteze:

  1. O trăsătură unidimensională notată de  ;
  2. Independența locală a articolelor;
  3. Răspunsul unei persoane la un articol poate fi modelat printr-o funcție matematică de răspuns la articol (IRF).

Trăsătura este, de asemenea, presupusă a fi măsurabilă pe o scară (simpla existență a unui test presupune acest lucru), setată de obicei la o scară standard cu o medie de 0,0 și o deviație standard de 1,0. Unidimensionalitatea ar trebui interpretată ca omogenitate, o calitate care ar trebui definită sau demonstrată empiric în raport cu un anumit scop sau utilizare, dar nu o cantitate care poate fi măsurată. „Independență locală” înseamnă (a) că șansa utilizării unui articol nu este legată de utilizarea altor articole și (b) că răspunsul la un articol este fiecare decizie independentă a testatorului, adică nu există înșelăciune sau pereche sau lucru în grup. Subiectul dimensionalității este adesea investigat cu analiza factorială , în timp ce IRF este elementul de bază al IRT și este centrul multor cercetări și literatură.

Funcția de răspuns articol

IRF oferă probabilitatea ca o persoană cu un anumit nivel de capacitate să răspundă corect. Persoanele cu abilități mai mici au mai puține șanse, în timp ce persoanele cu abilități mari sunt foarte susceptibile să răspundă corect; de exemplu, elevii cu abilități matematice mai mari sunt mai predispuși să obțină un articol matematic corect. Valoarea exactă a probabilității depinde, pe lângă capacitate, de un set de parametri de element pentru IRF.

Model logistic cu trei parametri

Figura 1: Exemplu de IRF 3PL, cu linii punctate suprapuse pentru a demonstra parametrii.

De exemplu, în modelul logistic cu trei parametri ( 3PL ), probabilitatea unui răspuns corect la un element dicotomic i , de obicei o întrebare cu alegere multiplă, este:

unde indică faptul că abilitățile persoanei sunt modelate ca un eșantion dintr-o distribuție normală în scopul estimării parametrilor articolului. După ce parametrii articolului au fost evaluați, abilitățile persoanelor individuale sunt estimate în scopul raportării. , și sunt parametrii elementului. Parametrii articolului determină forma IRF. Figura 1 ilustrează un ICC 3PL ideal.

Parametrii articolului pot fi interpretați ca schimbând forma funcției logistice standard :

Pe scurt, parametrii sunt interpretați după cum urmează (renunțarea la indicii pentru lizibilitate); b este cel mai de bază, deci listat mai întâi:

  • b - dificultate, localizarea articolului: punctul la jumătatea distanței dintre (min) și 1 (max), de asemenea, unde panta este maximizată.
  • a - discriminare, scară, pantă: panta maximă
  • c - pseudo-ghicire, întâmplare, minim asimptotic

Dacă atunci acestea simplifică și înseamnă că b este egal cu nivelul de succes de 50% (dificultate), iar a (împărțit la patru) este panta maximă (discriminare), care apare la nivelul de succes de 50%. Mai mult, logitul (log cotele ) unui răspuns corect este (presupunând ): în special dacă abilitatea θ este egală cu dificultatea b, există chiar șanse (1: 1, deci logit 0) ale unui răspuns corect, cu atât abilitatea este mai mare (sau mai jos) dificultatea mai mult (sau mai puțin) , probabil un răspuns corect, cu discriminarea de a determina cât de rapid crește sau descrește cu capacitatea de cote.

Cu alte cuvinte, funcția logistică standard , are un minim asimptotic de 0 ( ), este centrat în jurul 0 ( , ) și are panta maximă Parametrul se întinde scara orizontală, la schimbările parametrilor scala orizontala, iar compresele scara verticală de la Acest lucru este elaborat mai jos.

Parametrul reprezintă locația articolului care, în cazul testării de realizare, este denumită dificultatea articolului. Este punctul în care IRF are panta maximă și unde valoarea este la jumătatea distanței dintre valoarea minimă și valoarea maximă de 1. Elementul de exemplu este de dificultate medie, deoarece = 0,0, care este aproape de centrul distributia. Rețineți că acest model scalează dificultatea elementului și trăsătura persoanei pe același continuum. Astfel, este valabil să vorbim despre un articol care este la fel de dur ca nivelul trăsăturii Persoanei A sau despre nivelul trăsăturii unei persoane cam la fel cu dificultatea Itemului Y, în sensul că efectuarea cu succes a sarcinii implicate cu un articol reflectă un anumit nivelul de abilitate.

Parametrul articolului reprezintă discriminarea articolului: adică gradul în care elementul discriminează între persoane din diferite regiuni pe continuumul latent. Acest parametru caracterizează panta IRF unde panta este la maxim. Elementul de exemplu are = 1.0, ceea ce discriminează destul de bine; persoanele cu abilități reduse au într-adevăr o șansă mult mai mică de a răspunde corect decât persoanele cu abilități superioare. Acest parametru de discriminare corespunde coeficientului de ponderare al articolului sau indicatorului respectiv într-o regresie liniară ponderată standard (Ordinary Least Squares, OLS ) și, prin urmare, poate fi utilizat pentru a crea un indice ponderat al indicatorilor pentru măsurarea nesupravegheată a unui concept latent subiacent.

Pentru elementele cum ar fi articolele cu alegere multiplă , parametrul este utilizat pentru a explica efectele ghicirii asupra probabilității unui răspuns corect. Indică probabilitatea ca indivizii cu capacitate foarte mică să obțină acest articol corect din întâmplare, reprezentat matematic ca o asimptotă mai mică . Un articol cu ​​opțiuni multiple cu patru opțiuni ar putea avea un IRF ca articolul de exemplu; există 1/4 șanse ca un candidat cu capacitate extrem de scăzută să ghicească răspunsul corect, deci ar fi aproximativ 0,25. Această abordare presupune că toate opțiunile sunt la fel de plauzibile, deoarece dacă o opțiune nu ar avea niciun sens, chiar și persoana cu cea mai mică capacitate ar putea să o elimine, astfel încât metodele de estimare a parametrilor IRT iau în considerare acest lucru și estimează o pe baza datelor observate.

Modele IRT

În linii mari, modelele IRT pot fi împărțite în două familii: unidimensional și multidimensional. Modelele unidimensionale necesită o singură dimensiune a trăsăturii (capacității) . Modelele IRT multidimensionale modelează datele de răspuns ipotezate să apară din mai multe trăsături. Cu toate acestea, din cauza complexității mult crescute, majoritatea cercetărilor și aplicațiilor IRT utilizează un model unidimensional.

Modelele IRT pot fi, de asemenea, clasificate pe baza numărului de răspunsuri marcate. Elementul tipic cu alegere multiplă este dihotomic ; chiar dacă pot exista patru sau cinci opțiuni, este totuși marcat doar ca corect / incorect (corect / greșit). O altă clasă de modele se aplică rezultatelor politomice , în care fiecare răspuns are o valoare a scorului diferită. Un exemplu obișnuit în acest sens sunt elementele de tip Likert , de exemplu, „Rata pe o scară de la 1 la 5.”

Numărul de parametri IRT

Modelele IRT dicotomice sunt descrise prin numărul de parametri pe care îi folosesc. 3PL este denumit astfel deoarece folosește trei parametri de articol. Modelul cu doi parametri (2PL) presupune că datele nu presupun, dar că elementele pot varia în ceea ce privește locația ( ) și discriminarea ( ). Modelul cu un singur parametru (1PL) presupune că ghicitul este o parte a abilității și că toate articolele care se potrivesc modelului au discriminări echivalente, astfel încât articolele sunt descrise doar de un singur parametru ( ). Acest lucru are ca rezultat modele cu un singur parametru care au proprietatea obiectivității specifice, ceea ce înseamnă că rangul dificultății articolului este același pentru toți respondenții independenți de abilitate și că rangul abilității persoanei este același pentru itemii independenți de dificultate. Astfel, modelele cu 1 parametru sunt independente de eșantion, o proprietate care nu este valabilă pentru modelele cu doi parametri și cu trei parametri. În plus, există teoretic un model cu patru parametri (4PL), cu o asimptotă superioară , notată cu unde în 3PL este înlocuit cu . Cu toate acestea, acest lucru este rar folosit. Rețineți că ordinea alfabetică a parametrilor articolului nu corespunde importanței lor practice sau psihometrice; parametrul locație / dificultate ( ) este în mod clar cel mai important, deoarece este inclus în toate cele trei modele. 1PL utilizează numai , 2PL utilizează și , 3PL adaugă , și 4PL adaugă .

2PL este echivalent cu modelul 3PL cu și este adecvat pentru testarea articolelor în care ghicirea răspunsului corect este foarte puțin probabilă, cum ar fi articolele completate („Care este rădăcina pătrată a lui 121?”) Sau unde conceptul de ghicire nu se aplică, cum ar fi personalitatea, atitudinea sau articolele de interes (de exemplu, „Îmi plac piesele muzicale de pe Broadway. Sunt de acord / nu sunt de acord”).

1PL presupune nu numai că ghicirea nu este prezentă (sau irelevantă), ci că toate articolele sunt echivalente din punct de vedere al discriminării, analog unei analize comune a factorilor cu încărcări identice pentru toate articolele. Elementele individuale sau indivizii ar putea avea factori secundari, dar se presupune că sunt independenți reciproc și colectiv ortogonali .

Modele logistice și normale de IRT

O formulare alternativă construiește IRF pe baza distribuției probabilității normale; acestea sunt uneori numite modele ogive normale . De exemplu, formula pentru un IRF cu doi parametri normal-ogiv este:

unde Φ este funcția de distribuție cumulativă (CDF) a distribuției normale standard.

Modelul normal-ogival derivă din presupunerea unei erori de măsurare distribuite în mod normal și este teoretic atrăgător pe această bază. Iată , din nou, parametrul de dificultate. Parametrul de discriminare este , abaterea standard a erorii de măsurare pentru articolul i și comparabil cu 1 / .

Se poate estima un model de trăsături latente normal-ogive analizând factorul o matrice de corelații tetracorice între itemi. Aceasta înseamnă că este posibil din punct de vedere tehnic să estimați un model IRT simplu folosind software-uri statistice de uz general.

Cu redimensionarea parametrului de abilitate, este posibil să se facă modelul logistic 2PL să se apropie îndeaproape de ogiva normală cumulativă . De obicei, 2F IR logistic și normal-ogive diferă în probabilitate cu nu mai mult de 0,01 în întreaga gamă a funcției. Cu toate acestea, diferența este mai mare în cozile de distribuție, care tind să aibă o influență mai mare asupra rezultatelor.

Trăsătura latentă / modelul IRT a fost inițial dezvoltat folosind ogive normale, dar acest lucru a fost considerat prea solicitant din punct de vedere calculațional pentru computerele de atunci (anii 1960). Modelul logistic a fost propus ca o alternativă mai simplă și de atunci s-a bucurat de o largă utilizare. Mai recent, totuși, s-a demonstrat că, folosind aproximări polinomiale standard la CDF normal , modelul normal-ogivar nu este mai solicitant din punct de vedere al calculului decât modelele logistice.

Modelul Rasch

Modelul Rasch este adesea considerat a fi modelul 1PL IRT. Cu toate acestea, susținătorii modelării Rasch preferă să o vadă ca o abordare complet diferită a conceptualizării relației dintre date și teorie. Ca și alte abordări de modelare statistică, IRT subliniază primatul adaptării unui model la datele observate, în timp ce modelul Rasch subliniază primatul cerințelor pentru măsurarea fundamentală, potrivirea adecvată a modelului de date fiind o cerință importantă, dar secundară, care trebuie îndeplinită înainte un instrument de testare sau de cercetare poate fi revendicat pentru a măsura o trăsătură. Din punct de vedere operațional, aceasta înseamnă că abordările IRT includ parametri suplimentari ai modelului pentru a reflecta tiparele observate în date (de exemplu, permițând articolelor să varieze în corelația lor cu trăsătura latentă), în timp ce în abordarea Rasch, se afirmă cu privire la prezența unei trăsături latente pot fi considerate valabile numai atunci când ambele (a) datele se potrivesc modelului Rasch și (b) articolele de testare și examinatorii se conformează modelului. Prin urmare, în cadrul modelelor Rasch, răspunsurile nepotrivite necesită diagnosticarea motivului inadaptării și pot fi excluse din setul de date dacă se poate explica în mod substanțial de ce nu abordează trăsătura latentă. Astfel, abordarea Rasch poate fi văzută a fi o abordare de confirmare, spre deosebire de abordările exploratorii care încearcă să modeleze datele observate.

Prezența sau absența unui parametru de ghicire sau pseudo-șansă este o distincție majoră și uneori controversată. Abordarea IRT include un parametru de asimptotă din stânga pentru a explica ghicirea în examinările cu alegere multiplă , în timp ce modelul Rasch nu, deoarece se presupune că ghicirea adaugă zgomot distribuit aleatoriu la date. Deoarece zgomotul este distribuit aleatoriu, se presupune că, cu condiția testării unor elemente suficiente, ordonarea în ordine a persoanelor de-a lungul trăsăturii latente prin scor brut nu se va schimba, ci va suferi pur și simplu o redimensionare liniară. În schimb, IRT cu trei parametri realizează potrivirea modelului de date prin selectarea unui model care se potrivește datelor, în detrimentul sacrificării obiectivității specifice .

În practică, modelul Rasch are cel puțin două avantaje principale în comparație cu abordarea IRT. Primul avantaj este primatul cerințelor specifice ale lui Rasch, care (atunci când sunt îndeplinite) oferă măsurători fundamentale fără persoane (unde persoanele și obiectele pot fi mapate pe aceeași scară invariantă). Un alt avantaj al abordării Rasch este că estimarea parametrilor este mai simplă în modelele Rasch datorită prezenței unor statistici suficiente, ceea ce în această aplicație înseamnă o mapare unu-la-unu a scorurilor corecte ale numărului brut la estimările Rasch .

Analiza potrivirii modelului

Ca și în cazul oricărei utilizări a modelelor matematice, este important să se evalueze adaptarea datelor la model. În cazul în care obiectul necorespunzător cu orice model este diagnosticat ca urmare a calității slabe a articolului, de exemplu, distrăgătorii de confuzie într-un test cu alegere multiplă, atunci articolele pot fi eliminate din acel formular de testare și rescrise sau înlocuite în formularele de testare viitoare. Cu toate acestea, dacă există un număr mare de articole necorespunzătoare fără niciun motiv aparent al inadecvării, validitatea constructivă a testului va trebui să fie reconsiderată și specificațiile testului ar putea fi necesar să fie rescrise. Astfel, inadaptarea oferă instrumente de diagnostic neprețuite dezvoltatorilor de teste, permițând ipotezelor pe care se bazează specificațiile testelor să fie testate empiric în raport cu datele.

Există mai multe metode pentru evaluarea potrivirii, cum ar fi o statistică Chi-pătrat sau o versiune standardizată a acesteia. Modelele IRT cu doi și trei parametri ajustează discriminarea articolelor, asigurând o potrivire îmbunătățită a modelului de date, astfel încât statisticile de potrivire nu au valoarea de confirmare a diagnosticului găsită în modelele cu un singur parametru, unde modelul idealizat este specificat în prealabil.

Datele nu ar trebui să fie eliminate pe baza inadecvării modelului, ci mai degrabă pentru că a fost diagnosticat un motiv relevant de construcție pentru inadecvat, cum ar fi un vorbitor non-nativ de engleză care susține un test științific scris în engleză. Un astfel de candidat poate fi susținut că nu aparține aceleiași populații de persoane în funcție de dimensionalitatea testului și, deși se consideră că un parametru al măsurilor IRT este independent de eșantion, acestea nu sunt independente de populație, deci este inadecvat ca acesta este construi relevante și nu invalidează testul sau modelul. O astfel de abordare este un instrument esențial în validarea instrumentelor. În modelele cu doi și trei parametri, în care modelul psihometric este ajustat pentru a se potrivi datelor, administrările viitoare ale testului trebuie verificate pentru a se potrivi cu același model utilizat în validarea inițială pentru a confirma ipoteza că scorurile de la fiecare administrație generalizează către alte administrații. Dacă se specifică un model diferit pentru fiecare administrație pentru a obține potrivirea modelului de date, atunci se măsoară o trăsătură latentă diferită și nu se poate argumenta că scorurile testelor sunt comparabile între administrații.

informație

Una dintre contribuțiile majore ale teoriei răspunsului la elemente este extinderea conceptului de fiabilitate . În mod tradițional, fiabilitatea se referă la precizia măsurătorii (de exemplu, gradul în care măsurarea nu prezintă erori). În mod tradițional, se măsoară folosind un singur indice definit în diferite moduri, cum ar fi raportul dintre varianța scorului adevărat și observat. Acest indice este util în caracterizarea fiabilității medii a unui test, de exemplu pentru a compara două teste. Dar IRT arată clar că precizia nu este uniformă pe întreaga gamă de scoruri ale testelor. Scorurile de la marginile intervalului testului, de exemplu, au în general mai multe erori asociate decât scorurile mai apropiate de mijlocul intervalului.

Teoria răspunsului articolului avansează conceptul de articol și informații de testare pentru a înlocui fiabilitatea. Informația este, de asemenea, o funcție a parametrilor modelului. De exemplu, conform teoriei informației Fisher, informațiile despre articol furnizate în cazul 1PL pentru datele de răspuns dihotomice sunt pur și simplu probabilitatea unui răspuns corect multiplicat cu probabilitatea unui răspuns incorect sau,

Eroarea standard de estimare (SE) este reciproca a informațiilor de testare de la un nivel de trasatura dat, este

Astfel, mai multe informații implică mai puține erori de măsurare.

Pentru alte modele, cum ar fi modelele cu doi și trei parametri, parametrul de discriminare joacă un rol important în funcție. Funcția de informare a articolului pentru modelul cu doi parametri este

Funcția de informare a articolului pentru modelul cu trei parametri este

În general, funcțiile de informare a articolelor tind să arate în formă de clopot. Elementele extrem de discriminante au funcții de informare înalte și înguste; contribuie foarte mult, dar într-o gamă îngustă. Articolele mai puțin discriminante oferă mai puține informații, dar într-o gamă mai largă.

Graficele de informații despre articol pot fi folosite pentru a vedea cât de multe informații contribuie un articol și la ce porțiune din gama de scoruri a scalei. Datorită independenței locale, funcțiile de informare a articolelor sunt aditive . Astfel, funcția de informare a testului este pur și simplu suma funcțiilor de informare a articolelor de la examen. Folosind această proprietate cu o bancă mare de articole, funcțiile de informații de testare pot fi modelate pentru a controla foarte precis erorile de măsurare .

Caracterizarea acurateței scorurilor testelor este probabil problema centrală în teoria psihometrică și este o diferență principală între IRT și CTT. Constatările IRT arată că conceptul CTT de fiabilitate este o simplificare. În locul fiabilității, IRT oferă funcția de informații de testare care arată gradul de precizie la diferite valori ale theta, θ.

Aceste rezultate permit psihometricienilor să modeleze (potențial) cu atenție nivelul de fiabilitate pentru diferite game de abilități, incluzând elemente alese cu atenție. De exemplu, într-o situație de certificare în care un test poate fi trecut sau eșuat doar, în care există doar un singur „scor de scor”, și în care scorul de trecere efectiv este lipsit de importanță, un test foarte eficient poate fi dezvoltat selectând numai elemente care au informații ridicate în apropierea scorului de reducere. Aceste articole corespund, în general, articolelor a căror dificultate este aproximativ aceeași cu cea a scorului de reducere.

Scor

Parametrul persoană reprezintă magnitudinea trăsăturii latente a individului, care este capacitatea sau atributul uman măsurat prin test. Ar putea fi o abilitate cognitivă, abilitate fizică, abilitate, cunoaștere, atitudine, caracteristică a personalității etc.

Estimarea parametrului persoană - „scorul” la un test cu IRT - este calculată și interpretată într-o manieră foarte diferită în comparație cu scorurile tradiționale, cum ar fi numărul sau procentul corect. Scorul total al numărului corect al individului nu este scorul real, ci se bazează mai degrabă pe IRF-uri, ducând la un scor ponderat atunci când modelul conține parametri de discriminare a articolelor. Acesta este , de fapt obținută prin înmulțirea funcției de răspuns element pentru fiecare element pentru a obține o funcție probabilitate , dintre care cel mai înalt punct este probabilitate maximă estimată a . Acest punct cel mai înalt este de obicei estimat cu software-ul IRT utilizând metoda Newton – Raphson . În timp ce scorul este mult mai sofisticat cu IRT, pentru majoritatea testelor, corelația dintre estimarea theta și un scor tradițional este foarte mare; de multe ori este 0,95 sau mai mult. Un grafic al scorurilor IRT față de scorurile tradiționale arată o formă ogivală care implică faptul că IRT estimează indivizi separați la marginile intervalului mai mult decât în ​​mijloc.

O diferență importantă între CTT și IRT este tratarea erorii de măsurare, indexată de eroarea standard de măsurare . Toate testele, chestionarele și inventarele sunt instrumente imprecise; nu putem cunoaște niciodată scorul adevărat al unei persoane , ci mai degrabă avem doar o estimare, scorul observat. Există o anumită cantitate de eroare aleatorie care poate împinge scorul observat mai mare sau mai mic decât scorul real. CTT presupune că valoarea erorii este aceeași pentru fiecare examinat, dar IRT îi permite să varieze.

De asemenea, nimic despre IRT nu respinge dezvoltarea sau îmbunătățirea umană sau presupune că un nivel de trăsătură este fix. O persoană poate învăța abilități, cunoștințe sau chiar așa-numitele „abilități de testare” care se pot traduce într-un scor real mai mare. De fapt, o parte din cercetarea IRT se concentrează pe măsurarea schimbării nivelului trăsăturilor.

O comparație a teoriilor clasice și a răspunsului la elemente

Teoria testelor clasice (CTT) și IRT sunt în mare parte preocupate de aceleași probleme, dar sunt corpuri teoretice diferite și implică metode diferite. Deși cele două paradigme sunt în general consistente și complementare, există o serie de puncte de diferență:

  • IRT face presupuneri mai puternice decât CTT și, în multe cazuri, oferă concluzii mai puternice în mod corespunzător; în primul rând, caracterizările erorii. Desigur, aceste rezultate sunt valabile numai atunci când sunt îndeplinite de fapt ipotezele modelelor IRT.
  • Deși rezultatele CTT au permis rezultate practice importante, natura bazată pe model a IRT oferă multe avantaje față de descoperirile CTT analoage.
  • Procedurile de notare a testelor CTT au avantajul de a fi simple de calculat (și de explicat), în timp ce notarea IRT necesită în general proceduri de estimare relativ complexe.
  • IRT oferă mai multe îmbunătățiri în scalarea articolelor și a persoanelor. Specificul depinde de modelul IRT, dar majoritatea modelelor scalează dificultatea articolelor și capacitatea oamenilor din aceeași valoare. Astfel, dificultatea unui articol și capacitatea unei persoane pot fi comparate în mod semnificativ.
  • O altă îmbunătățire oferită de IRT este că parametrii modelelor IRT nu sunt, în general, dependenți de eșantion sau test, în timp ce scorul adevărat este definit în CTT în contextul unui test specific. Astfel, IRT oferă o flexibilitate semnificativ mai mare în situațiile în care sunt utilizate diferite eșantioane sau forme de testare. Aceste descoperiri IRT sunt fundamentale pentru testarea adaptivă computerizată.

Merită menționate și câteva asemănări specifice între CTT și IRT care ajută la înțelegerea corespondenței dintre concepte. În primul rând, Lord a arătat că, în ipoteza care este distribuită în mod normal, discriminarea în modelul 2PL este aproximativ o funcție monotonă a corelației punct-biseriale . În special:

unde este corelația punctuală biserială a itemului i . Astfel, dacă presupunerea se menține, acolo unde există o discriminare mai mare, va exista în general o corelație punct-biserială mai mare.

O altă similitudine este că, deși IRT prevede o eroare standard a fiecărei estimări și o funcție de informație, este, de asemenea, posibil să se obțină un indice pentru un test în ansamblu, care este direct analog cu alfa lui Cronbach , numit indicele de separare . Pentru a face acest lucru, este necesar să începeți cu o descompunere a unei estimări IRT într-o locație și eroare adevărate, analog cu descompunerea unui scor observat într-un scor real și eroare în CTT. Lăsa

unde este locația adevărată și este asocierea erorii cu o estimare. Apoi este o estimare a deviației standard a pentru persoana cu un scor ponderat dat și indicele de separare se obține după cum urmează

unde eroarea standard pătrată medie a estimării persoanei oferă o estimare a varianței erorilor ,, între persoane. Erorile standard sunt produse în mod normal ca un produs secundar al procesului de estimare. Indicele de separare este de obicei foarte apropiat ca valoare de alfa Cronbach.

IRT este uneori numită teoria puternică a scorului adevărat sau teoria modernă a testelor mentale, deoarece este un corp de teorie mai recent și face mai explicite ipotezele implicite în cadrul CTT.

Vezi si

Referințe

Lecturi suplimentare

Au fost scrise multe cărți care abordează teoria răspunsului la articol sau conțin modele IRT sau IRT. Aceasta este o listă parțială, care se concentrează pe texte care oferă mai multă profunzime.

  • Lord, FM (1980). Aplicații ale teoriei răspunsului articolelor la problemele practice de testare. Mahwah, NJ: Erlbaum.
Această carte rezumă o mare parte din lucrarea lui Lord's IRT, inclusiv capitole despre relația dintre IRT și metodele clasice, fundamentele IRT, estimarea și mai multe subiecte avansate. Capitolul său de estimare este acum datat prin faptul că discută în primul rând metoda comună a probabilității maxime mai degrabă decât metoda marginală a probabilității maxime implementată de Darrell Bock și colegii săi.
Această carte este o introducere accesibilă la IRT, care vizează, după cum se spune în titlu, psihologii.
  • Baker, Frank (2001). Bazele teoriei răspunsului la elemente. ERIC Clearinghouse on Assessment and Evaluation, Universitatea din Maryland, College Park, MD.
Această carte introductivă este de unul dintre pionierii în domeniu și este disponibilă online la [1]
Această carte descrie diverse modele de teorie a răspunsului la articole și oferă explicații detaliate ale algoritmilor care pot fi utilizați pentru a estima parametrii elementului și capacității. Porțiuni din carte sunt disponibile online ca previzualizare limitată la Google Cărți .
Această carte oferă o prezentare cuprinzătoare a diferitelor modele populare de IRT. Este potrivit pentru persoanele care au dobândit deja o înțelegere de bază a IRT.
Acest volum prezintă o introducere integrată la modelele de răspuns la articole, destinate în principal practicienilor, cercetătorilor și studenților absolvenți.
Această carte discută despre abordarea bayesiană către modelarea răspunsului la elemente. Cartea va fi utilă pentru persoanele (care sunt familiarizate cu IRT) cu interes în analiza datelor de răspuns la articol dintr-o perspectivă bayesiană.

linkuri externe