Korr exp(θ−σ) P 3PL P2PL Erw 1 exp(θ−σ) x t e Erw v Item … · · 2017-02-28tv=erw (xv)...

Item-Response-Theorie: Rasch-ModellZum Vergleich: Die Klassische Testtheorie (KTT)

Didaktik der Physik

physik.upb.de/ag/ag-reinhold

P=exp(θ−σ)

1+exp(θ−σ)P 2PL=exp(β(θ−σ))

1+exp(β(θ−σ))

P3PL=γ+(1−γ)exp(β(θ−σ))

1+exp(β(θ−σ))xv=t v+evErw (∑v

ev )=0 t v=Erw (xv)

Korr (ev , t v)=0

Idee und Messprinzip

Testergebnis z.B. Punktzahl„Wahrer Wert“ z.B. IntelligenzMessfehler z.B. Müdigkeit

xv=t v+evVoraussetzungen

● Messfehler muss vollkommen zufällig sein, d.h. nicht mit anderen Größen korrelieren. Dann gilt:

xvt vev

Probleme

● Häufig keine zufällige Messfehler (Korrelation)● Kein Umgang mit fehlenden Werten möglich● Keine verallgemeinerbare Personenfähigkeit● Keine intervallskalierten Testwerte

Das Rasch-Modell (1PL) als Messmodell der Item-Response-TheorieIdee und Messprinzip

Manifestes Verhalten (Antwort) wird durch latente Variablen bestimmt:

Wahrscheinlichkeit für richtige LösungFähigkeit des ProbandenSchwierigkeit der Aufgabe

Voraussetzungen

● Lösungswahrscheinlichkeit muss sich in guter Näherung verhalten wie

● Vernachlässigbare Ratewahrscheinlichkeit● Gleiche Trennschärfe für alle Aufgaben● Große Varianz bei Probanden und Aufgaben

Probleme

● Hohe Anforderungen an Aufgabenqualität● Keine globalen Testgütekriterien

Eigenschaften des Modells

● Spezifische Objektivität (s.u. links)● Aufgaben und Personen auf einer Skala● Einfacher Umgang mit fehlenden Werten

log P1−P

=θ−σ

Pθσ

P=exp(θ−σ)

1+exp(θ−σ)

t v=Erw (xv)

Itemcharakteristik Wright-Map

+−−−−+−−−−−−−−−−−−−−−−−−+−−−−−−−−−−−+| 2 | X = 1 Proband | Aufgaben || | X| || | | || | X| || | X| || | XX| || | XX| || | X| 3 || | XXXX| || | XXX| || | XXXXX| || 1 | XXXXXX| || | XXXXXXX| 6 || | XXXXXXXXXX| 1 || | XXXXXXXXX| || | XXXXXXXXX| || | XXXXXXXXXXX| 2 || | XXXXXXXXXXXXX| || | XXXXXXXXXXXX| || | XXXXXXXXXXXXXXXX| 16 || | XXXXXXXXXXXXX| || | XXXXXXXXXXXXXXXXX| 18 || 0 | XXXXXXXXXXXX| 10 || | XXXXXXXXXXXXXXX| || | XXXXXXXXXXXXXXXX| || | XXXXXXXXXXXXXXXX| || | XXXXXXXXXXX| || | XXXXXXXXXXXX| 11 || | XXXXXXXX| || | XXXXXX| 4 12 || | XXXX| 15 || | XXXXXXXXX| || -1 | XXXX| || | XXXX| 5 13 17 || | XXX| 7 || | XXXXXX| || | X| || | X| 14 || | XXXX| || | XX| 9 || | | || | | || | | || -2 | | 8 |+−−−−+−−−−−−−−−−−−−−−−−−+−−−−−−−−−−−+

-4 -3 -2 -1 0 1 2 3 40,0

0,5

1,0

Fähigkeit des Probandenθ

Lösu

ngsw

ahrs

chei

nli

chke

it P

Aufgabe 1

Aufgabe 2

Aufgabe 3

Aufgabe 4

Aufgabe 5

Aufgabe 6

Aufgabe 7

In dieser Darstellung wird die Lösungswahrscheinlichkeit als Funktion der Fähigkeit des Probanden aufgetragen. (Formel im Kasten oben.)

Die Kurven von leichteren Aufgaben liegen links, von schwierigeren rechts.

Fähigkeit θ der Probanden und Schwierigkeit σ der Aufgaben

sind intervallskalierte, dimensionslose Größen.

Am Schnittpunkt mit der 50%-Linie lässt sich die Aufgaben-schwierigkeit (hier σ1=−3) ablesen.

Spezifische Objektivität: Die Reihung der Aufgaben nach Schwierigkeit ist unabhängig von der Fähigkeit der

Probanden. Die Kurven schneiden sich nicht.Damit sind Aussagen über die Fähigkeiten unabhängig

von der Aufgabenauswahl und über die Schwierigkeiten unabhängig von der Probanden-Stichprobe möglich.

Bei hohen Fähigkeiten θ nähert sich P asymptotisch 100%, bei niedrigen 0%.

Die Wright-Map stellt Probanden und Aufgaben einander gegenüber.

Aufgaben mithoher Schwierigkeit

Probanden mithoher Fähigkeit.

Dieser Test ist zu leicht, er hat zu wenige schwierige und zu viele leichte Aufgaben. Die

meisten Aufgaben sollten im Bereich mit

den meisten Probanden liegen.

Die Probanden auf dieser Linie lösen

Aufgabe 18 mit 50% Wahrscheinlichkeit.

Alle Aufgaben darunter fallen ihnen leichter, die darüber

sind schwieriger.

Aufgabe 2 wird von den Probanden

darüber mit über 50% Wahrscheinlichkeit

und von den darunter mit weniger als 50% Wahrscheinlichkeit

gelöst.

Aufgaben mitgeringer Schwierigkeit

Bei einer guten Probanden-Auswahl sollte man mit einer

Normalverteilung der Fähigkeiten rechnen.

Probanden mit geringer Fähigkeit.

Weitere IRT-ModelleDie sog. Birnbaum-Modelle führen weitere Aufgaben-Parameter ein:

Zweiparametrisch-Logistisch (2PL)Zusätzlich: Aufgaben-Diskrimination β

Dreiparametrisch-Logistisch (3PL)Zusätzlich: Ratewahrscheinlichkeit γ

Vorteil: Bessere Passung des Modells auf die gegebenen DatenNachteil: Keine spezifischen Objektivität (Interpretation schwieriger)

P3PL=γ+(1−γ)exp(β(θ−σ))

1+exp(β(θ−σ))

P2PL=exp(β(θ−σ))

1+exp(β(θ−σ))

Ausblick● Mehrdimensionalität durch mehrere latente Variablen pro Proband● Komplexe Modelle: Aufgaben laden auf mehrere Dimensionen● Mehrstufe Codierung von Aufgaben mit Partial Credit Modellen● Graded Response Modelle ermöglichen likert-ähnliche Skalen● Modellprüfung mit χ²-Test und BIC-, AIC-Vergleichen● Prüfung der Modellkonformität von Aufgaben und Personen

Bond, T.G. & Fox, C.M. (2007). Applying the Rasch model. Fundamental measurement in the human sciences. Mahwah, NJ: Lawrence Erlbaum Associates.Moosbrugger, H. (2012). Item-Response-Theorie (IRT). In: Moosbrugger, H. & Kelava, A. (Hrsg.). Testtheorie und Fragebogenkonstruktion. (2. Auflage)

Berlin, Heidelberg: Springer. S. 227–274.Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion (2., überarbeitete und erweiterte Auflage). Bern: Verlag Hans Huber.

David Woitkowski, Yvonne Gramzow

Korr exp(θ−σ) P 3PL P2PL Erw 1 exp(θ−σ) x t e Erw v Item … · · 2017-02-28tv=erw (xv)...

Documents

Transcript of Korr exp(θ−σ) P 3PL P2PL Erw 1 exp(θ−σ) x t e Erw v Item … · · 2017-02-28tv=erw (xv)...