Korr exp(θ−σ) P 3PL P2PL Erw 1 exp(θ−σ) x t e Erw v Item … · · 2017-02-28tv=erw (xv)...
Click here to load reader
Transcript of Korr exp(θ−σ) P 3PL P2PL Erw 1 exp(θ−σ) x t e Erw v Item … · · 2017-02-28tv=erw (xv)...
Item-Response-Theorie: Rasch-ModellZum Vergleich: Die Klassische Testtheorie (KTT)
Didaktik der Physik
physik.upb.de/ag/ag-reinhold
P=exp(θ−σ)
1+exp(θ−σ)P 2PL=exp(β(θ−σ))
1+exp(β(θ−σ))
P3PL=γ+(1−γ)exp(β(θ−σ))
1+exp(β(θ−σ))xv=t v+evErw (∑v
ev )=0 t v=Erw (xv)
Korr (ev , t v)=0
Idee und Messprinzip
Testergebnis z.B. Punktzahl„Wahrer Wert“ z.B. IntelligenzMessfehler z.B. Müdigkeit
xv=t v+evVoraussetzungen
● Messfehler muss vollkommen zufällig sein, d.h. nicht mit anderen Größen korrelieren. Dann gilt:
xvt vev
Probleme
● Häufig keine zufällige Messfehler (Korrelation)● Kein Umgang mit fehlenden Werten möglich● Keine verallgemeinerbare Personenfähigkeit● Keine intervallskalierten Testwerte
Das Rasch-Modell (1PL) als Messmodell der Item-Response-TheorieIdee und Messprinzip
Manifestes Verhalten (Antwort) wird durch latente Variablen bestimmt:
Wahrscheinlichkeit für richtige LösungFähigkeit des ProbandenSchwierigkeit der Aufgabe
Voraussetzungen
● Lösungswahrscheinlichkeit muss sich in guter Näherung verhalten wie
● Vernachlässigbare Ratewahrscheinlichkeit● Gleiche Trennschärfe für alle Aufgaben● Große Varianz bei Probanden und Aufgaben
Probleme
● Hohe Anforderungen an Aufgabenqualität● Keine globalen Testgütekriterien
Eigenschaften des Modells
● Spezifische Objektivität (s.u. links)● Aufgaben und Personen auf einer Skala● Einfacher Umgang mit fehlenden Werten
log P1−P
=θ−σ
Pθσ
P=exp(θ−σ)
1+exp(θ−σ)
t v=Erw (xv)
Itemcharakteristik Wright-Map
+−−−−+−−−−−−−−−−−−−−−−−−+−−−−−−−−−−−+| 2 | X = 1 Proband | Aufgaben || | X| || | | || | X| || | X| || | XX| || | XX| || | X| 3 || | XXXX| || | XXX| || | XXXXX| || 1 | XXXXXX| || | XXXXXXX| 6 || | XXXXXXXXXX| 1 || | XXXXXXXXX| || | XXXXXXXXX| || | XXXXXXXXXXX| 2 || | XXXXXXXXXXXXX| || | XXXXXXXXXXXX| || | XXXXXXXXXXXXXXXX| 16 || | XXXXXXXXXXXXX| || | XXXXXXXXXXXXXXXXX| 18 || 0 | XXXXXXXXXXXX| 10 || | XXXXXXXXXXXXXXX| || | XXXXXXXXXXXXXXXX| || | XXXXXXXXXXXXXXXX| || | XXXXXXXXXXX| || | XXXXXXXXXXXX| 11 || | XXXXXXXX| || | XXXXXX| 4 12 || | XXXX| 15 || | XXXXXXXXX| || -1 | XXXX| || | XXXX| 5 13 17 || | XXX| 7 || | XXXXXX| || | X| || | X| 14 || | XXXX| || | XX| 9 || | | || | | || | | || -2 | | 8 |+−−−−+−−−−−−−−−−−−−−−−−−+−−−−−−−−−−−+
-4 -3 -2 -1 0 1 2 3 40,0
0,5
1,0
Fähigkeit des Probandenθ
Lösu
ngsw
ahrs
chei
nli
chke
it P
Aufgabe 1
Aufgabe 2
Aufgabe 3
Aufgabe 4
Aufgabe 5
Aufgabe 6
Aufgabe 7
In dieser Darstellung wird die Lösungswahrscheinlichkeit als Funktion der Fähigkeit des Probanden aufgetragen. (Formel im Kasten oben.)
Die Kurven von leichteren Aufgaben liegen links, von schwierigeren rechts.
Fähigkeit θ der Probanden und Schwierigkeit σ der Aufgaben
sind intervallskalierte, dimensionslose Größen.
Am Schnittpunkt mit der 50%-Linie lässt sich die Aufgaben-schwierigkeit (hier σ1=−3) ablesen.
Spezifische Objektivität: Die Reihung der Aufgaben nach Schwierigkeit ist unabhängig von der Fähigkeit der
Probanden. Die Kurven schneiden sich nicht.Damit sind Aussagen über die Fähigkeiten unabhängig
von der Aufgabenauswahl und über die Schwierigkeiten unabhängig von der Probanden-Stichprobe möglich.
Bei hohen Fähigkeiten θ nähert sich P asymptotisch 100%, bei niedrigen 0%.
Die Wright-Map stellt Probanden und Aufgaben einander gegenüber.
Aufgaben mithoher Schwierigkeit
Probanden mithoher Fähigkeit.
Dieser Test ist zu leicht, er hat zu wenige schwierige und zu viele leichte Aufgaben. Die
meisten Aufgaben sollten im Bereich mit
den meisten Probanden liegen.
Die Probanden auf dieser Linie lösen
Aufgabe 18 mit 50% Wahrscheinlichkeit.
Alle Aufgaben darunter fallen ihnen leichter, die darüber
sind schwieriger.
Aufgabe 2 wird von den Probanden
darüber mit über 50% Wahrscheinlichkeit
und von den darunter mit weniger als 50% Wahrscheinlichkeit
gelöst.
Aufgaben mitgeringer Schwierigkeit
Bei einer guten Probanden-Auswahl sollte man mit einer
Normalverteilung der Fähigkeiten rechnen.
Probanden mit geringer Fähigkeit.
Weitere IRT-ModelleDie sog. Birnbaum-Modelle führen weitere Aufgaben-Parameter ein:
Zweiparametrisch-Logistisch (2PL)Zusätzlich: Aufgaben-Diskrimination β
Dreiparametrisch-Logistisch (3PL)Zusätzlich: Ratewahrscheinlichkeit γ
Vorteil: Bessere Passung des Modells auf die gegebenen DatenNachteil: Keine spezifischen Objektivität (Interpretation schwieriger)
P3PL=γ+(1−γ)exp(β(θ−σ))
1+exp(β(θ−σ))
P2PL=exp(β(θ−σ))
1+exp(β(θ−σ))
Ausblick● Mehrdimensionalität durch mehrere latente Variablen pro Proband● Komplexe Modelle: Aufgaben laden auf mehrere Dimensionen● Mehrstufe Codierung von Aufgaben mit Partial Credit Modellen● Graded Response Modelle ermöglichen likert-ähnliche Skalen● Modellprüfung mit χ²-Test und BIC-, AIC-Vergleichen● Prüfung der Modellkonformität von Aufgaben und Personen
Bond, T.G. & Fox, C.M. (2007). Applying the Rasch model. Fundamental measurement in the human sciences. Mahwah, NJ: Lawrence Erlbaum Associates.Moosbrugger, H. (2012). Item-Response-Theorie (IRT). In: Moosbrugger, H. & Kelava, A. (Hrsg.). Testtheorie und Fragebogenkonstruktion. (2. Auflage)
Berlin, Heidelberg: Springer. S. 227–274.Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion (2., überarbeitete und erweiterte Auflage). Bern: Verlag Hans Huber.
David Woitkowski, Yvonne Gramzow