Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller...

34
Raschmodelle und generalisierte Regression Sven Hilbert

Transcript of Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller...

Page 1: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Raschmodelle und generalisierte Regression

Sven Hilbert

Page 2: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Generalisiertes lineares Modell (1)

Bestandteile generalisierter linearer Modelle

•  Zufällige Komponente Y mit zugehöriger

Wahrscheinlichkeitsverteilung –  Mit unabhängigen Beobachtungen (y1, …, yN)

•  Sytematische Komponente (erklärende Größe) θ –  Benutzt in linearer Vorhersagefunktion

•  Linkfunktion spezifiziert die Funktion von E(Y), die das Modell mit

der systematischen Komponente verbindet

2/28

Page 3: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Generalisiertes lineares Modell (2)

Allgemeine Form Wahrscheinlichkeitsfunktion von Y (Exponentialfamilie):

•  Q(θi) wird natürlicher Parameter genannt

•  Systematische Komponente verbindet einen Vektor (η1, …, ηN) mit

den erklärenden Variablen durch ein lineares Modell mit Prädiktoren

j (j = 1, 2, …, p):

•  Die Linearkombination der erklärenden Variablen wird linearer

Prädiktor genannt

f (yi ;θi ) = a(θi )b(yi )exp[yiQ(θi )]

ηi = β j xijj=1

p

3/28

Page 4: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Generalisiertes lineares Modell (3)

Linkfunktion:

•  µi = E(Yi) mit i = 1, …, N

•  Verbindet zufälligen mit systematischen Komponenten

Identitätslink :

Kanonische (natürliche) Linkfunktion:

•  Transformiert µ in den natürlichen Parameter η –  Abhängig von Verteilung der yi

Q(θi ) = β j xijj=1

p

∑ =ηi = g(µi )

4/28

( )i ig µ η=

( )g µ µ=

Page 5: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Bernoulliverteilung

Wahrscheinlichkeitsfunktion der Bernoulliverteilung:

•  P(Y = 1) = π und P(Y = 0) = 1 - π mit E(Y) = π

•  Kanonischer Link:

•  Für Logistische Regression folgt: –  Hierbei P(Y = 1) = π(x)

–  Gilt für Bernoulli- und Binomialverteilung

1(y; ) (1 )y yf π π π −= −

( ) ln1

Q ππ

π⎛ ⎞= ⎜ ⎟−⎝ ⎠

5/28

exp( )( )1 exp( )

x ηπ

η=

+

Page 6: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Beispiel Anwendung Rasch Modell

Zweidimensionale Kontingenztafel

•  Testung Unabhängigkeitshypothese •  Systematische kategoriale Quanitität

•  Multiple binäre Quantitäten

Eisaffinität abhängig von Studiengang?

•  Drei Eissorten •  Binärer Response (ja / nein)

•  Zwei Studiengänge

2-dimens.

Eissorten

Studien-gänge

6/28

Page 7: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Kontingenztafel

2x3 Kontingenztafel

•  Studiengang systematische Variable •  2 Level

•  Kreuzklassifiziert mit Eissorte

•  Jeder Student kann 0 – 3 Sorten kaufen

•  Randsummen Reihen Eissorten in Tabelle ≠ Anzahl Studenten

Eissorte

Studiengang Schokolade (A)

Kirsche (B)

Gummibär (C)

Anzahl Studenten

Statistik 32 65 86 160

Psychologie 87 148 157 220

Total 119 213 243 380

7/28

Page 8: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Abhängigkeit prüfen

Spalten schließen sich nicht gegenseitig aus

•  Pearson χ²-Test kann nicht angewandt werden

Durch Kreuzklassifikation kann 2 x 2 x 2 Tabelle für beide Studiengänge erstellt werden

•  Jeweils 23 = 8 Zellen •  Möglichkeiten:

000; 100; 010; … ; 111 -  0 = „nein“, 1 = „ja“

•  Jeweils 6 Randsummen (3 Sorten Eis x „ja“ / „nein“)

8/28

Page 9: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Randsummentabelle

Tabelle enthält also eigentlich Randsummen

•  „ja“-Responses für beide Schultypen

Unabhängigkeitshypothese bezieht sich auf Randsummen

•  Marginal Independence

Eissorte

Studiengang Schokolade (A)

Kirsche (B)

Gummibär (C)

Anzahl Studenten

Statistik 32 65 86 160

Psychologie 87 148 157 220

Total 119 213 243 380

9/28

Page 10: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Marginales Logit Modell

Zufällige Variable: Eissorte

•  Level: i = 1, 2, 3

Systematische Variable: Studiengang

•  Level: j = 1, 2

Annahme: Alle Antwortmuster unabhängig multinomial verteilt

Ø Gemeinsame Verteilung der Häufigkeiten der Antwortmuster ist

produkt-multinomial verteilt

10/28

Page 11: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Parameter und Modelle

πij bezeichnet Randwahrscheinlichkeit

•  Person aus Studiengang j kauft Sorte i

•  Parameter der Binomialverteilung, welcher Häufigkeit modelliert

Marginales Logit Modell:

Unabhängig (Modell 1): Abhängig (Modell 2):

ln1

ii

i

πβ

π

⎛ ⎞= ⎜ ⎟

−⎝ ⎠ln1

ijij

ij

πβ

π

⎛ ⎞= ⎜ ⎟⎜ ⎟−⎝ ⎠

11/28

Page 12: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Parameterschätzung

Zwei grundlegende Methoden für marginales Modell

1.  Likelihood basiert •  Restriktion: Randwahrscheinlichkeiten genügen marginalem Modell

•  Produkt-multinomiale Likelihood Funktion wird maximiert •  Erlaubt wenn alle möglichen Responsemuster unabhängig

multinomialverteilt sind

Ø Allerdings sind In den vorgestellten Modellen sind Responsemuster abhängig

2.  Quasi-Likelihood basiert •  Keine Annahmen zur Verteilung nötig

•  Nur erste beide Momente werden genutzt (Mean-Variance Relationship) •  Bei Annahme einer aus der Exponentialfamilie bekannten Mean-

Variance-Relatioship äquivalent zur vollständigen Likelihood

12/28

Page 13: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Vergleich Likelihood und Quasi-Likelihood

Parameterschätzung bei ML:

•  var(Yi) ist aufgrund der angenommenen Verteilung der

Exponentialfamilie bekannt

Parameterschätzung bei QML

•  Varianz wird nur über die angenommenen Mean-Variance-

Relationship var(Yi) = υ(µi) spezifiziert

∂ℓ i∂β j

=(yi −µi )xijvar(Yi )

∂µi∂ηi, j =1,..., p

13/28

∂ℓ i∂β j

=(yi −µi )xijυ(µi )

∂µi∂ηi, j =1,..., p

Page 14: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Multivariate Erweiterung der Quasi Likelihood

Parameterschätzung bei GEE:

mit Δi = als Diagonalemente, Bi = b‘‘(θit) als Diagonalelemente,

, R(α) als Arbeitskovarianzmatrix und .

Eigenschaften: •  Multivariate Erweiterung der Quasi-Likelihood

•  Computational leichter aber weniger effizient als Likelihood

•  Likelihood basierte Tests können nicht verwendet werden

# 14

∂ i∂β

=Di'Vi−1(yi −µ i (β))

ii

i

∂=∂

D µ

β

it

it

θη∂

1/2 1/2( )i i i φ=V B R Bα

Page 15: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Schätzung am Beispiel von Modell (1)

Generalisierte Schätzgleichung (GEE) wird verwendet

und mit

Werte aus Randsummentabelle:

15/28

Eissorte

Studiengang Schokolade (A)

Kirsche (B)

Gummibär (C)

Anzahl Studenten

Statistik 32 65 86 160

Psychologie 87 148 157 220

Total 119 213 243 380

ˆexp( )ˆ ˆ1 exp( )i

ii

βπ

β=

+sei = N π̂ i (1− π̂ i )!" #$

−1β̂i = ln

niN − ni

"

#$$

%

&''

Page 16: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Schätzung am Beispiel von Modell (1)

Resultierende Parameter für Modell (1):

β̂1 = ln119

380−119"

#$

%

&' 2

213ˆ ln380 213

β ⎛ ⎞= ⎜ ⎟−⎝ ⎠3

243ˆ ln380 243

β ⎛ ⎞= ⎜ ⎟−⎝ ⎠

Eissorte

Studiengang Schokolade (A)

Kirsche (B)

Gummibär (C)

Anzahl Studenten

Statistik 32 65 86 160

Psychologie 87 148 157 220

Total 119 213 243 380

16/28

Page 17: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Geschätzte Parameter

Parameter und Standardfehler für Modelle (1) und (2):

Wald-Test: W = 46.84

•  df = k (l - 1) = 3

•  p = 1.85 * 10-10

à Eiskauf ist abhängig vom Studiengang

Modell (1) Modell (2)

Eis Statistik Psychologie

Schokolade (A) -.773 (.111) -1.386 (.198) -.424 (.138)

Kirsche (B) .254 (.103) -.379 (.161) .721 (.144)

Gummibär (C) .573 (.107) .150 (.158) 1.913 (.149)

17/28

Page 18: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Anwendung Rasch Modell

Erweiterte Fragestellung

•  Gibt es eine andere Erklärung für den gefundenen Unterschied? Ø Könnte Eitelkeit die entscheidende Rolle spielen?

•  Eitelkeit als zweite systematische Variable aufnehmen –  Verschwindet der Effekt „Studiengang“ bedingt auf Eitelkeit?

•  Eitelkeit ist nicht-beobachtbare (latente) Größe Ø Fragebogen (1 – 4 Punkte)

18/28

Page 19: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Formalisierung

Modell (3) mit zwei Einflussgrößen:

πvi ist Wahrscheinlichkeit dass Studierender v Sorte i wählt

Bedingtes Modell

•  Kauf der Eissorten darf von Eitelkeit abhängen

19/28

ln1

viv i

vi

πθ β

π

⎛ ⎞+ = ⎜ ⎟

−⎝ ⎠

Page 20: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Bedingtes Modell

Vorteil: Modell determiniert die gemeinsame Verteilung der Responses aller Items (Eissorten)

•  Gegeben β1, …, βk und θ1, …, θk sind alle Bernoulli Variablen

(Antworten) lokal unabhängig

Ø  cML Schätzung kann verwendet werden

Gemeinsame Verteilung ist gegeben durch das Produkt der Studierenden-spezifischen Wahrscheinlichkeiten aus Modell (3)

•  Über alle Eissorten und Studierende

20/28

Page 21: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Eigenschaften bedingtes Modell

Bedeutung des Fehlens von Studiengangsindex j :

Gegeben βi hängt die Wahrscheinlichkeit ein Eis zu kaufen von der Eitelkeit ab

Ø Unabhängig vom Studiengang

Hypothese ist simultane (auf Eitelkeit) bedingte Unabhängigkeit zwischen Schultyp und Response (Eiskauf)

21/28

Page 22: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Problem

Eitelkeit ist unbeobachtete latente Größe und muss für jeden Studierenden geschätzt werden

Ø Neyman-Scott Problem

Ø  Lösung von Andersen (1970) wird angewandt

à Anzahl der gekauften Eissorten ist suffizient für jeden Studierenden

r ϵ {0,… ,k} ist Anzahl der gekauften Eissorten

•  Wird als „Eismenge“ definiert mit k Level •  Ersetzt die angenommene stetige latente Variable „Eisaffinität“

22/28

Page 23: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Bedingte Wahrscheinlichkeit

Modell (4) (bedingtes Rasch Modell):

i = 1, …, k und r = 1, …, k-1 mit βk = 0 zur Modellidentifizierung

γr bezeichnet symmetrische Grundfunktion der Ordnung r der Parameter exp(β1), …, exp(βk)

γ(i)r-1 bezeichnet die erste partielle Ableitung von γr nach βi

( )1exp( ) i

i rir

r

β γπ

γ−=

23/28

Page 24: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Parameterschätzung mit cML

Durch Bedingen auf Eismenge r kann die bedingte Wahrscheinlichkeitsverteilung hergeleitet werden

•  Anteil, den die Wahrscheinlichkeit für ein bestimmtest

Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit

Summenscore r hat

Bed. Likelihood (cML) ist Funktion der Parameter β1, …, βk

•  Also nicht mehr abhängig von θ1, …, θk

•  Theoretisch könnte auch umgekehrt bedingt werden

Analog zu den bisher bekannten Personen- und Itemparametern im Rasch Modell

24/28

Page 25: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Alternatives Modell

In Modell (4) wird implizit festgelegt:

àStudiengang j spielt keine Rolle

Alternativ kann folgendes Modell (5) aufgestellt werden:

Abgeleitet wird hier nach den βij à cML Schätzung àStudiengang j wird ebenfalls modelliert

1 ...ir irl irπ π π= = =

( )1exp( )

ˆij

ij rirj

r

β γπ

γ−=

25/28

Page 26: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Hypothesentest

Aufgrund der cML Schätzung können der Andersen Likelihood Ratio Test und der Wald Test angewendet werden

Vergleich der Parameter der Modell (4) und (5):

G² = 1.167 p = .558 W = .220; p = .390 mit df = 2

à Bedingt auf Eitelkeit ist Eisaffinität unabh. vom Studiengang

Modell (4) Modell (5)

Eis Statistik Psychologie

Schokolade (A) 0 0 0

Kirsche (B) -1.089 (.160) -.961 (.253) -1.187 (.210)

Gummibär (C) -1.428 (.164) -1.472 (.256) -1.378 (.215)

26/28

Page 27: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Zusammenfassung

Erweiterung der Anwendbarkeit des Rasch Modells

Rasch Modell wird nicht als Messmodell sondern als Logit Modell für die Analyse von Häufigkeiten von zweidimensionalen Kontingenztafeln verwendet

•  Bedingte Unabhängigkeit wird getestet

Hypothese der simultanen bedingten Unabhängigkeit wird getestet

•  Zwischen systematischer (Studiengang) und dem binären Response

auf multiple Items, gegeben eine zweite Variable (Eitelkeit)

27/28

Page 28: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Literatur

Agresti, A. (2002). Categorical data analysis. Hoboken: John Wiley & Sons.

Agresti, A., & Liu, I. (1999). Modeling a categorical variable allowing arbitrarily many category choices. Biometrics, 55, 936–943.

Andersen, E.B. (1970). Asymptotic properties of conditional maximum likelihood estimators. Journal of the Royal Statistical Society, Series B, 32, 283–301.

Draxler, C. (2011). Logit models for the analysis of two-way categorial data. Educational Research and Evaluation, 17(5), 351–360.

28/28

Page 29: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

• Zusatzmaterial zur Erklärung und Weiterführung

Appendix

# 29/28

Page 30: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Beweis der Suffizienten Statistik

p(0,1,0) | r = 1

ßBedingte Wahrscheinlichkeit

Ø Nur noch der Itemparameter (ε) ist in der Formel enthalten

# 30

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )212111

31

212111

21

212111

21

3121

21

11

11111

11111

11111

11

111

εξεξεξεξ

εξεξεξεξ

εξεξεξεξ

εξεξεξ

εξ

⋅++⋅++⋅+⋅⋅⋅

+⋅++⋅++⋅+

⋅⋅⋅+

⋅++⋅++⋅+⋅⋅⋅

⋅+⋅

⋅+⋅

⋅⋅+

312111

21

εξεξεξεξ

⋅+⋅+⋅

⋅=

321

2

εεεε++

=

Page 31: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Angewandt auf das Rasch-Modell

Page 32: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Die symmetrische Grundfunktion

Die Symmetrische Grundfunktion:

(zur Erinnerung: εi = exp(-βk)

# 32

Page 33: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Symmetrische Grundfunktion

Formel:

Kurzform:

Eingesetzt im Nenner der cML:

# 33

| 1exp( )k

i ix r ixσ

=−∑ ∏

(exp( ))rγ σ−

11

exp((exp( ))

kN vi iiv

r

xcL

σ

γ σ=

=

−=

−∑∏

Page 34: Raschmodelle und generalisierte Regression...Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cML) ist Funktion der Parameter β 1,

Generalized Linear Mixed Model

Linearer Prädiktor:

•  yit ist Beobachtung t in cluster i

•  ui ~ N(0,Σ) angenommen

•  var(Yit|ui) = Φitυ(µit)

•  Bedingt auf ui, behandelt das Modell yit unabhänging über i und t

Als logit Modell:

•  ui wird im Raschmodell zwar als fester Effekt behandelt, allerdings

durch cML eliminiert

•  Andere Autoren: Random Effects Modell mit Probit-Link

# 34

( ) ' 'it it it ig µ = +x z uβ

( )logit[ 1|it i t iP Y u uβ= = +