Regressions modeller – Hvad regresserer vi på og hvorfor?

31
Regressions modeller – Hvad regresserer vi på og hvorfor? Anders Stockmarr Axelborg statistikgruppe 6/11 2012 1

description

Regressions modeller – Hvad regresserer vi på og hvorfor?. Anders Stockmarr Axelborg statistikgruppe 6/11 2012. Generel R egression. Y t = f( X t ) + ε t , t =1,…,n f er en UKENDT funktion, der beskriver relationen mellem den uafhængige variabel X, og den afhængige variabel Y. - PowerPoint PPT Presentation

Transcript of Regressions modeller – Hvad regresserer vi på og hvorfor?

Page 1: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

1

Regressions modeller –Hvad regresserer vi på og hvorfor?

Anders StockmarrAxelborg statistikgruppe6/11 2012

Page 2: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

2

Generel Regression

• Yt= f(Xt) +εt, t=1,…,n

• f er en UKENDT funktion, der beskriver relationen mellem den uafhængige variabel X, og den afhængige variabel Y.

• Vi vil gerne afdække hvorledes X og Y er relateret (dvs. undersøge egenskaber ved f), gennem analyser af parrede observationer (Xt,Yt)t=1,…,n

Page 3: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

3

Lineær Regression

• Antag at f ∊ C ∞(R)• Så er

hvor • Dermed er

hvor o(x)=xε(x).

,)(0

n

nnxaxf

!./)0()( nfa nn

),()( 10 xoxaaxf

Page 4: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

4

Lineær Regression – funktioner af flere variable

• 1. ordens Taylor-udvikling: I modeltermer erstattes f i

Yi= f(Xi) +εi, i=1,…,nMed

hvor restleddet sættes til nul, og hvor a0, a1 er ukendte,dvs. den multiple regressionsmodel

Yt= α+β1X1,t +…+ βkXk,t + εt, t=1,…,n.

||)(||||)(||)0()0()( ,10 xoxaaxoxxffxf

iii

def

ii

i

Page 5: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

5

Lineær Regression –funktioner af flere variable

• 2. ordens Taylor-udvikling:

• I modeltermer erstattes

Yt= f(Xt) +εt, t=1,…,n

Med

)||(||)0(21)0()0()( 2

,

2

xoxxxxfx

xffxf ji

ji jiii

i

.,,1,,

,,,, ntXXXY tji

tjtijii

tiit

Page 6: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

6

Lineær Regression –funktioner af flere variable

• 2. ordens Taylor-udvikling:

• I modeltermer erstattes

Yt= f(Xt) +εt, t=1,…,n

Med

Lineær regressionsmodel med 1. ordens interaktioner (og kvadratiske effekter; udelades ofte).

)||(||)0(21)0()0()( 2

,

2

xoxxxxfx

xffxf ji

ji jiii

i

.,,1,,

,,,, ntXXXY tji

tjtijii

tiit

Page 7: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

7

Polynomiel regression af højere orden

• Princip:• Ynøjagtigheden mindskes til en

pris af introduktion af flere forklarende variable;

• Når ynøjagtigheden er af en størrelsesorden så den kan inkorporeres i residualvariansen ε, er modellen tilstrækkelig i modelleringsforstand.

)||(|| nxo

)||(|| nxo

Page 8: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

8

Polynomiel regression af højere orden

• Princip:• Ynøjagtigheden mindskes til en

pris af introduktion af flere forklarende variable;

• Når ynøjagtigheden er af en størrelsesorden så den kan inkorporeres i residualvariansen ε, er modellen tilstrækkelig i modelleringsforstand.

• Det kan i praksis kræve mange led: • Eksempel

)||(|| nxo

)||(|| nxo

)exp()( xxf

Page 9: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

9

Skalering• Højere ordens regression ønsker vi ikke; meget

vanskeligt at fortolke og kommunikere.• Løsningen er data-transformation.• Vi anstrenger os en del for at finde skalaer, hvor

sammenhængen kan beskrives med en Taylor-approksimation af lav orden;

”sammenhængen er approksimativt lineær”

• log-transformation, Box-Cox transformation, kvadratrods-tranformation, etc.

Page 10: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

10

Agenda• Vi vil gerne erstatte ukendte funktioner med andre ukendte, som

dog har en kendt struktur; polynomier.

• Formålet er selvfølgelig, som al modellering, at forenkle virkeligheden så man kan regne på den uden at begå for grove fejl.

• Men samtidigt skal vi også gerne kunne se og kommunikere logikken i vores approksimation, så den må ikke være for kompliceret.

• Subjektiv konklusion:• Vi bør approksimere med en Taylor-udvikling der er af 1. eller 2.

orden, nogen gange 3. orden og aldrig over 4. Data skal skaleres, så dette kan lade sig gøre.

Page 11: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

11

Ortogonalisering

Modellen

Er af formen

hvor vi blot lader XiXj optræde som en selvstændig kovariat. Dette gør den lineære regressionsmodel meget generel.

.,,1,,

,,,, ntXXXY tji

tjtijii

tiit

,,,1,, ntXYi

ttiit

Page 12: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

12

Ortogonalisering III modellen

Som vi skriver

på sædvanlig vis, benytter vi ML/LS/PE-estimatoren

hvor A er matricen bestående af søjlerne med værdierne for de enkelte kovariater.

,,,1,, ntXYi

ttiit

ntXY ttT

t ,,1,

,)(ˆ 1 YAAA TT

kXXA ::1

Page 13: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

13

Ortogonalisering II

Med normalfordelte støjled er normalfordelt;

Men nu er

hvorfor uafh. af hviss <Xi,Xj>=0.

).)(,(~ˆ 12 AAN T

21

21

1212

1

||||,

,,,||||

kk

k

T

XXX

XXXXXXX

AA

i j

Page 14: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

14

Ortogonalisering III

Modellen

udtrykker jo blot at Y på nær støj er en linear-kombination af søjlerne i matricen A.

MAO: Finder vi en anden måde at udtrykke linearkombinationer af søjlerne i A, ændrer vi ikke modellen.

ntXY ttT

t ,,1,

Page 15: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

15

Ortogonalisering IV

• Ønsker vi stokastisk uafhængige estimater, kan vi derfor lave en ny design matrix B, således at søjlerne i B er ortogonale, og således at søjlerne i B og A udspænder det samme rum.

Page 16: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

16

Ortogonalisering V

• Dette gøres rekursivt:

j

i

j j

jiii B

BBA

AB

AB

1

12

11

||||,

;

Page 17: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

17

Ortogonalisering VI

• Eksempel:ntxxY tttt ,,1,2

210

:,,1 2321 tt xAxAA

).(

,

,1

2,223

2

1

xxSSD

SPDxxB

xxB

B

tx

xxt

t

Page 18: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

18

Ortogonalisering VII

• I modellen

er estimaterne derfor stokastisk uafhængige. Tilbageregning:

nt

xxSSD

SPDxxxxY tt

x

xxttt

,,1

,))(()(2,22

210

)(

;

;

2,2100

,211

22

2

2

xxSSD

SPDx

SSD

SPD

x

xx

x

xx

Page 19: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

19

Ortogonalisering VIII

• Hvilke fordele ser I??

Page 20: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

20

Regression på andet end polynomier

• Grunden til at vi kan bruge polynomier er at polynomierne udgør en basis for C ∞(R), udstyret med topologien for uniform konvergens på kompakte mængder;

• Men man kan forestille sig situationer, hvor det er mere naturligt at forlange, at f tilhører en anden klasse end C ∞(R), og hvor man derfor skal kigge på andre baser.

Page 21: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

21

Regression på andet end polynomier II

Eksempel:Periodiske funktioner (de-trendede sæson-data).Her udgør funktionerne

hvor ω er perioden, en basis for en passende gruppe af funktioner; man kan derfor modellere a la

hvor disse sinusfunktioner kan ortogonaliseres ligesom tidligere.

)2sin()( xnxhn

,,,1,)2sin( ntxiYi

ttit

Page 22: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

22

Regression hvor den afhængige variabel er stokastisk

• En forudsætning for at estimaterne i modellen

• er uafhængige, er at design-matricen er en diagonal-matrix.

• Men en anden, implicit, forudsætning er, at Xt er deterministisk. Hvis Xt er stokastisk, er sagen generelt en anden.

ntXY ttT

t ,,1,

Page 23: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

23

Regression hvor den afhængige variabel er stokastisk II

• Antag at både X og Y er stokastiske variable, med en kausal relation imellem sig givet ved at

• Her hvis gælder f.eks. at , er f.eks

og dermed er det ikke oplagt at sædvanlige poly-nomier er den fornuftigste vej at gå, hvis man f.eks. interesserer sig for hvad effekten af X er i termer af potenser af μ.

ntXY ttT

t ,,1,

),(~ 2NX t

,)( 222 XE

Page 24: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

24

Regression hvor den afhængige variabel er stokastisk III

• Samtidig kan man interessere sig for en helt anden form for ortogonalitet; nemlig om de uafhængige variable som man regresserer på, er uafhængige, eller i det mindste ukorrelerede.

• Dette er en ganske anden ortogonalitet end geometrisk ortogonalitet af n obser-vationer, altså ortogonalitet i Rn.

Page 25: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

25

Regression hvor den afhængige variabel er stokastisk IV

Hvis X er normeret normalfordelt, er 2 funktioner f og g af X ukorrelerede, hvis

Definerer vi det indre produkt

er dette kriterium præcis ortogonalitet i L2-forstand.

0)()( 2/2

dxexgxf x

,)()(, 2/1

2

dxexgxfgf xdef

Page 26: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

26

Regression hvor den afhængige variabel er stokastisk V

En følger af funktioner der opfylder dette, er Hermite polynomierne Hen, givet ved

).()1()()(

;3)(

;1)(

;)(;1)(

21

33

22

1

0

xHenxxHexHe

xxxHe

xxHe

xxHexHe

nnn

Page 27: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

27

Egenskaber ved Hermite-polynomierne I

• Hermite-polynomierne udgør en basis for vektorrummet

Dermed kan de fleste funktioner approksimeres med summer af Hermite polynomier.

)}1,0(~,|)(|::{ 2 NXXfERRf

Page 28: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

28

Egenskaber ved Hermite-polynomierne II

hvis n≠m, således at Hen(X) og Hem(X) er ukorrelerede, hvis X er normeret normal-fordelt.

Hvis , er .Defineres er

og ortogonale/ukorrelerede for n ≠ m,

hvis X er normalfordelt (0,σ2).

0)()(, 2/1

2

dxexHexHeHeHe xmn

def

mn

)1,(~ NX nn xHeE ))((

),/()( 2/][ 2

xHexHe nn

def

n )(][ 2

XHen

)(][ 2

XHem

Page 29: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

29

Egenskaber ved Hermite-polynomierne III

• Hermite-polynomier er altså skrædder-syede til situationen, hvor man modellerer dynamiske systemer uden feed-back mellem uafhængige og afhængige variable.

• Hermite polynomier har orden n, så Hermite polynomier op til orden n modellerer præcis også Taylorudvikling op til orden n (i 1 dimension).

Page 30: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

30

Hermite-polynomier

• Hvad er jeres erfaringer?

Page 31: Regressions modeller – Hvad  regresserer  vi på og hvorfor?

31

Tak for opmærksomheden