VÍCENÁSOBNÁ REGRESE

39
VÍCENÁSOBNÁ REGRESE

description

VÍCENÁSOBNÁ REGRESE. Vícenásobná regrese Datov á matice X. X1 X2X3X4 ATD. ANO204M1,2 NE180F4,3 NE178F2,3 NE187M3,8 ANO192M2,6 . . ATD. Vícenásobná regrese Vektor y. Y 135 112 135 187 189 ATD. Vícenásobná regrese Vektor β. β 0 β 1 - PowerPoint PPT Presentation

Transcript of VÍCENÁSOBNÁ REGRESE

Page 1: VÍCENÁSOBNÁ REGRESE

VÍCENÁSOBNÁ REGRESE

Page 2: VÍCENÁSOBNÁ REGRESE

Vícenásobná regrese

Datová matice XX1 X2 X3 X4

ATD.

ANO 204 M 1,2

NE 180 F 4,3

NE 178 F 2,3

NE 187 M 3,8

ANO 192 M 2,6

.

.

ATD.

Page 3: VÍCENÁSOBNÁ REGRESE

Vícenásobná regrese

Vektor yY

135

112

135

187

189

ATD.

Page 4: VÍCENÁSOBNÁ REGRESE

Vícenásobná regrese

Vektor ββ0

β1

β2

β3

ATD.

Page 5: VÍCENÁSOBNÁ REGRESE

• Model vícenásobné lineární regrese

y = 0 + 1x1 + 2x2 + . . . + pxp +

• Regresní rovnice

E(y) = 0 + 1x1 + 2x2 + . . . + pxp

• Odhad regresní rovnice

y = b0 + b1x1 + b2x2 + . . . + bpxp

Model vícenásobné lineární regrese

Page 6: VÍCENÁSOBNÁ REGRESE

• Maticově vyjádřeno:

y = βX + ε

Model vícenásobné lineární regrese

Page 7: VÍCENÁSOBNÁ REGRESE

Vícenásobná lineární regrese-MNČ

yXXXb ´)´( 1

Co je za tímto vzorcem?

Trošku vektorové algebry nikomu neuškodí

Nebo ano

Page 8: VÍCENÁSOBNÁ REGRESE

Vícenásobná regrese v SPSS

• výsledkem procedury v SPSS je regresní rovnice roviny či nadroviny, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů

• zadání pomocí nabídky-jednotlivé důležité volby

Page 9: VÍCENÁSOBNÁ REGRESE

Regrese v SPSS-syntax

zadání pomocí příkazu (pro stupňovitou regresi a vybrané výstupy)

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD= STEPWISE X1 X2 X3.

Page 10: VÍCENÁSOBNÁ REGRESE

Regrese v SPSS-výstupy

• ukázky použití regresní analýzy v SPSS

• komentář k výstupům z procedury regresní analýzy ANOVA,T-testy -vztah mezi nimi a co to značí, R, R2, R2Adj.

• interpretace regresních koeficientů a konstanty ve vícenásobné regresi aneb ceteris paribus ve statistice (tedy proměnnou o jejíž vliv chci očistit musím mít v modelu)

• beta koeficienty aneb posouzení individuálního vlivu proměnných (vlastně regresní koeficienty pokud bychom původní data standardizovali-co je to standardizace? A jaké jsou možnosti standardizace?)

Page 11: VÍCENÁSOBNÁ REGRESE

Regrese v SPSS-výstupy

• typy metod výběru proměnných - forward, backward, stepwise (základní principy)

• zejm. stepwise poměrně vhodná k nalezení "nejlepšího" modelu-vysvětlení podstaty sekvenčních F-testů a vazba k parciálním korelačním koeficientům

• predikce z regresního modelu• rezidua a jejich ukládání

Page 12: VÍCENÁSOBNÁ REGRESE

EXKURZ: REGRESE A EXCEL

Page 13: VÍCENÁSOBNÁ REGRESE

MS EXCEL a statistika

• Co umíme v MS Excel ze statistiky?

• Co umí v MS Excel ze statistiky?

• Jak na regresi v MS Excel (aneb co dělat, když vyprší licence SPSS)

Page 14: VÍCENÁSOBNÁ REGRESE

MS EXCEL a regrese

• Základní funkce pro výpočet regrese• Grafické možnosti regrese v Excelu• Analytický modul aneb regrese jak z SPSS

• Více viz text Statistika v Excelu.doc

Page 15: VÍCENÁSOBNÁ REGRESE

UMĚLÉ PROMĚNNÉ

Page 16: VÍCENÁSOBNÁ REGRESE

Regrese-umělé proměnné

• jako vysvětlující proměnné lze použít i nominální či ordinální proměnné převedením na umělé (dummy) proměnné - umělých proměnných je poté o jednu méně než kategorií původní proměnné Proč?

• "vynechaná proměnná" odpovídá kategorii vůči níž se budou ostatní kategorie porovnávat-ukázka na proměnné vzdělání v SPSS (vytvořte 3umělé proměnné-SŠ bez vzdelSSB, SŠ s mat. vzdelSS a VŠ vzdelVS z proměnné s02)

• Ukažme si smysl kódování na proměnné vzdel, vyuc, SS a VS • Upozornění: Při metodě Stepwise může být zahrnuta jen

některá(é) z umělých proměnných, co to znamená z hlediska interpretace? (př. Jen VŠ při závislé proměnné příjem v rovnici) Jak lze toto řešit?

Page 17: VÍCENÁSOBNÁ REGRESE

Regrese-umělé proměnné a skupiny

• Dichotomie může dělit soubor na dvě skupiny (př.muži/ženy), které by mělo smysl analyzovat samostatně, ale my je analyzujeme dohromady-Co se v takovém případě může stát? (grafické zobrazení 4 možných situací)

• Jak tuto situaci řešit?• Analýzy provést zvlášť (TEMP nebo SPLIT FILE) a teprve poté

dohromady, je-li pro toto důvod (test o shodě hodnot regresních koeficientů- v SPSS není obsažen)

• Lze užít i víceúrovňové/hierarchické modely• Obecně je problém často složitější a skupin může být více a i zde

platí: Nejdříve zkoumejme, jak vypadá vztah v jednotlivých skupinách a je-li podobný, lze analyzovat dohromady (Nikdy ale neanalyzujme prvotně dohromady ČR+Chile+Austrálie, to je naprosto neodůvodnitelné!!!!)

Page 18: VÍCENÁSOBNÁ REGRESE

Umělé proměnné - závěr

• Princip umělých proměnných je obecně použitelný v analýzách, kde se vyžadují jen dichotomie nebo kardinální proměnné (např. logistická regrese v pátek)

• Princip vynechávání poslední (první) kategorie se zpravidla užívá v analýze kategoriálních dat (loglineární modely, logitové modely apod.)

• Některé procedury SPSS utvoří umělé proměnné za nás (např. procedury logistické regrese)

Page 19: VÍCENÁSOBNÁ REGRESE

INTERAKCE

Page 20: VÍCENÁSOBNÁ REGRESE

Regrese-Interakce

• Kombinace hodnot vysvětlujících proměnných• Nutno si vytvořit v datech• K čemu je to dobré? • Řeší tyto situace:

A) spolupůsobení proměnných (synergické efekty)B) Řeší problém skupin, resp. odlišností směrnic ve skupinách

• Ukázka – interakce dvou proměnných, jedna dichotomie

Page 21: VÍCENÁSOBNÁ REGRESE

REGRESNÍ DIAGNOSTIKA

Page 22: VÍCENÁSOBNÁ REGRESE

Regrese a její problémy

Regresní problémy• Vlivná (influentials-pozor tato nejsou od P.F.L.) a

odlehlá pozorování (outliers-viz explorační analýza)

• heteroskedasticita - rozptyl náhodné složky není konstantní, způsobuje problémy při testování významnosti jednotlivých proměnných

• autokorelace -závislost mezi náhodnými složkami, obvyklé v časových řadách, působí obdobné problémy jako heteroskedasticita

Page 23: VÍCENÁSOBNÁ REGRESE

Regrese a její problémy

• multikolinearita - závislost mezi vysvětlujícími proměnnými, je téměř vždy přítomná, problémem je škodlivá multikolinearita zejm. perfektní multikolinearita - pak není možno odhadovat regresní parametry metodou nejmenších čtverců,

• (Důvod: matice X’X je singulární a nelze k ní najít inverzní-toto vyjádření je pro nestatistiky lehce perverzní)

Page 24: VÍCENÁSOBNÁ REGRESE

REZIDUA A JEJICH VÝZNAM

Page 25: VÍCENÁSOBNÁ REGRESE

Rezidua - přehled

• Klasická rezidua

H = projekční matice • Predikovaná rezidua

iiii

iii

xXXxh

XXXXH

heVar

yye

1,

1

2

)´(

´))´(

)1()(

ˆ

ii

iii

iii

he

e

yyeii

1

ˆ

)(

))( (

Hyy ˆ

Page 26: VÍCENÁSOBNÁ REGRESE

Rezidua - přehled

• Normovaná rezidua

• Jackknife rezidua

ii

iSi hes

ee

1)(

iiei

iJi hs

ee

1))((

Page 27: VÍCENÁSOBNÁ REGRESE

Vlivná pozorování

• Důležité jsou diagonální prvky projekční matice hii - měří vzdálenost i-tého bodu od centra ostatních bodů.

• Pozorování s velkou hodnotou h prvku může nebo nemusí mít velký vliv na regresní odhady.

• Vlivné body jsou takové, kdy jejich vynecháním dochází k velké změně regresních parametrů (často neobvyklá kombinace hodnot vysvětlujících proměnných). Nutno diagnostikovat a případně vyřadit.

Page 28: VÍCENÁSOBNÁ REGRESE

Vlivná pozorování -diagnostika

• DFBETA(-i)=b-b(-i)

1

)()()(

1

)()(

)´(

)(/)(

´)´(

1

XXA

aesbbNDFBETA

XXXC

h

ecbbDFBETA

jjiijjij

ii

ijiijjij

Rule of thumb: Indikace problému NDFBETA>2/√n

Poznámka. Obdobný indikátor DFFIT a NDFFIT (Hebák, 2. díl, str. 101) , indikace problému NDFFIT>2/√(n/p)

Page 29: VÍCENÁSOBNÁ REGRESE

Heteroskedasticita

• Předpokladem obyčejné regrese je konstantní rozptyl chybové složky pro všechny hodnoty nezávisle proměnných.

• Vizuálně lze prověřit: Graf reziduí oproti hodnotám nezávisle proměnných

• Testy - Glejser, Goldfeld-Quandt• Řešení: vážená MNČ, měření dáme váhu,

která je nepřímo úměrná odhadnutému rozptylu chyb

Page 30: VÍCENÁSOBNÁ REGRESE

Glejserův test

• Modeluje závislost velikosti reziduí na nezávislé(-ých) proměnné (-ých) :

ijji ze

Page 31: VÍCENÁSOBNÁ REGRESE

Multikolinearita

• Odhad: • Existují silné závislosti mezi nezávislými

proměnnými :

X´X je singulární matice nebo téměř singulární

Důsledky: standardní chyby odhadů beta jsou veliké, nevíme, tedy jak prediktory vlastně působí, na regresi mají pak také větší vliv vychýlené hodnoty, nahodnocen součet čtverců beta, nestabilita odhadů

yXXXb ´)´( 1

Page 32: VÍCENÁSOBNÁ REGRESE

Multikolinearita

Odhalení: Korelace Xj na ostatních Xs, tedy průzkum korelační matice (měření škodlivé multikolinearity - orientační kritérium alespoň jeden párový korelační koeficient mezi vysvětlujícími proměnnými ve výši 0,8)

Další možnosti:

a) Tolerance (1-R2j)

b) VIF = 1/(1-R2j)

VIF jsou diagonální prvky R-1

c) poměr: max lambda/min lambda (v SPSS tzv. Condition index) ROT*= nad 30 → problém

*ROT=Rules of thumb

Page 33: VÍCENÁSOBNÁ REGRESE

MultikolinearitaŘešení• Ignorovat• Vypustit proměnnou• Získat další data• Použít FA (s rotací) a regrese s faktory• Ridge regrese

Ridge regrese má zkreslené odhady ale menší standardní chyby (změníme trochu diagonálu)

yXkIXXb ´)´(* 1

Page 34: VÍCENÁSOBNÁ REGRESE

Poučky k regresi

• AIC, BIC atd. jsou dostupné jen přes syntax, v nabídce je nenajdeme, lze zapsat za slovo STATISTICS slovo SELECTION (výstup viz Model Summary)

• Regrese na rozdíl od korelace umí modelovat i nelineární vztah (tzv. nelineární regrese, viz později). Vychází-li korelace nízká, může tedy být možné budovat regresní model nelineární. Tvar modelu nám může poradit grafické zobrazení dat (to platí vždy aneb grafická analýza by měla být první)

• Poznámka: Nevíme-li o vztazích jakého jsou druhu (lineární, kvadratické, logaritmické atd.) je rozumné volit lineární vztahy jsou přípustným zjednodušením a zároveň se nejlépe interpretují

Page 35: VÍCENÁSOBNÁ REGRESE

Poučky k regresi

• Linearitu je také možno dosáhnout vhodnou transformací dat, nesmíme pak ale zapomenout „odtransformovat“ výsledky (viz dále)

• Nízký koeficient determinace neznamená nutně, že proměnné v modelu nevysvětlují změny závislé proměnné, ale důvodem může být chybná volba modelu (lineárního místo kvadratického apod.)

• Pro „slušný“ výpočet regresní analýzy se vyžaduje mít na každou proměnnou zařazenou v modelu cca 100 pozorování (rozhodně nikdy méně než 10 pozorování na 1 proměnnou!!!). Pamatujme na to jak rychle narůstá počet umělých proměnných u nominálních/ordinálních proměnných

Page 36: VÍCENÁSOBNÁ REGRESE

Exkurz: Transformace dat

• Jaké známe transformace dat• Centrování• Standardizace• Co dalšího?• Linearizující transformace (viz např. příjem – původně

logaritmicko normální rozdělění)

• Základní transformace – logaritmická, odmocninná, mocninná, exponenciální

Page 37: VÍCENÁSOBNÁ REGRESE

Transformace dat a regrese

• Jak postupovat? • Nejdříve transformujeme příslušnou proměnnou• Vypočítáme lineární regresi• vypočtené koeficienty musíme odtransformovat

• Upozornění: Při použití tohoto postupu nejsou již nalezené odhady nezkreslené (ztrácíme tedy jednu z výhod MNČ)

Page 38: VÍCENÁSOBNÁ REGRESE

Nelineární regrese v SPSS

• Grafické řešení

• Výpočetní řešení

• Statistické složitosti

Page 39: VÍCENÁSOBNÁ REGRESE

Nelineární regrese v Excelu

• Grafické řešení

• Výpočetní řešení v analytickém modulu