VÍCENÁSOBNÁ REGRESE
description
Transcript of VÍCENÁSOBNÁ REGRESE
VÍCENÁSOBNÁ REGRESE
Vícenásobná regrese
Datová matice XX1 X2 X3 X4
ATD.
ANO 204 M 1,2
NE 180 F 4,3
NE 178 F 2,3
NE 187 M 3,8
ANO 192 M 2,6
.
.
ATD.
Vícenásobná regrese
Vektor yY
135
112
135
187
189
ATD.
Vícenásobná regrese
Vektor ββ0
β1
β2
β3
ATD.
• Model vícenásobné lineární regrese
y = 0 + 1x1 + 2x2 + . . . + pxp +
• Regresní rovnice
E(y) = 0 + 1x1 + 2x2 + . . . + pxp
• Odhad regresní rovnice
y = b0 + b1x1 + b2x2 + . . . + bpxp
Model vícenásobné lineární regrese
• Maticově vyjádřeno:
y = βX + ε
Model vícenásobné lineární regrese
Vícenásobná lineární regrese-MNČ
yXXXb ´)´( 1
Co je za tímto vzorcem?
Trošku vektorové algebry nikomu neuškodí
Nebo ano
Vícenásobná regrese v SPSS
• výsledkem procedury v SPSS je regresní rovnice roviny či nadroviny, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů
• zadání pomocí nabídky-jednotlivé důležité volby
Regrese v SPSS-syntax
zadání pomocí příkazu (pro stupňovitou regresi a vybrané výstupy)
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD= STEPWISE X1 X2 X3.
Regrese v SPSS-výstupy
• ukázky použití regresní analýzy v SPSS
• komentář k výstupům z procedury regresní analýzy ANOVA,T-testy -vztah mezi nimi a co to značí, R, R2, R2Adj.
• interpretace regresních koeficientů a konstanty ve vícenásobné regresi aneb ceteris paribus ve statistice (tedy proměnnou o jejíž vliv chci očistit musím mít v modelu)
• beta koeficienty aneb posouzení individuálního vlivu proměnných (vlastně regresní koeficienty pokud bychom původní data standardizovali-co je to standardizace? A jaké jsou možnosti standardizace?)
Regrese v SPSS-výstupy
• typy metod výběru proměnných - forward, backward, stepwise (základní principy)
• zejm. stepwise poměrně vhodná k nalezení "nejlepšího" modelu-vysvětlení podstaty sekvenčních F-testů a vazba k parciálním korelačním koeficientům
• predikce z regresního modelu• rezidua a jejich ukládání
EXKURZ: REGRESE A EXCEL
MS EXCEL a statistika
• Co umíme v MS Excel ze statistiky?
• Co umí v MS Excel ze statistiky?
• Jak na regresi v MS Excel (aneb co dělat, když vyprší licence SPSS)
MS EXCEL a regrese
• Základní funkce pro výpočet regrese• Grafické možnosti regrese v Excelu• Analytický modul aneb regrese jak z SPSS
• Více viz text Statistika v Excelu.doc
UMĚLÉ PROMĚNNÉ
Regrese-umělé proměnné
• jako vysvětlující proměnné lze použít i nominální či ordinální proměnné převedením na umělé (dummy) proměnné - umělých proměnných je poté o jednu méně než kategorií původní proměnné Proč?
• "vynechaná proměnná" odpovídá kategorii vůči níž se budou ostatní kategorie porovnávat-ukázka na proměnné vzdělání v SPSS (vytvořte 3umělé proměnné-SŠ bez vzdelSSB, SŠ s mat. vzdelSS a VŠ vzdelVS z proměnné s02)
• Ukažme si smysl kódování na proměnné vzdel, vyuc, SS a VS • Upozornění: Při metodě Stepwise může být zahrnuta jen
některá(é) z umělých proměnných, co to znamená z hlediska interpretace? (př. Jen VŠ při závislé proměnné příjem v rovnici) Jak lze toto řešit?
Regrese-umělé proměnné a skupiny
• Dichotomie může dělit soubor na dvě skupiny (př.muži/ženy), které by mělo smysl analyzovat samostatně, ale my je analyzujeme dohromady-Co se v takovém případě může stát? (grafické zobrazení 4 možných situací)
• Jak tuto situaci řešit?• Analýzy provést zvlášť (TEMP nebo SPLIT FILE) a teprve poté
dohromady, je-li pro toto důvod (test o shodě hodnot regresních koeficientů- v SPSS není obsažen)
• Lze užít i víceúrovňové/hierarchické modely• Obecně je problém často složitější a skupin může být více a i zde
platí: Nejdříve zkoumejme, jak vypadá vztah v jednotlivých skupinách a je-li podobný, lze analyzovat dohromady (Nikdy ale neanalyzujme prvotně dohromady ČR+Chile+Austrálie, to je naprosto neodůvodnitelné!!!!)
Umělé proměnné - závěr
• Princip umělých proměnných je obecně použitelný v analýzách, kde se vyžadují jen dichotomie nebo kardinální proměnné (např. logistická regrese v pátek)
• Princip vynechávání poslední (první) kategorie se zpravidla užívá v analýze kategoriálních dat (loglineární modely, logitové modely apod.)
• Některé procedury SPSS utvoří umělé proměnné za nás (např. procedury logistické regrese)
INTERAKCE
Regrese-Interakce
• Kombinace hodnot vysvětlujících proměnných• Nutno si vytvořit v datech• K čemu je to dobré? • Řeší tyto situace:
A) spolupůsobení proměnných (synergické efekty)B) Řeší problém skupin, resp. odlišností směrnic ve skupinách
• Ukázka – interakce dvou proměnných, jedna dichotomie
REGRESNÍ DIAGNOSTIKA
Regrese a její problémy
Regresní problémy• Vlivná (influentials-pozor tato nejsou od P.F.L.) a
odlehlá pozorování (outliers-viz explorační analýza)
• heteroskedasticita - rozptyl náhodné složky není konstantní, způsobuje problémy při testování významnosti jednotlivých proměnných
• autokorelace -závislost mezi náhodnými složkami, obvyklé v časových řadách, působí obdobné problémy jako heteroskedasticita
Regrese a její problémy
• multikolinearita - závislost mezi vysvětlujícími proměnnými, je téměř vždy přítomná, problémem je škodlivá multikolinearita zejm. perfektní multikolinearita - pak není možno odhadovat regresní parametry metodou nejmenších čtverců,
• (Důvod: matice X’X je singulární a nelze k ní najít inverzní-toto vyjádření je pro nestatistiky lehce perverzní)
REZIDUA A JEJICH VÝZNAM
Rezidua - přehled
• Klasická rezidua
H = projekční matice • Predikovaná rezidua
iiii
iii
xXXxh
XXXXH
heVar
yye
1,
1
2
)´(
´))´(
)1()(
ˆ
ii
iii
iii
he
e
yyeii
1
ˆ
)(
))( (
Hyy ˆ
Rezidua - přehled
• Normovaná rezidua
• Jackknife rezidua
ii
iSi hes
ee
1)(
iiei
iJi hs
ee
1))((
Vlivná pozorování
• Důležité jsou diagonální prvky projekční matice hii - měří vzdálenost i-tého bodu od centra ostatních bodů.
• Pozorování s velkou hodnotou h prvku může nebo nemusí mít velký vliv na regresní odhady.
• Vlivné body jsou takové, kdy jejich vynecháním dochází k velké změně regresních parametrů (často neobvyklá kombinace hodnot vysvětlujících proměnných). Nutno diagnostikovat a případně vyřadit.
Vlivná pozorování -diagnostika
• DFBETA(-i)=b-b(-i)
1
)()()(
1
)()(
)´(
)(/)(
´)´(
1
XXA
aesbbNDFBETA
XXXC
h
ecbbDFBETA
jjiijjij
ii
ijiijjij
Rule of thumb: Indikace problému NDFBETA>2/√n
Poznámka. Obdobný indikátor DFFIT a NDFFIT (Hebák, 2. díl, str. 101) , indikace problému NDFFIT>2/√(n/p)
Heteroskedasticita
• Předpokladem obyčejné regrese je konstantní rozptyl chybové složky pro všechny hodnoty nezávisle proměnných.
• Vizuálně lze prověřit: Graf reziduí oproti hodnotám nezávisle proměnných
• Testy - Glejser, Goldfeld-Quandt• Řešení: vážená MNČ, měření dáme váhu,
která je nepřímo úměrná odhadnutému rozptylu chyb
Glejserův test
• Modeluje závislost velikosti reziduí na nezávislé(-ých) proměnné (-ých) :
ijji ze
Multikolinearita
• Odhad: • Existují silné závislosti mezi nezávislými
proměnnými :
X´X je singulární matice nebo téměř singulární
Důsledky: standardní chyby odhadů beta jsou veliké, nevíme, tedy jak prediktory vlastně působí, na regresi mají pak také větší vliv vychýlené hodnoty, nahodnocen součet čtverců beta, nestabilita odhadů
yXXXb ´)´( 1
Multikolinearita
Odhalení: Korelace Xj na ostatních Xs, tedy průzkum korelační matice (měření škodlivé multikolinearity - orientační kritérium alespoň jeden párový korelační koeficient mezi vysvětlujícími proměnnými ve výši 0,8)
Další možnosti:
a) Tolerance (1-R2j)
b) VIF = 1/(1-R2j)
VIF jsou diagonální prvky R-1
c) poměr: max lambda/min lambda (v SPSS tzv. Condition index) ROT*= nad 30 → problém
*ROT=Rules of thumb
MultikolinearitaŘešení• Ignorovat• Vypustit proměnnou• Získat další data• Použít FA (s rotací) a regrese s faktory• Ridge regrese
Ridge regrese má zkreslené odhady ale menší standardní chyby (změníme trochu diagonálu)
yXkIXXb ´)´(* 1
Poučky k regresi
• AIC, BIC atd. jsou dostupné jen přes syntax, v nabídce je nenajdeme, lze zapsat za slovo STATISTICS slovo SELECTION (výstup viz Model Summary)
• Regrese na rozdíl od korelace umí modelovat i nelineární vztah (tzv. nelineární regrese, viz později). Vychází-li korelace nízká, může tedy být možné budovat regresní model nelineární. Tvar modelu nám může poradit grafické zobrazení dat (to platí vždy aneb grafická analýza by měla být první)
• Poznámka: Nevíme-li o vztazích jakého jsou druhu (lineární, kvadratické, logaritmické atd.) je rozumné volit lineární vztahy jsou přípustným zjednodušením a zároveň se nejlépe interpretují
Poučky k regresi
• Linearitu je také možno dosáhnout vhodnou transformací dat, nesmíme pak ale zapomenout „odtransformovat“ výsledky (viz dále)
• Nízký koeficient determinace neznamená nutně, že proměnné v modelu nevysvětlují změny závislé proměnné, ale důvodem může být chybná volba modelu (lineárního místo kvadratického apod.)
• Pro „slušný“ výpočet regresní analýzy se vyžaduje mít na každou proměnnou zařazenou v modelu cca 100 pozorování (rozhodně nikdy méně než 10 pozorování na 1 proměnnou!!!). Pamatujme na to jak rychle narůstá počet umělých proměnných u nominálních/ordinálních proměnných
Exkurz: Transformace dat
• Jaké známe transformace dat• Centrování• Standardizace• Co dalšího?• Linearizující transformace (viz např. příjem – původně
logaritmicko normální rozdělění)
• Základní transformace – logaritmická, odmocninná, mocninná, exponenciální
Transformace dat a regrese
• Jak postupovat? • Nejdříve transformujeme příslušnou proměnnou• Vypočítáme lineární regresi• vypočtené koeficienty musíme odtransformovat
• Upozornění: Při použití tohoto postupu nejsou již nalezené odhady nezkreslené (ztrácíme tedy jednu z výhod MNČ)
Nelineární regrese v SPSS
• Grafické řešení
• Výpočetní řešení
• Statistické složitosti
Nelineární regrese v Excelu
• Grafické řešení
• Výpočetní řešení v analytickém modulu