STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli [email protected] Sito web del corso...

35
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli [email protected] Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale + aspetti di inferenza (Capitolo 3 del libro + Appendice A)

Transcript of STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli [email protected] Sito web del corso...

Page 1: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

STATISTICA PER LE DECISIONI DI MARKETING

Andrea [email protected]

Sito web del corso

IL MODELLO DI REGRESSIONE LINEARE MULTIPLA

approccio matriciale + aspetti di inferenza

(Capitolo 3 del libro + Appendice A)

Page 2: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Modello di regressione nella popolazione e nel

campione

• Qual è la relazione tra e ed ε? Abbiamo già visto graficamente la relazione nella regressione semplice ora la deriviamo per esteso

Xy

eXy

Popolazione( noto)

Campione( stimato)

Page 3: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Analisi dei valori previsti

ˆ Xy

yXXXXy ')'(ˆ 1

Hyy ˆ

')'( 1XXXXH

H: matrice di previsione (proiezione) Hat matrix: trasforma y in y cappello

Page 4: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Proprietà della matrice H• Simmetrica (nn): H = H’ • Idempotente: HH = H• Per esercizio (esempio investimenti): p. 75

• Gli elementi hii sulla diagonale principale della matrice H sono compresi tra 0 e 1 Nel modello di regressione semplice (p. 77):

• Quindi hii è elevato se xi è distante dagli altri valori di X: alto leverage

Page 5: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Cosa succede se hii è elevato

y = 4.0322x - 0.3749

R2 = 0.9194

0.0

20.0

40.0

60.0

80.0

100.0

120.0

12 14 16 18 20 22 24 26 28

x

y

n = 50

Media X = 19.5

Come sopra, ma per la prima osservazione X passa da 17 a 50

12 17 22 27 32 37 42 47 520.0

20.0

40.0

60.0

80.0

100.0

120.0

f(x) = 1.18077540276336 x + 54.4492599803481R² = 0.225057840353833

x

y

Page 6: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Nella regressione multipla

• Traccia di H (somma degli hii)= k (numero di parametri)

• Media degli hii = k/n• Solitamente le osservazioni a cui

corrisponde

hii > 2k/n

vengono dette punti di leverage: i punti in cui hii è grande attirano l’iperpiano di regressione

Esercizio: grafico (in Excel) degli hii e identificazione dei punti di leverage: p. 78

Page 7: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Analisi dei residui• Modello “vero”:

• Modello stimato

• Pertanto:

Xy

eXy 1

1

( ' ) '

( ' ) '

e y X X X X y My

M I X X X X I H

dove I è la matrice Identità

Quindi: e = (I-H)y le proprietà di e dipendono da quelle della matrice M=I-H

Page 8: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Proprietà dei residui (p.76)

Che cosa impariamo da tali formule?

M =

Pertanto:

i = 1, …,n

i ≠ j

Page 9: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

• Il vettore dei residui osservati e ha proprietà diverse dal vettore dei termini aleatori . Infatti Var() = 2I

• I punti in cui hii è grande sono effettivamente punti di leverage. Infatti dalla formula di var(ei) discende che ei 0 se hii 1

• Le proprietà dei residui osservati dipendono da quelle della matrice M matrice simmetrica e idempotente (come H): p. 79 + §A.7

Page 10: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Stima di σ2

• Le proprietà di s2 derivano dalla relazione tra residui e errori

• DEV(E) = (n-k)s2 ~ 22 con gradi di libertà = rango (traccia) matrice idempotente M (v. p. 202)

• gradi di libertà = n – k si “perdono” tanti df quanti sono i parametri da stimare

• e’e = DEV(E) = dev. residua

• Stima corretta di 2:

s2 = e’e/(n-k) n-k = gradi di libertà (df)

Page 11: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Scomposizione devianza (mod. con intercetta)

• DEV(E): gradi di libertà = n – k • DEV(Y): gradi di libertà = n – 1 (rango

matrice A = I – ii’/n, con i = vettore di 1, p. 85) si “perde” 1 df, come nella stima della media (intercetta del modello senza X)

• DEV(Y cappello): gradi di libertà = k – 1 (rango matrice A – M) df = numero parametri delle X

• Vale la relazione: (n – 1) = (n – k) + (k – 1)• Tabella riassuntiva: p. 86

∑𝒊=𝟏

𝒏

( 𝒚 𝒊− 𝒚 )𝟐=∑𝒊=𝟏

𝒏

( �� 𝒊−𝒚 )𝟐+∑𝒊=𝟏

𝒏

(𝒚 𝒊− �� 𝒊 )𝟐

Page 12: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Analisi della bontà di adattamento

• Dalla scomposizione della devianza (modello con intercetta) def. di R2 nella regressione multipla:R2 = DEV(REG)/DEV(Y) = 1 – DEV(E)/DEV(Y)

R2 = quadrato del coefficiente di correlazione tra Y e Y cappello (coeff. corr.

lineare multipla: p. 83)

• Se manca l’intercetta, la scomposizione e la definizione di R2 sono in termini di somme di quadrati

R2 = SS(REG)/SS(Y) = 1 – SS(E)/SS(Y)Però non vale più la relazione con la corr. multipla

Page 13: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Distribuzione di (p. 80-81)

)ˆ(E

12 )'()ˆvar( XX

Sotto quali assunzioni?

Correttezza: significato

Significato; implicazione dell’inversione di X’X

(X’X: simmetrica k×k)

Page 14: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Inferenza su un singolo coefficiente di regressione (p. 87)

In pratica: stima s2 invece di 2

Page 15: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Distribuzione della statistica tj

(t-statistica)

tj presenta una distribuzione t di Student con n-k gradi di libertà

Analogia con la regressione semplice (k=2)

Page 16: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Intervallo di confidenza per βj:

Similmente per la verifica dell’ipotesiH0: βj = 0

ˆ

ˆ~ ( )

j

jjt T n ks

Zone rifiuto/accettazione oppure calcolo p-value

Page 17: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Esempio• Dati Investimenti = f(PIL, Trend):

analisi con Excel (calcoli dettagliati p. 88-89):

  Coeff. E.S.Stat

tValore di

signif.Inf. 95%

Sup. 95%

Intercetta -441.27 60.77 -7.260 1.00025E-05 -573.69 -308.849

PIL (X1) 0.625 0.058 10.76 1.60798E-07 0.499 0.752

TREND (X2) -12.522 1.485 -8.432 2.1845E-06 -15.758 -9.287

Page 18: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Esistono stimatori “migliori” rispetto a

beta cappello?

Page 19: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Teorema di Gauss Markov: gli stimatori dei minimi quadrati di

e sono BLUESignificato di questa proprietà

nel caso univariato (p. 40)nel caso multivariato (p. 81)

Efficienza (ma anche limiti) degli stimatori dei minimi quadrati

Cosa succede quando la distribuzione degli errori NON è normale e/o quando ci sono valori anomali?v. esempio: dati_outliers.xls

Page 20: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Statistica robusta

• Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici:– Min. somma dei valori assoluti dei residui

(MAD)– Min. mediana dei quadrati dei residui (LMS)– Min. la somma del 50% dei residui al

quadrato più piccoli (LTS)

Page 21: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Stimatori robusti

x1 2 3 4 5 6 7

12

34

56

Stimatore Minimi Quadrati (OLS)

Stimatore LMS

Stimatore LTS

Page 22: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Test su un insieme di coefficienti

Significato

H0: β1 = β2 = … = βq = 0 q coefficienti sono = 0; i rimanenti r = k – q sono invece ≠ 0

H0 vera tutte le var. esplicative X1 … Xq, associate ai coefficienti 1 … q, NON hanno effetto su Y

H0 falsa almeno una tra le var. esplicative X1 … Xq ha effetto su Y (teniamo quindi il modello con tutti i coefficienti, non sapendo quale β≠0)

Page 23: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Test su un insieme di coefficienti

ProceduraSi calcola DEV(E)=e’e nel modello completo con tutti i k coeff. 0, 1, …, k-1: df = n – k

Si calcola DEV(E)=er’er nel modello ridotto in cui 1= …= q=0 modello con r = k – q coefficienti, senza i q coefficienti sotto verifica: df = n – r

N.B. k > r perché nel modello ridotto alcuni β sono posti = 0. Ciò implica che: n – k < n – r e’e ≤ er’er (l’adattamento è migliore nel modello completo)

Page 24: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Si calcola: er’er – e’e

Tale quantità rappresenta la riduzione in DEV(E) dovuta all’inclusione di X1, … Xq nel modello

df = n – r – (n – k) = k – r = k – k + q = q

Si calcola il test F

che sotto le usuali assunzioni ha distribuzione F (pp. 199-200) quando H0 è vera confronto F con il percentile della distribuzione o calcolo il p-value (Excel)

( ' ' ) /

' /( )r re e e e q

Fe e n k

Procedura - segue

Page 25: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Casi particolari

q = 1 (r = k – 1) test su un solo coefficiente βj

q = k – 1 (r = 1) test sui coefficienti di tutte le variabili esplicative (test sul modello: l’unico coefficiente ≠ 0 è l’intercetta)

• La statistica F diventa (p. 93)

Relazione con il test t per un singolo βj:

F = t statistica al quadrato

),1(~ˆ2

2

knFSs

Fjjj

Page 26: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Test sul modello

• In questo esempio cosa sono e’rer , e’e?

H0: β1 = β2 = … = βk-1 = 0 (solo β0 ≠ 0)

Page 27: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

• e’rer = Devianza totale modello senza variabili esplicative, solo con intercetta = media: df = n – 1

• e’e = Devianza residua modello con tutte le variabili esplicative (k parametri): df = n – k

• e’rer – e’e = Devianza di regressione: df = q = n – 1 – (n – k) = k – 1 numero di coefficienti posti = 0 sotto H0 (numero di variabili esplicative)

)/()1(

)1/(

)/()(

)1/()(2

2

knR

kR

knEDEV

kRDevF

Rifiuto H0 se F osservato > percentile distribuzione F al livello di significatività fissato, oppure se p-value è piccolo

Page 28: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Esempio• Dati investimenti = f(PIL, Trend)

ANALISI VARIANZA (ANOVA)

  gdl SQ MQ F Significatività F

Regressione 25841.0691

82920.5

3107.8605

1 2.14126E-08

Residuo 12324.92348

427.076

9

Totale 146165.9926

6      

Page 29: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Caso generale: verifica di ipotesi su combinazioni lineari dei coefficienti • Esempi

v. §3.9

Page 30: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Intervallo di previsione: intervallo di confidenza del valore y0 associato ad uno

specifico insieme di valori delle variabili esplicative

v. §3.13

Page 31: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Passo finale: si esplicita y0 (p. 107)

Intervallo di confidenza (di probabilità 1 - ) per la “nuova” osservazione y0: intervallo di previsione di y0

Esempio investimenti (v. p. 107 per i passaggi)

818.236ˆ0 y 𝑣𝑎𝑟 (𝑒0 )=40.515

Commento

Page 32: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Analisi statistiche con IBM SPSS

Page 33: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Esempio investimenti: output SPSS

Interpretazione di tutte le quantità riportateConfronto con output Excel

Page 34: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Coefficienti standardizzati• SPSS riporta anche i coefficienti standardizzati

• Tali coefficienti sono quelli della regressione sulle variabili standardizzate: si elimina l’effetto dell’ordine di grandezza e dell’unità di misura sulle X e su Y

• I coeff. std. hanno l’obiettivo di essere confrontabili tra loro dovrebbero misurare l’importanza relativa delle esplicative, senza essere influenzati da unità di misura e ordine di grandezza (ad es.: se β1=0.5 e β2=1 non vuol dire che X2 è più “importante” di X1)

• Però il concetto di “importanza relativa” è vago:– Se X ha coeff. std max non è detto che X abbia effetto max

su R2

– coeff. std = rxy ma solo se le X sono incorrelate– i coeff. std “confondono” concetti diversi: l’effetto assoluto su

Y (tramite β) e l’effetto della variabilità (tramite )• Per tali motivi i coeff. std non sono molto utilizzati il

confronto tra le X può essere fatto con le t-statistiche

ˆ ( )ˆ ˆˆ ( )

jj j

Xstd

Y

Page 35: STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Data set per esercitazioni sulla regressione (v. sito del corso)

• Esercitazione 1: Space Shuttle

Challenger

• Esercitazione 2: analisi del mercato

immobiliare

• Esercitazione 3: dati Trade

(semplificati)