Priors for sparse regression modelling -...

20
Priors for sparse regression modelling Paloma Vaissman Uribe Instituto de Matemática e Estatística - USP [email protected] 19 de fevereiro de 2016

Transcript of Priors for sparse regression modelling -...

Page 1: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Priors for sparse regression modelling

Paloma Vaissman Uribe

Instituto de Matemática e Estatística - USP

[email protected]

19 de fevereiro de 2016

Page 2: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Inferência com a priori normal-gamma em problemas deregressão

O modelo padrão de regressão múltipla assume que o vetor derespostas y = (y1, y2, ..., yn)pode ser representado por

y = α1 + Xβ + ε, (1)

em que ε = (ε1, ..., εn)T são independentes, p(εi ) = N(εi |0, σ2) e X éuma matriz (n × p) de variáveis explicativas. O escalar α é ointercepto e 1 é um vetor unitário (n × 1).[Griffin et al., 2010] está preocupado com a escolha da distribuição apriori do vetor β, de dimensão (p × 1) de coeficientes da regressãomúltipla de forma a realizar seleção de variáveis.

Page 3: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A abordagem padrão: priori"spike-and-slab"[Mitchell and Beauchamp, 1988]

A variável indicadora zi é introduzida para identificar se a i-ésimavariável deve ser incluída no modelo (zi = 1) ou excluída (zi = 0). Apriori para βi pode ser expressa por

π(βi ) = ziN(βi |0, σβ2) + (1− zi )δβi=0, p(zi = 1) = ω, (2)

em que δβi=0 é a medida delta de Dirac que coloca toda a massa emzero.As variáveis Bernouilli independentes zi tem média ω, e portanto ohiperparâmetro ω pode ser interpretado como sendo a proporção apriori de regressores não nulos. Alternativamente, uma distribuição apriori pode ser utilizada para ω e seu valor inferido através dos dados.A escala σβ2 controla a variância da priori.

Page 4: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A esperança a posteriori dos coeficientes da regressão linear

Proposição. Suponha que temos um modelo de regressão linear dado por(1) em que a variância do erro da regressão σ2 é conhecida, a matriz dedesign X , de dimensão n ≥ p + 1, é não singular e suas colunas foramcentradas, e o intercepto α é independente de β a priori. Seja β̂ oestimador de mínimos quadrados de β, eh(β̂) =

∫N(β̂|β, σ2(XTX )−1)π(β)dβ, em que π(β) é a distribuição a

priori de β, então

E (β|β̂) = (I − S(β̂))β̂

V (β|β̂) = σ2(XTX )−1 − σ4(XTX )−1W (β̂)(XTX )−1,(3)

onde S(β̂) = σ2(XTX )−1R(β̂), R(x) é uma matriz diagonal comelementos Rii (x) = − 1

xi∂∂xi

log h(x), e W (x) = − ∂∂x

∂∂xT

log h(x).

Page 5: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Implicações da Proposição

A densidade amostral de β̂ é N(β, σ2(XTX )−1) e assim h(β̂) é adensidade preditiva a priori de β̂.A esperança a posteriori é sempre uma versão matricial encolhidado estimador de mínimos quadrados. A magnitude doencolhimento ou compressão é controlada pela forma de h (a derivadado log da distribuição preditiva) e pelo erro padrão de β̂.Em contraste, o estimador de máxima verossimilhança penalizadotambém é um estimador encolhido, sendo que a magnitude dacompressão controlada pela derivada da função de penalização.O resultado pode ser estendido para X singular, em que p > n + 1,utilizando a decomposição do valor singular de X e explorandopropriedades das distribuições de misturas de escala normal.

Page 6: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A priori Normal-Gamma

Uma classe natural e bastante extensa de densidades a priori doscoeficientes de regressão é conhecida como distribuições de mistura deescala normal, cuja densidade pode ser expressa por

π(βi ) =

∫N(βi |0,Ψi )dG (Ψi )

βi |Ψi ∼ N(0,Ψi ), Ψi ∼ G ,

(4)

onde G é uma distribuição de mistura.A distribuição normal-gamma surge assumindo que a distribuição demistura G é g(x) = Gamma(x |λ, 1/(2γ2)). A função de densidade é

π(βi ) =1

√π2λ−1/2γλ+1/2Γ(λ)

|βi |λ−1/2Kλ−1/2(|βi |/γ), (5)

em que K é a função Bessel do terceiro tipo. A variância de βi é 2λγ2

e o excesso de curtose 3/λ.

Page 7: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A priori Normal-Gamma

Figura 1: Log da densidade da priori normal-gamma prior com variância 2 ediferentes valores para λ. λ = 0, 1 (linha cheia), λ = 0, 333 (linha tracejada) andλ = 1 (linha pontilhada).

Page 8: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Outras misturas de escala normal

A priori "spike-and-slab"também é uma mistura de escala normal emque a distribuição de mistura G é

G (Ψi ) = ziδΨi=σβ2 + (1− zi )δΨi=0. (6)

A priori exponencial dupla do Lasso Bayesiano também pertence àclasse, sendo G uma distribuição exponencial, o que é o mesmo quesubstituir λ = 1 na densidade da Normal-Gamma.

Page 9: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

O efeito de λ na priori Normal-Gamma

Segue da definição do modelo de regressão linear em (1) e dasdistribuições de misturas de escala normal em (4) que

V [yi |Ψ, σ2] = V [α] +

p∑j=1

Ψj + σ2 (7)

se os regressores foram padronizados tal que a média amostral seja 0 ea variância 1.Assim, ζj =

Ψj∑pk=1 Ψk

pode ser interpretado como sendo a proporção davariabilidade total explicada pelo j-ésimo regressor. Se G ∼ Gamma,então ζ ∼ Di(λ, ...̧ λ).Aumentar λ faz com que ζ1, ..., ζp sejam mais próximos entre si.Pequenos valores para λ estão associados a maiores diferenças entre asproporções => maior encolhimento.

Page 10: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

O fator de encolhimento S(β̂)

Figura 2: As propriedades a posteriori dos coeficientes da regressão podem serestudadas via Proposição. O fator de encolhimento, S(β̂), para a esperança aposteriori de um dos coeficientes da regressão múltipla é representadograficamente para diferentes valores de erro padrão de β̂ e de λ: λ = 0, 1 (linhacheia), λ = 0, 333 (linha tracejada) e λ = 1 (linha pontilhada).

Page 11: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Hiperparâmetros da priori Normal-Gamma

Os hiperparâmetros da priori normal-gamma podem ser escolhidos deforma a aproximar-se da priori "spike-and- slab". Contudo, tambémpode-se estabelecer distribuições a priori para γ e λ:

λ ∼ Exp(1), (8)

que oferece variabilidade ao redor da priori do Lasso Bayesiano(λ = 1), e

vβ = 2λγ2 ∼ IG (2,M), (9)

em que IG é a distribuição gamma invertida,tal que IG (2,M) temmédia M. Quando X é não singular M = 1

p

∑pi=1 β̂

2i em que β̂ é a

estimativa de mínimos quadrados. Quando X é singular, como quandop > n + 1, M = 1

n

∑pi=1 β̂

2i , em que β̂ é a estimativa de mínima

distância.

Page 12: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A distribuição Normal-Gamma Multivariada

Suponha β = Cφ, em que C = (Cik) é uma matriz de dimensão(p × q) com elementos reais e φ é um vetor q-dimensional de variáveisindependentes φk ∼ NG (λk , 1/2). Diz-se então que β temdistribuição normal-gamma correlacionada p-variada, expressa por:

β ∼ CNG (λ,C ), (10)

em que λ = (λ1, ..., λq), λk ≥ 0, (k = 1, ..., q).Assume-se que a matriz de covariância (p × p)-dimensional de β,Cdiag(λ)CT , tem posto pleno p.

Page 13: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A distribuição Normal-Gamma Multivariada

Seja Si (C ) o subconjunto de {1, ..., q} tal que Cik é não nulo(k = 1, ..., q). A densidade marginal de βi pode ser expressa por umadistribuição de misturas de escala normal

p(βi ) = N(βi |0,Ψi )g(Ψi )dΨi , (11)

em que Ψi =∑

k∈Si (C) ζik e ζik ∼ Gamma(λk , 1/(C 2ik)), tal que Ψi é

convolução de variáveis gamma independentes com diferentes escalas.A densidade de Ψi é uma soma infinita dada por[Moschopoulos, 1985]:

g(Ψi ) ∝ Ψηi−1i exp(−b∗i Ψi )

∞∑l=0

δlΨli , (12)

e, portanto, o formato da densidade é do tipo gamma com oparâmetro de forma controlado pelo parâmetro de forma agregadoηi =

∑k∈Si (C) λk , com um pico se ηi ≤ 1.

Page 14: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A distribuição Normal-Gamma Multivariada

A escolha de C = γ2B , em que γ é um escalar e B é uma matriz(p × q), sendo que Bik é 0 ou 1, gera a seguinte distribuição marginalpara βi :

βi ∼ NG (

q∑k=1

Bikλk , 1/(2γ2)), (13)

com var(βi ) = 2γ2∑q

k=1 Bikλk .Se além disso, βi e βj forem identicamente distribuídas, então acorrelação entre eles é

corr(βi , βj) =

∑qk=1 BikBjkλk∑qk=1 Bikλk

, i , j = 1, ..., p. (14)

Page 15: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A distribuição Normal-Gamma Multivariada: exemplo

Considere p = 2, q = 3, B =

[1 1 01 0 1

], e

λ = {ρλ∗, (1− ρ)λ∗, λ∗}.Essa parametrização implica que as distribuições marginais de β1 e β2são NG (λ∗, γ) e que corr(β1, β2) = ρ, sendo γ = 1√

λ∗.

Nota-se que a massa de probabilidade da densidade condicional de β1dado β2 é aumentada ao redor do valor de β2. Esse efeito é maior,quanto maior for ρ, e menor for λ∗, tudo mais constante.

Page 16: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

A distribuição Normal-Gamma Multivariada: exemplo

Figura 3: Distribuição condicional de β1 dado β2 = 0, 0001 (linha cheia), β2 = 2(linha tracejada), e β2 = 4 (linha pontilhada).

Page 17: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Regressão com variáveis categóricas

Suponha um modelo que os regressores são variáveis categóricas nãoordenadas, em que a g -ésima variável tem pg níveis:

y = α1 +G∑

g=1

Xgβg + ε, (15)

em que Xg é uma matriz n× (pg − 1) de variáveis dummy construídastomando o primeiro nível como base e definindo:

(Xg )ij = 1, se a i-ésima observação pertence ao (j + 1)-ésimo nível,(Xg )ij = 0, c.c.

O coeficiente βg ,j denota a diferença entre o efeito do (j + 1)-ésimonível e do primeiro nível.Assume-se que β1, ..., βG são independentes e queβi ∼ CNG (λi , γ

2Bi ).

Page 18: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Regressão com variáveis categóricas

Se a variável categórica é não ordenada, βg deveria ser invariante àspermutações entre os níveis e ao nível base escolhido. Utilizando aNormal-Gamma Correlacionada, isso pode ser atingido assumindo

βg ∼ CNG (λg , γ2B(p)), (16)

em que λg ,i = λ∗/2pg−1, e B(p) a matriz p × (2p − 1), cujas colunassão as 2p combinações de 0s e 1s, omitindo-se o vetor nulo.Segue que βg ,i ∼ NG (λ∗, 1/(2γ2)) e também queβg ,i − βg ,j ∼ NG (λ∗, 1/(2γ2)), para qualquer que seja o nível base.Além disso, corr(βg ,i , βg ,j) = 0, 5, i , j = 1, ..., pg .

Page 19: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Regressão com variáveis categóricas: exemplo

Regressão da pontuação média na parte verbal do teste SAT em cada estado dos EUA.Regressores: população do estado, percentual dos alunos que concluíram o high schoolque fizeram o SAT, gastos públicos por aluno feitos por cada estado, média de saláriosdos professores de cada estado, além da variável categórica de região, composta de 9níveis (East North Central (1), East South Central (2), Mid-Atlantic (3), Mountain (4),New England (5), Pacific (6), South Atlantic (7),West North Central (8) e West SouthCentral (9)).

Figura 4: Medianas a posteriori para os coeficientes das regressões para diferentes níveisbase, usando a Normal-Gamma Correlacionada (CNG) e prioris Normal-Gammaindependentes.

Page 20: Priors for sparse regression modelling - Hediberthedibert.org/wp-content/uploads/2016/02/seminario...Suponha = C˚,emqueC = (C ik) éumamatrizdedimensão (p q)comelementosreaise˚éumvetorq-dimensionaldevariáveis

Referências I

Griffin, J. E. and Brown, P. J. (2012).Structuring shrinkage: some correlated priors for regression.Biometrika, page asr082.

Griffin, J. E., Brown, P. J., et al. (2010).Inference with normal-gamma prior distributions in regressionproblems.Bayesian Analysis, 5(1):171–188.

Mitchell, T. J. and Beauchamp, J. J. (1988).Bayesian variable selection in linear regression.Journal of the American Statistical Association, 83(404):1023–1032.

Moschopoulos, P. G. (1985).The distribution of the sum of independent gamma random variables.Annals of the Institute of Statistical Mathematics, 37(1):541–544.