Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik...

37
Análise de clusters usando classes latentes Jo ˜ ao Branco Departamento de Matem ´ atica, IST XIV Congresso SPE, 27 - 30 Set. 2006 Covilh ˜ a Poucos dados/muitos dados – p. 0/23

Transcript of Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik...

Page 1: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Análise de clusters usando classes

latentes

Joao Branco

Departamento de Matem atica, IST

XIV Congresso SPE, 27 - 30 Set. 2006

Covilha

Poucos dados/muitos dados – p. 0/23

Page 2: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Sumário

1. Variáveis latentes

2. Modelos de variáveis latentes

3. Análise de Clusters baseada em modelos versus Análisede Clusters tradicional

4. Conclusões/Comentário Final

Poucos dados/muitos dados – p. 1/23

Page 3: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

1. Variáveis latentes

Não podem ser observadas directamente. O conhecimento

que temos chega-nos observando as suas manifestações

(nas variáveis que podemos observar directamente).

Poucos dados/muitos dados – p. 2/23

Page 4: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

1. Variáveis latentes

Não podem ser observadas directamente. O conhecimento

que temos chega-nos observando as suas manifestações

(nas variáveis que podemos observar directamente).

Usam-se para explicar a associação existente entre as variá-

veis observadas.

Poucos dados/muitos dados – p. 2/23

Page 5: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

1. Variáveis latentes

Não podem ser observadas directamente. O conhecimento

que temos chega-nos observando as suas manifestações

(nas variáveis que podemos observar directamente).

Usam-se para explicar a associação existente entre as variá-

veis observadas.

Permitem reduzir a dimensionalidade do sistema de variáveis

(podemos ter de agregar um múmero apreciável de variáveis

observadas para representar um conceito subjacente à rea-

lidade que observamos).

Poucos dados/muitos dados – p. 2/23

Page 6: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

1. Variáveis latentes (cont.)

Suportam o desenvolvimento de teorias, sobretudo em so-

ciologia, economia e educação. São também muito usadas

em medicina.

Poucos dados/muitos dados – p. 3/23

Page 7: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

1. Variáveis latentes (cont.)

Suportam o desenvolvimento de teorias, sobretudo em so-

ciologia, economia e educação. São também muito usadas

em medicina.

Podem ter interpretação com significado:

- inteligência;

- traços de personalidade (ambição, egoísmo)

- moral

- qualidade de vida

- atitude política

Poucos dados/muitos dados – p. 3/23

Page 8: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

2. Modelos de variáveis latentes

Modelos estatísticos que relacionam um conjunto de variá-

veis observáveis com um conjunto de variáveis latentes.

Hipóteses fundamentais:

Poucos dados/muitos dados – p. 4/23

Page 9: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

2. Modelos de variáveis latentes

Modelos estatísticos que relacionam um conjunto de variá-

veis observáveis com um conjunto de variáveis latentes.

Hipóteses fundamentais:

A resposta obtida nas variáveis observáveis é o resultado da

posição do indivíduo na variável latente.

Poucos dados/muitos dados – p. 4/23

Page 10: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

2. Modelos de variáveis latentes

Modelos estatísticos que relacionam um conjunto de variá-

veis observáveis com um conjunto de variáveis latentes.

Hipóteses fundamentais:

A resposta obtida nas variáveis observáveis é o resultado da

posição do indivíduo na variável latente.

Fixando a variável latente as variáveis observáveis tornam-

se independentes

Hipótese (ou axioma) da independência condicional (ou lo-

cal).

Poucos dados/muitos dados – p. 4/23

Page 11: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Modelos de estrutura latente mais comuns

Bartholomew and Knott (1999)

variáveis observadas

contínuas categorizadas

contínuas Análise Análise deFactorial Traços Latentes

v. latentes

categorizadas Análise de Análise dePerfis latentes Classes Latentes

Poucos dados/muitos dados – p. 5/23

Page 12: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

2.1 Modelo para análise factorial

Variáveis observáveis, X1, . . . ,Xp, com densidade f(x)

Variáveis latentes (factores): Y1, . . . , Ym, com densidade h(y)

Com g(x|y), tem-se

f(x) =

h(y)g(x|y)dy

O objectivo da análise factorial é encontrar variáveis latentes, Y ,

que fazem os X ’s condicionalmente independentes,

g(x|y) =

p∏

i=1

g(xi|y) e portanto f(x) =

h(y)

p∏

i=1

g(xi|y)dy

Poucos dados/muitos dados – p. 6/23

Page 13: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

2.2 Modelo de classes latentes

Variáveis observáveis, X1, . . . ,Xp (Xi tem ci classes: 1, . . . , ci)

Variável latente (Y tem s classes: 1, . . . , s)

P (Y = k) = αk

∑sk=1

αk = 1

P (Xi = j|Y = k) = πijk

∑ci

j=1πijk = 1

f(x) ≡ P (x) = P (X1 = x1, . . . ,Xp = xp) =

s∑

k=1

αk

p∏

i=1

ci∏

j=1

πxijk

ijk

com xijk = 1 se i = j e xijk = 0, c.c.

Poucos dados/muitos dados – p. 7/23

Page 14: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

2.2 Modelo de classes latentes Estimação

Partindo da amostra x1, . . . ,xn, obtém-se

log L =n∑

l=1

log (f(xl))−λ

(

s∑

k=1

αk − 1

)

p∑

i=1

s∑

k=1

γik

ci∑

j=1

πijk − 1

com λ e γik multiplicadores de Lagrange, o que produz αk e πijk.

A probabilidade a posteriori de uma observação x pertencer à

classe latente k é

p(k|x) = αk

p∏

i=1

ci∏

j=1

πijk /f(x)

que é estimada com recurso a αk e πijk.Poucos dados/muitos dados – p. 8/23

Page 15: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Exemplo: dados sobre o naufrágio do Titanic(N. obs. = 2201; N. var. = 4)

Classe 1 Classe 2 Classe 3

αk 0.446 0.382 0.172

Classe Tripulação 0.877 0.002 0.060

1a classe 0.121 0.055 0.423

2a classe 0.002 0.201 0.301

3a classe 0.000 0.742 0.216

Idade Criança 0.000 0.085 0.098

Adulto 1.000 0.915 0.902

Sexo Feminino 0.004 0.169 0.855

Masculino 0.996 0.831 0.145

Sobrevivência Não 0.777 0.864 0.002

Sim 0.223 0.136 0.998

Poucos dados/muitos dados – p. 9/23

Page 16: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Como descrever uma pessoa típica?

Classe latente 1: tripulação, adulto, homem, não sobrevivente

Classe latente 2: 3a classe, adulto, homem, não sobrevivente

Classe latente 3: 1a classe, adulto, mulher, sobrevivente

Poucos dados/muitos dados – p. 10/23

Page 17: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Valor esperado do número de mulheres viajando na 3a classe

que não sobreviveram:

2201 × [0.446 × (0.000 × 1.000 × 0.004 × 0.777) +

+0.382 × (0.742 × 0.169 × 0.915 × 0.864) +

+0.172 × (0.216 × 0.855 × 0.902 × 0.002)] = 83.5

O respectivo valor observado é 89.

Com os valores observados de cada célula (Oi) e os valores es-

perados, segundo o modelo, (Ei), pode usar-se o teste do Qui-

quadrado de Pearson para avaliar a qualidade do ajustamento do

modelo:∑

i(Oi − Ei)2/Ei.

Poucos dados/muitos dados – p. 11/23

Page 18: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Características do Modelo de Classes Latentes

O modelo de classes latentes permite

descrever o perfil de cada classe latente encontrada;

Poucos dados/muitos dados – p. 12/23

Page 19: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Características do Modelo de Classes Latentes

O modelo de classes latentes permite

descrever o perfil de cada classe latente encontrada;

calcular a probabilidade de cada indivíduo pertencer a uma

dada classe, o que permite identificar a classe a que o in-

divíduo pertence.

Poucos dados/muitos dados – p. 12/23

Page 20: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

O modelo de classes latentes pode ser visto

como um método de obtenção de clusters. Todos os in-

divíduos que pertencem a uma classe latente formam um

cluster que fica assim representado pela própria classe la-

tente.

Poucos dados/muitos dados – p. 13/23

Page 21: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

O modelo de classes latentes pode ser visto

como um método de obtenção de clusters. Todos os in-

divíduos que pertencem a uma classe latente formam um

cluster que fica assim representado pela própria classe la-

tente.

Como um método de análise de clusters equivalente à de-

composição de uma mistura finita de populações.

Poucos dados/muitos dados – p. 13/23

Page 22: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Modelos de Mistura para Análise de Clusters

Os modelos de mistura finita assumem que os dados são ge-

rados por um conjunto de k populações com diferentes dis-

tribuições de probabilidade. Se essas distribuições forem nor-

mais multivariadas então o modelo de mistura é

f(x) =

k∑

i=1

pi N (µi,Σi)

O que se pretende é separar uma amostra proveniente da mis-

tura em clusters correspondentes a cada uma das componentes.

Poucos dados/muitos dados – p. 14/23

Page 23: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Isso passa por identificar as componentes da mistura (estimando

so seus parâmetros, via MV/EM) e estimando as probabilidades

a posteriori de uma observação pertencer à componente (classe)

i.

O modelo de classes latentes é equivalente ao modelo de

mistura (a diferença reside no facto das distribuições associadas

a cada classe, cluster, serem do tipo discreto).

Poucos dados/muitos dados – p. 15/23

Page 24: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

3. Análise de Clusters baseada em modelos versus Análisede Clusters tradicional

Modelo de mistura finita ≡ Modelo de classes latentes

é uma generalização do método das k-médias

Poucos dados/muitos dados – p. 16/23

Page 25: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

3. Análise de Clusters baseada em modelos versus Análisede Clusters tradicional

Modelo de mistura finita ≡ Modelo de classes latentes

é uma generalização do método das k-médias

k-médias1. Seleccionar partição

2. Deslocar cada objecto para o grupo com o centróide

mais próximo

3. Recalcular os centróides dos novos grupos

4. Repetir 2 e 3 até não ser possível realizar mais deslo-

cações.Poucos dados/muitos dados – p. 16/23

Page 26: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Caso ilustrativo

σ = 1.0 πiϕi(x)/(π1ϕ1(x) + π2ϕ2(x))

−1 0.5 1x

Den

sida

des

−1 0.5 1

0.27

0.73

x

Res

pons

abili

dade

s

Poucos dados/muitos dados – p. 17/23

Page 27: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

σ = 0.2 πiϕi(x)/(π1ϕ1(x) + π2ϕ2(x))

−1 0.5 −1x

Den

sida

des

−1 0.5 1x

Res

pons

abili

dade

s

EM → k-médias (quando σ → 0)

Poucos dados/muitos dados – p. 18/23

Page 28: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

LC versus k-médias

Grupo 1: N2 ((3, 4); diag(4, 1)), n1 = 200;

Grupo 2: N2 ((7, 1); diag(4, 1)), n2 = 100.

Poucos dados/muitos dados – p. 19/23

Page 29: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

LC versus k-médias

Grupo 1: N2 ((3, 4); diag(4, 1)), n1 = 200;

Grupo 2: N2 ((7, 1); diag(4, 1)), n2 = 100.

Dados e recta discriminante:

0 2 4 6 8 10

−5

05

10

x1

x2

Poucos dados/muitos dados – p. 19/23

Page 30: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Resultados

(número de casos mal classificados):

Grupo N. de obs. LDA LC cluster k-médias

1 200 2 3 24

2 100 2 2 9

Total 300 4 5 33

(1.3%) (1.7%) (11%)

Poucos dados/muitos dados – p. 20/23

Page 31: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

k-médias Modelo de mistura ≡ Modelo C. Latentes

(atribuição determinística dos objectosaos clusters)

(atribuição probabilística dos objectosaos clusters)

Variáveis quantitativas Variáveis de tipos variados

Clusters de forma esférica Independência condicional

Minimização (maximização) da varia-ção dentro (entre) clusters

Maximização da função de verosimi-lhança

Critérios para determinação donúmero de clusters não são objectivos

Há vários diagnósticos que ajudam adecidir sobre o número de clusters

Poucos dados/muitos dados – p. 21/23

Page 32: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

5. Conclusões/Comentáriofinal

O modelo de classes latentes

Tornou-se muito requerido nos últimos tempos.

Poucos dados/muitos dados – p. 22/23

Page 33: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

5. Conclusões/Comentáriofinal

O modelo de classes latentes

Tornou-se muito requerido nos últimos tempos.

Pode ser usado como um método de análise de clusters.

Poucos dados/muitos dados – p. 22/23

Page 34: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

5. Conclusões/Comentáriofinal

O modelo de classes latentes

Tornou-se muito requerido nos últimos tempos.

Pode ser usado como um método de análise de clusters.

É um modelo de mistura.

Poucos dados/muitos dados – p. 22/23

Page 35: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

5. Conclusões/Comentáriofinal

O modelo de classes latentes

Tornou-se muito requerido nos últimos tempos.

Pode ser usado como um método de análise de clusters.

É um modelo de mistura.

É uma generalização do método das k-médias.

Poucos dados/muitos dados – p. 22/23

Page 36: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

5. Conclusões/Comentáriofinal

O modelo de classes latentes

Tornou-se muito requerido nos últimos tempos.

Pode ser usado como um método de análise de clusters.

É um modelo de mistura.

É uma generalização do método das k-médias.

Comparado com os métodos de análise de clusters tradi-

cionais (k-médias) apresenta a vantagem de ser mais flexível

e ser baseado num modelo estatístico.

Poucos dados/muitos dados – p. 22/23

Page 37: Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik multiplicadores de Lagrange, o que produz αˆk e πˆijk. A probabilidade a posteriori

Bibliografia

Banfield, J.D. and Raftery, A.E. (1993). Model based Gaussian and non-Gaussian clustering. Biometrics, 99 803–822.

Bartholomew, D.J. and Knott, M. (1999). Latent Variable Models andFactor Analysis. Arnold, London.

Fraley, C. and Raftery, A. E. (1998). How many clusters? Which cluster-ing method? Answers via model-based cluster analysis. ComputerJournal, 41, 578–588.

Lazarsfeld, P.F. and Henry, N.W. (1968). Latent Structure Analysis.Houghton-Mifflin, New York.

McLachlan, G.J. and Basford, K.E. (1988). Mixture Models: Inferenceand Applications to Clustering. Marcel Dekker, New York.

Poucos dados/muitos dados – p. 23/23