Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik...

Análise de clusters usando classes

latentes

Joao Branco

Departamento de Matem atica, IST

XIV Congresso SPE, 27 - 30 Set. 2006

Covilha

Poucos dados/muitos dados – p. 0/23

Sumário

1. Variáveis latentes

2. Modelos de variáveis latentes

3. Análise de Clusters baseada em modelos versus Análisede Clusters tradicional

4. Conclusões/Comentário Final



Não podem ser observadas directamente. O conhecimento

que temos chega-nos observando as suas manifestações

(nas variáveis que podemos observar directamente).






Usam-se para explicar a associação existente entre as variá-

veis observadas.






Usam-se para explicar a associação existente entre as variá-

veis observadas.

Permitem reduzir a dimensionalidade do sistema de variáveis

(podemos ter de agregar um múmero apreciável de variáveis

observadas para representar um conceito subjacente à rea-

lidade que observamos).


1. Variáveis latentes (cont.)

Suportam o desenvolvimento de teorias, sobretudo em so-

ciologia, economia e educação. São também muito usadas

em medicina.


1. Variáveis latentes (cont.)

Suportam o desenvolvimento de teorias, sobretudo em so-

ciologia, economia e educação. São também muito usadas

em medicina.

Podem ter interpretação com significado:

- inteligência;

- traços de personalidade (ambição, egoísmo)

- moral

- qualidade de vida

- atitude política



Modelos estatísticos que relacionam um conjunto de variá-

veis observáveis com um conjunto de variáveis latentes.

Hipóteses fundamentais:






A resposta obtida nas variáveis observáveis é o resultado da

posição do indivíduo na variável latente.






A resposta obtida nas variáveis observáveis é o resultado da

posição do indivíduo na variável latente.

Fixando a variável latente as variáveis observáveis tornam-

se independentes

Hipótese (ou axioma) da independência condicional (ou lo-

cal).


Modelos de estrutura latente mais comuns

Bartholomew and Knott (1999)

variáveis observadas

contínuas categorizadas

contínuas Análise Análise deFactorial Traços Latentes

v. latentes

categorizadas Análise de Análise dePerfis latentes Classes Latentes


2.1 Modelo para análise factorial

Variáveis observáveis, X1, . . . ,Xp, com densidade f(x)

Variáveis latentes (factores): Y1, . . . , Ym, com densidade h(y)

Com g(x|y), tem-se

f(x) =

∫

h(y)g(x|y)dy

O objectivo da análise factorial é encontrar variáveis latentes, Y ,

que fazem os X ’s condicionalmente independentes,

g(x|y) =

p∏

i=1

g(xi|y) e portanto f(x) =

∫

h(y)

p∏

i=1

g(xi|y)dy


2.2 Modelo de classes latentes

Variáveis observáveis, X1, . . . ,Xp (Xi tem ci classes: 1, . . . , ci)

Variável latente (Y tem s classes: 1, . . . , s)

P (Y = k) = αk

∑sk=1

αk = 1

P (Xi = j|Y = k) = πijk

∑ci

j=1πijk = 1

f(x) ≡ P (x) = P (X1 = x1, . . . ,Xp = xp) =

s∑

k=1

αk

p∏

i=1

ci∏

j=1

πxijk

ijk

com xijk = 1 se i = j e xijk = 0, c.c.


2.2 Modelo de classes latentes Estimação

Partindo da amostra x1, . . . ,xn, obtém-se

log L =n∑

l=1

log (f(xl))−λ

(

s∑

k=1

αk − 1

)

−

p∑

i=1

s∑

k=1

γik

ci∑

j=1

πijk − 1

com λ e γik multiplicadores de Lagrange, o que produz αk e πijk.

A probabilidade a posteriori de uma observação x pertencer à

classe latente k é

p(k|x) = αk

p∏

i=1

ci∏

j=1

πijk /f(x)

que é estimada com recurso a αk e πijk.Poucos dados/muitos dados – p. 8/23

Exemplo: dados sobre o naufrágio do Titanic(N. obs. = 2201; N. var. = 4)

Classe 1 Classe 2 Classe 3

αk 0.446 0.382 0.172

Classe Tripulação 0.877 0.002 0.060

1a classe 0.121 0.055 0.423

2a classe 0.002 0.201 0.301

3a classe 0.000 0.742 0.216

Idade Criança 0.000 0.085 0.098

Adulto 1.000 0.915 0.902

Sexo Feminino 0.004 0.169 0.855

Masculino 0.996 0.831 0.145

Sobrevivência Não 0.777 0.864 0.002

Sim 0.223 0.136 0.998


Como descrever uma pessoa típica?

Classe latente 1: tripulação, adulto, homem, não sobrevivente

Classe latente 2: 3a classe, adulto, homem, não sobrevivente

Classe latente 3: 1a classe, adulto, mulher, sobrevivente


Valor esperado do número de mulheres viajando na 3a classe

que não sobreviveram:

2201 × [0.446 × (0.000 × 1.000 × 0.004 × 0.777) +

+0.382 × (0.742 × 0.169 × 0.915 × 0.864) +

+0.172 × (0.216 × 0.855 × 0.902 × 0.002)] = 83.5

O respectivo valor observado é 89.

Com os valores observados de cada célula (Oi) e os valores es-

perados, segundo o modelo, (Ei), pode usar-se o teste do Qui-

quadrado de Pearson para avaliar a qualidade do ajustamento do

modelo:∑

i(Oi − Ei)2/Ei.


Características do Modelo de Classes Latentes

O modelo de classes latentes permite

descrever o perfil de cada classe latente encontrada;


Características do Modelo de Classes Latentes

O modelo de classes latentes permite

descrever o perfil de cada classe latente encontrada;

calcular a probabilidade de cada indivíduo pertencer a uma

dada classe, o que permite identificar a classe a que o in-

divíduo pertence.


O modelo de classes latentes pode ser visto

como um método de obtenção de clusters. Todos os in-

divíduos que pertencem a uma classe latente formam um

cluster que fica assim representado pela própria classe la-

tente.


O modelo de classes latentes pode ser visto

como um método de obtenção de clusters. Todos os in-

divíduos que pertencem a uma classe latente formam um

cluster que fica assim representado pela própria classe la-

tente.

Como um método de análise de clusters equivalente à de-

composição de uma mistura finita de populações.


Modelos de Mistura para Análise de Clusters

Os modelos de mistura finita assumem que os dados são ge-

rados por um conjunto de k populações com diferentes dis-

tribuições de probabilidade. Se essas distribuições forem nor-

mais multivariadas então o modelo de mistura é

f(x) =

k∑

i=1

pi N (µi,Σi)

O que se pretende é separar uma amostra proveniente da mis-

tura em clusters correspondentes a cada uma das componentes.


Isso passa por identificar as componentes da mistura (estimando

so seus parâmetros, via MV/EM) e estimando as probabilidades

a posteriori de uma observação pertencer à componente (classe)

i.

O modelo de classes latentes é equivalente ao modelo de

mistura (a diferença reside no facto das distribuições associadas

a cada classe, cluster, serem do tipo discreto).



Modelo de mistura finita ≡ Modelo de classes latentes

é uma generalização do método das k-médias



Modelo de mistura finita ≡ Modelo de classes latentes

é uma generalização do método das k-médias

k-médias1. Seleccionar partição

2. Deslocar cada objecto para o grupo com o centróide

mais próximo

3. Recalcular os centróides dos novos grupos

4. Repetir 2 e 3 até não ser possível realizar mais deslo-

cações.Poucos dados/muitos dados – p. 16/23

Caso ilustrativo

σ = 1.0 πiϕi(x)/(π1ϕ1(x) + π2ϕ2(x))

−1 0.5 1x

Den

sida

des

−1 0.5 1

0.27

0.73

x

Res

pons

abili

dade

s


σ = 0.2 πiϕi(x)/(π1ϕ1(x) + π2ϕ2(x))

−1 0.5 −1x

Den

sida

des

−1 0.5 1x

Res

pons

abili

dade

s

EM → k-médias (quando σ → 0)


LC versus k-médias

Grupo 1: N2 ((3, 4); diag(4, 1)), n1 = 200;

Grupo 2: N2 ((7, 1); diag(4, 1)), n2 = 100.


LC versus k-médias

Grupo 1: N2 ((3, 4); diag(4, 1)), n1 = 200;

Grupo 2: N2 ((7, 1); diag(4, 1)), n2 = 100.

Dados e recta discriminante:

0 2 4 6 8 10

−5

05

10

x1

x2


Resultados

(número de casos mal classificados):

Grupo N. de obs. LDA LC cluster k-médias

1 200 2 3 24

2 100 2 2 9

Total 300 4 5 33

(1.3%) (1.7%) (11%)


k-médias Modelo de mistura ≡ Modelo C. Latentes

(atribuição determinística dos objectosaos clusters)

(atribuição probabilística dos objectosaos clusters)

Variáveis quantitativas Variáveis de tipos variados

Clusters de forma esférica Independência condicional

Minimização (maximização) da varia-ção dentro (entre) clusters

Maximização da função de verosimi-lhança

Critérios para determinação donúmero de clusters não são objectivos

Há vários diagnósticos que ajudam adecidir sobre o número de clusters


5. Conclusões/Comentáriofinal

O modelo de classes latentes

Tornou-se muito requerido nos últimos tempos.





Pode ser usado como um método de análise de clusters.






É um modelo de mistura.







É uma generalização do método das k-médias.







É uma generalização do método das k-médias.

Comparado com os métodos de análise de clusters tradi-

cionais (k-médias) apresenta a vantagem de ser mais flexível

e ser baseado num modelo estatístico.


Bibliografia

Banfield, J.D. and Raftery, A.E. (1993). Model based Gaussian and non-Gaussian clustering. Biometrics, 99 803–822.

Bartholomew, D.J. and Knott, M. (1999). Latent Variable Models andFactor Analysis. Arnold, London.

Fraley, C. and Raftery, A. E. (1998). How many clusters? Which cluster-ing method? Answers via model-based cluster analysis. ComputerJournal, 41, 578–588.

Lazarsfeld, P.F. and Henry, N.W. (1968). Latent Structure Analysis.Houghton-Mifflin, New York.

McLachlan, G.J. and Basford, K.E. (1988). Mixture Models: Inferenceand Applications to Clustering. Marcel Dekker, New York.


Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik...

Documents

Transcript of Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik...