Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik...
-
Upload
nguyenngoc -
Category
Documents
-
view
216 -
download
0
Transcript of Análise de clusters usando classes latentes¡lise de clusters usando classes... · com λ e γik...
Análise de clusters usando classes
latentes
Joao Branco
Departamento de Matem atica, IST
XIV Congresso SPE, 27 - 30 Set. 2006
Covilha
Poucos dados/muitos dados – p. 0/23
Sumário
1. Variáveis latentes
2. Modelos de variáveis latentes
3. Análise de Clusters baseada em modelos versus Análisede Clusters tradicional
4. Conclusões/Comentário Final
Poucos dados/muitos dados – p. 1/23
1. Variáveis latentes
Não podem ser observadas directamente. O conhecimento
que temos chega-nos observando as suas manifestações
(nas variáveis que podemos observar directamente).
Poucos dados/muitos dados – p. 2/23
1. Variáveis latentes
Não podem ser observadas directamente. O conhecimento
que temos chega-nos observando as suas manifestações
(nas variáveis que podemos observar directamente).
Usam-se para explicar a associação existente entre as variá-
veis observadas.
Poucos dados/muitos dados – p. 2/23
1. Variáveis latentes
Não podem ser observadas directamente. O conhecimento
que temos chega-nos observando as suas manifestações
(nas variáveis que podemos observar directamente).
Usam-se para explicar a associação existente entre as variá-
veis observadas.
Permitem reduzir a dimensionalidade do sistema de variáveis
(podemos ter de agregar um múmero apreciável de variáveis
observadas para representar um conceito subjacente à rea-
lidade que observamos).
Poucos dados/muitos dados – p. 2/23
1. Variáveis latentes (cont.)
Suportam o desenvolvimento de teorias, sobretudo em so-
ciologia, economia e educação. São também muito usadas
em medicina.
Poucos dados/muitos dados – p. 3/23
1. Variáveis latentes (cont.)
Suportam o desenvolvimento de teorias, sobretudo em so-
ciologia, economia e educação. São também muito usadas
em medicina.
Podem ter interpretação com significado:
- inteligência;
- traços de personalidade (ambição, egoísmo)
- moral
- qualidade de vida
- atitude política
Poucos dados/muitos dados – p. 3/23
2. Modelos de variáveis latentes
Modelos estatísticos que relacionam um conjunto de variá-
veis observáveis com um conjunto de variáveis latentes.
Hipóteses fundamentais:
Poucos dados/muitos dados – p. 4/23
2. Modelos de variáveis latentes
Modelos estatísticos que relacionam um conjunto de variá-
veis observáveis com um conjunto de variáveis latentes.
Hipóteses fundamentais:
A resposta obtida nas variáveis observáveis é o resultado da
posição do indivíduo na variável latente.
Poucos dados/muitos dados – p. 4/23
2. Modelos de variáveis latentes
Modelos estatísticos que relacionam um conjunto de variá-
veis observáveis com um conjunto de variáveis latentes.
Hipóteses fundamentais:
A resposta obtida nas variáveis observáveis é o resultado da
posição do indivíduo na variável latente.
Fixando a variável latente as variáveis observáveis tornam-
se independentes
Hipótese (ou axioma) da independência condicional (ou lo-
cal).
Poucos dados/muitos dados – p. 4/23
Modelos de estrutura latente mais comuns
Bartholomew and Knott (1999)
variáveis observadas
contínuas categorizadas
contínuas Análise Análise deFactorial Traços Latentes
v. latentes
categorizadas Análise de Análise dePerfis latentes Classes Latentes
Poucos dados/muitos dados – p. 5/23
2.1 Modelo para análise factorial
Variáveis observáveis, X1, . . . ,Xp, com densidade f(x)
Variáveis latentes (factores): Y1, . . . , Ym, com densidade h(y)
Com g(x|y), tem-se
f(x) =
∫
h(y)g(x|y)dy
O objectivo da análise factorial é encontrar variáveis latentes, Y ,
que fazem os X ’s condicionalmente independentes,
g(x|y) =
p∏
i=1
g(xi|y) e portanto f(x) =
∫
h(y)
p∏
i=1
g(xi|y)dy
Poucos dados/muitos dados – p. 6/23
2.2 Modelo de classes latentes
Variáveis observáveis, X1, . . . ,Xp (Xi tem ci classes: 1, . . . , ci)
Variável latente (Y tem s classes: 1, . . . , s)
P (Y = k) = αk
∑sk=1
αk = 1
P (Xi = j|Y = k) = πijk
∑ci
j=1πijk = 1
f(x) ≡ P (x) = P (X1 = x1, . . . ,Xp = xp) =
s∑
k=1
αk
p∏
i=1
ci∏
j=1
πxijk
ijk
com xijk = 1 se i = j e xijk = 0, c.c.
Poucos dados/muitos dados – p. 7/23
2.2 Modelo de classes latentes Estimação
Partindo da amostra x1, . . . ,xn, obtém-se
log L =n∑
l=1
log (f(xl))−λ
(
s∑
k=1
αk − 1
)
−
p∑
i=1
s∑
k=1
γik
ci∑
j=1
πijk − 1
com λ e γik multiplicadores de Lagrange, o que produz αk e πijk.
A probabilidade a posteriori de uma observação x pertencer à
classe latente k é
p(k|x) = αk
p∏
i=1
ci∏
j=1
πijk /f(x)
que é estimada com recurso a αk e πijk.Poucos dados/muitos dados – p. 8/23
Exemplo: dados sobre o naufrágio do Titanic(N. obs. = 2201; N. var. = 4)
Classe 1 Classe 2 Classe 3
αk 0.446 0.382 0.172
Classe Tripulação 0.877 0.002 0.060
1a classe 0.121 0.055 0.423
2a classe 0.002 0.201 0.301
3a classe 0.000 0.742 0.216
Idade Criança 0.000 0.085 0.098
Adulto 1.000 0.915 0.902
Sexo Feminino 0.004 0.169 0.855
Masculino 0.996 0.831 0.145
Sobrevivência Não 0.777 0.864 0.002
Sim 0.223 0.136 0.998
Poucos dados/muitos dados – p. 9/23
Como descrever uma pessoa típica?
Classe latente 1: tripulação, adulto, homem, não sobrevivente
Classe latente 2: 3a classe, adulto, homem, não sobrevivente
Classe latente 3: 1a classe, adulto, mulher, sobrevivente
Poucos dados/muitos dados – p. 10/23
Valor esperado do número de mulheres viajando na 3a classe
que não sobreviveram:
2201 × [0.446 × (0.000 × 1.000 × 0.004 × 0.777) +
+0.382 × (0.742 × 0.169 × 0.915 × 0.864) +
+0.172 × (0.216 × 0.855 × 0.902 × 0.002)] = 83.5
O respectivo valor observado é 89.
Com os valores observados de cada célula (Oi) e os valores es-
perados, segundo o modelo, (Ei), pode usar-se o teste do Qui-
quadrado de Pearson para avaliar a qualidade do ajustamento do
modelo:∑
i(Oi − Ei)2/Ei.
Poucos dados/muitos dados – p. 11/23
Características do Modelo de Classes Latentes
O modelo de classes latentes permite
descrever o perfil de cada classe latente encontrada;
Poucos dados/muitos dados – p. 12/23
Características do Modelo de Classes Latentes
O modelo de classes latentes permite
descrever o perfil de cada classe latente encontrada;
calcular a probabilidade de cada indivíduo pertencer a uma
dada classe, o que permite identificar a classe a que o in-
divíduo pertence.
Poucos dados/muitos dados – p. 12/23
O modelo de classes latentes pode ser visto
como um método de obtenção de clusters. Todos os in-
divíduos que pertencem a uma classe latente formam um
cluster que fica assim representado pela própria classe la-
tente.
Poucos dados/muitos dados – p. 13/23
O modelo de classes latentes pode ser visto
como um método de obtenção de clusters. Todos os in-
divíduos que pertencem a uma classe latente formam um
cluster que fica assim representado pela própria classe la-
tente.
Como um método de análise de clusters equivalente à de-
composição de uma mistura finita de populações.
Poucos dados/muitos dados – p. 13/23
Modelos de Mistura para Análise de Clusters
Os modelos de mistura finita assumem que os dados são ge-
rados por um conjunto de k populações com diferentes dis-
tribuições de probabilidade. Se essas distribuições forem nor-
mais multivariadas então o modelo de mistura é
f(x) =
k∑
i=1
pi N (µi,Σi)
O que se pretende é separar uma amostra proveniente da mis-
tura em clusters correspondentes a cada uma das componentes.
Poucos dados/muitos dados – p. 14/23
Isso passa por identificar as componentes da mistura (estimando
so seus parâmetros, via MV/EM) e estimando as probabilidades
a posteriori de uma observação pertencer à componente (classe)
i.
O modelo de classes latentes é equivalente ao modelo de
mistura (a diferença reside no facto das distribuições associadas
a cada classe, cluster, serem do tipo discreto).
Poucos dados/muitos dados – p. 15/23
3. Análise de Clusters baseada em modelos versus Análisede Clusters tradicional
Modelo de mistura finita ≡ Modelo de classes latentes
é uma generalização do método das k-médias
Poucos dados/muitos dados – p. 16/23
3. Análise de Clusters baseada em modelos versus Análisede Clusters tradicional
Modelo de mistura finita ≡ Modelo de classes latentes
é uma generalização do método das k-médias
k-médias1. Seleccionar partição
2. Deslocar cada objecto para o grupo com o centróide
mais próximo
3. Recalcular os centróides dos novos grupos
4. Repetir 2 e 3 até não ser possível realizar mais deslo-
cações.Poucos dados/muitos dados – p. 16/23
Caso ilustrativo
σ = 1.0 πiϕi(x)/(π1ϕ1(x) + π2ϕ2(x))
−1 0.5 1x
Den
sida
des
−1 0.5 1
0.27
0.73
x
Res
pons
abili
dade
s
Poucos dados/muitos dados – p. 17/23
σ = 0.2 πiϕi(x)/(π1ϕ1(x) + π2ϕ2(x))
−1 0.5 −1x
Den
sida
des
−1 0.5 1x
Res
pons
abili
dade
s
EM → k-médias (quando σ → 0)
Poucos dados/muitos dados – p. 18/23
LC versus k-médias
Grupo 1: N2 ((3, 4); diag(4, 1)), n1 = 200;
Grupo 2: N2 ((7, 1); diag(4, 1)), n2 = 100.
Poucos dados/muitos dados – p. 19/23
LC versus k-médias
Grupo 1: N2 ((3, 4); diag(4, 1)), n1 = 200;
Grupo 2: N2 ((7, 1); diag(4, 1)), n2 = 100.
Dados e recta discriminante:
0 2 4 6 8 10
−5
05
10
x1
x2
Poucos dados/muitos dados – p. 19/23
Resultados
(número de casos mal classificados):
Grupo N. de obs. LDA LC cluster k-médias
1 200 2 3 24
2 100 2 2 9
Total 300 4 5 33
(1.3%) (1.7%) (11%)
Poucos dados/muitos dados – p. 20/23
k-médias Modelo de mistura ≡ Modelo C. Latentes
(atribuição determinística dos objectosaos clusters)
(atribuição probabilística dos objectosaos clusters)
Variáveis quantitativas Variáveis de tipos variados
Clusters de forma esférica Independência condicional
Minimização (maximização) da varia-ção dentro (entre) clusters
Maximização da função de verosimi-lhança
Critérios para determinação donúmero de clusters não são objectivos
Há vários diagnósticos que ajudam adecidir sobre o número de clusters
Poucos dados/muitos dados – p. 21/23
5. Conclusões/Comentáriofinal
O modelo de classes latentes
Tornou-se muito requerido nos últimos tempos.
Poucos dados/muitos dados – p. 22/23
5. Conclusões/Comentáriofinal
O modelo de classes latentes
Tornou-se muito requerido nos últimos tempos.
Pode ser usado como um método de análise de clusters.
Poucos dados/muitos dados – p. 22/23
5. Conclusões/Comentáriofinal
O modelo de classes latentes
Tornou-se muito requerido nos últimos tempos.
Pode ser usado como um método de análise de clusters.
É um modelo de mistura.
Poucos dados/muitos dados – p. 22/23
5. Conclusões/Comentáriofinal
O modelo de classes latentes
Tornou-se muito requerido nos últimos tempos.
Pode ser usado como um método de análise de clusters.
É um modelo de mistura.
É uma generalização do método das k-médias.
Poucos dados/muitos dados – p. 22/23
5. Conclusões/Comentáriofinal
O modelo de classes latentes
Tornou-se muito requerido nos últimos tempos.
Pode ser usado como um método de análise de clusters.
É um modelo de mistura.
É uma generalização do método das k-médias.
Comparado com os métodos de análise de clusters tradi-
cionais (k-médias) apresenta a vantagem de ser mais flexível
e ser baseado num modelo estatístico.
Poucos dados/muitos dados – p. 22/23
Bibliografia
Banfield, J.D. and Raftery, A.E. (1993). Model based Gaussian and non-Gaussian clustering. Biometrics, 99 803–822.
Bartholomew, D.J. and Knott, M. (1999). Latent Variable Models andFactor Analysis. Arnold, London.
Fraley, C. and Raftery, A. E. (1998). How many clusters? Which cluster-ing method? Answers via model-based cluster analysis. ComputerJournal, 41, 578–588.
Lazarsfeld, P.F. and Henry, N.W. (1968). Latent Structure Analysis.Houghton-Mifflin, New York.
McLachlan, G.J. and Basford, K.E. (1988). Mixture Models: Inferenceand Applications to Clustering. Marcel Dekker, New York.
Poucos dados/muitos dados – p. 23/23