Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término...

Post on 19-Sep-2018

212 views 0 download

Transcript of Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término...

Análisis de Datos Clasificación Bayesiana para distribuciones normales

Profesor: Dr. Wilfrido Gómez Flores

1

Funciones discriminantes• Una forma útil de representar clasificadores de patrones es a través de

funciones discriminantes gi(x), i=1,…,C, donde el clasificador asigna a un vector de características x la clase ωi si

2

(1)gi(x) > g

j(x), ∀i ≠ j

• El clasificador es una red que computa C funciones discriminantes y selecciona la clase que obtiene al discriminante más grande.

Clasificación

x1 x2 x3 xD

g1(x) g2(x) gC(x)

Riesgos

. . .

. . .Entrada

Funciones discriminantes

Acción

Funciones discriminantes• Para el caso de un clasificador que minimiza la tasa de error de

clasificación se tiene

3

(2)gi(x) ≡ p(ω

i| x) =

p(x |ωi)p(ω

i)

p(x |ωj)p(ω

j)

j=1

C∑

(3)gi(x) ≡ p(ω

i| x) = p(x |ω

i)p(ω

i)

y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe como:

donde p(x|ωi) es la función de verosimilitud y expresa qué tan probable son los datos observados dada la clase ωi.

• De acuerdo a la definición en (3), el teorema de Bayes se define de manera informal como:

posterior ∝ verosimilitud × prior (4)

Funciones discriminantes• Las funciones discriminantes dividen el espacio de características

en C regiones de decisión (R1,…, RC), separadas por fronteras de decisión.

4

p(x |ω1)p(ω

1)

p(x |ω2)p(ω

2)

R2

R2

R1

Frontera de decisión

Funciones discriminantes

5

(5)

• En la práctica, es más conveniente maximizar el logaritmo de la función de verosimilitud, lo cual simplifica el análisis matemático.

• Debido a que el logaritmo es una función monótonamente creciente en su argumento, maximizar el logaritmo de una función es equivalente a maximizar la misma función original.

• Por tanto, el logaritmo de la función discriminante en (3) se expresa como:

= ln p(x |ωi)+ ln p(ω

i)

gi(x) = ln p(x |ω

i)p(ω

i){ }

para i=1,…,C.

Funciones discriminantes• En el caso especial de dos clases, en lugar de usar dos funciones

discriminantes g1 y g2 y asignar x a ω1 si g1>g2, es más común definir una sola frontera de decisión

6

g(x) ≡ g1(x)− g

2(x)

y se usa la regla de decisión: clasificar ω1 si g(x)>0.

• La función discriminante que minimiza la tasa de error de clasificación se escribe como

(6)

g(x) = p(ω1| x)− p(ω

2| x) (7)

(8)g(x) = lnp(x |ω

1)

p(x |ω2)+ lnp(ω

1)

p(ω2)

y en términos de la función logaritmo:

• La distribución Gaussiana es ampliamente utilizada para modelar vectores de patrones de valores continuos que son versiones aleatoriamente corrompidas de un vector prototipo.

• Para el caso xxxxx :

7

x 2 R

p(x) = N (x | µ,σ 2)

= 1(2πσ 2)1/2

exp − 12σ 2

(x − µ)2⎧⎨⎩

⎫⎬⎭

(9)

la cual es gobernada por dos parámetros: µ, llamada la media, y σ2, llamada la varianza.

• La raíz cuadrada de la varianza, dada por σ, es llamada la desviación estándar, y el recíproco de la varianza, escrito como β=1/σ2, es llamada la precisión.

Distribución Gaussiana univariante

8

Distribución Gaussiana univarianteN (x | µ,σ 2)

xµ − 2σ µ −σ µ µ +σ µ + 2σ

σ

2.5% 2.5%

La distribución normal univariante tiene aproximadamente 95% de su área en el rango |x−µ|≤2σ.

• La distribución Gaussiana en (9) satisface

• También, la distribución Gaussiana está normalizada tal que:

9

E[x ] = N (x | µ,σ 2)x dx = µ−∞

(10)

• El valor esperado de x bajo la distribución Gaussiana, también llamado el promedio, está dado por:

N (x|µ,2) > 0.

N (x | µ,σ 2)dx−∞

∫ = 1

(11)

• De manera similar, el momento de segundo orden se define como:

E[x 2 ] = N (x | µ,σ 2)x 2dx = µ2 +σ 2−∞

∫ (12)

• A partir de (11) y (12) se obtiene la varianza de x, también conocido como momento centralizado de segundo orden:

var[x ] = E[x 2 ]− E[x ]2 = σ 2 (13)

Distribución Gaussiana univariante

Teorema del límite central

• La distribución Gaussiana sigue el teorema del límite central (TLC).

• Este teorema describe las características de la “población de medias” creada a partir de las medias de un número infinito de muestras de tamaño N tomadas aleatoriamente de una “población padre”.

• El TLC establece que independientemente de la distribución de la población padre:

‣ La media de la población de medias es siempre igual a la media de la población padre de donde fueron tomadas las muestras.

‣ La varianza de la población de medias es siempre igual a la varianza de la población padre dividida por el tamaño de la muestra N.

‣ La distribución de las medias se aproxima a una distribución normal cuando el tamaño de la muestra N→∞.

10

Distribución Gaussiana multivariante

11

p(x) = N (x | µµ,ΣΣ)

= 1

(2π)D 2 ΣΣ1 2

exp − 12(x − µµ)T ΣΣ−1(x − µµ)

⎧⎨⎩

⎫⎬⎭

(14)

donde el vector D-dimensional µ es la media y se define como:

• Para el casox 2 RD :

y la matriz de covarianza Σ de tamaño D×D se define como:

µµ ≡ E[x] = N (x | µµ,ΣΣ)xdx−∞

∫ (15)

ΣΣ ≡ E[(x − µµ)(x − µµ)T ] = (x − µµ)(x − µµ)T dx−∞

∫ (16)

Distribución Gaussiana multivariante

12

• El vector de medias contiene la media de cada variable.

• Características de la matriz de covarianza:

‣ La matriz de covarianza siempre es simétrica y semidefinida positiva, y su determinante debe ser estrictamente positivo.

‣ Los elementos de la diagonal σii son las varianzas de sus respectivas variables xi.

‣ Los elementos fuera de la diagonal σij son las covarianzas de las variables xi y xj.

‣ Si xi y xj son estadísticamente independientes, entonces σij=0.

Distribución Gaussiana multivariante

13

x1

x2

p(x)

x1

x2

p(x)

x1

x2

p(x)

x1

x2

p(x)

x1

x2

x1

x2

x1

x2

x1

x2

σ11= σ

22 y

σ12= σ

21= 0 σ

11≪ σ

22 y

σ12= σ

21= 0 σ

11≫ σ

22 y

σ12= σ

21= 0

σ11≠ σ

22 y

σ12≠ σ

21≠ 0

Distribución Gaussiana multivariante

14

• Si xi es la i-ésima componente de x, µi el i-ésimo componente de µ, y σij el ij-ésimo componente de Σ entonces:

µi= E[x

i] y σ

ij= E[(x

i− µ

i)(x

j− µ

j)] (17)

x1

x2

µµ

• Muestras tomadas de una distribución Gaussiana bidimensional caen en una nube centrada en µ, cuya forma está determinada por Σ.

• La posición de puntos de densidad constante son elipses para los cuales la distancia Mahalanobis de x a µ es constante.

Funciones discriminantes para la distribución Gaussiana

• El clasificador Bayesiano describe la distribución de los datos en cada una de las clases mediante funciones de verosimilitud p(x|ωi), i=1,…,C, las cuales son distribuciones Gaussianas multivariantes:

15

p(x |ωi) ≡ 1

(2π)D 2 ΣΣi

1 2exp − 1

2(x − µµ

i)T ΣΣ

i−1(x − µµ

i)

⎧⎨⎩

⎫⎬⎭

(18)

• Sustituyendo (18) en (5) se tiene la función discriminante:

gi(x) = − 1

2(x − µµ

i)T ΣΣ

i−1(x − µµ

i)− D2ln2π − 1

2ln ΣΣ

i+ ln p(ω

i) (19)

• Diferentes casos especiales de la función discriminante se pueden definir de acuerdo a la forma de la matriz de covarianza utilizada.

Caso 1: Σi=σ2I

• El caso más simple ocurre cuando las características son estadísticamente independientes con varianzas iguales para todas las clases.

• La función discriminante en (19) se reescribe como:

16

gi(x) = − 1

2(x − µµ

i)T(σ 2I )−1(x − µµ

i)+ ln p(ω

i)

= − 12σ 2

(x − µµi)T(x − µµ

i)+ ln p(ω

i)

(20)

• Expandiendo la forma cuadrática (x−µ)T(x−µ) se tiene:

gi(x) = − 1

2σ 2[xTx − 2µµ

iTx + µµ

iT µµ

i]+ ln p(ω

i) (21)

Caso 1: Σi=σ2I• Eliminando el término cuadrático xTx en (21), el cual es indepen-

diente de i, se obtiene la función discriminante lineal:

17

gi(x) = w

iTx +w

i0

donde

(22)

wi= 1σ 2

µµi

y el umbral o bias para la i-ésima clase es

wi0= − 12σ 2

µµiT µµ

i+ ln p(ω

i)

(23)

(24)

• Un clasificador que utiliza funciones discriminantes lineales se le conoce como máquina lineal.

Caso 1: Σi=σ2I

• Las fronteras de decisión de una máquina lineal son los hiperplanos gi(x)=gj(x) para dos clases con las probabilidades posteriores más altas y pueden ser escritos como:

18

wT(x − x0) = 0

donde

(25)

w= µµi− µµ

j (26)y

x0= 12(µµi+ µµ

j)− σ 2

µµi− µµ

j

2lnp(ω

i)

p(ωj)(µµi− µµ

j) (27)

• El hiperplano pasa a través del punto x0 y es ortogonal al vector w.

Caso 1: Σi=σ2I

19

Si las matrices de covarianza de dos distribuciones son iguales y proporcionales a la matriz identidad, entonces las distribuciones son esféricas en D dimensiones y la frontera es un hiperplano en D−1.

x

p(x |ωi)

x

p(x |ωi)

R2 R

2

R2

R2

R2R

2

R1

R1

R1

R1

R1

R1

ω1

ω1

ω1

ω1

ω1

ω1

ω2

ω2

ω2

ω2

ω2

ω2

p(ω1) = 0.5

p(ω1) = 0.7

p(ω1) = 0.5

p(ω1) = 0.8

p(ω1) = 0.8

p(ω2) = 0.5

p(ω2) = 0.5

p(ω2) = 0.5

p(ω1) = 0.5

p(ω2) = 0.2

p(ω2) = 0.2

p(ω2) = 0.3

Caso 1: Σi=σ2I

• El caso especial cuando p(ωi) es igual para i=1,…,C se tiene el clasificador de mínima distancia:

20

Asignar x a ωi* donde i* = argmin

i=1,…,Cx − µµ

i

2

(28)

• Además, si σ=1, entonces se tiene el clasificador de mínima distancia Euclidiana que usa la regla de decisión

gi(x) = − 1

2σ 2(x − µµ

i)T(x − µµ

i)

(29)

donde la norma Euclidiana cuadrada es:

x − µµi

2= (x − µµ

i)T(x − µµ

i) (30)

Caso 2: Σi=Σ• Las matrices de covarianza para todas las clases son idénticas y

arbitrarias.

• Esta simplificación deriva en la función discriminante:

21

gi(x) = − 1

2(x − µµ

i)T ΣΣ−1(x − µµ

i)+ ln p(ω

i) (31)

• Expandiendo la forma cuadrática (x−µ)TΣ−1(x−µ) se tiene:

gi(x) = − 1

2(xTΣΣ−1x − 2µµ

iTΣΣ−1x + µµ

iTΣΣ−1µµ

i)+ ln p(ω

i) (32)

• Eliminando el término cuadrático xTΣ−1x, el cual es independiente de i, se tiene:

gi(x) = µµ

iTΣΣ−1x − 1

2µµiTΣΣ−1µµ

i+ ln p(ω

i) (33)

Caso 2: Σi=Σ• Reescribiendo la función discriminante en (33) se obtiene una vez

más la función discriminante lineal:

22

gi(x) = w

iTx +w

i0 (34)

donde wi= ΣΣ−1µµ

i y w

i0= − 1

2µµiTΣΣ−1µµ

i+ ln p(ω

i)

w= ΣΣ−1(µµi− µµ

j)

x0= 12(µµi+ µµ

j)−

ln[p(ωi) p(ω

j)]

(µµi− µµ

j)T ΣΣ−1(µµ

i− µµ

j)(µµi− µµ

j)

(35)

(36)

• Las fronteras de decisión se escriben como:

wT(x − x0) = 0

donde(37)

(38)

• El hiperplano pasa a través del punto x0 aunque no es necesariamente ortogonal a la línea entre las medias.

y

Caso 2: Σi=Σ

23

ω1

ω2 ω

1ω2

R2

R1 R

1

R2p(ω

1) = 0.5

p(ω2) = 0.5 p(ω

2) = 0.9

p(ω1) = 0.1

ω2

ω2

R2

R2

R1 R

1

p(ω2) = 0.5

p(ω2) = 0.9

p(ω1) = 0.1

p(ω1) = 0.5

Distribuciones de probabilidades Gaussianas y sus fronteras de decisión.

Caso 2: Σi=Σ• Si las probabilidades a priori p(ωi) son las mismas para todas las

clases, entonces el segundo término en (31) puede eliminarse.

• En este caso, se tiene el clasificador de mínima distancia Mahalanobis que usa la regla de decisión:

24

Asignar x a ωi* donde i* = argmin{

i=1,…,C[(x − µµ

i)T ΣΣ−1(x − µµ

i)]1 2} (39)

x2

x1

• La elipse azul representa una línea de puntos equidistantes en términos de la distancia Mahalanobis.

• Los puntos verdes tienen la misma distancia Mahalanobis al centro, sin embargo, en términos de la distancia Euclidiana las distancias son diferen-tes (círculos rojos).

• En el caso general, las matrices de covarianza son diferentes para cada clase, resultando en la función discriminante cuadrática:

25

gi(x) = xTW

ix + w

iTx +w

i0 (40)

donde

Wi= − 12ΣΣi−1

wi= ΣΣ

i−1µµ

i

wi0= − 12µµiTΣΣ

i−1µµ

i− 12ln ΣΣ

i+ ln p(ω

i)

(41)

(42)

(43)

• Las superficies de decisión son hipercuadráticas y pueden tener las siguientes formas: hiperplanos, pares de hiperplanos, hiperesferas, hiperelipsoides e hiperparaboloides.

Caso 3: Σi≠Σj

26

Caso 3: Σi≠Σj

R2

R1

ω1

ω2

R1

p(x |ωi)

xR3

R1

R2

R4

Regiones de decisión no conectadas para una misma clase pueden generarse en una dimensión para Gaussianas que tienen varianzas diferentes.

Regiones de decisión para cuatro distribuciones normales. Aún teniendo un bajo número de clases, las fronteras de decisión pueden tener formas complejas.

Caso 3: Σi≠Σj

27

Distribuciones de probabilidad Gaussianas bidimensionales que generan fronteras de decisión hipercuadráticas.

28

Caso 3: Σi≠Σj

Distribuciones de probabilidad Gaussianas tridimensionales que generan fronteras de decisión hipercuadráticas.

• De acuerdo al TLC, para tener una buena estimación de la función de densidad Gaussiana se requiere que el número de patrones sea los suficientemente grande (N→∞).

• Si se requieren N patrones de entrenamiento para estimar una densidad Gaussiana univariante, entonces se necesitarían ND muestras para un espacio D-dimensional (ver Apéndice).

• Entonces, a medida que aumenta N y D, el cómputo de la función g(x) se vuelve más costoso:

29

Clasificador naive-Bayes

g(x) = − 12(x − µµ

O(ND)!)T ΣΣ−1

O(ND3)!(x − µµ)− D

2ln2π

O(1)!"# $#

− 12ln ΣΣ

O(D3)!"#

+ ln p(ω)O(N )!"# $#

• Además, previamente se debe computar la matriz de covarianza cuya complejidad es xxxxxxxx.O(ND

2)

• Una forma de reducir la complejidad computacional es asumir independencia estadística entre las características, de modo que su probabilidad conjunta se expresa como:

30

Clasificador naive-Bayes

p(x |ωi) = p(x

j|ω

i)

j=1

D

∏ , i = 1,…,C (44)

• Bajo este escenario, estimar las D funciones de densidad unidi-mensionales para cada clase requiere de DN muestras para obtener una buena estimación en vez de ND.

• Esto deriva en el clasificador denominado naive-Bayes, cuya regla de decisión es:

ω* = argmaxωip(ω

i) p(x

j|ω

i), i = 1,…,C

j=1

D

= argmaxωip(ω

i)

1

2πσi,j2

exp − 12σi,j2

(xj− µ

i,j)2

⎧⎨⎪

⎩⎪

⎫⎬⎪

⎭⎪j=1

D

∏ (46)

(45)

31

Clasificador naive-Bayes

Distribuciones de probabilidad Gaussianas para diferentes clasificadores entrenados con el mismo conjunto de datos con tres clases y dos características.

Clasificador Euclidiano Clasificador Cuadrático Clasificador naive-Bayes

Probabilidad de error• Considerando el caso de clasificación binaria, supóngase que un

clasificador dividió el espacio en dos regiones R1 y R2 de una manera no óptima (x*). El error de clasificación ocurre cuando x cae en R2 y su estado de naturaleza es ω1 o viceversa.

• La probabilidad de error es:

32

p(error) = p(x |ω2)p(ω

2)dx

R1

∫ + p(x |ω1)p(ω

1)dx

R2

∫ (47)

R1

ω2

ω1

R2

p(x|ω

i)P(ωi)

xxBayes x *

Error reducible

Probabilidad de error

• En el caso multiclase, la probabilidad de aciertos:

33

p(correcto) = p(x |ωi)p(ω

i)dx

Ri

∫i=1

C

∑ (48)

• Una manera de calcular la similitud entre dos distribuciones de probabilidad Gaussianas es mediante la distancia Bhattacharyya:

DB= 18(µµ2− µµ

1)T !ΣΣ−1(µµ

2− µµ

1)+ 12ln

!ΣΣ

ΣΣ1ΣΣ2

(49)

donde

• Entonces, el límite superior de Bhattacharyya sobre el error es:

!ΣΣ == (ΣΣ1+ ΣΣ

2) 2.

p(error) ≤ p(ω1)p(ω

2)e−DB (50)

Ejemplo• Calcular la frontera de decisión y el límite de Bhattacharyya para el

siguiente conjunto de datos bidimensional con dos clases equiprobables.

34

µµ1

µµ2 ω1

ω2

µµ1= 3

6

⎣⎢

⎦⎥; ∑∑1

= 1 2 0

0 2

⎝⎜

⎠⎟ y

µµ2= 3

−2

⎣⎢

⎦⎥; ∑∑2

= 2 00 2

⎛⎝⎜

⎞⎠⎟

Los parámetros de las distribuciones son:

Las matrices inversas son entonces:

∑∑1−1 = 2 0

0 1 2

⎝⎜

⎠⎟ y ∑∑

2−1 =

1 2 0

0 1 2

⎝⎜

⎠⎟

Sustituyendo en las Ecuaciones 40-43 y haciendo g1(x)=g2(x) la frontera de decisión es:

x2= 3.5142 − 1.125x

1+ 0.1875x

12

De acuerdo con las ecuaciones 49 y 50, el límite de Bhattacharyya es:

p(error) ≤ 0.008191

Apéndice

• La “maldición de la dimensionalidad” es un concepto que se refiere a los problemas asociados con el análisis multivariante de datos conforme la dimensionalidad incrementa.

• Considérese el problema de clasificación de tres clases, donde el espacio de características es dividido en segmentos uniformemente separados, de modo que un patrón arbitrario es clasificado en la clase predominante de un segmento específico.

1. Considerando una única característica y dividiendo el espacio en tres segmentos:

35

x1

se observa que existe mucho traslape entre las clases, por lo que se incorpora una nueva característica.

36

Apéndice2. Si se preserva la granularidad de cada eje, el número de

segmentos aumenta de 3 (en 1D) a 32=9 (en 2D). En relación a la cantidad de patrones habrá que decidir:

a. si se mantiene la densidad de patrones, la cantidad de muestras aumenta de 9 (en 1D) a 27 (en 2D); ó

b. si se mantiene el número de patrones se genera mucha dispersión.

x1 x1

x2 x2Densidad constante

Número de muestras constante

3. Aumentando a tres características el problema se vuelve más complejo, ya que el número de segmentos aumenta a 33=27; si se mantiene la densidad el número de muestras aumenta a 81; si se mantiene la cantidad de patrones el espacio de características estará casi vacío.

37

Apéndice

x1

x2

x3