Download - Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Transcript
Page 1: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Análisis de Datos Clasificación Bayesiana para distribuciones normales

Profesor: Dr. Wilfrido Gómez Flores

1

Page 2: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Funciones discriminantes• Una forma útil de representar clasificadores de patrones es a través de

funciones discriminantes gi(x), i=1,…,C, donde el clasificador asigna a un vector de características x la clase ωi si

2

(1)gi(x) > g

j(x), ∀i ≠ j

• El clasificador es una red que computa C funciones discriminantes y selecciona la clase que obtiene al discriminante más grande.

Clasificación

x1 x2 x3 xD

g1(x) g2(x) gC(x)

Riesgos

. . .

. . .Entrada

Funciones discriminantes

Acción

Page 3: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Funciones discriminantes• Para el caso de un clasificador que minimiza la tasa de error de

clasificación se tiene

3

(2)gi(x) ≡ p(ω

i| x) =

p(x |ωi)p(ω

i)

p(x |ωj)p(ω

j)

j=1

C∑

(3)gi(x) ≡ p(ω

i| x) = p(x |ω

i)p(ω

i)

y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe como:

donde p(x|ωi) es la función de verosimilitud y expresa qué tan probable son los datos observados dada la clase ωi.

• De acuerdo a la definición en (3), el teorema de Bayes se define de manera informal como:

posterior ∝ verosimilitud × prior (4)

Page 4: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Funciones discriminantes• Las funciones discriminantes dividen el espacio de características

en C regiones de decisión (R1,…, RC), separadas por fronteras de decisión.

4

p(x |ω1)p(ω

1)

p(x |ω2)p(ω

2)

R2

R2

R1

Frontera de decisión

Page 5: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Funciones discriminantes

5

(5)

• En la práctica, es más conveniente maximizar el logaritmo de la función de verosimilitud, lo cual simplifica el análisis matemático.

• Debido a que el logaritmo es una función monótonamente creciente en su argumento, maximizar el logaritmo de una función es equivalente a maximizar la misma función original.

• Por tanto, el logaritmo de la función discriminante en (3) se expresa como:

= ln p(x |ωi)+ ln p(ω

i)

gi(x) = ln p(x |ω

i)p(ω

i){ }

para i=1,…,C.

Page 6: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Funciones discriminantes• En el caso especial de dos clases, en lugar de usar dos funciones

discriminantes g1 y g2 y asignar x a ω1 si g1>g2, es más común definir una sola frontera de decisión

6

g(x) ≡ g1(x)− g

2(x)

y se usa la regla de decisión: clasificar ω1 si g(x)>0.

• La función discriminante que minimiza la tasa de error de clasificación se escribe como

(6)

g(x) = p(ω1| x)− p(ω

2| x) (7)

(8)g(x) = lnp(x |ω

1)

p(x |ω2)+ lnp(ω

1)

p(ω2)

y en términos de la función logaritmo:

Page 7: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

• La distribución Gaussiana es ampliamente utilizada para modelar vectores de patrones de valores continuos que son versiones aleatoriamente corrompidas de un vector prototipo.

• Para el caso xxxxx :

7

x 2 R

p(x) = N (x | µ,σ 2)

= 1(2πσ 2)1/2

exp − 12σ 2

(x − µ)2⎧⎨⎩

⎫⎬⎭

(9)

la cual es gobernada por dos parámetros: µ, llamada la media, y σ2, llamada la varianza.

• La raíz cuadrada de la varianza, dada por σ, es llamada la desviación estándar, y el recíproco de la varianza, escrito como β=1/σ2, es llamada la precisión.

Distribución Gaussiana univariante

Page 8: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

8

Distribución Gaussiana univarianteN (x | µ,σ 2)

xµ − 2σ µ −σ µ µ +σ µ + 2σ

σ

2.5% 2.5%

La distribución normal univariante tiene aproximadamente 95% de su área en el rango |x−µ|≤2σ.

Page 9: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

• La distribución Gaussiana en (9) satisface

• También, la distribución Gaussiana está normalizada tal que:

9

E[x ] = N (x | µ,σ 2)x dx = µ−∞

(10)

• El valor esperado de x bajo la distribución Gaussiana, también llamado el promedio, está dado por:

N (x|µ,2) > 0.

N (x | µ,σ 2)dx−∞

∫ = 1

(11)

• De manera similar, el momento de segundo orden se define como:

E[x 2 ] = N (x | µ,σ 2)x 2dx = µ2 +σ 2−∞

∫ (12)

• A partir de (11) y (12) se obtiene la varianza de x, también conocido como momento centralizado de segundo orden:

var[x ] = E[x 2 ]− E[x ]2 = σ 2 (13)

Distribución Gaussiana univariante

Page 10: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Teorema del límite central

• La distribución Gaussiana sigue el teorema del límite central (TLC).

• Este teorema describe las características de la “población de medias” creada a partir de las medias de un número infinito de muestras de tamaño N tomadas aleatoriamente de una “población padre”.

• El TLC establece que independientemente de la distribución de la población padre:

‣ La media de la población de medias es siempre igual a la media de la población padre de donde fueron tomadas las muestras.

‣ La varianza de la población de medias es siempre igual a la varianza de la población padre dividida por el tamaño de la muestra N.

‣ La distribución de las medias se aproxima a una distribución normal cuando el tamaño de la muestra N→∞.

10

Page 11: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Distribución Gaussiana multivariante

11

p(x) = N (x | µµ,ΣΣ)

= 1

(2π)D 2 ΣΣ1 2

exp − 12(x − µµ)T ΣΣ−1(x − µµ)

⎧⎨⎩

⎫⎬⎭

(14)

donde el vector D-dimensional µ es la media y se define como:

• Para el casox 2 RD :

y la matriz de covarianza Σ de tamaño D×D se define como:

µµ ≡ E[x] = N (x | µµ,ΣΣ)xdx−∞

∫ (15)

ΣΣ ≡ E[(x − µµ)(x − µµ)T ] = (x − µµ)(x − µµ)T dx−∞

∫ (16)

Page 12: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Distribución Gaussiana multivariante

12

• El vector de medias contiene la media de cada variable.

• Características de la matriz de covarianza:

‣ La matriz de covarianza siempre es simétrica y semidefinida positiva, y su determinante debe ser estrictamente positivo.

‣ Los elementos de la diagonal σii son las varianzas de sus respectivas variables xi.

‣ Los elementos fuera de la diagonal σij son las covarianzas de las variables xi y xj.

‣ Si xi y xj son estadísticamente independientes, entonces σij=0.

Page 13: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Distribución Gaussiana multivariante

13

x1

x2

p(x)

x1

x2

p(x)

x1

x2

p(x)

x1

x2

p(x)

x1

x2

x1

x2

x1

x2

x1

x2

σ11= σ

22 y

σ12= σ

21= 0 σ

11≪ σ

22 y

σ12= σ

21= 0 σ

11≫ σ

22 y

σ12= σ

21= 0

σ11≠ σ

22 y

σ12≠ σ

21≠ 0

Page 14: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Distribución Gaussiana multivariante

14

• Si xi es la i-ésima componente de x, µi el i-ésimo componente de µ, y σij el ij-ésimo componente de Σ entonces:

µi= E[x

i] y σ

ij= E[(x

i− µ

i)(x

j− µ

j)] (17)

x1

x2

µµ

• Muestras tomadas de una distribución Gaussiana bidimensional caen en una nube centrada en µ, cuya forma está determinada por Σ.

• La posición de puntos de densidad constante son elipses para los cuales la distancia Mahalanobis de x a µ es constante.

Page 15: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Funciones discriminantes para la distribución Gaussiana

• El clasificador Bayesiano describe la distribución de los datos en cada una de las clases mediante funciones de verosimilitud p(x|ωi), i=1,…,C, las cuales son distribuciones Gaussianas multivariantes:

15

p(x |ωi) ≡ 1

(2π)D 2 ΣΣi

1 2exp − 1

2(x − µµ

i)T ΣΣ

i−1(x − µµ

i)

⎧⎨⎩

⎫⎬⎭

(18)

• Sustituyendo (18) en (5) se tiene la función discriminante:

gi(x) = − 1

2(x − µµ

i)T ΣΣ

i−1(x − µµ

i)− D2ln2π − 1

2ln ΣΣ

i+ ln p(ω

i) (19)

• Diferentes casos especiales de la función discriminante se pueden definir de acuerdo a la forma de la matriz de covarianza utilizada.

Page 16: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 1: Σi=σ2I

• El caso más simple ocurre cuando las características son estadísticamente independientes con varianzas iguales para todas las clases.

• La función discriminante en (19) se reescribe como:

16

gi(x) = − 1

2(x − µµ

i)T(σ 2I )−1(x − µµ

i)+ ln p(ω

i)

= − 12σ 2

(x − µµi)T(x − µµ

i)+ ln p(ω

i)

(20)

• Expandiendo la forma cuadrática (x−µ)T(x−µ) se tiene:

gi(x) = − 1

2σ 2[xTx − 2µµ

iTx + µµ

iT µµ

i]+ ln p(ω

i) (21)

Page 17: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 1: Σi=σ2I• Eliminando el término cuadrático xTx en (21), el cual es indepen-

diente de i, se obtiene la función discriminante lineal:

17

gi(x) = w

iTx +w

i0

donde

(22)

wi= 1σ 2

µµi

y el umbral o bias para la i-ésima clase es

wi0= − 12σ 2

µµiT µµ

i+ ln p(ω

i)

(23)

(24)

• Un clasificador que utiliza funciones discriminantes lineales se le conoce como máquina lineal.

Page 18: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 1: Σi=σ2I

• Las fronteras de decisión de una máquina lineal son los hiperplanos gi(x)=gj(x) para dos clases con las probabilidades posteriores más altas y pueden ser escritos como:

18

wT(x − x0) = 0

donde

(25)

w= µµi− µµ

j (26)y

x0= 12(µµi+ µµ

j)− σ 2

µµi− µµ

j

2lnp(ω

i)

p(ωj)(µµi− µµ

j) (27)

• El hiperplano pasa a través del punto x0 y es ortogonal al vector w.

Page 19: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 1: Σi=σ2I

19

Si las matrices de covarianza de dos distribuciones son iguales y proporcionales a la matriz identidad, entonces las distribuciones son esféricas en D dimensiones y la frontera es un hiperplano en D−1.

x

p(x |ωi)

x

p(x |ωi)

R2 R

2

R2

R2

R2R

2

R1

R1

R1

R1

R1

R1

ω1

ω1

ω1

ω1

ω1

ω1

ω2

ω2

ω2

ω2

ω2

ω2

p(ω1) = 0.5

p(ω1) = 0.7

p(ω1) = 0.5

p(ω1) = 0.8

p(ω1) = 0.8

p(ω2) = 0.5

p(ω2) = 0.5

p(ω2) = 0.5

p(ω1) = 0.5

p(ω2) = 0.2

p(ω2) = 0.2

p(ω2) = 0.3

Page 20: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 1: Σi=σ2I

• El caso especial cuando p(ωi) es igual para i=1,…,C se tiene el clasificador de mínima distancia:

20

Asignar x a ωi* donde i* = argmin

i=1,…,Cx − µµ

i

2

(28)

• Además, si σ=1, entonces se tiene el clasificador de mínima distancia Euclidiana que usa la regla de decisión

gi(x) = − 1

2σ 2(x − µµ

i)T(x − µµ

i)

(29)

donde la norma Euclidiana cuadrada es:

x − µµi

2= (x − µµ

i)T(x − µµ

i) (30)

Page 21: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 2: Σi=Σ• Las matrices de covarianza para todas las clases son idénticas y

arbitrarias.

• Esta simplificación deriva en la función discriminante:

21

gi(x) = − 1

2(x − µµ

i)T ΣΣ−1(x − µµ

i)+ ln p(ω

i) (31)

• Expandiendo la forma cuadrática (x−µ)TΣ−1(x−µ) se tiene:

gi(x) = − 1

2(xTΣΣ−1x − 2µµ

iTΣΣ−1x + µµ

iTΣΣ−1µµ

i)+ ln p(ω

i) (32)

• Eliminando el término cuadrático xTΣ−1x, el cual es independiente de i, se tiene:

gi(x) = µµ

iTΣΣ−1x − 1

2µµiTΣΣ−1µµ

i+ ln p(ω

i) (33)

Page 22: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 2: Σi=Σ• Reescribiendo la función discriminante en (33) se obtiene una vez

más la función discriminante lineal:

22

gi(x) = w

iTx +w

i0 (34)

donde wi= ΣΣ−1µµ

i y w

i0= − 1

2µµiTΣΣ−1µµ

i+ ln p(ω

i)

w= ΣΣ−1(µµi− µµ

j)

x0= 12(µµi+ µµ

j)−

ln[p(ωi) p(ω

j)]

(µµi− µµ

j)T ΣΣ−1(µµ

i− µµ

j)(µµi− µµ

j)

(35)

(36)

• Las fronteras de decisión se escriben como:

wT(x − x0) = 0

donde(37)

(38)

• El hiperplano pasa a través del punto x0 aunque no es necesariamente ortogonal a la línea entre las medias.

y

Page 23: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 2: Σi=Σ

23

ω1

ω2 ω

1ω2

R2

R1 R

1

R2p(ω

1) = 0.5

p(ω2) = 0.5 p(ω

2) = 0.9

p(ω1) = 0.1

ω2

ω2

R2

R2

R1 R

1

p(ω2) = 0.5

p(ω2) = 0.9

p(ω1) = 0.1

p(ω1) = 0.5

Distribuciones de probabilidades Gaussianas y sus fronteras de decisión.

Page 24: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 2: Σi=Σ• Si las probabilidades a priori p(ωi) son las mismas para todas las

clases, entonces el segundo término en (31) puede eliminarse.

• En este caso, se tiene el clasificador de mínima distancia Mahalanobis que usa la regla de decisión:

24

Asignar x a ωi* donde i* = argmin{

i=1,…,C[(x − µµ

i)T ΣΣ−1(x − µµ

i)]1 2} (39)

x2

x1

• La elipse azul representa una línea de puntos equidistantes en términos de la distancia Mahalanobis.

• Los puntos verdes tienen la misma distancia Mahalanobis al centro, sin embargo, en términos de la distancia Euclidiana las distancias son diferen-tes (círculos rojos).

Page 25: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

• En el caso general, las matrices de covarianza son diferentes para cada clase, resultando en la función discriminante cuadrática:

25

gi(x) = xTW

ix + w

iTx +w

i0 (40)

donde

Wi= − 12ΣΣi−1

wi= ΣΣ

i−1µµ

i

wi0= − 12µµiTΣΣ

i−1µµ

i− 12ln ΣΣ

i+ ln p(ω

i)

(41)

(42)

(43)

• Las superficies de decisión son hipercuadráticas y pueden tener las siguientes formas: hiperplanos, pares de hiperplanos, hiperesferas, hiperelipsoides e hiperparaboloides.

Caso 3: Σi≠Σj

Page 26: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

26

Caso 3: Σi≠Σj

R2

R1

ω1

ω2

R1

p(x |ωi)

xR3

R1

R2

R4

Regiones de decisión no conectadas para una misma clase pueden generarse en una dimensión para Gaussianas que tienen varianzas diferentes.

Regiones de decisión para cuatro distribuciones normales. Aún teniendo un bajo número de clases, las fronteras de decisión pueden tener formas complejas.

Page 27: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Caso 3: Σi≠Σj

27

Distribuciones de probabilidad Gaussianas bidimensionales que generan fronteras de decisión hipercuadráticas.

Page 28: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

28

Caso 3: Σi≠Σj

Distribuciones de probabilidad Gaussianas tridimensionales que generan fronteras de decisión hipercuadráticas.

Page 29: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

• De acuerdo al TLC, para tener una buena estimación de la función de densidad Gaussiana se requiere que el número de patrones sea los suficientemente grande (N→∞).

• Si se requieren N patrones de entrenamiento para estimar una densidad Gaussiana univariante, entonces se necesitarían ND muestras para un espacio D-dimensional (ver Apéndice).

• Entonces, a medida que aumenta N y D, el cómputo de la función g(x) se vuelve más costoso:

29

Clasificador naive-Bayes

g(x) = − 12(x − µµ

O(ND)!)T ΣΣ−1

O(ND3)!(x − µµ)− D

2ln2π

O(1)!"# $#

− 12ln ΣΣ

O(D3)!"#

+ ln p(ω)O(N )!"# $#

• Además, previamente se debe computar la matriz de covarianza cuya complejidad es xxxxxxxx.O(ND

2)

Page 30: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

• Una forma de reducir la complejidad computacional es asumir independencia estadística entre las características, de modo que su probabilidad conjunta se expresa como:

30

Clasificador naive-Bayes

p(x |ωi) = p(x

j|ω

i)

j=1

D

∏ , i = 1,…,C (44)

• Bajo este escenario, estimar las D funciones de densidad unidi-mensionales para cada clase requiere de DN muestras para obtener una buena estimación en vez de ND.

• Esto deriva en el clasificador denominado naive-Bayes, cuya regla de decisión es:

ω* = argmaxωip(ω

i) p(x

j|ω

i), i = 1,…,C

j=1

D

= argmaxωip(ω

i)

1

2πσi,j2

exp − 12σi,j2

(xj− µ

i,j)2

⎧⎨⎪

⎩⎪

⎫⎬⎪

⎭⎪j=1

D

∏ (46)

(45)

Page 31: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

31

Clasificador naive-Bayes

Distribuciones de probabilidad Gaussianas para diferentes clasificadores entrenados con el mismo conjunto de datos con tres clases y dos características.

Clasificador Euclidiano Clasificador Cuadrático Clasificador naive-Bayes

Page 32: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Probabilidad de error• Considerando el caso de clasificación binaria, supóngase que un

clasificador dividió el espacio en dos regiones R1 y R2 de una manera no óptima (x*). El error de clasificación ocurre cuando x cae en R2 y su estado de naturaleza es ω1 o viceversa.

• La probabilidad de error es:

32

p(error) = p(x |ω2)p(ω

2)dx

R1

∫ + p(x |ω1)p(ω

1)dx

R2

∫ (47)

R1

ω2

ω1

R2

p(x|ω

i)P(ωi)

xxBayes x *

Error reducible

Page 33: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Probabilidad de error

• En el caso multiclase, la probabilidad de aciertos:

33

p(correcto) = p(x |ωi)p(ω

i)dx

Ri

∫i=1

C

∑ (48)

• Una manera de calcular la similitud entre dos distribuciones de probabilidad Gaussianas es mediante la distancia Bhattacharyya:

DB= 18(µµ2− µµ

1)T !ΣΣ−1(µµ

2− µµ

1)+ 12ln

!ΣΣ

ΣΣ1ΣΣ2

(49)

donde

• Entonces, el límite superior de Bhattacharyya sobre el error es:

!ΣΣ == (ΣΣ1+ ΣΣ

2) 2.

p(error) ≤ p(ω1)p(ω

2)e−DB (50)

Page 34: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Ejemplo• Calcular la frontera de decisión y el límite de Bhattacharyya para el

siguiente conjunto de datos bidimensional con dos clases equiprobables.

34

µµ1

µµ2 ω1

ω2

µµ1= 3

6

⎣⎢

⎦⎥; ∑∑1

= 1 2 0

0 2

⎝⎜

⎠⎟ y

µµ2= 3

−2

⎣⎢

⎦⎥; ∑∑2

= 2 00 2

⎛⎝⎜

⎞⎠⎟

Los parámetros de las distribuciones son:

Las matrices inversas son entonces:

∑∑1−1 = 2 0

0 1 2

⎝⎜

⎠⎟ y ∑∑

2−1 =

1 2 0

0 1 2

⎝⎜

⎠⎟

Sustituyendo en las Ecuaciones 40-43 y haciendo g1(x)=g2(x) la frontera de decisión es:

x2= 3.5142 − 1.125x

1+ 0.1875x

12

De acuerdo con las ecuaciones 49 y 50, el límite de Bhattacharyya es:

p(error) ≤ 0.008191

Page 35: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

Apéndice

• La “maldición de la dimensionalidad” es un concepto que se refiere a los problemas asociados con el análisis multivariante de datos conforme la dimensionalidad incrementa.

• Considérese el problema de clasificación de tres clases, donde el espacio de características es dividido en segmentos uniformemente separados, de modo que un patrón arbitrario es clasificado en la clase predominante de un segmento específico.

1. Considerando una única característica y dividiendo el espacio en tres segmentos:

35

x1

se observa que existe mucho traslape entre las clases, por lo que se incorpora una nueva característica.

Page 36: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

36

Apéndice2. Si se preserva la granularidad de cada eje, el número de

segmentos aumenta de 3 (en 1D) a 32=9 (en 2D). En relación a la cantidad de patrones habrá que decidir:

a. si se mantiene la densidad de patrones, la cantidad de muestras aumenta de 9 (en 1D) a 27 (en 2D); ó

b. si se mantiene el número de patrones se genera mucha dispersión.

x1 x1

x2 x2Densidad constante

Número de muestras constante

Page 37: Análisis de Datos - tamps.cinvestav.mxwgomez/diapositivas/RP/Clase03.pdf · y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe

3. Aumentando a tres características el problema se vuelve más complejo, ya que el número de segmentos aumenta a 33=27; si se mantiene la densidad el número de muestras aumenta a 81; si se mantiene la cantidad de patrones el espacio de características estará casi vacío.

37

Apéndice

x1

x2

x3