Análisis de Datos - tamps. wgomez/diapositivas/RP/  · y quitando el término de normalización,

download Análisis de Datos - tamps. wgomez/diapositivas/RP/  · y quitando el término de normalización,

If you can't read please download the document

  • date post

    19-Sep-2018
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of Análisis de Datos - tamps. wgomez/diapositivas/RP/  · y quitando el término de normalización,

  • Anlisis de Datos Clasificacin Bayesiana para distribuciones normales

    Profesor: Dr. Wilfrido Gmez Flores

    1

  • Funciones discriminantes Una forma til de representar clasificadores de patrones es a travs de

    funciones discriminantes gi(x), i=1,,C, donde el clasificador asigna a un vector de caractersticas x la clase i si

    2

    (1)gi(x) > gj(x), i j

    El clasificador es una red que computa C funciones discriminantes y selecciona la clase que obtiene al discriminante ms grande.

    Clasificacin

    x1 x2 x3 xD

    g1(x) g2(x) gC(x)

    Riesgos

    . . .

    . . .Entrada

    Funciones discriminantes

    Accin

  • Funciones discriminantes Para el caso de un clasificador que minimiza la tasa de error de

    clasificacin se tiene

    3

    (2)gi(x) p( i | x) =p(x |

    i)p(

    i)

    p(x |j)p(

    j)

    j=1

    C

    (3)gi(x) p(

    i| x) = p(x |

    i)p(

    i)

    y quitando el trmino de normalizacin, el cual es comn a las C funciones discriminantes, se reescribe como:

    donde p(x|i) es la funcin de verosimilitud y expresa qu tan probable son los datos observados dada la clase i.

    De acuerdo a la definicin en (3), el teorema de Bayes se define de manera informal como:

    posterior verosimilitud prior (4)

  • Funciones discriminantes Las funciones discriminantes dividen el espacio de caractersticas

    en C regiones de decisin (R1,, RC), separadas por fronteras de decisin.

    4

    p(x |1)p(

    1)

    p(x |2)p(

    2)

    R2

    R2

    R1

    Frontera de decisin

  • Funciones discriminantes

    5

    (5)

    En la prctica, es ms conveniente maximizar el logaritmo de la funcin de verosimilitud, lo cual simplifica el anlisis matemtico.

    Debido a que el logaritmo es una funcin montonamente creciente en su argumento, maximizar el logaritmo de una funcin es equivalente a maximizar la misma funcin original.

    Por tanto, el logaritmo de la funcin discriminante en (3) se expresa como:

    = ln p(x |i)+ ln p(

    i)

    gi(x) = ln p(x |

    i)p(

    i){ }

    para i=1,,C.

  • Funciones discriminantes En el caso especial de dos clases, en lugar de usar dos funciones

    discriminantes g1 y g2 y asignar x a 1 si g1>g2, es ms comn definir una sola frontera de decisin

    6

    g(x) g1(x) g

    2(x)

    y se usa la regla de decisin: clasificar 1 si g(x)>0.

    La funcin discriminante que minimiza la tasa de error de clasificacin se escribe como

    (6)

    g(x) = p(1| x) p(

    2| x) (7)

    (8)g(x) = lnp(x |

    1)

    p(x |2)+ lnp(

    1)

    p(2)

    y en trminos de la funcin logaritmo:

  • La distribucin Gaussiana es ampliamente utilizada para modelar vectores de patrones de valores continuos que son versiones aleatoriamente corrompidas de un vector prototipo.

    Para el caso xxxxx :

    7

    x 2 R

    p(x) = N (x | , 2)

    = 1(2 2)1/2

    exp 12 2

    (x )2

    (9)

    la cual es gobernada por dos parmetros: , llamada la media, y 2, llamada la varianza.

    La raz cuadrada de la varianza, dada por , es llamada la desviacin estndar, y el recproco de la varianza, escrito como =1/2, es llamada la precisin.

    Distribucin Gaussiana univariante

  • 8

    Distribucin Gaussiana univarianteN (x | , 2)

    x 2 + + 2

    2.5% 2.5%

    La distribucin normal univariante tiene aproximadamente 95% de su rea en el rango |x|2.

  • La distribucin Gaussiana en (9) satisface

    Tambin, la distribucin Gaussiana est normalizada tal que:

    9

    E[x ] = N (x | , 2)x dx =

    (10)

    El valor esperado de x bajo la distribucin Gaussiana, tambin llamado el promedio, est dado por:

    N (x|,2) > 0.

    N (x | , 2)dx

    = 1

    (11)

    De manera similar, el momento de segundo orden se define como:

    E[x 2 ] = N (x | , 2)x 2dx = 2 + 2

    (12) A partir de (11) y (12) se obtiene la varianza de x, tambin

    conocido como momento centralizado de segundo orden:

    var[x ] = E[x 2 ] E[x ]2 = 2 (13)

    Distribucin Gaussiana univariante

  • Teorema del lmite central

    La distribucin Gaussiana sigue el teorema del lmite central (TLC).

    Este teorema describe las caractersticas de la poblacin de medias creada a partir de las medias de un nmero infinito de muestras de tamao N tomadas aleatoriamente de una poblacin padre.

    El TLC establece que independientemente de la distribucin de la poblacin padre:

    La media de la poblacin de medias es siempre igual a la media de la poblacin padre de donde fueron tomadas las muestras.

    La varianza de la poblacin de medias es siempre igual a la varianza de la poblacin padre dividida por el tamao de la muestra N.

    La distribucin de las medias se aproxima a una distribucin normal cuando el tamao de la muestra N.

    10

  • Distribucin Gaussiana multivariante

    11

    p(x) = N (x | ,)

    = 1

    (2)D 2 1 2

    exp 12(x )T 1(x )

    (14)

    donde el vector D-dimensional es la media y se define como:

    Para el casox 2 RD :

    y la matriz de covarianza de tamao DD se define como:

    E[x] = N (x | ,)xdx

    (15)

    E[(x )(x )T ] = (x )(x )T dx

    (16)

  • Distribucin Gaussiana multivariante

    12

    El vector de medias contiene la media de cada variable.

    Caractersticas de la matriz de covarianza:

    La matriz de covarianza siempre es simtrica y semidefinida positiva, y su determinante debe ser estrictamente positivo.

    Los elementos de la diagonal ii son las varianzas de sus respectivas variables xi.

    Los elementos fuera de la diagonal ij son las covarianzas de las variables xi y xj.

    Si xi y xj son estadsticamente independientes, entonces ij=0.

  • Distribucin Gaussiana multivariante

    13

    x1

    x2

    p(x)

    x1

    x2

    p(x)

    x1

    x2

    p(x)

    x1

    x2

    p(x)

    x1

    x2

    x1

    x2

    x1

    x2

    x1

    x2

    11=

    22 y

    12=

    21= 0 11 22 y

    12=

    21= 0 11 22 y

    12=

    21= 0

    11

    22 y

    12

    21 0

  • Distribucin Gaussiana multivariante

    14

    Si xi es la i-sima componente de x, i el i-simo componente de , y ij el ij-simo componente de entonces:

    i= E[x

    i] y

    ij= E[(x

    i

    i)(x

    j

    j)] (17)

    x1

    x2

    Muestras tomadas de una distribucin Gaussiana bidimensional caen en una nube centrada en , cuya forma est determinada por .

    La posicin de puntos de densidad constante son elipses para los cuales la distancia Mahalanobis de x a es constante.

  • Funciones discriminantes para la distribucin Gaussiana

    El clasificador Bayesiano describe la distribucin de los datos en cada una de las clases mediante funciones de verosimilitud p(x|i), i=1,,C, las cuales son distribuciones Gaussianas multivariantes:

    15

    p(x |i) 1

    (2)D 2 i

    1 2exp 1

    2(x

    i)T

    i1(x

    i)

    (18)

    Sustituyendo (18) en (5) se tiene la funcin discriminante:

    gi(x) = 1

    2(x

    i)T

    i1(x

    i) D2ln2 1

    2ln

    i+ ln p(

    i) (19)

    Diferentes casos especiales de la funcin discriminante se pueden definir de acuerdo a la forma de la matriz de covarianza utilizada.

  • Caso 1: i=2I

    El caso ms simple ocurre cuando las caractersticas son estadsticamente independientes con varianzas iguales para todas las clases.

    La funcin discriminante en (19) se reescribe como:

    16

    gi(x) = 1

    2(x

    i)T( 2I )1(x

    i)+ ln p(

    i)

    = 12 2

    (x i)T(x

    i)+ ln p(

    i)

    (20)

    Expandiendo la forma cuadrtica (x)T(x) se tiene:

    gi(x) = 1

    2 2[xTx 2

    iTx +

    iT

    i]+ ln p(

    i) (21)

  • Caso 1: i=2I Eliminando el trmino cuadrtico xTx en (21), el cual es indepen-

    diente de i, se obtiene la funcin discriminante lineal:

    17

    gi(x) = w

    iTx +w

    i0

    donde

    (22)

    wi= 1 2

    i

    y el umbral o bias para la i-sima clase es

    wi0= 12 2

    iT

    i+ ln p(

    i)

    (23)

    (24)

    Un clasificador que utiliza funciones discriminantes lineales se le conoce como mquina lineal.

  • Caso 1: i=2I Las fronteras de decisin de una mquina lineal son los

    hiperplanos gi(x)=gj(x) para dos clases con las probabilidades posteriores ms altas y pueden ser escritos como:

    18

    wT(x x0) = 0

    donde

    (25)

    w= i

    j (26)y

    x0= 12(i+

    j)

    2

    i

    j

    2lnp(

    i)

    p(j)(i

    j) (27)

    El hiperplano pasa a travs del punto x0 y es ortogonal al vector w.

  • Caso 1: i=2I

    19

    Si las matrices de covarianza de dos distribuciones son iguales y proporcionales a la matriz identidad, entonces las distribuciones son esfricas en D dimensiones y la frontera es un hiperplano en D1.

    x

    p(x |i)

    x

    p(x |i)

    R2 R

    2

    R2

    R2

    R2R2

    R1

    R1

    R1

    R1

    R1

    R1

    1

    1

    1

    1

    1

    1

    2

    2

    2

    2

    2

    2

    p(1) = 0.5

    p(1) = 0.7

    p(1) = 0.5

    p(1) = 0.8

    p(1) = 0.8

    p(2) = 0.5

    p(2) = 0.5

    p(2) = 0.5

    p(1) = 0.5

    p(2) = 0.2

    p(2) = 0.2

    p(2) = 0.3

  • Caso 1: i=2I El caso especial cuando p(i) es igual para i=1,,C se tiene el

    clasificador de mnima distancia:

    20

    Asignar x a i* donde i* = argmin

    i=1,,Cx