ANÁLISIS DISCRIMINANTE - · PDF file100% m i 1 i i ∑ = λ λ...

Post on 06-Feb-2018

274 views 3 download

Transcript of ANÁLISIS DISCRIMINANTE - · PDF file100% m i 1 i i ∑ = λ λ...

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 1

    ANLISISDISCRIMINANTE

    ElAnlisisDiscriminanteesunatcnicaestadsticamultivariantecuyafinalidadesanalizarsiexistendiferenciassignificativasentregruposdeobjetosrespectoaunconjuntodevariablesmedidassobrelosmismospara,enelcasodequeexistan,explicarenqusentidosedanyfacilitarprocedimientosdeclasificacinsistemticadenuevasobservacionesdeorigendesconocidoenunodelosgruposanalizados.

    Sepuedepredecirsiunaempresavaaentrarenbancarrota? Esposiblepredecirconantelacinsiunclientequesolicitaunprstamoaunbancovaaserunclientemoroso?

    Existediscriminacinporrazonesdesexooderazaenunaempresaoenuncolegio?

    ElAnlisisDiscriminantesepuedeconsiderarcomounanlisisderegresindondelavariabledependienteescategricaytienecomocategoraslaetiquetadecadaunodelosgrupos,mientrasquelasvariablesindependientessoncontinuasydeterminanaqugrupospertenecenlosobjetos.

    Sepretendeencontrarrelacioneslinealesentrelasvariablescontinuasquemejordiscriminenenlosgruposdadosalosobjetos.

    Construirunaregladedecisinqueasigneunobjetonuevoconunciertogradoderiesgo,cuyaclasificacinpreviasedesconoce,aunodelosgruposprefijados.

    Paraefectuarelanlisisesnecesarioconsiderarunaseriedesupuestos:

    (a) Setieneunavariablecategricayelrestodevariablessondeintervalooderaznysonindependientesrespectodeella.

    (b) Senecesitanalmenosdosgrupos,yparacadagruposenecesitandosomscasos.

    (c) Elnmerodevariablesdiscriminantesdebesermenorqueelnmerodeobjetosmenos2,esdecir, )x,,x,x( p21 L donde )2n(p < siendonnmerodeobjetos.

    (d) Ningunavariablediscriminantepuedesercombinacinlinealdeotrasvariablesdiscriminantes.

    (e) Elnmeromximodefuncionesdiscriminanteseselmnimo[nmerodevariables,nmerodegruposmenos1]conqgrupos, )1q( funcionesdiscriminantes.

    (f) Lasmatricesdecovarianzasdentrodecadagrupodebendeseraproximadamenteiguales.

    (g) Lasvariablescontinuasdebenseguirunadistribucinnormalmultivariante.

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 2

    MODELOMATEMTICO

    Partiendodeqgruposdondeseasignanaunaseriedeobjetosydepvariablesmedidassobreellos )x,,x,x( p21 L ,setratadeobtenerparacadaobjetounaseriedepuntuacionesqueindicanel

    grupoalquepertenecen )y,,y,y( m21 L ,demodoqueseanfuncioneslinealesde )x,,x,x( p21 L :

    ++++=

    ++++=

    10pmp22m11mm

    10pp12121111

    wxwxwxwy

    wxwxwxwy

    L

    LLLLLLLLLLLLL

    L

    [ ]p,1qmnm =

    talesquediscriminenoseparenlomximoposiblealosqgrupos.

    Estascombinacioneslinealesdelaspvariablesdebenmaximizarlavarianzaentrelosgruposyminimizarlavarianzadentrodelosgrupos.

    DESCOMPOSICINDELAVARIANZA:Lavariabilidadtotaldelamuestrasepuededescomponerenvariabilidaddentrodelosgruposyentrelosgrupos.Paraello,separte:

    )xx()xx(n1

    )x,x(Cov ''' jijn

    1ijijjj

    = =

    sepuedeconsiderarlamediadelavariable jx encadaunodelosgrupos )I,,I,I( q21 L ,esdecir,

    =kIi

    ij

    k

    jk xn1

    x para q,,1k L= .

    Deestaforma,lamediatotaldelavariable jx sepuedeexpresarcomofuncindelasmediasdentro

    decadagrupo:

    =kIi

    ijjkk xxn

    conlocual, jkq

    1k

    q

    1k

    kjkk

    q

    1k Iiij

    n

    1iijj xn

    nxn

    n1

    xn1

    xn1

    xk

    = == =

    ====

    As, )xx()xx(n1

    )x,x(Cov ''' jijq

    1k Iijijjj

    k

    = =

    Poniendoencadaunodelostrminos:

    +=

    +=

    )xx()xx()xx(

    )xx()xx()xx(

    '''''' jjkjkjijji

    jjkjkijjij

    seobtiene,

    =+== == =

    )xx()xx(nn

    )xx()xx(n1

    )xx()xx(n1

    )x,x(Cov ''''''' jjkq

    1kjjk

    kjkji

    q

    1k Iijkijjij

    q

    1k Iijijjj

    kk

    4847687648476876

    a

    ENTEMATRICIALMgruposentrearianzacov

    jj

    gruposdentroarianzacov

    jj

    totalarianzacov

    jjjjjjFVT)x,x(f)x,x(v)x,x(t)x,x(f)x,x(v ''''' +=+=+=

    Lacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentregrupos.

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 3

    EXTRACCINFUNCIONESDISCRIMINANTES

    LaideabsicadelAnlisisDiscriminanteconsisteenextraerapartirde )x,,x,x( p21 L variables

    observadasenkgrupos,mfunciones )y,,y,y( m21 L deformaque:

    0ipip22i11ii wxwxwxwy ++++= L donde )p,1q(mnm = ,talesque ji0)y,y(corre ji =

    Silasvariables )x,,x,x( p21 L estntipificadas,lasfunciones ( )pip22i11ii xwxwxwy +++= L para)m,,1i( L= sedenominandiscriminantescannicas.

    Lasfunciones )y,,y,y( m21 L seextraendemodoque:

    1y sealacombinacinlinealde )x,,x,x( p21 L queproporcionalamayordiscriminacinposibleentrelosgrupos.

    2y sealacombinacinlinealde )x,,x,x( p21 L queproporcionalamayordiscriminacinposibleentrelosgrupos,despusde 1y ,talque 0)y,y(corre 21 =

    Engeneral, iy eslacombinacinlinealde )x,,x,x( p21 L queproporcionalamayordiscriminacinposibleentrelosgrupos,despusde 1iy ,talque 0)y,y(corre ji = para

    )1i(,,1j = L

    MATRICIALMENTE:Sebuscaunafuncinlinealde )x,,x,x( p21 L : X'wY =

    SesabequeLacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentre

    grupos:48476 ENTEMATRICIALM

    VFT += .

    Demodoque, wV'wwF'wwT'w)y(Var +==

    Semaximizalavariabilidadentrelosgruposparadiscriminarlosmejor,esdecir,semaximizala

    varianzaentregruposenrelacinconeltotaldelavarianza:

    wT'wwF'w

    mx

    ConsiderandolafuncinwT'wwF'w

    )w(f = seobservaqueesunafuncinhomognea,esdecir,

    R)w(f)w(f = .Elhechodequeseahomogneaimplicaquecalcular

    wT'wwF'w

    mx equivale

    acalcular [ ]wF'wmx talque 1wT'w =

    ComoeselesquemahabitualdelosmultiplicadoresdeLagrange,sedefine:

    ( ) ww)FT(wTwF0wT2wF2wL

    1wT'wwF'wL 1 ====

    =

    Enconsecuencia,elautovectorasociadoalaprimerafuncindiscriminanteloesdelamatriz )FT( 1 ,queengeneralnoessimtrica.

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 4

    Como wTwF = ,setiene == wT'wwF'w

    Portanto,tomandoelvectorasociadoalmximoautovalorseobtendrlafuncinquerecogeelmximopoderdiscriminante.

    Elautovalorasociadoalafuncindiscriminanteindicalaproporcindevarianzatotalexplicadaporlasmfuncionesdiscriminantesquerecogelavariable iy

    Paraobtenermsfuncionesdiscriminantessesiguensacandolosautovectoresdelamatriz

    )FT( 1 asociadosalosautovaloreselegidosenordendecreciente:

    =

    =

    m'm

    'm

    2'2

    '2

    YXww

    YXww

    LLLLLLL

    )p,1q(mnm = .Estosvectoressonlinealmenteindependientesydanlugarafuncionesincorreladasentres.

    Lasumadetodoslosautovalores=

    m

    1ii eslaproporcindevarianzatotalquequedaexplicada,ose

    conserva,alconsiderarslolosejesofuncionesdiscriminantes.

    Comoconsecuencia,elporcentajeexplicadoporlavariable iy deltotaldevarianzaexplicadaporlasfunciones )y,,y,y( m21 L es:

    %100m

    1ii

    i

    =

    ANLISISDISCRIMINANTE:OBJETO

    Clasificarlasobservacionesdelamuestraengrupos,apartirdelainformacinsuministradaporunconjuntodevariables.

    Unconjuntodevariablesexplicativasocriterio

    Unavariablecategricasealandolosgrupos

    Variablesclasificadoras Variabledependiente

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 5

    ANLISISDISCRIMINANTE(A.D.):CRITERIODECLASIFICACIN

    Hiptesis:Lasdistribucionesslosediferencianporsulocalizacin(igualformayvarianza)

    Setratademinimizarloserroresdeclasificacin SixiCseclasificaenelgrupoII

    ElpuntoCsedenominapuntodecortediscriminante:2XXC III +=

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 6

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 7

    ENFOQUESDEANLISIS

    Basadoenlaobtencindefuncionesdiscriminantesdeclculosimilaralasecuacionesderegresinlinealmltiple.Consisteenconseguir,apartirdelasvariablesexplicativas,unasfuncioneslinealesdestasconcapacidadparaclasificaraotrosindividuos.Acadanuevocasoseaplicandichasecuacionesylafuncindemayorvalordefineelgrupoalquepertenece.

    Basadoentcnicasdecorrelacincannicaydecomponentesprincipales(AnlisisFactorial)denominadoAnlisisDiscriminanteCannico.

    CLASIFICACINENDOSGRUPOS

    SeestudialaaplicacindelAnlisisDiscriminante(AD)alaclasificacindeindividuosenelcasodequesepuedanasignarsolamenteadosgruposapartirdekvariablesdiscriminadoras.

    Fisherresuelveelproblemamediantesufuncindiscriminante: kk2211 XwXwXwD +++= L

    Laspuntuacionesdiscriminantessonlosvaloresqueseobtienenaldarvaloresa)X,,X,X( k21 L enlaecuacinanterior.

    Setratadeobtenerloscoeficientesdeponderacin jw

    SiseconsideranNobservacionesLafuncindiscriminante kiki22i11i XwXwXwD +++= L paraN,,1i L= .

    )D( i eslapuntuacindiscriminantecorrespondientealaobservacinisima.

    Lafuncindiscriminanteenformamatricial:

    =

    k

    2

    1

    kNN2N1

    2k2212

    1k2111

    N

    2

    1

    w

    w

    w

    XXX

    XXX

    XXX

    D

    D

    D

    M

    L

    MM

    L

    L

    M

    Expresandoelmodeloenfuncindelasdesviacionesalamedia,resulta:

    =

    k

    2

    1

    kNN2N1

    2k2212

    1k2111

    NN

    22

    11

    w

    w

    w

    XXX

    XXX

    XXX

    dD

    dD

    dD

    M

    L

    MM

    L

    L

    Mesdecir,

    wXd= (funcindiscriminanteendiferencias)

    Lavariabilidaddelafuncindiscriminante(sumadecuadradosdelasdesviacionesdelasvariablesdiscriminantesconrespectoasumedia)seexpresa:

    Sumadecuadradosexplicadaporestafuncin: wX'X'wd'd =

    X'X esunamatrizsimtricaqueexpresalasdesviacionescuadrticasconrespectoalamediade

    lasvariables(sumadecuadradostotal).

  • AnlisisDiscriminante

    SantiagodelaFuenteFernndez 8

    Sepuededescomponerensumadecuadradosentreg