AnlisisDiscriminante
SantiagodelaFuenteFernndez
AnlisisDiscriminante
SantiagodelaFuenteFernndez
AnlisisDiscriminante
SantiagodelaFuenteFernndez 1
ANLISISDISCRIMINANTE
ElAnlisisDiscriminanteesunatcnicaestadsticamultivariantecuyafinalidadesanalizarsiexistendiferenciassignificativasentregruposdeobjetosrespectoaunconjuntodevariablesmedidassobrelosmismospara,enelcasodequeexistan,explicarenqusentidosedanyfacilitarprocedimientosdeclasificacinsistemticadenuevasobservacionesdeorigendesconocidoenunodelosgruposanalizados.
Sepuedepredecirsiunaempresavaaentrarenbancarrota? Esposiblepredecirconantelacinsiunclientequesolicitaunprstamoaunbancovaaserunclientemoroso?
Existediscriminacinporrazonesdesexooderazaenunaempresaoenuncolegio?
ElAnlisisDiscriminantesepuedeconsiderarcomounanlisisderegresindondelavariabledependienteescategricaytienecomocategoraslaetiquetadecadaunodelosgrupos,mientrasquelasvariablesindependientessoncontinuasydeterminanaqugrupospertenecenlosobjetos.
Sepretendeencontrarrelacioneslinealesentrelasvariablescontinuasquemejordiscriminenenlosgruposdadosalosobjetos.
Construirunaregladedecisinqueasigneunobjetonuevoconunciertogradoderiesgo,cuyaclasificacinpreviasedesconoce,aunodelosgruposprefijados.
Paraefectuarelanlisisesnecesarioconsiderarunaseriedesupuestos:
(a) Setieneunavariablecategricayelrestodevariablessondeintervalooderaznysonindependientesrespectodeella.
(b) Senecesitanalmenosdosgrupos,yparacadagruposenecesitandosomscasos.
(c) Elnmerodevariablesdiscriminantesdebesermenorqueelnmerodeobjetosmenos2,esdecir, )x,,x,x( p21 L donde )2n(p < siendonnmerodeobjetos.
(d) Ningunavariablediscriminantepuedesercombinacinlinealdeotrasvariablesdiscriminantes.
(e) Elnmeromximodefuncionesdiscriminanteseselmnimo[nmerodevariables,nmerodegruposmenos1]conqgrupos, )1q( funcionesdiscriminantes.
(f) Lasmatricesdecovarianzasdentrodecadagrupodebendeseraproximadamenteiguales.
(g) Lasvariablescontinuasdebenseguirunadistribucinnormalmultivariante.
AnlisisDiscriminante
SantiagodelaFuenteFernndez 2
MODELOMATEMTICO
Partiendodeqgruposdondeseasignanaunaseriedeobjetosydepvariablesmedidassobreellos )x,,x,x( p21 L ,setratadeobtenerparacadaobjetounaseriedepuntuacionesqueindicanel
grupoalquepertenecen )y,,y,y( m21 L ,demodoqueseanfuncioneslinealesde )x,,x,x( p21 L :
++++=
++++=
10pmp22m11mm
10pp12121111
wxwxwxwy
wxwxwxwy
L
LLLLLLLLLLLLL
L
[ ]p,1qmnm =
talesquediscriminenoseparenlomximoposiblealosqgrupos.
Estascombinacioneslinealesdelaspvariablesdebenmaximizarlavarianzaentrelosgruposyminimizarlavarianzadentrodelosgrupos.
DESCOMPOSICINDELAVARIANZA:Lavariabilidadtotaldelamuestrasepuededescomponerenvariabilidaddentrodelosgruposyentrelosgrupos.Paraello,separte:
)xx()xx(n1
)x,x(Cov ''' jijn
1ijijjj
= =
sepuedeconsiderarlamediadelavariable jx encadaunodelosgrupos )I,,I,I( q21 L ,esdecir,
=kIi
ij
k
jk xn1
x para q,,1k L= .
Deestaforma,lamediatotaldelavariable jx sepuedeexpresarcomofuncindelasmediasdentro
decadagrupo:
=kIi
ijjkk xxn
conlocual, jkq
1k
q
1k
kjkk
q
1k Iiij
n
1iijj xn
nxn
n1
xn1
xn1
xk
= == =
====
As, )xx()xx(n1
)x,x(Cov ''' jijq
1k Iijijjj
k
= =
Poniendoencadaunodelostrminos:
+=
+=
)xx()xx()xx(
)xx()xx()xx(
'''''' jjkjkjijji
jjkjkijjij
seobtiene,
=+== == =
)xx()xx(nn
)xx()xx(n1
)xx()xx(n1
)x,x(Cov ''''''' jjkq
1kjjk
kjkji
q
1k Iijkijjij
q
1k Iijijjj
kk
4847687648476876
a
ENTEMATRICIALMgruposentrearianzacov
jj
gruposdentroarianzacov
jj
totalarianzacov
jjjjjjFVT)x,x(f)x,x(v)x,x(t)x,x(f)x,x(v ''''' +=+=+=
Lacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentregrupos.
AnlisisDiscriminante
SantiagodelaFuenteFernndez 3
EXTRACCINFUNCIONESDISCRIMINANTES
LaideabsicadelAnlisisDiscriminanteconsisteenextraerapartirde )x,,x,x( p21 L variables
observadasenkgrupos,mfunciones )y,,y,y( m21 L deformaque:
0ipip22i11ii wxwxwxwy ++++= L donde )p,1q(mnm = ,talesque ji0)y,y(corre ji =
Silasvariables )x,,x,x( p21 L estntipificadas,lasfunciones ( )pip22i11ii xwxwxwy +++= L para)m,,1i( L= sedenominandiscriminantescannicas.
Lasfunciones )y,,y,y( m21 L seextraendemodoque:
1y sealacombinacinlinealde )x,,x,x( p21 L queproporcionalamayordiscriminacinposibleentrelosgrupos.
2y sealacombinacinlinealde )x,,x,x( p21 L queproporcionalamayordiscriminacinposibleentrelosgrupos,despusde 1y ,talque 0)y,y(corre 21 =
Engeneral, iy eslacombinacinlinealde )x,,x,x( p21 L queproporcionalamayordiscriminacinposibleentrelosgrupos,despusde 1iy ,talque 0)y,y(corre ji = para
)1i(,,1j = L
MATRICIALMENTE:Sebuscaunafuncinlinealde )x,,x,x( p21 L : X'wY =
SesabequeLacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentre
grupos:48476 ENTEMATRICIALM
VFT += .
Demodoque, wV'wwF'wwT'w)y(Var +==
Semaximizalavariabilidadentrelosgruposparadiscriminarlosmejor,esdecir,semaximizala
varianzaentregruposenrelacinconeltotaldelavarianza:
wT'wwF'w
mx
ConsiderandolafuncinwT'wwF'w
)w(f = seobservaqueesunafuncinhomognea,esdecir,
R)w(f)w(f = .Elhechodequeseahomogneaimplicaquecalcular
wT'wwF'w
mx equivale
acalcular [ ]wF'wmx talque 1wT'w =
ComoeselesquemahabitualdelosmultiplicadoresdeLagrange,sedefine:
( ) ww)FT(wTwF0wT2wF2wL
1wT'wwF'wL 1 ====
=
Enconsecuencia,elautovectorasociadoalaprimerafuncindiscriminanteloesdelamatriz )FT( 1 ,queengeneralnoessimtrica.
AnlisisDiscriminante
SantiagodelaFuenteFernndez 4
Como wTwF = ,setiene == wT'wwF'w
Portanto,tomandoelvectorasociadoalmximoautovalorseobtendrlafuncinquerecogeelmximopoderdiscriminante.
Elautovalorasociadoalafuncindiscriminanteindicalaproporcindevarianzatotalexplicadaporlasmfuncionesdiscriminantesquerecogelavariable iy
Paraobtenermsfuncionesdiscriminantessesiguensacandolosautovectoresdelamatriz
)FT( 1 asociadosalosautovaloreselegidosenordendecreciente:
=
=
m'm
'm
2'2
'2
YXww
YXww
LLLLLLL
)p,1q(mnm = .Estosvectoressonlinealmenteindependientesydanlugarafuncionesincorreladasentres.
Lasumadetodoslosautovalores=
m
1ii eslaproporcindevarianzatotalquequedaexplicada,ose
conserva,alconsiderarslolosejesofuncionesdiscriminantes.
Comoconsecuencia,elporcentajeexplicadoporlavariable iy deltotaldevarianzaexplicadaporlasfunciones )y,,y,y( m21 L es:
%100m
1ii
i
=
ANLISISDISCRIMINANTE:OBJETO
Clasificarlasobservacionesdelamuestraengrupos,apartirdelainformacinsuministradaporunconjuntodevariables.
Unconjuntodevariablesexplicativasocriterio
Unavariablecategricasealandolosgrupos
Variablesclasificadoras Variabledependiente
AnlisisDiscriminante
SantiagodelaFuenteFernndez 5
ANLISISDISCRIMINANTE(A.D.):CRITERIODECLASIFICACIN
Hiptesis:Lasdistribucionesslosediferencianporsulocalizacin(igualformayvarianza)
Setratademinimizarloserroresdeclasificacin SixiCseclasificaenelgrupoII
ElpuntoCsedenominapuntodecortediscriminante:2XXC III +=
AnlisisDiscriminante
SantiagodelaFuenteFernndez 6
AnlisisDiscriminante
SantiagodelaFuenteFernndez 7
ENFOQUESDEANLISIS
Basadoenlaobtencindefuncionesdiscriminantesdeclculosimilaralasecuacionesderegresinlinealmltiple.Consisteenconseguir,apartirdelasvariablesexplicativas,unasfuncioneslinealesdestasconcapacidadparaclasificaraotrosindividuos.Acadanuevocasoseaplicandichasecuacionesylafuncindemayorvalordefineelgrupoalquepertenece.
Basadoentcnicasdecorrelacincannicaydecomponentesprincipales(AnlisisFactorial)denominadoAnlisisDiscriminanteCannico.
CLASIFICACINENDOSGRUPOS
SeestudialaaplicacindelAnlisisDiscriminante(AD)alaclasificacindeindividuosenelcasodequesepuedanasignarsolamenteadosgruposapartirdekvariablesdiscriminadoras.
Fisherresuelveelproblemamediantesufuncindiscriminante: kk2211 XwXwXwD +++= L
Laspuntuacionesdiscriminantessonlosvaloresqueseobtienenaldarvaloresa)X,,X,X( k21 L enlaecuacinanterior.
Setratadeobtenerloscoeficientesdeponderacin jw
SiseconsideranNobservacionesLafuncindiscriminante kiki22i11i XwXwXwD +++= L paraN,,1i L= .
)D( i eslapuntuacindiscriminantecorrespondientealaobservacinisima.
Lafuncindiscriminanteenformamatricial:
=
k
2
1
kNN2N1
2k2212
1k2111
N
2
1
w
w
w
XXX
XXX
XXX
D
D
D
M
L
MM
L
L
M
Expresandoelmodeloenfuncindelasdesviacionesalamedia,resulta:
=
k
2
1
kNN2N1
2k2212
1k2111
NN
22
11
w
w
w
XXX
XXX
XXX
dD
dD
dD
M
L
MM
L
L
Mesdecir,
wXd= (funcindiscriminanteendiferencias)
Lavariabilidaddelafuncindiscriminante(sumadecuadradosdelasdesviacionesdelasvariablesdiscriminantesconrespectoasumedia)seexpresa:
Sumadecuadradosexplicadaporestafuncin: wX'X'wd'd =
X'X esunamatrizsimtricaqueexpresalasdesviacionescuadrticasconrespectoalamediade
lasvariables(sumadecuadradostotal).
AnlisisDiscriminante
SantiagodelaFuenteFernndez 8
Sepuededescomponerensumadecuadradosentreg
Top Related