Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la...

22
Representaci´ on de datos multivariantes en dimensi´ on reducida Francesc Carmona, Carles M. Cuadras y Josep Maria Oller Departamento de Estad´ ıstica Universidad de Barcelona [email protected], [email protected], [email protected] 15-12-2000 Un conjunto de m´ etodos multivariantes resuelven el problema de representar geom´ etrica- mente los individuos, objetos o subpoblaciones ω 1 2 ,...,ω n de una poblaci´ on Ω, respecto a unas variables observables X 1 ,X 2 ,...,X k que pueden ser cuantitativas, cualitativas o una combinaci´ on de ambos tipos. En algunos m´ etodos de representaci´ on de datos, la informaci´ on de entrada es una tabla de datos X, en la que x ij = X j (ω i ) representa el valor observado de la variable X j sobre el individuo ω i . X 1 X 2 ... X k ω 1 x 11 x 12 ... x 1k ω 2 x 21 x 22 ... x 2k . . . . . . . . . . . . ω n x n1 x n2 ... x nk En otros m´ etodos la informaci´ on de entrada es una matriz de disimilaridades. La informaci´ on de salida es una representaci´ on geom´ etrica de los individuos en dimensi´ on reducida (en el plano o en el espacio), que exprese sus diferencias y analog´ ıas de la mejor forma posible. En l´ ıneas generales deben distinguirse tres casos: 1) Los individuos constituyen una muestra de tama˜ no n de la poblaci´ on Ω. Normal- mente la representaci´ on de los datos se suele completar con ciertas conclusiones de tipo estad´ ıstico, como la significaci´ on de la dimensi´ on empleada. Ejemplo: repre- sentaci´ on de una muestra de especies de un mismo g´ enero, utilizando un individuo por especie. 2) Los n individuos constituyen toda la poblaci´ on Ω= {ω 1 ,...,ω n } Ejemplo: representaci´ on de las 41 comarcas de Catalunya respecto a variables so- cioecon´ omicas. 1

Transcript of Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la...

Page 1: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

Representacion de datos multivariantesen dimension reducida

Francesc Carmona, Carles M. Cuadras y Josep Maria OllerDepartamento de Estadıstica

Universidad de [email protected], [email protected], [email protected]

15-12-2000

Un conjunto de metodos multivariantes resuelven el problema de representar geometrica-mente los individuos, objetos o subpoblaciones ω1, ω2, . . . , ωn de una poblacion Ω, respectoa unas variables observables X1, X2, . . . , Xk que pueden ser cuantitativas, cualitativas ouna combinacion de ambos tipos.

En algunos metodos de representacion de datos, la informacion de entrada es una tablade datos X, en la que xij = Xj(ωi) representa el valor observado de la variable Xj sobreel individuo ωi.

X1 X2 . . . Xk

ω1 x11 x12 . . . x1k

ω2 x21 x22 . . . x2k...

......

...ωn xn1 xn2 . . . xnk

En otros metodos la informacion de entrada es una matriz de disimilaridades.

La informacion de salida es una representacion geometrica de los individuos en dimensionreducida (en el plano o en el espacio), que exprese sus diferencias y analogıas de la mejorforma posible.

En lıneas generales deben distinguirse tres casos:

1) Los individuos constituyen una muestra de tamano n de la poblacion Ω. Normal-mente la representacion de los datos se suele completar con ciertas conclusiones detipo estadıstico, como la significacion de la dimension empleada. Ejemplo: repre-sentacion de una muestra de especies de un mismo genero, utilizando un individuopor especie.

2) Los n individuos constituyen toda la poblacion

Ω = ω1, . . . , ωn

Ejemplo: representacion de las 41 comarcas de Catalunya respecto a variables so-cioeconomicas.

1

Page 2: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

3) La poblacion Ω es la reunion de p subpoblaciones excluyentes

Ω = Ω1 + · · ·+ Ωp

Se dispone de una muestra de tamano ni de la subpoblacion Ωi. Se trata entoncesde representar las p subpoblaciones. Ejemplo: representacion de p especies distintasdisponiendo de ni individuos por especie.

Una descripcion breve de los principales metodos de analisis de datos se expone a conti-nuacion:

Analisis de componentes principales. Utiliza variables cuantitativas y cualitativas yuna distancia euclıdea entre los individuos.

Analisis de coordenadas principales. Utiliza variables cualitativas y una distanciarelacionada con la similaridad entre los individuos. Esta relacionado con el metodoanterior.

Analisis de correspondencias. Es apropiado para representar datos cualitativos orga-nizados en una tabla de contingencia. Utiliza la distancia ji-cuadrado.

Analisis canonico de poblaciones. Es apropiado para representar poblaciones, utili-zando generalmente variables cuantitativas. Utiliza la distancia de Mahalanobis.

Analisis de proximidades. Es el metodo mas general de representacion de datos. Elanalisis se realiza sobre una matriz de disimilaridades.

El objetivo de este artıculo es explicar los conceptos y propiedades teoricas sobre las quese desarrollan los diversos metodos. Seguidamente desarrollaremos el Analisis de compo-nentes principales, el Analisis canonico de poblaciones y el Analisis de correspondenciascomo consecuencia de estas propiedades.

1. Distancias estadısticas

Una cuestion basica que debe plantearse para la representacion de datos es una adecuadaeleccion de la distancia entre los individuos a representar.

Asignemos a cada individuo ωi el vector de coordenadas

xi = (xi1, xi2, . . . , xik)′ i = 1, . . . , n

con las observaciones sobre las variables X1, X2, . . . , Xk. Se puede interpretar xi como unpunto del espacio euclıdeo Rk. Nuestro problema es representar los n puntos de Rk en unespacio de dimension menor, generalmente en el plano.

2

Page 3: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

1.1. Distancia euclıdea

Una definicion simple de distancia es

d(ωi, ωj) =

√√√√ k∑h=1

(xih − xjh)2

que es la distancia euclıdea entre los puntos xi y xj de Rk. Observemos que el cuadradode la distancia en notacion matricial es

d2(ωi, ωj) = (xi − xj)′(xi − xj) (1)

Esta distancia, aunque es invariante por transformaciones ortogonales, tiene el inconve-niente de ser sensible a cambios de escala de las variables. Es recomendable utilizarla encaso de homogeneidad entre la naturaleza fısica de las variables y desconocer la matrizde covarianzas.

1.2. Distancia de Mahalanobis

Introducimos a continuacion una distancia estadıstica general perfectamente adecuadapara diferenciar individuos o poblaciones mediante k variables aleatorias.

1.2.1. Caso k = 1

Sea X una variable de valor medio µ y desviacion tıpica σ. La distancia estadıstica entreωi y ωj, siendo X(ωi) = xi y X(ωj) = xj, es por definicion

d(ωi, ωj) =|xi − xj|

σ

Son propiedades de esta distancia:

1) Es invariante por cambios de escala.

2) Es una distancia normalizada expresada en unidades de desviacion tıpica. Parauna variable con distribucion normal, el campo de variabilidad de esta distanciaestara practicamente comprendido entre 0 y 4.

1.2.2. Caso k > 1

Sean X1, X2, . . . , Xk variables aleatorias de matriz de covarianzas Σ y ωi, ωj dos individuosde coordenadas

xi = (xi1, xi2, . . . , xik)′ xj = (xj1, xj2, . . . , xjk)

Supongamos que Σ es no singular. Definimos la distancia (al cuadrado) entre ωi y ωj por

D2(ωi, ωj) = (xi − xj)′Σ−1(xi − xj) (2)

3

Page 4: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

Si Ωi, Ωj son dos poblaciones representadas por sus vectores de medias µi, µj y con matrizde covarianzas comun Σ, el cuadrado de la distancia entre ambas poblaciones es

D2(Ωi, Ωj) = (µi − µj)′Σ−1(µi − µj)

Si ω es un individuo de coordenadas x = (x1, . . . , xk)′ y el vector de medias de la poblacion

es µ, el cuadrado de la distancia estadıstica de ω al individuo medio de la poblacion es

D2(ω, Ω) = (x− µ)′Σ−1(x− µ)

Esta distancia estadıstica general fue introducida por Mahalanobis (1936). Aunque en lasaplicaciones se utiliza la distancia D, trabajaremos normalmente con D2 para disponerde una mayor comodidad de notacion.

La distancia de Mahalanobis tiene las siguientes propiedades:

1) D2(ωi, ωj) = D2(ωj, ωi)

2) D2(ωi, ωj) ≥ 0

3) D2(ωi, ωi) = 0

(estas tres primeras propiedades definen el concepto general de distancia)

4) D2(ωi, ωj) = 0 si y solo si xi = xj

5) D2(ωi, ωj) ≤ D2(ωi, ωh) + D2(ωh, ωj)

(con las cinco propiedades anteriores, la distancia se llama metrica)

6) Es invariante por transformaciones lineales no singulares de las variables. En parti-cular es invariante por cambios de escala.

7) Esta expresada en unidades de desviacion tıpica y tiene en cuenta las correlacionesentre las variables (redundancia).

8) Si indicamos por D2k a la distancia al cuadrado expresada en funcion de k variables,

entoncesD2

k ≤ D2k+h

9) Si las variables X1, . . . , Xk son estocasticamente independientes de las variablesXk+1, . . . , Xk+h, entonces

D2k+h = D2

k + D2h

Aumentando el numero de variables se incrementa el poder de discriminacion entre losindividuos o poblaciones, pero las distancias disminuyen a medida que aumenta la corre-lacion entre las variables.

La distancia de Mahalanobis juega un papel fundamental en muchos de los metodosmultivariantes principalmente por sus buenas propiedades estadısticas. Por ejemplo, sila distribucion de las variables es normal multivariante Nk(µ,Σ), entonces D2(ω, Ω) =(x− µ)′Σ−1(x− µ) como variable aleatoria sigue la distribucion χ2

k.

Esta distancia puede tambien generalizarse al caso en que existan relaciones lineales entrelas variables X1, . . . , Xk, entonces Σ es singular. La distancia se define sustituyendo lamatriz inversa de Σ por una g-inversa Σ−, es decir, tal que ΣΣ−Σ = Σ. Esta distanciatiene basicamente las mismas propiedades que en el caso no singular, verificandose ademas

4

Page 5: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

a) D2 no depende de la g-inversa Σ−.

b) D2 es invariante por transformaciones lineales que conserven el rango de Σ.

Tambien se puede justificar la utilizacion de la matriz inversa Σ−1 en la distancia entreindividuos de una manera mucho mas formal. En el espacio vectorial E generado por lasvariables X1, . . . , Xk podemos considerar el producto escalar definido por la matriz Σ.Cada elemento de la poblacion Ω se puede identificar con un elemento de E∗, dual de E ,mediante la aplicacion h definida de la siguiente manera:

h : Ω −→ E∗

tal queh(ω) = Y ∗

conY ∗(X) = X(ω) ∀X ∈ E

El producto escalar definido en el espacio E por la matriz Σ, induce en el espacio dual E∗una forma bilineal asociada a la matriz Σ−1 que define un producto escalar en E∗ y porconsiguiente una distancia. Como asociamos mediante la aplicacion h a cada elemento deΩ un elemento de E∗, tendremos de forma natural una distancia entre individuos

dΩ(ωi, ωj) = dE∗(h(ωi), h(ωj))

En la practica, sin embargo, las medias poblacionales y la matriz de covarianzas sondesconocidas. Ası pues, deberemos realizar las estimaciones mas adecuadas a partir delas observaciones de las variables X1, . . . , Xk sobre los individuos de Ω.

2. Reduccion de la dimension

2.1. El problema

Supongamos que disponemos de n puntos o vectores de un espacio euclıdeo de dimensionk, cuyas coordenadas o componentes forman las filas de la matriz X.

Vamos a construir una variedad lineal que se ajuste perfectamente a la nube de puntosxi, es decir, debemos hallar una variedad lineal tal que la suma de los cuadrados de lasdistancias de los puntos a la variedad sea mınima.

Con dimension q < k, la ecuacion de la variedad afin es

y = β1v1 + β2v2 + · · ·+ βqvq + a (3)

donde v1,v2, . . . ,vq es una base del subespacio director asociado a la variedad, que ademaselegiremos ortonormal, verificandose pues

〈vi,vj〉 = v′iΣ

−1vj = δij ∀i, j (4)

siendo Σ−1 la matriz asociada al producto escalar, que es simetrica y definida positiva.

5

Page 6: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

Los vectoreszi = xi − a i = 1, . . . , k

pueden descomponerse de forma unica como

zi = pi + p⊥i i = 1, . . . , k

donde pi es un elemento del subespacio director de la variedad y p⊥i es un vector ortogonal

a dicho subespacio.

La proyeccion de zi en la variedad es

pi =

q∑j=1

pjvj =

q∑j=1

〈zi,vj〉vj =

q∑j=1

〈xi − a,vj〉vj (5)

La distancia al cuadrado del punto xi a la variedad es

‖p⊥i ‖2 = ‖zi‖2 − ‖pi‖2

donde

‖pi‖2 = 〈pi,pi〉 =

q∑j=1

〈xi − a,vj〉2

resultado al que se llega ya que pi =∑q

j=1〈xi − a,vj〉vj.

Ası pues, para lograr el objetivo propuesto debemos minimizar la funcion

Φ(a,v1, . . . ,vq) =n∑

i=1

‖p⊥i ‖2 =

n∑i=1

(‖zi‖2 − ‖pi‖2

)(6)

=n∑

i=1

(〈xi − a,xi − a〉 −

q∑j=1

〈xi − a,vj〉2)

con la condicion〈vi,vj〉 = v′

iΣ−1vj = δij ∀i, j

Si desarrollamos la funcion Φ tenemos

Φ =n∑

i=1

〈xi − a,xi − a〉 −q∑

j=1

n∑i=1

〈xi − a,vj〉2

que matricialmente podemos escribir como

Φ = traza[(X− 1a′)Σ−1(X− 1a′)′

]−

q∑j=1

v′jΣ

−1(X− 1a′)′(X− 1a′)Σ−1vj

donde 1 = (1, . . . , 1)′ y la matriz X− 1a′ consiste en restar el vector a′ a cada una de lasfilas de X.

6

Page 7: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

2.2. La solucion

En primer lugar veremos que para minimizar Φ debemos considerar el vector a = x donde

x = (x1, . . . , xk)′ =

1

n

n∑i=1

xi =1

nX′1 (7)

con

xi =1

n

n∑h=1

xhi i = 1, . . . , k

En efecto, supongamos que el vector a que minimiza la funcion Φ es de la forma a = x+c,entonces

Φ =n∑

i=1

〈xi − x− c,xi − x− c〉 −q∑

j=1

n∑i=1

〈xi − x− c,vj〉2

=n∑

i=1

‖xi − x‖2 − 2n∑

i=1

〈xi − x, c〉+ n‖c‖2 −q∑

j=1

n∑i=1

〈xi − x− c,vj〉2

=n∑

i=1

‖xi − x‖2 + n‖c‖2 −q∑

j=1

n∑i=1

〈xi − x− c,vj〉2

ya que nx =∑n

i=1 xi.

Si desarrollamos de forma similar el ultimo sumando de Φ llegaremos a la expresion

Φ =n∑

i=1

‖xi − x‖2 + n‖c‖2 −q∑

j=1

(n∑

i=1

〈xi,vj〉2 + n〈c,vj〉2 − n〈x,vj〉2)

de modo que debemos hallar el vector c que minimice

n‖c‖2 −q∑

j=1

n〈c,vj〉2 = n

(‖c‖2 −

q∑j=1

〈c,vj〉2)

Como la proyeccion de c sobre la variedad es

q∑j=1

〈c,vj〉vj

su norma al cuadrado esq∑

j=1

〈c,vj〉2 ≤ ‖c‖2

y la igualdad se verifica si c pertenece al subespacio director asociado a la variedad lineal.Por todo ello, la funcion Φ sera mınima si tomamos c = 0, ya que el vector nulo perteneceal subespacio director.

7

Page 8: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

Ası pues, podemos tomar como vector a el vector de medias x y la expresion de Φ aminimizar es

Φ(v1, . . . ,vk) = traza[(X− 1x′)Σ−1(X− 1x′)′

]−

q∑j=1

v′jΣ

−1(X− 1x′)′(X− 1x′)Σ−1vj

=n∑

i=1

‖xi − x‖2 −q∑

j=1

v′jΣ

−1(X− 1x′)′(X− 1x′)Σ−1vj

Seguidamente, procederemos a calcular los vectores v1, . . . ,vq que minimizan la expresionanterior, con las restricciones senaladas. De manera que debemos maximizar

q∑j=1

v′jΣ

−1(X− 1x′)′(X− 1x′)Σ−1vj (8)

con las restriccionesviΣ

−1vj = δij ∀i, j

Consideremos la matriz de centrado H = In − 1n11′ que es simetrica e idempotente.

EntoncesX− 1x′ = HX (9)

y por tanto(X− 1x′)′(X− 1x′) = X′HX = nS (10)

donde S es la matriz de varianzas y covarianzas muestrales.

Por todo ello y con las restricciones viΣ−1vj = δij, nos proponemos maximizar la expre-

sionq∑

j=1

v′jAvj (11)

donde A = Σ−1SΣ−1.

Para conseguirlo, vamos a maximizar cada uno de los sumandos, es decir, vamos a hallarlos vectores que maximizan

φ(v) = v′Av

sujeto av′Σ−1v = 1

La solucion se obtiene por medio de la llamada diagonalizacion simetrica generalizada, esdecir, sean w1, . . . ,wk los vectores tales que

Awi = λiΣ−1wi i = 1, . . . , k (12)

conλ1 ≥ λ2 ≥ . . . ≥ λk

y sujetos a la condicion w′iΣ

−1wj = δij, es decir, w1, . . . ,wk es una base de vectorespropios ortonormales.

8

Page 9: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

Entonces, para cualquier vector v =∑k

i=1 αiwi se tiene

φ(v) =∑i,j

αiαjw′iAwj

=k∑

i=1

α2i λi ≤ λ1

q∑i=1

α2i

y como la base w1, . . . ,wk es ortonormal

1 = v′Σ−1v =∑i,j

αiαjw′iΣ

−1wj =

q∑i=1

α2i

por consiguiente φ(v) ≤ λ1, es decir, la funcion φ esta acotada por λ1. Ademas

φ(w1) = w′1Aw1 = λ1w

′1Σ

−1w1 = λ1

se tiene que el vector w1 hace maximo el primer sumando de (11). Los vectores que hacenmaximo el resto de los sumandos son los vectores propios correspondientes a los q − 1siguientes valores propios λ2, . . . , λq.

En el caso que algun valor propio sea multiple, se eligen tantos vectores del subespaciopropio correspondiente como orden de multiplicidad tenga el valor propio y que seanortonormales con el producto escalar definido por Σ−1.

Por otra parte, la igualdadAwi = λiΣ

−1wi

al ser A = Σ−1SΣ−1, se puede escribir

SΣ−1wi = λiwi (13)

En consecuencia, la variedad lineal tal que la suma de los cuadrados de las distancias delos puntos xi a dicha variedad es mınima, viene definida por

y = x + β1w1 + · · ·+ βqwq (14)

donde x es el vector de medias y donde w1, . . . ,wq son los vectores propios de SΣ−1,correspondientes a los q primeros valores propios en orden decreciente en caso de serdistintos y ortonormales respecto a Σ−1. Si la multiplicidad de un valor propio es sentonces se eligen s vectores propios ortonormales del subespacio propio correspondiente.

En la practica, podemos calcular primero la descomposicion espectral de la matriz simetri-ca definida positiva Σ

Σ = ΓΛΓ′

donde todos los valores propios de la matriz, en la diagonal Λ, son positivos y no nulosy la matriz de los vectores propios Γ es ortogonal.

En este caso, se puede definir la matriz

Σ−1/2 = ΓΛ−1/2Γ′

9

Page 10: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

y calcular la descomposicion espectral de la matriz simetrica

Σ−1/2SΣ−1/2

Esta descomposicion proporciona unos valores propios que coinciden con los de SΣ−1 yunos vectores propios bi = Σ−1/2wi que se pueden transformar en

wi = Σ1/2bi

donde Σ1/2 = ΓΛ1/2Γ′.

2.3. Maxima dispersion

La variedad (14) hallada goza de una importante propiedad: la suma de los cuadrados delas interdistancias de las proyecciones de los puntos xi sobre la variedad es maxima.

Sea F la variedad lineal q-dimensional (14). Las proyecciones en F de dos puntos xi y xj

de coordenadas xi = (xi1, . . . , xik)′ y xj = (xj1, . . . , xjk)

′ vienen dadas por

yi = x + pi

yj = x + pj

donde pi =∑q

h=1〈xi − x,wh〉wh para cualquier i = 1, . . . , n.

Entonces, la distancia entre los dos puntos proyectados es

D2(yi,yj) = ‖pi − pj‖2 = ‖q∑

h=1

〈xi − xj,wh〉wh‖2 =

q∑h=1

(〈xi,wh〉 − 〈xj,wh〉)2

Luego, si consideramos en la variedad F un sistema de referencia con origen en x y ejesdefinidos por la base w1, . . . ,wq, las proyecciones de los puntos xi y xj son

qi = αi1w1 + · · ·+ αiqwq

qj = αj1w1 + · · ·+ αjqwq

dondeαih = 〈xi,wh〉 = x′

iΣ−1wh = w′

hΣ−1xi

para cualquier i = 1, . . . , n y h = 1, . . . , q.

Ası el cuadrado de la distancia en F de ambas proyecciones es equivalente a la distanciaeuclıdea al cuadrado entre las componentes de los puntos proyeccion qi y qj.

D2(yi,yj) =

q∑h=1

(αih − αjh)2 = (αi −αj)

′(αi −αj) = d2(αi, αj)

dondeαi = (αi1, . . . , αiq)

′ = W′Σ−1xi

y W(k × q) es la matriz cuyas columnas son las componentes de los vectores propiosw1, . . . ,wq.

10

Page 11: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

De manera que

D2(yi,yj) = (W′Σ−1(xi − xj))′(W′Σ−1(xi − xj))

La suma de los cuadrados de las interdistancias en F vendra dada por la expresion:

SCD =n∑

i=1

n∑j=1

(xi − xj)′Σ−1WW′Σ−1(xi − xj) (15)

Si se desarrolla SCD se llega a

D = 2nn∑

i=1

(xi − x)′Σ−1WW′Σ−1(xi − x)

que podemos poner de la siguiente forma

SCD = 2n traza[(X− 1x′)′Σ−1WW′Σ−1(X− 1x′)

]= 2n traza

[W′Σ−1(X− 1x′)(X− 1x′)′Σ−1W

]= 2n traza

[W′Σ−1X′HXΣ−1W

]= 2n2 traza [W′AW]

= 2n2(w′1Aw1 + · · ·+ w′

qAwq) = 2n2(λ1w′1Σ

−1w1 + · · ·+ λqw′qΣ

−1wq)

= 2n2(λ1 + · · ·+ λq)

Es decirSCD = 2n2(λ1 + · · ·+ λq) (16)

Como anteriormente hemos visto que los sumandos de la forma v′Av con la restriccionv′Σ−1v = 1 estan acotados por λ1, . . . , λq, queda demostrada la propiedad, pues cualquierotra base que no sea la de los vectores propios w1, . . . ,wq, lleva a una variedad en la cualla suma de los cuadrados de las interdistancias de las proyecciones de los puntos originalesxi es menor.

2.4. Coordenadas y variables canonicas

Las coordenadas de las proyecciones de los puntos originales xi en el nuevo subespacio Fde dimension reducida q, referidas a los vectores propios w1, . . . ,wq, son

yi =

q∑h=1

〈xi − x,wh〉wh

si tomamos como origen del sistema de referencia el punto x.

Luego, en notacion matricial podemos escribir

Yc = (X− 1x′)Σ−1W = HXΣ−1W (17)

donde Yc(n×q) es la matriz cuyas filas son las coordenadas de los puntos proyectados en lavariedad y la matriz W tiene como columnas las componentes de los vectores w1, . . . ,wq.

Tambien podemos calcular la matriz Y de datos sin centrar

Y = XΣ−1W

11

Page 12: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

de forma que Yc = HY.

Las filas de la matriz Yc, o si se prefiere Y, constituyen las llamadas coordenadas canonicasde los puntos proyectados.

Una propiedad importante de la nueva matriz Y, tambien de Yc, que resume nuestroslogros es

SY =1

nY′HY =

1

nW′Σ−1X′HXΣ−1W

= W′Σ−1SΣ−1W = W′AW = diag(λ1, . . . , λq)

Desde otro punto de vista, podemos considerar en

Σ−1SΣ−1wi = λiΣ−1wi

con las restricciones w′iΣ

−1wj = δij, la sustitucion

Σ−1wi = ui i = 1, . . . , q

de manera que nos queda

Σ−1Sui = λiui ⇐⇒ Sui = λiΣui

con las condiciones u′iΣuj = δij.

La matriz U(k × q) definida porU = Σ−1W (18)

contiene las componentes de las llamadas variables canonicas. Dichas “variables” sonlas combinaciones lineales de la matriz de datos X que proporcionan las coordenadascanonicas de los puntos proyeccion ya que

Y = XU

Ademas, respecto al producto escalar definido por Σ se verifica

U′ΣU = Iq

mientras que para un producto escalar definido para la otra matriz de covarianzas S

U′SU = W′Σ−1SΣ−1W = diag(λ1, . . . , λq)

2.5. Analisis de la dimension

Cuando realizamos una representacion canonica sobre un espacio de dimension q, estadimension ha de verificar

q ≤ mınn− 1, k = m

El porcentaje de la dispersion explicada por los q ejes es

P = 100 · λ1 + · · ·+ λq

λ1 + · · ·+ λm

(19)

donde λi son los valores propios obtenidos de la ecuacion 12 o equivalentes.

Si queremos que la representacion canonica recoja el 100% de la dispersion, debemosconstruir la variedad con dimension igual al mınimo entre el numero de valores propiosdistintos de cero y n − 1. Como dichos valores propios son funcion de una muestra, elanalisis de cuantos valores propios son no nulos es un problema de inferencia estadısticaque se resuelve mediante test apropiados.

12

Page 13: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

3. Analisis de componentes principales

El Analisis de las componentes principales (ACP) proporciona un conjunto de variablesY , combinacion lineal de las variables observables X1, X2, . . . , Xk, con la propiedad detener varianza maxima. Para definirlas, utilizaremos la terminologıa estudiada.

Supongamos definidas dos “covarianzas” sobre las variables o los datos. La primera esla verdadera covarianza entre las variables observadas y su matriz asociada es la matrizde covarianzas S, que supondremos de rango k. La segunda es la que corresponde a lametrica experimental y la matriz asociada es la identidad Σ = I.

En este caso, las componentes principales se obtienen diagonalizando la matriz de cova-rianzas S

S = GΛG′ (20)

donde Λ = diag(λ1, . . . , λk) contiene los valores propios de S y G es ortogonal, de maneraque GG′ = G′G = I. Las componentes principales son las variables canonicas, es decir,las combinaciones lineales cuyos coeficientes son las columnas de la matriz G. Por todoello, la representacion de datos se hace con los elementos de la matriz Y(n× k)

Y = XG

o con las q primeras coordenadas para una representacion en dimension q. Ademas, comoya sabemos, se verifica que

SY = Λ = diag(λ1, . . . , λk)

En resumen, a partir de una matriz de datos X(n × k) con las observaciones sobre nindividuos de k variables, se considera la configuracion de los n puntos en Rk separadospor la distancia euclıdea ordinaria. La representacion de los individuos en dimensionreducida se consigue con la matriz Y = XG, donde la dispersion de las columnas vadisminuyendo de izquierda a derecha. Ademas, si m = mınk, n − 1 es inferior a k, apartir de la columna m + 1, los elementos de las columnas son exactamente iguales.

Para determinar el numero necesario de componentes principales se utiliza el calculo dela variabilidad explicada. Este es el metodo mas simple, aunque se puede ampliar conotros sistemas estadısticos mas elaborados como la prueba de Anderson (1963), la pruebade Lebart y Fenelon (1973), etc.

Las componentes principales se pueden obtener tambien partiendo de la matriz de corre-laciones R. Sin embargo, las componentes principales obtenidas son distintas y la eleccionentre diagonalizar S o R es un tema controvertido. Si las unidades de medida de las va-riables son distintas (anos, kilos, metros, etc.), es preferible el uso de R, porque equivalea utilizar variables reducidas y, por tanto, sin dimension fısica. Pero si las unidades demedida son las mismas o razonablemente conmensurables, es preferible realizar el anali-sis sobre S, que es menos artificial. Tambien se considera recomendable utilizar ambasmatrices y comparar las interpretaciones de las dos clases de componentes obtenidas.

3.1. Analisis del tamano y la forma

Una de las primeras aplicaciones del ACP a la morfometrıa (estudio de la morfologıa delos individuos y especies por metodos cuantitativos) se remontan a los primeros intentosde establecer los conceptos de tamano y forma de un individuo dentro de una especie.

13

Page 14: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

La idea de tamano se considera equivalente a la de crecimiento. Podemos idealizar el creci-miento de un individuo, representado por k medidas de otros tantos caracteres biometricos(x1, . . . , xk), como el movimiento a lo largo de una lınea recta de ecuacion

x1 − a1

α1

=x2 − a2

α2

= · · · = xk − ak

αk

(21)

donde (α1, α2, . . . , αk)′ representa el vector posicion del crecimiento (vector director de la

recta) y (a1, a2, . . . , ak) es un punto fijo sobre la recta, que se puede interpretar como eltamano de un individuo adulto que ha alcanzado la madurez (Burnaby, 1966).

La relacion (21) es tan solo ideal, valida si todos los individuos de la poblacion puedenalinearse de menor a mayor tamano. Cuando los caracteres estan representados por kvariables aleatorias X1, . . . , Xk, no ligadas por una relacion lineal perfecta, parece razo-nable definir (21) como la direccion de maxima variabilidad, es decir, como la primeracomponente principal.

Por otra parte, una variable biometrica, cuanto mas variabilidad tiene, mejor expresa elconcepto de tamano. Por ejemplo, consideremos un grupo de hombres de practicamenteel mismo peso pero con notable variacion de altura; entonces, para ordenarlos de menor amayor tamano, los ordenaremos de menor a mayor altura. La variable con mayor varianzasera la que mejor expresara este concepto. Si esta variable puede ser una combinacionlineal de X1, . . . , Xk, esta variable debe ser la primera componente principal, que seidentifica, pues, con el tamano.

¿Y la forma? La forma es un concepto independiente del tamano. Dos individuos puedentener el mismo tamano pero distinta forma y recıprocamente. Como la segunda, terce-ra, etc. componentes principales, estan incorrelacionadas con la primera, parece tambienrazonable interpretarlas como variables que expresen la forma de los individuos. Las dis-tintas maneras de representar la forma, tambien incorrelacionadas entre sı, se interpretanen funcion de la saturacion que tengan las variables iniciales sobre estas componentes.

Estos son los argumentos principales del trabajo clasico de Jolicoeur y Mosimann (1960),que es un intento de clasificar tortugas atendiendo al peso, longitud y anchura de suscaparazones. Ambos autores toman logaritmos sobre las variables originales, para eliminarlos efectos de las relaciones de alometrıa entre los caracteres (relacion del tipo y = bxa,que se transforma en lineal: log y = log b + a log x).

Sin embargo, para que las componentes principales representen adecuadamente tamanoy forma, deben cumplirse las siguientes condiciones (Rao, 1971):

1) Todos los coeficientes de la primera componente principal deben ser positivos, esdecir, la primera columna de G debe tener todos sus elementos positivos para quese esta se pueda identificar como tamano. En efecto, todo incremento positivo delas medidas biometricas X1, . . . , Xk redundara en un incremento positivo de Y1

(aumentando las medidas, aumenta el tamano). Si esta condicion no se verifica, nose puede hablar estrictamente de tamano.

2) Para que una componente se identifique como forma no debe tener todos los coefi-cientes positivos, sino que algunos deben ser positivos y otros negativos. Un factorde forma debe ser tal que un incremento del factor, o lo que es lo mismo, una formamas acusada, resulta de un incremento de unas medidas y un decremento de otras.

14

Page 15: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

3) Si las componentes de forma se extraen de la matriz de covarianzas S, es aconsejableconsiderar solo aquellas cuyas varianzas superen a la menor de las varianzas de lasvariables X1, . . . , Xk, es decir,

λ2 ≥ λ3 ≥ · · · ≥ λm ≥ mıns11, . . . , skk

de esta manera no hay ninguna componente que tenga menos variabilidad que cual-quiera de las variables observadas.

3.2. Interpretacion geometrica

Supongamos que los datos son centrados. Representamos la muestra de tamano n con lospuntos o filas de la matriz X tomando X1, . . . , Xk como ejes ortogonales y unitarios, esdecir, referimos la muestra a la llamada metrica experimental. La nube de puntos adoptaentonces la forma del elipsoide de concentracion

x′S−1x ≤ c (22)

donde c se puede elegir de manera que un elevado porcentaje de la poblacion este contenidoen este elipsoide.

Consideremos el problema de maximizar v′v con la condicion v′S−1v = 1. El vectorv solucion se encuentra sobre el elipsoide de concentracion correspondiente a c = 1 yv′v maximo significa que v representa una direccion de maxima variabilidad respectoa la metrica experimental, que se interpreta geometricamente como el eje principal delelipsoide. Ahora bien, v se obtiene de la diagonalizacion Iv = λS−1v y por lo tanto

Sv = λv

Luego v es vector propio de S y proporcional al vector que define la primera componenteprincipal Y1. Analogamente se interpretan las demas componentes principales.

Existe pues una correspondencia entre las direcciones ortogonales de maxima variabili-dad del elipsoide de concentracion, o ejes principales del elipsoide, y las componentesprincipales obtenidas por diagonalizacion de la matriz de covarianzas S de las variablesobservables.

4. Analisis canonico de poblaciones

4.1. Introduccion

El analisis canonico de poblaciones (ACPL) es un metodo de representacion de gruposo poblaciones, a lo largo de ejes con maximo poder de discriminacion, en relacion a ladistancia de Mahalanobis.

Supongamos que una poblacion general Ω es reunion de p poblaciones o grupos (especiesde un mismo genero, grupos humanos de diferente comportamiento, etc.)

Ω = Ω1 ∪ . . . ∪ Ωp con Ωi ∩ Ωj = ∅ i 6= j

15

Page 16: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

Sean X1, . . . , Xk variables observables sobre Ω. Si sobre la poblacion Ωi i = 1, . . . , pobtenemos ni observaciones de las k variables, nuestros datos formaran una matriz X(n×k) siendo n =

∑pi=1 ni

X =

X1...

Xp

Parece razonable identificar cada poblacion Ωi con el “individuo” medio de Ωi represen-tado por el punto que tiene por coordenadas las medias muestrales de las variables en esapoblacion

xi(k × 1) = (xi1, . . . , xik)′ i = 1, . . . , p

La matriz de datos a representar en dimension reducida es

B =

x′1...x′

p

donde las filas de B(p× k) son las medias de cada poblacion Ωi.

Por otra parte, vamos a considerar la distancia de Mahalanobis entre los puntos obser-vados de la poblacion Ω. Dicha distancia (ver 2) viene determinada por la matriz decovarianzas Σ que, en este caso, debemos estimar. Cuando las covarianzas en las distintaspoblaciones se suponen iguales, la estimacion mas apropiada de Σ es

Σ =1

n− p

p∑i=1

niSi

es decir, una combinacion lineal ponderada de las matrices de covarianzas muestralesSi(k × k) para cada poblacion por separado.

4.2. Obtencion de las coordenadas canonicas

Como sabemos, la representacion en dimension reducida se obtiene a partir de dos ma-trices de covarianzas. La primera se calcula con el centrado de la matriz de datos B

HB =

x′1 − x′

...x′

p − x′

donde x = (1/p)

∑pi=1 xi, de forma que la matriz de covarianzas “entre” las poblaciones

es

A =1

pB′HB =

1

p(x1 − x, . . . , xp − x)

x′1 − x′

...x′

p − x′

(23)

=1

p

p∑i=1

(xi − x)(xi − x)′

16

Page 17: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

La otra matriz es la matriz de covarianzas “dentro” de la poblacion, es decir, la matrizΣ.

El algoritmo para obtener las variables y coordenadas canonicas, se resume en las siguien-tes formulas

Aui = λiΣui ⇐⇒ Σ−1

Aui = λiui

U(k × k) = (u1, . . . ,uk) λ1 ≥ . . . ≥ λk ≥ 0

Yc = HBU coordenadas canonicas centradas

5. Analisis de correspondencias

5.1. Distancia ji-cuadrado

El Analisis de correspondencias (AC) es apropiado para representar tablas de frecuencias.Supongamos que los datos corresponden a dos criterios de clasificacion, a los que llama-remos “caracteres” y “poblaciones”, los cuales se disponen en una tabla de contingencia:

CaracteresA1 A2 . . . As

H1 n11 n12 . . . n1s n1·Poblaciones H2 n21 n22 . . . n2s n2·

......

......

...Hr nr1 nr2 . . . nrs nr·

n·1 n·2 . . . n·s n

donde

ni· =s∑

h=1

nih n·j =r∑

h=1

nhj

nij es la frecuencia de aparicion de la poblacion Hi y el caracter Aj, ni· es la frecuenciade la poblacion Hi, n·j es la frecuencia de Aj y n es el numero total de individuos.

La distribucion de frecuencias de los caracteres en la poblacion Hi viene dada por elvector de coordenadas

hi =

(ni1

ni·,ni2

ni·, . . . ,

nis

ni·

)′

(24)

que se puede entender como la densidad de probabilidad discreta de Hi i = 1, . . . , r.

Uno de los objetivos del AC es obtener una representacion geometrica de las poblacionesH1, H2, . . . , Hr en relacion a la distribucion de frecuencias relativas de los caracteres. Sinembargo, la distancia utilizada es la distancia ji-cuadrado, que es diferente de la distanciabasada en la metrica experimental.

La distancia ji-cuadrado entre las poblaciones Hi y Hj en relacion a los caracteresA1, A2, . . . , As es

d2(Hi, Hj) =s∑

h=1

1

n·h

(nih

ni·− njh

nj·

)2

(25)

=s∑

h=1

(nih√n·h ni·

− njh√n·h nj·

)2

17

Page 18: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

De acuerdo con esta distancia, las poblaciones H1, H2, . . . , Hr estan representadas poruna configuracion de r puntos en un espacio euclıdeo Rs de coordenadas

pi =

(ni1√n·1 ni·

,ni2√n·2 ni·

, . . . ,nis√n·s ni·

)′

(26)

separados por la distancia euclıdea ordinaria. Se comprueba facilmente que tal configu-racion esta contenida en el hiperplano de ecuacion

s∑h=1

√n·h xh = 1

5.2. Representacion de las poblaciones

La representacion de las poblaciones en dimension reducida, determinadas por las coor-denadas (26) con referencia a los caracteres, se puede interpretar como un problema derepresentacion de datos mediante Analisis de componentes principales.

Sea Z(r × s) la matriz cuyas filas son las coordenadas (26)

Z =

p′

1

p′2...p′

r

Debemos diagonalizar la matriz de “covarianzas” que resulta de Z y representar las po-blaciones en dimension q tomando las q primeras coordenadas de la matriz

Y = ZG

Veamos las caracterısticas de esta diagonalizacion. Para lo que sigue nos sera util trabajarcon las frecuencias relativas fij = nij/n en lugar de nij. Este cambio de escala no afecta ala representacion grafica de los datos. Las coordenadas (24) son exactamente las mismas,pero las coordenadas (26) quedan multiplicadas por el factor n. Supongamos pues∑

i

∑j

fij =∑

i

fi· =∑

j

f·j = 1

Las siguientes propiedades nos llevan a la solucion:

1. El vector de medias de los caracteres calculadas sobre la matriz Z, ponderadas porlas frecuencias relativas f1·, . . . , fr·, es

m = (√

f·1, . . . ,√

f·s)′

2. La matriz de covarianzas entre los caracteres, tambien ponderando por las frecuen-cias relativas, es

Ss = Z′DrZ−mm′

donde Dr = diag(f1·, . . . , fr·).

18

Page 19: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

3. m es vector propio de Ss de valor propio λ = 0.

4. Los vectores propios de Ss son tambien vectores propios de Z′DrZ.

5. m es vector propio de Z′DrZ de valor propio λ = 1.

Como consecuencia de estas propiedades, bastara diagonalizar Z′DrZ y considerar sololos vectores propios de valor propio distinto de 1. Como el valor propio 1 corresponde alvalor propio 0 de Ss, es facil ver que los demas valores propios de Z′DrZ son menores que1:

1 > λ2 ≥ · · · ≥ λs

Si la diagonalizacion esZ′DrZ = TDλT

donde T es ortogonal y Dλ = diag(1, λ2, . . . , λs). Las coordenadas de las poblacionesvendran dadas por la 2a, 3a,. . . columnas de la matriz

Y = ZT

Para determinar el porcentaje de variabilidad explicada por una representacion en di-mension q, dividiremos la variabilidad explicada por los ejes por la variabilidad totalV T

V T = traza Ss =s∑

j=1

((r∑

i=1

f 2ij

f·jfi·

)− f·j

)= traza (Z′DrZ)− 1

y el porcentaje de varianza explicada por el 2o, 3o,. . . ejes es

Pq = 100 · λ2 + · · ·+ λq

traza(Z′DrZ)− 1= 100 · λ2 + · · ·+ λq

λ2 + · · ·+ λs

La representacion en dimension q (habitualmente q = 2) nos proporciona una repre-sentacion de las poblaciones separadas por la distancia ji-cuadrado, salvo la perdida deinformacion producida al reducir la dimension.

5.3. Representacion de los caracteres

Hasta aquı, lo que hemos hecho es representar r poblaciones con referencia a s caracteresmediante el Analisis de componentes principales, salvo que hemos utilizado la distanciaji-cuadrado en lugar de la distancia euclıdea. La principal ventaja del AC es que posibilitarepresentar tambien los s caracteres en relacion a las r poblaciones y, sobre todo, realizaruna representacion simultanea de poblaciones y caracteres.

La distribucion de frecuencias de las r poblaciones condicionadas al caracter Aj vienedada por el vector de coordenadas

aj =

(n1j

n·j,n2j

n·j, . . . ,

nrj

n·j

)′

(27)

para todo j = 1, . . . , s.

19

Page 20: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

Para diferenciar dos caracteres Ai, Aj, en relacion a las poblaciones H1, . . . , Hr se definela distancia ji-cuadrado

d2(Ai, Aj) =r∑

h=1

1

nh·

(nhi

n·i− nhj

n·j

)2

(28)

=r∑

h=1

(nhi√nh· n·i

− nhj√nh· n·j

)2

Ası los caracteres A1, . . . , As estan representados por una configuracion de s puntos, enun espacio euclıdeo Rr, de coordenadas

qj =

(n1j√n1· n·j

,n2j√n2· n·j

, . . . ,nrj√nr· n·j

)′

(29)

separados por la distancia euclıdea ordinaria. Los puntos q1, . . . ,qs estan contenidos enel hiperplano de ecuacion

r∑h=1

√nh· xh = 1

Las coordenadas (29) constituyen una matriz de datos Z′(s× r) siendo

Z = (q1,q2, . . . ,qs)

Podemos representar la matriz de datos Z′ tambien mediante analisis de componentesprincipales, diagonalizando la matriz de covarianzas Sr. Dada la dualidad existente entrela representacion de caracteres y la de poblaciones, nos limitaremos ahora a dar lasprincipales formulas y propiedades:

m = (√

f1·, . . . ,√

fr·)′ vector de medias

Sr = ZDsZ′ − mm′ matriz de covarianzas

Ds = diag(f·1, . . . , f·s)

1. m es vector propio de Sr de valor propio λ = 0.

2. Los vectores propios de Sr son tambien vectores propios de ZDsZ′.

3. m es vector propio de ZDsZ′ de valor propio λ = 1.

Deberemos, pues, diagonalizar ZDsZ′

ZDsZ′ = TDλT

siendo T ortogonal y Dλ = diag(1, λ2, . . . , λr) la matriz diagonal con los valores propios

1 ≥ λ2 ≥ . . . ≥ λr de ZDsZ′.

La representacion de los s caracteres se consigue utilizando la 2a, 3a,. . . columnas de lamatriz

Y = Z′T

El porcentaje de variabilidad explicada por los q primeros ejes es

Pq = 100 · λ2 + · · ·+ λq

λ2 + · · ·+ λr

20

Page 21: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

5.4. Representacion simultanea

El problema de representar las r poblaciones y los s caracteres se resuelve mediantela diagonalizacion de las matrices Z′DrZ y ZDsZ

′ respectivamente. Sin embargo, ambasrepresentaciones estan estrechamente relacionadas entre sı. En efecto, definamos la matrizde orden r × s

B = D−1/2r FD−1/2

s

donde F = (fij) es la matriz de frecuencias relativas original, Dr = diag(f1·, . . . , fr·) yDs = diag(f·1, . . . , f·s). De manera que los elementos de B son

bij =fij√

fi·√

f·j=

nij√ni·√

n·j

La matriz B verifica las siguientes propiedades:

1. Z′DrZ = B′B ZDsZ′ = BB′

2. B′B tiene los mismos valores propios que BB′.

3. Si v es vector propio de B′B de valor propio λ, entonces w = Bv es vector propiode BB′ de valor propio λ.

Ası pues, los valores propios verifican

1 ≥ λ2 = λ2 ≥ · · · ≥ λt = λt

donde t = mınr, s = rango(B′B) = rango(BB′). Los demas valores propios son nulos.Concluimos tambien que bastara diagonalizar B′B

B′B = TDλT′

Los vectores propios de valor propio no nulo (suponiendo r ≥ s) de BB′ son las columnasde la matriz W(r × s)

W = BT

que debe ser normalizada por columnas, para lo cual bastara multiplicar por D−1/2λ para

obtenerT = WD

−1/2λ = BTD

−1/2λ T′T = Ir

Las coordenadas de las poblaciones Hi son las filas de Y = ZT y las coordenadas de loscaracteres Aj son las filas de Y = Z′T, recordando que en ambos casos se prescinde dela primera columna.

ComoZ = D−1

r FD−1/2s Z = D−1/2

r FD−1s

podemos relacionar Y con Y

Y = Z′T = Z′BTD−1/2λ = D−1

s F′D−1/2r D−1/2

r FD−1/2s TD

−1/2λ

= D−1s F′YD

−1/2λ (30)

21

Page 22: Representacion de datos multivariantes en dimensi´on reducida · tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra

De esta forma, la h-esima coordenada (coordenada en el eje h) del caracter Aj se expresaen funcion de las h-esimas coordenadas de las r poblaciones

yjh =1√λh

(f1j

f·jy1h + · · ·+ frj

f·jyrh

)Analogamente se puede ver que

Y = D−1r FYD

−1/2λ (31)

y la h-esima coordenada de la poblacion Hi se expresa en funcion de las h-esimas coor-denadas de los s caracteres segun

yih =1√λh

(fi1

fi·y1h + · · ·+ fis

fi·ysh

)En vista de estas relaciones, podemos representar las coordenadas de las poblaciones yde los caracteres, contenidas en Y y Y, con referencia a unos mismos ejes factoriales.

De la representacion simultanea de poblaciones y caracteres deben distinguirse tres as-pectos:

1) La representacion de poblaciones diferenciadas por la distancia ji-cuadrado.

2) La representacion de caracteres diferenciados por la distancia ji-cuadrado (corres-pondiente a los caracteres).

3) La correspondencia que existe entre una poblacion Hi y los s caracteres expresadapor (31); analogamente, la correspondencia que existe entre un caracter Aj y las rpoblaciones expresada por (30).

Esta correspondencia proviene del hecho de que el punto cuyas coordenadas representanla poblacion Hi es el baricentro (salvo el factor λ

−1/2h ) de los s puntos que representan

los caracteres, asignando a cada punto la masa fij/fi·, que es la frecuencia relativa depresencia del caracter Aj en la poblacion Hi. La proximidad de Hi a un determinadogrupo de caracteres indica que tienen una presencia importante en Hi. Analogamente, laproximidad de un caracter Aj a un determinado grupo de poblaciones indica una mayorpresencia de este caracter en tales poblaciones. Esta propiedad es valida cualquiera quesean los ejes utilizados, en particular si tomamos los dos primeros ejes no triviales y lascoordenadas de las poblaciones y de los caracteres son la segunda y tercera columna deY y Y.

22