El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es...

23
El análisis multivariable: conceptos básicos Joaquín Aldás Manzano 1 Universitat de València Dpto. de Dirección de Empresas “Juan José Renau Piqueras” 1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de selec- cionar, ordenar y, en algunos casos traducir los textos originales.

Transcript of El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es...

Page 1: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

El análisis multivariable: conceptos básicos

Joaquín Aldás Manzano1

Universitat de ValènciaDpto. de Dirección de Empresas “Juan José Renau Piqueras”

1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordanel tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hayque referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de selec-cionar, ordenar y, en algunos casos traducir los textos originales.

Page 2: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

El análisis multivariable: conceptos básicos

1. ¿Qué es el análisis multivariable?(Hair, Anderson, Tatham y Black, 1995)

El análisis multivariable no es fácil de definir. En general, se refiere a aquellosmétodos estadísticos que analizan simultáneamente diversas variables en cadaindividuo u objeto sobre el cual se investiga. Cualquier análisis simultáneo demás de dos variables, puede considerarse análisis multivariable. De hecho,muchas técnicas multivariable son la simple extensión de análisis univariados obivariados. Así, por ejemplo, la regresión simple (con una sola variable indepen-diente), es una técnica multivariable cuando se extiende a varios regresores.Otras técnicas, sin embargo, como el análisis factorial o el análisisdiscriminante, están específicamente diseñadas para trabajar únicamente conestructuras multivariables.

2. Conceptos básicos

Escalas de medida(Manzano, 1995; Uriel, 1995)

El análisis de datos, implica la identificación y medida de la variación en unconjunto de variables, bien entre ellas mismas o entre una variable dependientey una o más independientes. La palabra clave es medida, puesto que el investi-gador no puede identificar la variación hasta que ésta sea medida. En cualquiertécnica de análisis multivariable, juega un papel muy importante el tipo deescala en que las variables estén medidas de hecho, como veremos, un criteriodeterminante para decidir qué técnica multivariable es la adecuada para resol-ver un problema determinado, será el tipo de escala en que estén medidas lasvariables dependientes e independientes. Podemos distinguir entre:

� Escalas nominales. En este caso, los números se comportan como etiquetas,con tanta validez como una letra del alfabeto. Su misión es distinguir entrediferentes valores; por ejemplo: sexo (hombre, mujer). En el proceso decodificación se puede asignar 1 al valor hombre y 2 al valor mujer. Esto nosignifica que la mujer sea mayor que el hombre (2>1) ni el doble (2=1x2),ni que existan personas de sexo intermedio (1,5).

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos2

Page 3: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

� Escalas ordinales. No sólo consigue distinguir entre valores, como laanterior, sino que además establece un orden entre ellos. El dato represen-tado por un 3 es superior al representado por un 2; por ejemplo tamañorelativo (enorme, grande, normal, pequeño, diminuto). Si codificamos estosvalores de la siguiente forma:

1 à diminuto; 2 à pequeño; 3 à normal; 4 à grande; 5 à enorme

entonces es cierta la relación de orden, puesto que 1<2<3<4<5, pero no escierto que entre grande y enorme exista la misma diferencia que entrepequeño y normal (5-4 = 1 = 3-2), como tampoco que pequeño sea el dobleque diminuto (2=1x2).

� Escalas de intervalo. Además de distinción y orden, la distancia o diferenciaentre dos valores consecutivos cualesquiera es siempre la misma. En estecaso, entre el valor representado por un 3 y el representado por un 2, existela misma diferencia que entre 5 y 4. Por ejemplo, la temperatura medida engrados centígrados. En este caso, no sólo 100º es diferente a 80º, sino que esmayor (100º>80º); inclusive la diferencia de temperatura entre ambos es lamisma que entre 80º y 60º (100-80 = 80-60). Pero no existe un cero absolu-to, ya que la temperatura de 0º no significa ausencia de temperatura. Deesta forma 100º no es el doble de 50º. Veámoslo con un ejemplo. Creemosuna nueva escala de temperatura que llamaremos en “arcias”, donde 1 arcia= 1 grado centígrado. Pero esta escala no tiene el cero cuando el agua secongela (0ºC) sino cuando entre en ebullición (100ºC). Como se observa enla figura 1, si decimos que 40 arcias es el doble de 20 arcias, es tanto comoafirmar que 140º es el doble de 120º.

Figura 1. Ejemplo de escalas de intervalo

0 10020 12040 14060 16080 180

-20 80

Arcias Centígrados

� Escalas de razón. Además de la distinción, orden e intervalo, se añade unorigen absoluto, de forma que no sólo cabe hallar diferencias (ya se podía

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos3

Page 4: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

hacer en la escala de intervalo), sino también múltiplos exactos. En estecaso el valor representado por 4 tiene doble cantidad medida que el repre-sentado por 2. Éste es el caso, por ejemplo, de la edad expresada en años.Así, 40 y 20 años son edades distintas, 40 años es una edad superior a 20años, entre 20 y 40 años hay la misma diferencia de edad que entre 30 y 50y, además, el 0 tiene sentido. Una persona con 0 años realmente no tieneedad, todavía no ha nacido. De esta forma, 40 es exactamente el doble de20.

En estos apuntes, en diferentes ocasiones, utilizaremos las expresiones escalasmétricas, escalas no métricas. No es una clasificación alternativa, sino que laliteratura agrupa a las escalas nominales y ordinales bajo el nombre de nométricas y a las de intervalo y razón bajo el de escalas métricas.

La inferencia estadística(Manzano, 1995)

Todas las técnicas multivariables, excepto el análisis cluster y el escalamientomultidimensional, están basados en inferir los valores reales que toma unavariable en una población, a partir de los valores que toma esa variable en unamuestra aleatoria de la misma. Por ello es importante que nos acostumbremosa manejar con propiedad algunos términos que aparecerán con frecuencia a lolargo de nuestra relación con las técnicas multivariables.

Cuando se juzga a una persona, puede declarársele inocente o culpable.Independientemente del resultado del juicio, la persona será inocente o culpa-ble de verdad. De esta forma, tenemos las cuatro posibilidades que recoge elcuadro 1.

Cuadro 1. Tipos de error en la inferencia estadística

AciertoError tipo ICulpableError tipo IIAciertoInocente

CulpableInocenteRealidadResultado del juicio

Si hemos inferido que el individuo era inocente y en la realidad lo es, o lohemos declarado culpable siéndolo, estamos ante situaciones de acierto. Sinembargo las otras dos situaciones son errores. Nos planteamos entonces qué esmás grave, si declarar culpable a un inocente (error tipo I) o declarar inocentea un culpable (error tipo II). En las sociedades democráticas, se toma comomenos grave la última situación, por lo que se parte del supuesto de inocencia.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos4

Page 5: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

En la inferencia estadística el razonamiento es análogo. Imaginemos queestamos estudiando si existe relación entre el sexo y el absentismo laboral. Sipartiéramos de que hay que evitar a toda costa el error tipo II, daríamos porsupuesto que sí que existe relación y veríamos si hay evidencia de lo contrario.Pueden no encontrarse observaciones contundentes que rechacen de maneraclara el supuesto de relación. De esta forma se concluiría que sí existe relacióny, a partir de ese momento se llevarían a cabo un abanico de decisionesbasadas en ese conocimiento “científico”. Una posible consecuencia podría serla segregación en los puestos de trabajo con motivo del sexo del aspirante. Porese motivo, en ciencia, partimos de que no existe relación y la labor del cientí-fico consiste en encontrar las evidencias de que sí existe esa relación.

Si hemos partido de que no existe relación, podemos llamar a ese enuncia-do hipótesis nula. El análisis estadístico va a consistir básicamente en buscarun criterio que me lleve a rechazar la hipótesis nula sólo cuando la probabili-dad de que me equivoque sea muy pequeña. El término pequeño, sin embargoes algo relativo. En Ciencias Sociales se suele considerar que esa probabilidades pequeña cuando sea inferior al 1% en unos casos o al 5% en otros. A estosvalores se los conoce como niveles de significación y se les denota con la letragriega α. Cuando a esos niveles de significación podamos rechazar la hipótesisnula, diremos que la relación entre las variables analizadas es estadísticamentesignificativas.

Hoy en día, con los programas informáticos, el contraste de hipótesis puedecontemplarse desde otra perspectiva mucho más racional. Así, los programasestadísticos suelen ofrecer el llamado nivel de significación crítico α’ que sueleaparecer bajo la etiqueta de p-value o significatividad. Determinado α’, serechaza toda hipótesis nula a un nivel de significación α siempre que α’< α. Elnivel de significación crítico es, pues, un indicador del nivel de admisibilidad dela hipótesis nula: cuanto mayor sea el nivel de significación crítico, mayorconfianza podemos depositar en la hipótesis nula. La utilización del nivel designificación crítico, implica dar la vuelta al problema del contraste dehipótesis. Así, en lugar de fijar a priori un nivel de significación, se calcula unvalor de α’ que permite determinar a posteriori para qué niveles de significa-ción se puede rechazar la hipótesis nula.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos5

Page 6: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

3 Tipos de técnicas multivariables(Hair, Anderson, Tatham y Black, 1995)

Una de las decisiones más importantes, sino la más relevante, a la hora dellevar a cabo un análisis multivariado de los datos, pasa por determinar cuál esla técnica más adecuada entre las muchas posibles.Para llevar a cabo esta selección, cabe responder a tres preguntas básicas:

1. ¿Estamos tratando de establecer una relación de dependencia -independencia entre unas variables y otras.

2. Si lo estamos haciendo, ¿cuántas variables independientes se estánconsiderando en el análisis?

3. ¿Qué tipo de escala se está utilizando para medir a las variables?

De la respuesta que se de a estas tres preguntas, dependerá que una u otratécnica multivariable sea la más adecuada para nuestra investigación. Veámos-las, por tanto, con más detalle.

Siguiendo la figura 2 se observa que e primer criterio para seleccionar un tipo uotro de técnica, pasa por determinar si nuestro propósito es establecer o norelaciones de dependencia e independencia entre las distintas variables. De serásí, un grupo de ellas, las dependientes serán explicadas por otras, las indepen-dientes, como ocurre por ejemplo con la regresión lineal. La alternativa a estadecisión está en las técnicas de interdependencia, donde no existe un grupo devariables que sean definidas como dependientes o independientes, sino que latécnica que se aplique analizará todas las variables simultáneamente. Unejemplo de este tipo de técnicas es el análisis factorial.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos6

Page 7: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

Figura 2a. Clasificación de las técnicas multivariables

Tipo de relación que se analiza

DEPENDENCIA:Predicción de

variables dependientes por otras

independientes

Cuántas relaciones se miden

Múltiples relaciones entre varias

dependientes y las independientes

Una relación entre varias dependientes ylas independientes

Una relación entre una dependiente y las independientes

Sistemas de Ecuaciones

Estructurales

Escala de medida de las dependientes

Métrica No Métrica

Correlación canónica con v.

ficticias

Escala de medida de las independientes

Métrica No Métrica

Correlación canónica

Análisis multivariable de

varianza

Escala de medida de las dependientes

Métrica

Regresión Múltiple Análisis Conjunto

A

B

C

Fuente: Hair, Anderson, Tatham y Black (1995)

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos7

Page 8: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

Figura 2b. Clasificación de las técnicas multivariables

INTERDEPENDENCIA:Identificar la estructura de interrelaciones

La estructura de relaciones en entre:

Variables Objetos

Análisis factorial

Métrica No Métrica

Análisis de correspondencias

No Métrica

Análisis discriminante

Regresión múltiplede variable dependiente limitada

A

Casos/Respuestas

Análisis clusterCómo se miden los

atributos

Escalamiento multidimensional

B

Punto de decisión

Decisión tomada

Técnica seleccionada

LEYENDA

C

Fuente: Hair, Anderson, Tatham y Black (1995)

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos8

Page 9: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

Los distintos métodos que conforman el análisis de dependencia, pueden distin-guirse atendiendo a dos variables (1) el número de variables dependientes y (2)el tipo de escalas de medida utilizada con las variables. El cuadro 2 facilita allector la elección de la técnica de dependencia más adecuada.

Cuadro 2 Los métodos multivariables de dependencia

Correlación canónicaY1+Y2+Y3+...+Yn = X1+X2+X3+...+Xm

(métricas, no métricas) (métricas, no métricas)

Análisis multivariable de la varianzaY1+Y2+Y3+...+Yn = X1+X2+X3+...+Xm

(métricas) (no métricas)

Análisis de varianzaY1 =X1+X2+X3+...+Xm

(métrica) (no métricas)

Análisis de regresión múltipleY1 =X1+X2+X3+...+Xm(métrica) (métricas, no métricas)

Análisis conjuntoY1 =X1+X2+X3+...+Xm

(métrica, no métrica) (no métricas)

Sistemas de ecuaciones estructuralesY1 =X11+X12+X13+...+X1m

Y2 =X21+X22+X23+...+X2mYn =Xn1+Xn2+Xn3+...+Xnm

(métrica, no métrica) (no métricas)

Fuente: Hair, Anderson, Tatham y Black (1995)

En las técnicas de interdependencia que aparecen en la figura 2b, se observaque las variables no se clasifican en dependientes o independientes, dado quetodas ellas son analizadas simultáneamente para encontrar si existe una estruc-tura subyacente bajo el conjunto de las mismas. Cuando la relación que sebusca es entre las variables, el análisis factorial es la técnica más adecuada, si

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos9

Page 10: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

son los casos los que se agrupan para encontrar la relación subyacente serecurre al análisis conjunto. Finalmente si el interés está en la estructura de losobjetos, debería aplicarse el escalamiento multidimensional.

En general, el análisis factorial y el cluster se consideran que son técnicas deinterdependencia métrica, aunque los datos no métricos pueden ser transforma-dos en variables ficticias y ser utilizados. También existen las aproximacionesmétricas y no métricas al análisis de escalamiento multidimensional. En el casode que se recurra a variables no métricas, el análisis de correspondencias puedeser una alternativa al escalamiento multidimensional.

4 La construcción de un modelo multivariable(Hair, Anderson, Tatham y Black, 1995)

Las técnicas multivariables son, en general, herramientas muy poderosas quepermiten al investigador extraer muchísima información de los datos disponi-bles. Estas técnicas son, en sí mismas, relativamente complejas y requieren parasu utilización un conocimiento profundo de sus fundamentos y condiciones deaplicabilidad. El desarrollo de programas informáticos de manejo sencillo, comoel SPSS, están provocando su uso indiscriminado y, muchas veces, no se utili-zan adecuadamente.

El objeto de este epígrafe es proporcional al lector una guía que le permita laaplicación correcta de las técnicas multivariables y le facilite el llegar a conclu-siones razonables.

� Paso 1. Defina el problema que está investigado, sus objetivosy decida la técnica multivariable que piensa utilizar.

No se puede pretender utilizar una técnica multivariable sin una adecuadaaproximación teórica al problema que se está abordando. El investigadordebe analizar conceptualmente su objeto de investigación, definir losconceptos e identificar las relaciones fundamentales que se pretenden inves-tigar. Primero hay que centrarse en el tema que se investiga, y no en lastécnicas que se van a emplear, lo que evitará que dejemos fuera del análisisconceptos importantes. Una vez, y sólo una vez realizado esto, el lectorpuede seguir los esquemas del epígrafe anterior para seleccionar la técnicamás adecuada.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos10

Page 11: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

� Paso 2. Desarrollo del plan de análisis.

Una vez establecido el modelo conceptual, el énfasis se centra en aplicaradecuadamente la técnica elegida, lo que hace referencia fundamentalmentea los tamaños muestrales mínimos que permiten su aplicación, y a asegu-rarse de que el procedimiento de recogida de datos (v.g. los cuestionarios)miden las variables con las escalas oportunas (métricas vs. no métricas).

� Paso 3. Tenga cuidado con las condiciones de aplicabilidad dela técnica elegida.

Una vez recogidos los datos, es necesario conocer cuáles son las hipótesis enque se basan las técnicas multivariables y, que si no se cumplen, hace quecarezca de sentido aplicarlas. En las técnicas de dependencia, por ejemplo,suele ser necesario que los tados cumplan las hipótesis de normalidad, linea-lidad, independencia del término de error y homoscedasticidad.

� Paso 4. Estime el modelo multivariable y establezca el ajusteglobal del mismo.

Aplique la técnica multivariable elegida. Pero fíjese si el nivel de bondad delajuste es adecuado. Si no es así, deberá reespecificarse el modelo, incorpo-rando o eliminando variables.

� Paso 5. Interprete los resultados.

Una vez logre un nivel de ajuste aceptable, interprete el modelo. Fíjese enlos efectos de las variables individuales examinando sus coeficientes, cargasfactoriales, utilidades... La interpretación puede conducirle a nuevas reespe-cificaciones del modelo.

� Paso 6. Valide el modelo.

Antes de aceptar los resultados a los que haya llegado, debe aplicar unaserie de técnicas de diagnóstico que asegure que estos resultados son genera-lizables al conjunto de la población.

En la explicación de las técnicas multivariables que haremos en temas posterio-res, seguiremos cada uno de estos pasos, lo que permitirá al lector comprendermejor la utilidad de aplicar este procedimiento.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos11

Page 12: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

1.5 Comprobación de las condiciones de aplicabilidad del análisismultivariable.(Hair, Anderson, Tatham y Black, 1995)

Como se ha indicado en el paso 3 del procedimiento antes expuesto, no bastacon que las variables estén medidas en la escala adecuada para que podamosutilizar o no una técnica multivariable determinada. Es necesario asegurarse deque los datos cumplen las hipótesis que se les exige a las técnicas multivariablespara poder ser aplicadas. Si no es así, las distorsiones y sesgos introducidos nonos permitirán llegar a conclusiones adecuadas.

Este epígrafe lo estructuraremos en dos fases. En la primera de ellas, describire-mos las técnicas de que disponemos para comprobar las principales hipótesisque deben verificar los datos. A continuación las aplicaremos a la base de datosque nos va a servir de referencia para explicar todas las técnicas multivariablesde este curso, lo que facilitará su comprensión. Para ello se hace necesariodetallar el contenido de la mencionada base de datos.

Descripción de la base de datos.

HATCO es una empresa fabricante de maquinaria industrial que ha pasadouna encuesta a los jefes de compras de las empresas que adquieren sus produc-tos, los cuales han valorado su satisfacción con HATCO respecto a siete atribu-tos determinantes de su servicio y, además, han ofrecido información acerca desus empresas, como su tamaño, tipo de empresa, porcentaje de sus compras demaquinaria que efectúan a HATCO y una valoración global de sus satisfaccióncon esta empresa.

De forma más detallada, las siete variables que miden la percepción que tienende HATCO sus clientes, son las siguientes:

1. X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido unavez que éste ha sido confirmado.

2. X2: Nivel de precios. Valoración sobre el precio que se carga respectoa otros suministradores.

3. X3: Flexibilidad de precios. Voluntad de los vendedores de HATCOde negociar el precio en todo tipo de compras.

4. X4: Imagen del fabricante. Imagen global de HATCO.5. X5: Servicio. Valoración respecto a si la calidad actual del servicio es

suficiente para mantener la relación entre el comprador y HATCO.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos12

Page 13: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

6. X6: Imagen de los vendedores. Imagen global de la fuerza de ventasde HATCO.

7. X7: Calidad del producto. Nivel de calidad percibida de los productosde HATCO.

Todas estas variables se han medido mediante una escala gráfica constituidapor una línea de diez centímetros donde en los extremos aparecen las palabras“muy mala” y “excelente”:

ExcelenteMuy mala

Los entrevistados indican su percepción marcando con una raya en cualquierlugar de la línea, que luego es medida y codificada entre cero y diez.

Por su parte, las características de las empresas que compran a HATCO, sehan medido mediante escalas métricas y no métricas y son las siguientes:

1. X8: Tamaño de la empresa. Tamaño relativo de la empresa respectoa otras del mercado. Se han creado dos categorías que son 1 =grande y 0 = pequeña.

2. X9: Nivel de utilización de los servicios de HATCO. Es el porcentajedel total de las compras de la empresa que se realizan a HATCO. Semide en una escala de cien puntos, según sea el porcentaje.

3. X10: Nivel de satisfacción con HATCO. Mide cuán satisfecha está laempresa con HATCO en la misma escala que las variables X1 a X7.

4. X11: Procedimiento de compra. Establece si la empresa evalúa cadacompra por separado (codificado como 1) o, por el contrario, tieneestablecidas unas especificaciones de producto que se aplican a todaslas compras (codificado como 0).

5. X12: Estructura de decisión. Determina si dentro de la empresa elproceso de toma de decisiones de compra está centralizado (codifi-cado como 1) o descentralizado (codificado como 0).

6. X13: Tipo de industria. Responde a una tipología interna deHATCO que las clasifica como industria tipo A (codificado como 1) u“otros tipos” (codificado como 0).

7. X14: Tipo de situación de compra. Hace referencia a si es la primeracompra a HATCO (codificado como 1), si es una recompra pero de

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos13

Page 14: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

otros productos (código 2) o es una recompra de los mismos produc-tos que en la última ocasión (código 3).

Cuadro 3 Variables que contiene la base de datos.

No métricaDepend o IndependSituación compraX14No métricaDepend o IndependTipo industriaX13No métricaDepend o IndependEstructura decisiónX12No métricaDepend o IndependProcedimiento compraX11MétricaDependienteNivel satisfacciónX10MétricaDependienteNivel uso servicioX9No métricaDepend o IndependTamaño empresaX8MétricaIndependienteCalidad productoX7MétricaIndependienteImagen vendedoresX6MétricaIndependienteCalidad servicioX5MétricaIndependienteImagen fabricanteX4MétricaIndependienteFlexibilidad preciosX3MétricaIndependienteNivel de preciosX2MétricaIndependienteRapidez de servicioX1

EscalaDependiente vs.IndependienteDescripciónVaria-

ble

Establecidas las características de la base de datos, pasaremos a detallar losmecanismos de comprobación de las hipótesis que garantizan la aplicabilidaddel análisis multivariante.

Normalidad

Es una de las hipótesis más importantes. Hace referencia al perfil que debemostrar la distribución de frecuencias de cada variable métricaindividualmente. Si este perfil se desvía de la distribución normal, cualquierprueba estadística que llevemos a cabo no sería válida. La mayoría de las técni-cas multivariables exigen, además, que las variables sean multivariablementenormales, esto es, no sólo que individualmente tengan una distribución normal,sino que las combinaciones de las mismas también posean esta forma.

Si las variables son multivariablemente normales, lo serán individualmente,pero lo contrario no es cierto. Comprobar la normalidad individual es relativa-mente sencillo, y a ello nos dedicaremos en este tema. Las pruebas de normali-

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos14

Page 15: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

dad multivariables son más complejas y suelen ser específicas de las técnicasdonde esta hipótesis es más necesaria. Serán analizadas al desarrollar esastécnicas en concreto.

Los procedimientos para detectar la violación de las hipótesis de normalidadpueden agruparse en dos tipos: gráficos y estadísticos. Entre los primeros elmás útil es el llamado gráfico q-q o gráfico de probabilidad normal, donde serepresentan los valores observados de los residuos y los esperados en el caso deque siguieran una distribución normal. La distribución normal aparece repre-sentada por una línea recta. Si las variables no están normalmente distribuidas,se alejarán de la recta como se ejemplifica en el gráfico 3.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos15

Page 16: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

Gráfico 3 Gráficos q-q y sus correspondientes distribuciones univariadas

Gráficos q-qDistribucionesunivariadas

Variable 1

Variable 2

Variable 3

Variable 4

En este gráfico, la variable 1 sigue una distribución normal, de manera que sugráfico q-q es una recta. La variable 2 muestra un elevado apuntamiento en sudistribución, que se traduce en un gráfico q-q en forma de s. Las variables 3 y 4están sesgadas respectivamente a la derecha e izquierda, lo que provoca que susgráficos q-q queden por debajo de la recta en el primer caso y por encima en elsegundo.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos16

Page 17: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

El segundo tipo de pruebas para determinar si las variables siguen o no distri-buciones normales, son las llamadas pruebas estadísticas. Cada paquete infor-mático proporciona las suyas, en el caso de SPSS que es el que vamos autilizar, la prueba es la llamada de Kolmogorov-Smirnov-Lilliefors (KSL).

Veamos la aplicación de ambas pruebas a nuestra base de datos. Como hemosindicado, sólo procede evaluar la normalidad de las variables métricas, por ello,lo haremos sobre X1 a X7 y X9 y X10. La sintaxis a aplicar con SPSS es lasiguiente:

EXAMINE

VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10

/PLOT BOXPLOT NPPLOT

/COMPARE GROUP

/STATISTICS DESCRIPTIVES

/CINTERVAL 95

/MISSING LISTWISE

/NOTOTAL.

que nos proporciona la siguiente información más relevante. Como gráficos q-qmostramos dos ejemplos correspondientes a las variables X1 (rapidez del servi-cio) y X6 (imagen de la fuerza de ventas)

Gráfico 4. Los gráficos q-q en SPSSGráfico Q-Q normal de Rapidez de servicio

Valor observado

76543210-1

No

rma

l e

sp

era

do

3

2

1

0

-1

-2

-3

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos17

Page 18: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

Gráfico Q-Q normal de Imagen de los vendedores

Valor observado

543210

Norm

al e

sper

ado

3

2

1

0

-1

-2

-3

Por su parte, la salida del test de Kolmogorov-Smirnov-Lilliefors es la siguiente:

Cuadro 4 El test KSL en SPSS

Pruebas de normalidad

,063 100 ,200*

,095 100 ,028

,095 100 ,027

,107 100 ,007

,085 100 ,069

,122 100 ,001

,091 100 ,041

,079 100 ,131

,078 100 ,142

Rapidez de servicio

nivel de precios

flexibilidad de precios

Imagen del fabricante

Servicio

Imagen de los

vendedores

Calidad del producto

Nivel de uso

nivel de satisfacción

Estadístico gl Sig.

Kolmogorov-Smirnova

Este es un límite inferior de la significación verdadera.*.

Corrección de la significación de Lillieforsa.

El test KSL plantea la hipótesis nula de que la variable se distribuye según unanormal, por lo que hay que comprobar si para alguna variable existe un valor pinferior al nivel de significación que, como dijimos, podía ser 0,01 o 0,05. Si esasí, podremos rechazar para esa variable la hipótesis nula y, consecuentemente,afirmar que esa variable no se distribuye según una normal. Puede observarseen el cuadro 4 que las variables X4 “imagen del fabricante” (p=0,007) y X6“imagen de los vendedores” (p=0,001) tienen valores de p inferiores a 0,01, porlo que podremos concluir que no siguen una distribución normal. A la mismaconclusión podríamos haber llegado analizando el gráfico 1.4. En él secomprueba como en la gráfica correspondiente a la variable X1 “rapidez del

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos18

Page 19: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

servicio” los valores se agrupan en torno a la recta, mientras que en la variableX6 “imagen de los vendedores”, el perfil es más parecido al que mostrábamosen la variable 2 de gráfico 3, que correspondía a una distribución no normal.

Si hubiésemos elegido 0.05 como nivel de significación, las variables X2 “nivelde precios” y X3 “flexibilidad de precios” tampoco tendrían un comporta-miento normal.

¿Qué hacer con variables que no muestran un comportamiento normal? Lohabitual es recurrir a transformaciones del tipo:

0( ) ln

px pT x x

≠=

es decir, a tomar logaritmos neperianos de la variable o tomar diversas raíces (p= ½ serían cuadradas) o elevar al cuadrado (p = 2), al cubo (p = 3), etc. Paradeterminar la más adecuada, basta con transformar y volver a aplicar el test deKSL descrito.

Homoscedasticidad

La segunda asunción que se hace sobre los datos, para poder aplicar las técni-cas multivariables, hace referencia a la igualdad de varianza entre las variablesindependientes, ya sean éstas métricas o no métricas, respecto a la variable ovariables dependientes. SPSS proporciona un test específico para analizar estahipótesis, el test de Levene, cuya hipótesis nula es la homoscedasticidad, esdecir, que las varianzas son iguales. En nuestro ejemplo, habría que realizaresta prueba de homoscedasticidad para el conjunto de variables independientes(X1, X2, X3, X4, X5, X6, X7, X9 y X10), con respecto a las posibles variablesdependientes que, como se señaló en el cuadro 3, pueden ser las variables (X8,X11, X12, X13 y X14). La sintaxis par obtener este test en SPSS, sería lasiguiente:

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos19

Page 20: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

EXAMINE

VARIABLES= x1 x2 x3 x4 x5 x6 x9 x10 x7 BY x8

x11 x12 x13 x14

/PLOT SPREADLEVEL

/STATISTICS DESCRIPTIVES

/CINTERVAL 95

/MISSING LISTWISE

/NOTOTAL.

A modo de ejemplo, ofrecemos en el cuadro 5 la salida correspondiente a anali-zar la homoscedaticidad de las variables independientes respecto a la variableX8 o “tamaño de la empresa”.

Puede comprobarse que, tomando como nivel de significación 0,05, los valoresp correspondientes a X4 “imagen del fabricante” (p=0,012), X5 “servicio”(p=0,006), X6 “imagen de los vendedores” (p=0.024) y X7 “Calidad delproducto” (p=0,004) permiten rechazar la hipótesis nula de homoscedasticidady, por ello, será necesario realizar transformaciones análogas a las que llevába-mos a cabo para conseguir la normalidad, con el fin de poder aplicar muchasde las técnicas multivariables que analizaremos.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos20

Page 21: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

Cuadro 5. Salida de SPSS para el análisis de homoscedasticidadPrueba de homogeneidad de la varianza

,934 1 98 ,336

,993 1 98 ,321

,993 1 92,885 ,322

,934 1 98 ,336

1,582 1 98 ,211

1,668 1 98 ,200

1,668 1 97,938 ,200

1,685 1 98 ,197

1,194 1 98 ,277

,749 1 98 ,389

,749 1 85,351 ,389

,817 1 98 ,368

6,549 1 98 ,012

3,960 1 98 ,049

3,960 1 79,356 ,050

6,353 1 98 ,013

7,819 1 98 ,006

6,741 1 98 ,011

6,741 1 83,075 ,011

7,932 1 98 ,006

5,241 1 98 ,024

4,604 1 98 ,034

4,604 1 93,255 ,034

4,977 1 98 ,028

1,377 1 98 ,243

1,305 1 98 ,256

1,305 1 97,893 ,256

1,325 1 98 ,252

,323 1 98 ,571

,194 1 98 ,660

,194 1 97,681 ,660

,303 1 98 ,584

8,748 1 98 ,004

9,178 1 98 ,003

9,178 1 97,298 ,003

8,811 1 98 ,004

Basándose en la media

Basándose en la

mediana.

Basándose en la

mediana y con gl

corregido

Basándose en la mediarecortada

Basándose en la media

Basándose en la

mediana.

Basándose en la

mediana y con glcorregido

Basándose en la media

recortada

Basándose en la media

Basándose en la

mediana.

Basándose en la

mediana y con glcorregido

Basándose en la media

recortada

Basándose en la media

Basándose en la

mediana.

Basándose en la

mediana y con glcorregido

Basándose en la media

recortada

Basándose en la media

Basándose en la

mediana.

Basándose en lamediana y con gl

corregido

Basándose en la media

recortada

Basándose en la media

Basándose en la

mediana.

Basándose en lamediana y con gl

corregido

Basándose en la media

recortada

Basándose en la media

Basándose en la

mediana.

Basándose en lamediana y con gl

corregido

Basándose en la media

recortada

Basándose en la media

Basándose en la

mediana.

Basándose en lamediana y con gl

corregido

Basándose en la media

recortada

Basándose en la media

Basándose en lamediana.

Basándose en la

mediana y con gl

corregido

Basándose en la media

recortada

Rapidez de servicio

nivel de precios

flexibilidad de precios

Imagen del fabricante

Servicio

Imagen de los

vendedores

Nivel de uso

nivel de satisfacción

Calidad del producto

Estadístico

de Levene gl1 gl2 Sig.

Linealidad

La última hipótesis que es necesario analizar es la linealidad, sobre todo enaquellas técnicas multivariables basadas en medidas de asociación como lascorrelaciones, incluyendo la regresión múltiple, la logística, el análisis factorial,el análisis conjunto y los sistemas de ecuaciones estructurales. Dado que lacorrelación representa asociaciones lineales entre variables, la ausencia de linea-lidad provoca que el coeficiente de correlación no mida adecuadamente larelación entre los pares de variables.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos21

Page 22: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

Disponemos, de nuevo, de dos procedimientos para analizar este supuesto. Elprimero consiste en recurrir a representaciones gráficas bivariables para visuali-zar si la relación que podemos aventurar es o no lineal. Por otro lado, los coefi-cientes de correlación suelen ofrecer un indicador del grado de significación delmismo. La hipótesis nula es que el coeficiente de correlación no es significativoy el valor de p nos permitirá aceptarla o rechazarla.

La siguiente sintaxis de SPSS nos permite llevar a cabo ambos procedimientos:

GRAPH

/SCATTERPLOT(MATRIX)=x1 x4 x6

/MISSING=LISTWISE .

CORRELATIONS

/VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10

/PRINT=TWOTAIL NOSIG

/MISSING=PAIRWISE.

donde sólo se pide, a modo de ejemplo, que se realicen los gráficos de dispersiónentre las variables X1 “rapidez del servicio”, X4 “imagen del fabricante” y X6“imagen de los vendedores”. A simple vista se observa que no parece que existauna relación lineal entre la rapidez del servicio y la imagen de los fabricantes,pero sí y bastante marcada, entre la imagen de los fabricantes y la de losvendedores.

Gráfico 5. Gráficos de dispersión entre variables

Rapidez de servicio

Imagen del fabricant

Imagen de los vended

El cuadro 6 nos confirma esta apreciación visual. Así, se comprueba que elcoeficiente de correlación de Pearson entre la variable “rapidez del servicio” yla “imagen de la empresa”, que toma un valor de 0,05 no aparece marcado con*, que diría que es significativo para un nivel del 5% ni con ** que indicaríaque lo es al 1%. Esta misma información nos la proporcionan las p, que toma

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos22

Page 23: El análisis multivariable: conceptos básicos · PDF fileafirmar que 140º es el doble de 120º. ... griega α. Cuando a esos ... dientes, como ocurre por ejemplo con la regresión

un valor de 0.618 que al ser claramente superior a 0.01 y 0.05 no permitenrechazar la hipótesis nula de no significatividad del coeficiente de correlación.

Sin embargo, el coeficiente de correlación de Pearson entre la imagen de laempresa y la imagen de los vendedores, que es de 0,788 aparece marcado como** y su p es de 0,000 que al ser inferior a 0,01 y 0,05 confirma de nuevo laapreciación visual que hicimos al analizar el gráfico 5.

Cuadro 6. Coeficientes de correlación de PearsonCorrelaciones

-,349**

,000

100

,509** -,487 **

,000 ,000

100 100

,050 ,272** -,116

,618 ,006 ,250

100 100 100

,612** ,513 ** ,067 ,299**

,000 ,000 ,510 ,003

100 100 100 100

,077 ,185 -,035 ,788** ,240*

,444 ,065 ,731 ,000 ,016

100 100 100 100 100

-,483** ,470 ** -,448** ,200* -,055 ,177

,000 ,000 ,000 ,046 ,586 ,079

100 100 100 100 100 100

,676** ,082 ,559** ,224* ,701** ,255* -,192

,000 ,418 ,000 ,025 ,000 ,010 ,055

100 100 100 100 100 100 100

,651** ,028 ,525** ,476** ,631** ,341** -,283 ** ,711**

,000 ,779 ,000 ,000 ,000 ,001 ,004 ,000

100 100 100 100 100 100 100 100

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Rapidez de servicio

nivel de precios

flexibilidad de precios

Imagen del fabricante

Servicio

Imagen de los

vendedores

Calidad del producto

Nivel de uso

nivel de satisfacción

Rapidez de

servicio

nivel de

precios

flexibilidad

de precios

Imagen del

fabricante Servicio

Imagen de

los

vendedores

Calidad

del

producto

Nivel de

uso

nivel de

satisfacción

La correlación es significativa al nivel 0,01 (bilateral).**.

La correlación es significante al nivel 0,05 (bilateral).*.

Referencias bibliográficas

HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): MultivariateData Analysis. 4ª edición. Englewood Cliffs: Prentice Hall.

MANZANO,V. (1995): Inferencia estadística: aplicaciones con SPSS/PC+.Madrid: RA-MA.

URIEL, E. (1995): Análisis de datos. Series temporales y análisis multivariante.Madrid: Editorial AC.

Joaquín Aldás ManzanoAnálisis multivariable: conceptos básicos23