Presentacion coeficientes de correlacion de Pearson y Spearman

download Presentacion coeficientes de correlacion de Pearson y Spearman

of 15

  • date post

    13-Aug-2015
  • Category

    Education

  • view

    20
  • download

    0

Embed Size (px)

Transcript of Presentacion coeficientes de correlacion de Pearson y Spearman

  1. 1. Repblica Bolivariana de Venezuela Ministerio del Poder Popular para la Educacin Superior Instituto Universitario Politcnico Santiago Mario Seccin: YV (SAIA) Asignatura: Estadstica I Semestre: 2015-I Profesor: Pedro Beltrn Alumna: TSU Bermdez Aida C.I.: 20.278.843 Barcelona, Julio de 2015
  2. 2. En estadstica, el coeficiente de correlacin de Spearman, (rho) es una medida de la correlacin (la asociacin o interdependencia) entre dos variables aleatorias continuas. Para calcular , los datos son ordenados y reemplazados por su respectivo orden. El estadstico viene dado por la expresin: donde D es la diferencia entre los correspondientes estadsticos de orden de x - y. N es el nmero de parejas. Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de Student La interpretacin de coeficiente de Spearman es igual que la del coeficiente de correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero no independencia. La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos ordenaciones de una distribucin normal bivariante.
  3. 3. La aproximacin moderna al problema de averiguar si un valor observado de es significativamente diferente de cero (siempre tendremos -1 1) es calcular la probabilidad de que sea mayor o igual que el esperado, dada la hiptesis nula, utilizando un test de permutacin. Esta aproximacin es casi siempre superior a los mtodos tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informtica no sea suficiente para generar permutaciones (poco probable con la informtica moderna), o a no ser que sea difcil crear un algoritmo para crear permutaciones que sean lgicas bajo la hiptesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad). Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrn un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorar de intento en intento. Un test de la significacin de la tendencia entre las condiciones en esta situacin fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas.
  4. 4. El coeficiente rs es un caso particular de rxy, puesto que se calcula a partir de ste, por aplicacin del coeficiente de Pearson a valores ordinales considerados como puntuaciones. El coeficiente de correlacin de Spearman es exactamente el mismo que el coeficiente de correlacin de Pearson, calculado sobre el rango de observaciones. El coeficiente de correlacin de Spearman se encuentra siempre comprendido entre los valores -1 y 1. Es decir, - 1 < rs < 1. Cuando todos los sujetos se sitan en el mismo puesto para la variable X y para la variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al primer sujeto en X le corresponde el ltimo lugar en Y, al segundo en X le corresponde el penltimo en Y, etc., entonces el valor de rs es -1. La correlacin estimada entre X e Y se halla calculando el coeficiente de correlacin de Pearson para el conjunto de rangos apareados. La correlacin de Spearman puede ser calculada con la frmula de Pearson, si antes hemos transformado las puntuaciones en rangos.
  5. 5. Para aplicar el coeficiente de correlacin de Spearman se requiere que las variables estn medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas. Al ser Spearman una tcnica no paramtrica es libre de distribucin probabilstica (2, 5, 9). Los supuestos son menos estrictos. Es robusto a la presencia de outliers (es decir permite ciertos desvos del patrn normal). La manifestacin de una relacin causa-efecto es posible slo a travs de la comprensin de la relacin natural que existe entre las variable y no debe manifestarse slo por la existencia de una fuerte correlacin (1, 5) Para aplicar el coeficiente de correlacin de Spearman se requiere que las variables estn medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas.
  6. 6. En estadstica, el coeficiente de correlacin de Pearson es una medida de la relacin lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlacin de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlacin de Pearson como un ndice que puede utilizarse para medir el grado de relacin de dos variables siempre y cuando ambas sean cuantitativas. En el caso de que se est estudiando dos variables aleatorias x e y sobre una poblacin; el coeficiente de correlacin de Pearson se simboliza con la letra , siendo la expresin que nos permite calcularlo: Donde: es la covarianza de es la desviacin tpica de la variable es la desviacin tpica de la variable De manera anloga podemos calcular este coeficiente sobre un estadstico muestral, denotado como a:
  7. 7. Ejemplos de diagramas de dispersin con diferentes valores del coeficiente de correlacin ()
  8. 8. El fundamento del coeficiente de Pearson es el siguiente: Cuanto ms intensa sea la concordancia (en sentido directo o inverso) de las posiciones relativas de los datos en las dos variables, el producto del numerador toma mayor valor (en sentido absoluto). Si la concordancia es exacta, el numerador es igual a N (o a -N), y el ndice toma un valor igual a 1 (o -1). Ejemplo 1 (Mxima covariacin positiva) Observa que los datos tipificados (expresados como puntuaciones z) en las dos columnas de la derecha tienen los mismos valores en ambas variables, dado que las posiciones relativas son las mismas en las variables X e Y. Si obtenemos los productos de los valores tipificados para cada caso, el resultado es: El cociente de dividir la suma de productos (5) por N (hay que tener en cuenta que N es el nmero de casos, NO el nmero de datos) es igual a 1:
  9. 9. Identifica el dependiente variable que se probar entre dos observaciones derivadas independientemente. Uno de los requisitos es que las dos variables que se comparan deben observarse o medirse de manera independiente para eliminar cualquier resultado sesgado. Reporta un valor de correlacin cercano a 0 como un indicador de que no hay relacin linear entre las dos variables. Reporta un valor de correlacin cercano al 1 como indicador de que existe una relacin linear positiva entre las dos variables. Un valor mayor a cero que se acerque a 1 da como resultado una mayor correlacin positiva entre la informacin. Reporta un valor de correlacin cercano a -1 como indicador de que hay una relacin linear negativa entre las dos variables. Interpreta el coeficiente de correlacin de acuerdo con el contexto de los datos particulares. El valor de correlacin es esencialmente un valor arbitrario que debe aplicarse de acuerdo con las variables que se comparan. Determina la importancia de los resultados. Esto se logra con el uso del coeficiente de correlacin, grados de libertad y una tabla de valores crticos del coeficiente de correlacin. Los grados de libertad se calculan como el nmero de las dos observaciones menos 2.
  10. 10. El coeficiente de correlacin debe ser seleccionado en base a las escalas de medidas usadas en cada una de las variables. La determinacin del tamao de muestra en las de tablas de contingencias varia segn sea el objetivo: a) Determinar probabilidades de incidencias. b) Docimar independencias entres dos variables. c) Analizar la asociacin entre las variables. 3. El tamao de muestra para construir intervalo de confianza para el coeficiente de correlacin poblacional de Pearson es funcin de la longitud del intervalo, de la probabilidad de confianza y del coeficiente de correlacin muestral. Por esta razn se sugiere un procedimiento secuencial para este propsito. El tamao de muestra para docimar la significacin del coeficiente de correlacin poblacional de Pearson es funcin de las probabilidades de cometer errores del tipo I y del tipo II y del valor del coeficiente de correlacin muestral. Por esta razn se sugiere un procedimiento secuencial para esta dcima. Para cantidades grandes de informacin, el calculo puede ser tedioso.
  11. 11. Aplicacin de la prueba estadstica Las observaciones de cada variable se deben ordenar en rangos, as como obtener las diferencias entre los rangos, efectuar la sumatoria y elevar sta al cuadrado. Educacin de algunas madres y calificacin de desarrollo mental de los hijos. Calculo de los grados de libertad (gl). gl = numero de parejas - 1 = 8 - 1 = 7 El valor rs calculado se compara con los valores crticos de rs del coeficiente de correlacin por rangos de Spearman. El valor crtico de rs con 7 grados de libertad, para una probabilidad de 0.05 del nivel de significancia es 0.714, o sea, mayor que el calculado. Por lo tanto, ste tiene una probabilidad mayor que 0.05. Decisin Como el valor de probabilidad de rs de 0.69 es mayor que 0.05, se acepta Ho y se rechaza Ha. Interpretacin El coeficiente de correlacin de Spearman de 0.69 es menor que los valores crticos de la tabla, pues a stos corresponde la probabilidad de obtener esa magnitud, al nivel de confianza de 0.05 y 0.01, para 0.714 y 0.893. Esto significa que para aceptar Ha, se requiere tener un valor igual o ms lato que 0.714. Por lo tanto se acepta Ho y se rechaza Ha, aun cuando, como se observa en la siguiente figura, existe una asociacin relativa e