Presentacion coeficientes de correlacion de Pearson y Spearman

República Bolivariana de Venezuela

Ministerio del Poder Popular para la Educación Superior

Instituto Universitario Politécnico “Santiago Mariño”

Sección: YV (SAIA)

Asignatura: Estadística I

Semestre: 2015-I

Coeficiente de correlación de

Pearson y Spearman

Profesor: Pedro Beltrán Alumna: TSU Bermúdez Aida

C.I.: 20.278.843

Barcelona, Julio de 2015

Coeficiente de correlación de Spearman

En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas.Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstanciaPara muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Uso del coeficiente de correlación de Spearman

La aproximación moderna al problema de averiguar si un valor observado de ρ es significativamente diferente de cero (siempre tendremos -1 ≤ ρ ≤ 1) es calcular la probabilidad de que sea mayor o igual que el ρ esperado, dada la hipótesis nula, utilizando un test de permutación. Esta aproximación es casi siempre superior a los métodos tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informática no sea suficiente para generar permutaciones (poco probable con la informática moderna), o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad).

Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o más condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorará de intento en intento. Un test de la significación de la tendencia entre las condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas.

Ventajas

• El coeficiente rs es un caso particular de rxy, puesto que se calcula a partir de éste, por aplicación del coeficiente de Pearson a valores ordinales considerados como puntuaciones.

• El coeficiente de correlación de Spearman es exactamente el mismo que el coeficiente de correlación de Pearson, calculado sobre el rango de observaciones.

• El coeficiente de correlación de Spearman se encuentra siempre comprendido entre los valores -1 y 1. Es decir, -1 < rs < 1. Cuando todos los sujetos se sitúan en el mismo puesto para la variable X y para la variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al primer sujeto en X le corresponde el último lugar en Y, al segundo en X le corresponde el penúltimo en Y, etc., entonces el valor de rs es -1.

• La correlación estimada entre X e Y se halla calculando el coeficiente de correlación de Pearson para el conjunto de rangos apareados. La correlación de Spearman puede ser calculada con la fórmula de Pearson, si antes hemos transformado las puntuaciones en rangos.

Desventajas• Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas

al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas.

• Al ser Spearman una técnica no paramétrica es libre de distribución probabilística (2, 5, 9). –

• Los supuestos son menos estrictos.

• Es robusto a la presencia de outliers (es decir permite ciertos desvíos del patrón normal).

• La manifestación de una relación causa-efecto es posible sólo a través de la comprensión de la relación natural que existe entre las variable y no debe manifestarse sólo por la existencia de una fuerte correlación (1, 5)

• Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas.

En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población; el coeficiente de correlación de Pearson se simboliza con la letra , siendo la expresión que nos permite calcularlo: Donde: es la covarianza de es la desviación típica de la variable es la desviación típica de la variable De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como a:

Coeficiente de correlación de Pearson

Coeficiente de correlación de Pearson

Ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación

(ρ)

https://commons.wikimedia.org/wiki/File:Correlation_coefficient.png

Uso del coeficiente de correlación de Pearson

El fundamento del coeficiente de Pearson es el siguiente: Cuanto más intensa sea la concordancia (en sentido directo o inverso) de las posiciones relativas de los datos en las dos variables, el producto del numerador toma mayor valor (en sentido absoluto). Si la concordancia es exacta, el numerador es igual a N (o a -N), y el índice toma un valor igual a 1 (o -1). Ejemplo 1 (Máxima covariación positiva)

Observa que los datos tipificados (expresados como puntuaciones z) en las dos columnas de la derecha tienen los mismos valores en ambas variables, dado que las posiciones relativas son las mismas en las variables X e Y. Si obtenemos los productos de los valores tipificados para cada caso, el resultado es:

El cociente de dividir la suma de productos (5) por N (hay que tener en cuenta que N es el número de casos, NO el número de datos) es igual a 1:

Ventajas• Identifica el dependiente variable que se probará entre dos observaciones derivadas

independientemente. Uno de los requisitos es que las dos variables que se comparan deben observarse o medirse de manera independiente para eliminar cualquier resultado sesgado.

• Reporta un valor de correlación cercano a 0 como un indicador de que no hay relación linear entre las dos variables.

• Reporta un valor de correlación cercano al 1 como indicador de que existe una relación linear positiva entre las dos variables.

• Un valor mayor a cero que se acerque a 1 da como resultado una mayor correlación positiva entre la información.

• Reporta un valor de correlación cercano a -1 como indicador de que hay una relación linear negativa entre las dos variables.

• Interpreta el coeficiente de correlación de acuerdo con el contexto de los datos particulares. El valor de correlación es esencialmente un valor arbitrario que debe aplicarse de acuerdo con las variables que se comparan.

• Determina la importancia de los resultados. Esto se logra con el uso del coeficiente de correlación, grados de libertad y una tabla de valores críticos del coeficiente de correlación. Los grados de libertad se calculan como el número de las dos observaciones menos 2.

• El coeficiente de correlación debe ser seleccionado en base a las escalas de medidas usadas en cada una de las variables.

• La determinación del tamaño de muestra en las de tablas de contingencias varia según sea el objetivo:

• a) Determinar probabilidades de incidencias. b) Docimar independencias entres dos variables.

c) Analizar la asociación entre las variables.• 3. El tamaño de muestra para construir intervalo de confianza para el coeficiente de correlación

poblacional de Pearson es función de la longitud del intervalo, de la probabilidad de confianza y del coeficiente de correlación muestral. Por esta razón se sugiere un procedimiento secuencial para este propósito.

• El tamaño de muestra para docimar la significación del coeficiente de correlación poblacional de Pearson es función de las probabilidades de cometer errores del tipo I y del tipo II y del valor del coeficiente de correlación muestral. Por esta razón se sugiere un procedimiento secuencial para esta dócima.

• Para cantidades grandes de información, el calculo puede ser tedioso.

Desventajas

Enfoque de Karl PearsonAplicación de la prueba estadística Las observaciones de cada variable se deben ordenar en rangos, así como obtener las diferencias entre los rangos, efectuar la sumatoria y elevar ésta al cuadrado. Educación de algunas madres y calificación de desarrollo mental de los hijos.

Calculo de los grados de libertad (gl). gl = numero de parejas - 1 = 8 - 1 = 7 El valor rs calculado se compara con los valores críticos de rs del coeficiente de correlación por rangos de Spearman. El valor crítico de rs con 7 grados de libertad, para una probabilidad de 0.05 del nivel de significancia es 0.714, o sea, mayor que el calculado.

Por lo tanto, éste tiene una probabilidad mayor que 0.05. Decisión Como el valor de probabilidad de rs de 0.69 es mayor que 0.05, se acepta Ho y se rechaza Ha.

Interpretación El coeficiente de correlación de Spearman de 0.69 es menor que los valores críticos de la tabla, pues a éstos corresponde la probabilidad de obtener esa magnitud, al nivel de confianza de 0.05 y 0.01, para 0.714 y 0.893. Esto significa que para aceptar Ha, se requiere tener un valor igual o más lato que 0.714. Por lo tanto se acepta Ho y se rechaza Ha, aun cuando, como se observa en la siguiente figura, existe una asociación relativa entre la educación formal de la madre y el desarrollo mental de sus hijos; sin embargo, ésta no es significativa.

Enfoque de Charles Spearman

CIHoras de TV a la semana

106 7

86 0

100 28

100 50

99 28

103 28

97 20

113 12

113 7

110 17

Los datos brutos usados en este ejemplo se ven debajo.

El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)‘Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayorpara el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaríaT = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 } para este caso, el orden sería para cada elemento, respectivamente:orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones, así para:7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.528 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 850 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10

CI (i)Horas de TV a la semana

(t)orden(i) orden(t) d d2

86 0 1 1 0 0

97 20 2 6 4 16

99 28 3 8 5 25

100 50 4.5 10 5.5 30.25

100 28 4.5 8 3.5 12.25

103 28 6 8 2 4

106 7 7 2.5 4.5 20.25

110 17 8 5 3 9

113 7 9.5 2.5 7 49

113 12 9.5 4 5.5 30.25

Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.Los valores de la columna d2 pueden ser sumados para averiguar

El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.

De lo que resulta .

https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman http://www.statisticssolutions.com/correlation-pearson-kendall-spearman/ http://datalab.morningstar.com/knowledgebase/aspx/Article.aspx?ID=550 https://epilab.ich.ucl.ac.uk/coursematerial/statistics/non_parametric/spearman.html https://es.wikipedia.org/wiki/Charles_Spearman

Webgrafia

https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

http://www.statisticssolutions.com/correlation-pearson-kendall-spearman/

http://www.statisticssolutions.com/correlation-pearson-kendall-spearman/

http://datalab.morningstar.com/knowledgebase/aspx/Article.aspx?ID=550

http://datalab.morningstar.com/knowledgebase/aspx/Article.aspx?ID=550

https://epilab.ich.ucl.ac.uk/coursematerial/statistics/non_parametric/spearman.html

https://epilab.ich.ucl.ac.uk/coursematerial/statistics/non_parametric/spearman.html

Presentacion coeficientes de correlacion de Pearson y Spearman

Education

Transcript of Presentacion coeficientes de correlacion de Pearson y Spearman