Download - ANÁLISIS DE REGRESIÓN

Transcript

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

5.1. REGRESIÓN LINEAL SIMPLE, CURVILÍNEA Y MÚLTIPLE.

REGRESIÓN LINEAL SIMPLE

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y , las variables independientes X, y un término aleatorio ε. Este modelo puede ser expresado como:

Y=b0+b1X

Donde Y es variable dependiente, explicada o regresando.

b0 : Es el valor de Y cuando X es igual a 0

b1: es el coeficiente de regresión que indica la pendiente de la recta de regresión

b1=∑ XY−n X Y

∑ X2−n X2

b0=Y−b1 X

Ejemplo de una regresión lineal con una variable dependiente y una variable independiente

http://es.wikipedia.org/wiki/Variable_independiente

http://es.wikipedia.org/wiki/Variable_dependiente

http://es.wikipedia.org/wiki/Aleatoriedad

http://es.wikipedia.org/wiki/Variable_independiente

http://es.wikipedia.org/wiki/Variable_dependiente

http://es.wikipedia.org/wiki/Modelo_matem%C3%A1tico

http://es.wikipedia.org/wiki/Matem%C3%A1ticas

http://es.wikipedia.org/wiki/M%C3%A9todo

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://commons.wikimedia.org/wiki/File:Linear_regression.svg?uselang=es

Método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805, y en dónde se incluía una versión del teorema de Gauss-Márkov.

Regresión lineal simple. Tiene como objeto estudiar cómo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta. Cuando la relación lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, según lo establecido, se tendrá

De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un valor de la variable predictor a e Yi la variable respuesta que le corresponde, entonces

Ei es el error o desviación aleatoria de Yi

REGRESION LINEAL SIMPLE. ESTIMACION

Estimación de los parámetros de la recta de regresión. El primer problema a abordar es obtener los estimadores de los parámetros de la recta de regresión, partiendo de una muestra de tamaño n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intención de extraer para cada xi un individuo de la población o variable Yi .

Una vez realizada la muestra, se dispondrá de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El método de estimación aplicable en regresión, denominado de los mínimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parámetros de la recta de regresión obtenidas con este procedimiento son:

http://es.wikipedia.org/wiki/Teorema_de_Gauss-M%C3%A1rkov

http://es.wikipedia.org/wiki/1805

http://es.wikipedia.org/wiki/Adrien_Marie_Legendre

http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados

Por tanto la recta de regresión estimada será:

Por ejemplo: La recta de regresión representada corresponde a la estimación obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardíaco de un vertebrado.

REGRESION CURVILINEA

Cuando las variables X e Y se relacionan según una línea curva, se habla de regresión no lineal o curvilínea. Es una función de segundo grado la que se ajusta lo suficiente a la situación real dada.

La expresión general de un polinomio de segundo grado es:

Y =a+bX+cX2 donde a , b y c son los parámetros.

El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Se seguirá para ello, un razonamiento y la utilización de las ecuaciones normales de Gauss. Las ecuaciones normales son:

∑ Y = na + b ∑ X + C ∑ X2 (1)

∑ X Y = a ∑ X + b ∑ X2 + C ∑ X3 (2)

∑ X2 Y = a ∑ X2 + b ∑ X3 + C ∑ X4 (3)

Para lo cual se necesita elaborar el cuadro con cada una de las variables que aparecen en las ecuaciones normales y los resultados obtenidos en este sustituirlos en ellas para encontrar los valores de las constantes.

Para encontrar los valores de las constantes utilizaremos matrices.

Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, suelen ser números ordenados en filas y columnas.

Se llama matriz de orden "m × n" a un conjunto rectangular de elementos aij dispuestos en m filas y en n columnas. El orden de una matriz también se denomina dimensión o tamaño, siendo m y n números naturales.

Las matrices se denotan con letras mayúsculas: A, B, C, ... y los elementos de las mismas con letras minúsculas y subíndices que indican el lugar ocupado: a, b, c, ... Un elemento genérico que ocupe la fila i y la columna j se escribe aij . Si el elemento genérico aparece entre paréntesis también representa a toda la matriz : A = (aij)

Al encontrar los valores de las constantes que buscamos sustituimos los valores en la ecuación de regresión curvilínea para obtener los resultados que buscamos. Y poder estimar. Hacer las estimaciones correspondientes.

Algunas de las regresiones curvilíneas son las siguientes

PARÁBOLA DE REGRESIÓN

En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada.

La expresión general de un polinomio de segundo grado es:

Y = a + b X + c X 2

Donde a , b y c son los parámetros.

El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Se seguirá para ello, un razonamiento similar al que se hace en el caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste de los mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresión sea mínima:

Donde y i son los valores observados de la variable dependiente, y

y *i son los valores estimados según el modelo;

Por tanto, D se puede escribir de la forma:

Para encontrar los valores de a , b y c que hacen mínima la expresión anterior, se igualarán las derivadas parciales de D con respecto a dichos parámetros a cero y se resolverá el sistema resultante. Las ecuaciones que forman dicho sistema se conocen, igual que en el caso de la regresión lineal simple, como ecuaciones normales de Gauss.

REGRESIÓN HIPERBÓLICA

Cuando la dependencia entre las variables X e Y es de forma hiperbólica, interesa ajustar a la nube de puntos una función del tipo:

La función a minimizar será:

Donde

Por lo tanto,

Para minimizar la expresión, se calculan las derivadas parciales respecto a los parámetros a y b, igualando a cero:

En consecuencia, las ecuaciones normales serán:

FUNCIÓN EXPONENCIAL, POTENCIAL, Y LOGARÍTMICA

El problema de ajustar un modelo potencial, de la forma Y = A X b y uno exponencial Y = A B X se reduce al de la función lineal, con solo tomar logaritmos.

REGRESIÓN LINEAL MÚLTIPLE.

La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede intentar predecir el total de facturación lograda por servicios prestados en una IPS cada mes (la variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.

En la regresión lineal múltiple se utilizan más de una variable explicativa; esto nos ofrece la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas.

Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple.

El Modelo de regresión lineal múltiple El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal simple, con la única diferencia de que aparecen más variables explicativas:

Modelo de regresión simple:

Modelo de regresión múltiple:

5.2. CORRELACIÓN.

La correlación es la forma numérica en la que la estadística ha podido evaluar la relación de dos o más variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente.

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas.

La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.

Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.

Tipos de correlación

1º Correlación directa

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.

La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

http://es.wikipedia.org/wiki/Variable_estad%C3%ADstica

http://es.wikipedia.org/wiki/Proporcionalidad

http://es.wikipedia.org/wiki/Funci%C3%B3n_matem%C3%A1tica

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/Probabilidad

2º Correlación inversa

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.

La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

3º Correlación nula

La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

Grado de correlación

El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:

1. Correlación fuerte

La correlación será fuerte cuanto más cerca estén los puntos de la recta.

2. Correlación débi l

La correlación será débil cuanto más separados estén los puntos de la recta.

3. Correlación nula

r=n∑j=1

∑i=1

f x i yi−∑i=1

f x x i∗∑i=1

f y y i

√ [n∑i=1l

f x x i2−(∑

i=1

f x x i)2][n∑i=1

f y y i2−(∑

i=1

f y y i)2]

5.3. REGRESIÓN Y CORRELACIÓN PARA DATOS AGRUPADOS.

REGRESIÓN PARA DATOS AGRUPADOS.

REGRESIÓN MÍNIMO-CUADRÁTICA

Consiste en explicar una de las variables en función de la otra a través de un determinado tipo de función (lineal, parabólica, exponencial, etc.), de forma que la función de regresión se obtiene ajustando las observaciones a la función elegida, mediante el método de Mínimos-Cuadrados (M.C.O.).

Elegido el tipo de función ¦ ( ) la función de regresión concreta se obtendrá minimizando la expresión:

(yj - ¦ (xi ) ) 2. nij en el caso de la regresión de Y/X

(xi - ¦ (yj ) ) 2. nij en el caso de la regresión de X/Y

Puede probarse que es equivalente ajustar por mínimos cuadrados la totalidad de las observaciones (toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresión de la media; de forma que la regresión mínimo-cuadrática viene ser, en cierto modo, la consecución de una expresión analítica operativa para la regresión en sentido estricto.

CORRELACIÓN PARA DATOS AGRUPADOS

Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán más laboriosos, por lo que les recomiendo el uso de una hoja de calculo o al menos una calculadora con regresión para datos agrupados.

De cualquier forma aquí también estamos evaluando numéricamente si existe relación entre dos variables y lo haremos con la siguiente ecuación.

En donde podemos encontrar k como el número de clases para la variable "y" y l para el número de clases de "x".

También podemos observar que hay varios tipos de "f" es decir, la que se encuentra sola (sin subíndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se encuentran en la intersección entre una columna y un renglón) y las "f" con subíndices que representan las frecuencias de cada una de las variables.

Para entender el uso de esta formula usaremos un ejemplo:

Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de 48 alumnos entrevistados el "día Anáhuac"

Marcas de clase de "x"

1.445

1.545 1.645 1.745 1.845 1.945 fy fx y fx y^2

44.5 3 1 4 178 7921

marcas 54.5 5 9 5 19 1035.5 56434.75

de clase 64.5 1 2 4 1 1 9 580.5 37442.25

de "Y" 74.5 5 1 1 7 521.5 38851.75

84.5 2 2 1 5 422.5 35701.25

94.5 1 3 4 378 35721

fx 0 9 12 17 7 3 48 3116 212072

fx x 0 13.905

19.74 29.665

12.915

5.835 82.06

fx x^2 0 21.483225

32.4723

51.765425

23.828175

11.349075

140.8982

f x y 5380.77

Correlación= 0.695

La sustitución de la fórmula es la siguiente:

Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso y la estatura, es decir, que a mayor estatura mayor peso.

En muchas ocasiones el resultado de la correlación es negativo y lo que debemos pensar es que la relación de las variables involucradas en el calculo es inverso es decir que en la medida que crece la variable independiente la variable dependiente decrece:

5.4. CORRELACIÓN POR RANGOS.

La correlación de Spearman, o por rango, se basa en reemplazar los valores originales de ambas variables, por números enteros positivos, comenzando por 1 en adelante, que correspondan a su ordenamiento de mayor de menor a mayor magnitud. Para ello, lo valores reales de cada una de las variables son ordenados de menor a mayor, por separado y reemplazados por rango.

r=n∑j=1

∑i=1

f x i yi−∑i=1

f x x i∗∑i=1

f y y i

√ [n∑i=1l

f x x i2−(∑

i=1

f x x i)2][n∑i=1

f y y i2−(∑

i=1

f y y i)2]

=48∗5380.77- (82.06*3116 )

√((48*140 .8982) -82 .062 )∗((48∗212072) -31162 )=0 .695

Para calcular el coeficiente de correlación de spearman o por rangos usamos la

siguiente expresión:ρ=rs=1−6∑ D2

n(n2−1)

Donde

r s= coeficiente de correlación de Spearman (ρ=rho)

D2= Cuadrado de la diferencia entre los rangos de X e Y

n =numero de parejas

La correlación de Spearman es un excelente método para cuantificar la relación entre dos escalas de valores discretos y/o con jerarquía (ordinales). También es una excelente opción cuando los dos datos no tienen distribución Normal bivariante, especialmente si hay valores extremos.

El método de Spearman permite calcular correlación, pero solo entre dos variables, este método tampoco permite hacer regresión, es decir, no se puede modelar la variable respuesta Y, con varios predictores en forma simultanea o ver la influencia de un pre editor sobre otro. En este sentido, el método es mucho menos poderoso, que la regresión lineal o logística.

5.5. COEFICIENTE DE CORRELACIÓN PARA DATOS NOMINALES.

Coeficiente de contingencia.

Este se aplica para variables nominales. Cuando los valores de dos variables no pueden ser ordenados, sino que tienen que ser clasificados, para determinar la relación entre esas dos variables empleamos el coeficiente de contingencia.

El coeficiente de contingencia posee una serie de características, estas son:

5.No existe relación entre las variables, por tanto diremos que estas tendrán una proporción similar.

6. Se utiliza para evitar el efecto del tamaño de la muestra.

7.En una tabla de dos filas por columna es recomendable realizar la corrección de Yates.

También este tipo de correlación posee una serie de propiedades que tenemos que tener en cuenta:

El coeficiente de contingencia C está comprendido entre 0 y 1.

El coeficiente C presenta el valor cero cuando la relación entre las variables es nula, pero nunca alcanza el valor 1. El máximo dependerá del número de filas y columnas. qEl coeficiente C indica la intensidad de relación entre las variables que se están midiendo.

qEl valor de C depende del número de filas y columnas de la tabla de contingencia construido para su calculo.

qEl coeficiente C no es comparable a otros coeficientes de correlación, valores similares indicaría diferentes grados de correlación.

Ejemplo

Queremos determinar si existe relación entre el sexo y la especialidad cursada para los alumnos que estudian Magisterio, a partir de los datos correspondientes a 349 alumnos de una escuela de Magisterio.

Distribución conjunta de frecuencias para sexo y especialidad.

En primer lugar calcularemos el valor de X . Partiendo del supuesto de que no hay relación entre las dos variables, es preciso calcular las frecuencias esperadas en cada celdilla de la tabla. Por ejemplo, la proporción de alumnos que estudian ciencias tiene que ser similar a las alumnas que estudian ciencias. Hombres 70/178=0,39, y alumnas 40/171=0,23.Por