Analisis de regresion

32
ANALISIS DE REGRESION El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional entre dos o más variables concomitantes (o relacionadas). El análisis de correlación estudia el grado de asociación de dos o más variables. Una relación funcional matemáticamente hablando, esta dada por: Y = f(x1,...,xn; θ1,...,θm) dónde: Y: Variable respuesta (o dependiente) xi : La i-esima variable independiente (i=1,..,n) θj : El j-esimo parámetro en la función (j=1,..,m) F : La función Para elegir una relación funcional particular como la representativa de la población bajo investigación, usualmente se procede: 1) Una consideración analítica del fenómeno que nos ocupa 2) Un examen de diagramas de dispersión. Origen del concepto:

Transcript of Analisis de regresion

Page 1: Analisis de regresion

ANALISIS DE REGRESION

El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional entre dos o más variables concomitantes (o relacionadas). El análisis de correlación estudia el grado de asociación de dos o más variables.

Una relación funcional matemáticamente hablando, esta dada por:

Y = f(x1,...,xn; θ1,...,θm)

dónde:

Y: Variable respuesta (o dependiente)

xi : La i-esima variable independiente (i=1,..,n)

θj : El j-esimo parámetro en la función (j=1,..,m)

F : La función

Para elegir una relación funcional particular como la representativa de la población bajo investigación, usualmente se procede:

1) Una consideración analítica del fenómeno que nos ocupa

2) Un examen de diagramas de dispersión.

• Origen del concepto:

El termino regresión fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmada por su amigo Karl Pearson. Su trabajo se centro en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B). Galton generalizo esta tendencia bajo la "ley de la regresión universal": ≪Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.≫

Page 2: Analisis de regresion

• MODELOS DE REGRESION:

Regresión lineal:

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables . En la investigación social, el análisis de regresión se utiliza par predecir un alto rango de fenómenos, desde medidas económicas hasta medidas diferentes aspectos de comportamiento humano .

En el contexto de investigación de mercados puede utilizarse para determinar en cual de diferentes medios de comunicación puede resultar mas eficaz invertir; o para predecir el numero de ventas de un determinado producto .

En física se utiliza para caracterizar la relación entre variables o para calibrar medidas .

Existen dos tipos de regresión lineal , tanto en el caso de variables regresión simple, como en el demás de dos variables regresión múltiple, el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente o criterio (Y) y una o mas variables llamada

Page 3: Analisis de regresion

independientes o predictoras (x1, x2,………., xk ), así como para desarrollar una ecuación lineal con fines predictivos

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

Y = f (X) "Y está regresando por X"

Page 4: Analisis de regresion

ANÁLISIS ESTADÍSTICO:   REGRESIÓN LINEAL   SIMPLE

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

ANÁLISIS ESTADÍSTICO:   REGRESIÓN LINEAL   SIMPLE

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

Donde:

c: Es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

b: Es el coeficiente de regresión poblacional (pendiente de la línea recta)

e: Es el error

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error.

2. La variable Y es aleatoria

3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)

4. Las variancias de las subpoblaciones Y son todas iguales.

5. Todas las medias de las subpoblaciones de Y están sobre la recta.

6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

Y = c + bX + e

Y = c + bX + e

Page 5: Analisis de regresion

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error.

2. La variable Y es aleatoria

3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)

4. Las variancias de las subpoblaciones Y son todas iguales.

5. Todas las medias de las subpoblaciones de Y están sobre la recta.

6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL

Consiste en determinar los valores de “c" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es:

Que se interpreta como:

a: Es el valor estimado de la variable Y cuando la variable X = 0

b: Es el coeficiente de regresión.

Está expresado en las mismas unidades de Y por cada unidad de X.

Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).

Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

Page 6: Analisis de regresion

• LA RECTA DE REGRESION :

Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión muy rápida sobre el tipo de relación existente entre dos variables, utilizarlo como una forma de cuantificar esa relación tiene un serio inconveniente : la relación de dos variables no siempre es perfecta o nula ; de hecho , habitualmente no es lo uno ni lo otro .

• Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35 marcas de cervezas y su contenido calórico. Un buen punto de partida para formarnos una primera impresión de esa relación podría ser la representación de la nube de puntos, tal como muestra el diagrama de dispersión.

• El eje vertical muestra el numero de calorías ( por cada tercio de L ) y el horizontal el contenido de alcohol ( expresado en porcentaje) . A simple vista , parece existir una relación positiva entre ambas variables : conforme aumenta el porcentaje de alcohol , también aumenta el numero de calorías . La mayor parte de las cervezas de la muestra se agrupan entre el 4.5% y el 5% de alcohol , siendo relativamente pocas las cervezas que tienen un contenido de alcohol inferior a ese.

Page 7: Analisis de regresion
Page 8: Analisis de regresion

• MODELO BASICO DE REGRESION LINEAL :

Page 9: Analisis de regresion
Page 10: Analisis de regresion
Page 11: Analisis de regresion

REGRESION LINEAL SIMPLE:

Cuando la relación funcional entre las variables dependiente (Y) e independiente (X) es una línea recta, se tiene una regresión lineal simple, dada por la ecuación

Y = so + s1X + ε

donde:

so : El valor de la ordenada donde la línea de regresión se intersecta al eje Y.

s1 : El coeficiente de regresión poblacional (pendiente de la línea recta)

ε : El error.

• Suposiciones de la regresión lineal:

Page 12: Analisis de regresion

1. Los valores de la variable independiente X son "fijos".

2. La variable X se mide sin error (se desprecia el error de medición en X)

3. Existe una subpoblación de valores Y normalmente distribuido para cada valor de X.

4. Las variancias de las subpoblaciones de Y son todas iguales.

5. Todas las medias de las subpoblaciones de Y están sobre la misma recta.

6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

• Terminología:

Promedios:

y = yi Σ /n; x = xi Σ / n

Sumas de cuadrados y productos de X e Y :

SCY = Σ(yi− y)2 ; SCX = Σ(xi −x)2; SPXY = Σ(xi − x)(yi − y)

SCY también corresponde a la suma de cuadrados total = SC total

Estimación de parámetros:

La función de regresión lineal simple es expresado como:

Y = so + s1X + ε

Análisis:

Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:

derivando respecto a y e igualando a cero, se obtiene:

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:

Page 13: Analisis de regresion

La interpretación del parámetro β1 es que un incremento en Xi de una unidad, Yi incrementará en β1

REGRESION LINEAL MULTIPLE:

En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas.

Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk, cuáles son las que más influyen en la variable dependiente Y.

En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinación lineal de los valores de una o más variables explicativas y un término aleatorio:

y = b0 + b1. x1 + b2. x2 +…..bk .xk + u

Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mínima, es decir, que se va a minimizar la varianza residual.

• Algunos criterios que deben de cumplir serán los siguientes:

Page 14: Analisis de regresion

Tener sentido numérico.

No deberá de haber variables repetidas o redundantes

Las variables introducidas en el modelo deberán de tener una cierta justificación teórica.

La relación entre variables explicativas en el modelo y casos debe de ser como mínimo de 1 a 10.

La relación de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.

Hipótesis :

Para realizar un análisis de regresión lineal múltiple se hacen las siguientes consideraciones sobre los datos:

a) Linealidad: los valores de la variable dependiente están generados por el siguiente modelo lineal:

Y = X*B + U

b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:

V (ui ) = σ2

c) Independencia: las perturbaciones aleatorias son independientes entre sí:

E(ui .uj ) =0, ∀i ≠ j

d) Normalidad: la distribución de la perturbación aleatoria tiene distribución normal:

U ≈ N(0, σ2)

e) Las variables explicativas Xk se obtienen sin errores de medida.

• Estimación de los parámetros por mínimos cuadrados :

Vamos a calcular un hiperplano de regresión de forma que se minimice la varianza residual:

Min Σ (yi - yj )2

Page 15: Analisis de regresion

AJUSTE DE CURVAS

El principal objetivo de múltiples investigaciones estadísticas es efectuar predicciones, de preferencia basándose en ecuaciones matemáticas. Por ejemplo, un ingeniero geólogo quizá desea predecir el cauce de un río para un mejor aprovechamiento de las aguas para construir canales de irrigación, o la cantidad de metros que se desea perforar para encontrar un pozo, analizar en una línea de regresión las probabilidades de que ocurra un fenómeno geodinámico externo. En la mayor parte de los estudios geofísicos (de exploración) se utiliza el criterio de mínimos cuadrados para darle un mejor ajuste y predecir lo que se requiere.

• MÉTODO DE MÍNIMOS CUADRADOS:

Se predice una variable dependiente en función de una variable independiente simple. En muchos problemas de este tipo la variable independiente se observa sin error o con un error que es despreciable cuando se compara con el error (variación aleatoria) de la variable dependiente. Así, a pesar que la variable independiente puede ser estable en x, las mediciones repetidas de ella pueden originar valores de originar valores de y que difieren mucho. Tales diferencias en los valores de y pueden atribuirse a diversas causas, principalmente a errores de medición y a la existencia de otras variables incontrolables capaces de influir en el valor de y cuando x está fija.

Page 16: Analisis de regresion

• Para dar un ejemplo en el cual la curva de regresión de y sobre x puede razonablemente esperarse que sea lineal, supóngase que una muestra metálica extraída de una mina se analiza midiendo su deflexión a varias cargas. En la tabla siguiente, se dan los resultados de las doce mediciones, las x son las cargas en miles de libras y las y son las deflexiones correspondientes en milésimas de pulgada:

• Es evidente, en la figura donde estos valores se han graficado, que es razonable suponer que la relación (curva de regresión) es lineal, esto es, una línea recta que da una buena aproximación sobre el rango de los datos disponibles. Esta clase de diagrama, en que se advierte cómo los puntos están dispersos, se denomina diagrama de depresión.

Page 17: Analisis de regresion

• A continuación se quiere encontrar la línea de regresión que mejor ajuste el recorrido de un río a una pendiente constante donde la divisoria de aguas se encuentra en la cota 120, para lo cual se utilizará el criterio de mínimos cuadrados

• Escala: 1:2000

• Paso 1: Se grafica el perfil

Paso 2: Se proyecta el perfil longitudinal del río

Page 18: Analisis de regresion

Paso 3: Tabulando los datos:

• Paso 4: Se desea calcular la ecuación de la línea que de alguna manera da el mejor ajuste.

y = a + bx

• Para n =2 números de datos:

 

 

 

Y se obtiene:

840= 12a + 2460b

199200= 2460a + 6051600b

• Paso 5: Se desea hallar a y b para determinar la línea por mínimos cuadrados que mejor se ajusta

Por determinantes o por eliminación se tiene:

B= 0.0047

A= 72.651

Entonces: y = 72.651 + 0.0047x

Page 19: Analisis de regresion

• Paso 6: Con la ecuación anterior podemos utilizar los datos y graficar la curva que mejor se ajusta.

A partir del gráfico de la línea ajustada, podemos realizar cálculos como pendiente, rasante, etc.

Es imposible realizar afirmaciones exactas acerca de la “bondad” de una estimación como ésta, a menos que hagamos algunas suposiciones sobre las distribuciones fundamentales de la variable aleatoria en la que se está interesado y sobre la naturaleza real de la regresión.

• INFERENCIAS BASADAS EN ESTIMADORES DE MÍNIMOS CUADRADOS

El método de mínimos cuadrados de la sección anterior se emplea cuando la relación entre x y la media de y es lineal o bastante cercana a una línea recta, de tal manera que la línea de mínimos cuadrados produzca predicciones bastante buenas.

En lo que sigue se supone que la regresión es lineal y, más aún, que las n variables aleatoria que tienen valores son independientes y que están distribuidas normalmente con las medias y la variancia común .

Si se escribe:

Se deduce de las suposiciones mencionadas que los son valores de variables aleatorias independientes distribuidas normalmente y que tienen medias cero y la variancia común .

Antes de establecer un teorema relativo a la distribución de los estimadores de mínimos cuadrados de y , es conveniente introducir alguna notación especial.

La expresiones siguientes están relacionadas con los valores muestrales ocurren tan a menudo que conviene escribirlas como

Page 20: Analisis de regresion

Diagrama en que se advierten las suposiciones que sirven de base al teorema 1

Las primeras expresiones (al centro) se prefieren desde una base conceptual porque presentan las desviaciones de la media, y desde una base computacional porque son menos propensas a errores. Las segundas expresiones (a la derecha) se manejan en calculadoras manuales.

Page 21: Analisis de regresion

Teorema.1: Con las suposiciones dadas anteriormente, los estadísticos

Son variables aleatorias que tienen distribución t con n – 2 grados de libertad.

Si se quieren intervalos de confianza para los coeficientes de regresión α y β sustituimos el término medio de :

• EJEMPLO 2:

Conforme al ejemplo 1, constrúyase un intervalo con un nivel de confianza del 95% para el coeficiente de regresión α.

Solución:

Utilizando los resultados numéricos anteriores junto con:

Page 22: Analisis de regresion

Obtenemos en primer término

Y de aquí:

Dado t = 2036 para 10-2=8 grados de libertad, se obtiene límites con una confianza del 95%

Y, en consecuencia, el intervalo con un nivel de confianza del 95%

En las pruebas de hipótesis relativas a los coeficientes de regresión , las que se refieren a β son de especial importancia debido a que es la pendiente de la recta de regresión; esto es, β es el cambio promedio de las y correspondiente a un incremento unitario de x. Si β = 0, la línea de regresión es horizontal y la media de las y no depende linealmente de x. En pruebas de la hipótesis nula , empleamos el segundo estadístico del problema .1 y los criterios son semejantes a los que aparecen en la tabla anteriormente con t y sustituidos por z.

Page 23: Analisis de regresion

Paso 1: Se grafica el perfil

Paso 2: Se tabulan los datos

Paso 3: Se desea calcular la línea que mejor ajuste( mínimos cuadrados)

Paso 4: Se hallan las variables independientes

Paso 5: Se utiliza la fórmula de ajuste de mínimos cuadrados.

Paso 6: Se grafica el corte mejor ajustado

Page 24: Analisis de regresion

Ejemplo 1: Se ha efectuado un estudio en que se relacionan los puntajes de aptitud con la productividad en la industria.Después de tres meses de entrenamiento del personal, sus postulantes, elegidos al azar, obtuvieron los siguientes puntajes:

Encuentre una ecuación que describa la relación entre aptitud y la productividad.

Page 25: Analisis de regresion

Obtenidos los valores para los coeficientes b y c, se reemplazan en la ecuación general de la recta.

Page 26: Analisis de regresion

Ejercicio 2: Del problema anterior ¿Cuál es la probabilidad esperada de un trabajador, cuyo puntaje de aptitud fue de 16?

Respuesta: La productividad del trabajador es de 30.88

Page 27: Analisis de regresion