Analisis de regresion
of 32
/32
-
Author
2603-96 -
Category
Engineering
-
view
97 -
download
6
Embed Size (px)
Transcript of Analisis de regresion
- 1. ANALISIS DE REGRESION El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor relacin funcional entre dos o ms variables concomitantes (o relacionadas). El anlisis de correlacin estudia el grado de asociacin de dos o ms variables. Una relacin funcional matemticamente hablando, esta dada por: Y = f(x1,...,xn; 1,...,m) dnde: Y: Variable respuesta (o dependiente) xi : La i-esima variable independiente (i=1,..,n) j : El j-esimo parmetro en la funcin (j=1,..,m) F : La funcin Para elegir una relacin funcional particular como la representativa de la poblacin bajo investigacin, usualmente se procede: 1) Una consideracin analtica del fenmeno que nos ocupa 2) Un examen de diagramas de dispersin. Origen del concepto: El termino regresin fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmada por su amigo Karl Pearson. Su trabajo se centro en la descripcin de los rasgos fsicos de los descendientes (variable A) a partir de los de sus padres (variable B). Galton generalizo esta tendencia bajo la "ley de la regresin universal": Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.
- 2. MODELOS DE REGRESION: Regresin lineal: El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la relacin entre variables . En la investigacin social, el anlisis de regresin se utiliza par predecir un alto rango de fenmenos, desde medidas econmicas hasta medidas diferentes aspectos de comportamiento humano . En el contexto de investigacin de mercados puede utilizarse para determinar en cual de diferentes medios de comunicacin puede resultar mas eficaz invertir; o para predecir el numero de ventas de un determinado producto . En fsica se utiliza para caracterizar la relacin entre variables o para calibrar medidas . Existen dos tipos de regresin lineal , tanto en el caso de variables regresin simple, como en el dems de dos variables regresin mltiple, el anlisis de regresin lineal puede utilizarse para explorar y cuantificar la relacin entre una variable llamada dependiente o criterio (Y) y una o mas variables llamada
- 3. independientes o predictoras (x1, x2,., xk ), as como para desarrollar una ecuacin lineal con fines predictivos En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente. En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos variables, una dependiente y otra independiente y se representa as: Y = f (X) "Y est regresando por X"
- 4. ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: Donde: c: Es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y. b: Es el coeficiente de regresin poblacional (pendiente de la lnea recta) e: Es el error SUPOSICIONES DE LA REGRESIN LINEAL 1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria 3. Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y estn sobre la recta. 6. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes. Y = c + bX + e Y = c + bX + e
- 5. SUPOSICIONES DE LA REGRESIN LINEAL 1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria 3. Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y estn sobre la recta. 6. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes. ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL Consiste en determinar los valores de c" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El mtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene: Luego, la ecuacin de regresin muestral estimada es: Que se interpreta como: a: Es el valor estimado de la variable Y cuando la variable X = 0 b: Es el coeficiente de regresin. Est expresado en las mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en que vara Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin). Un valor negativo de b sera interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.
- 6. LA RECTA DE REGRESION : Ahora bien, aunque un diagrama de dispersin permite formarse una primera impresin muy rpida sobre el tipo de relacin existente entre dos variables, utilizarlo como una forma de cuantificar esa relacin tiene un serio inconveniente : la relacin de dos variables no siempre es perfecta o nula ; de hecho , habitualmente no es lo uno ni lo otro . Supongamos que disponemos de un pequeo conjunto de datos con informacin sobre 35 marcas de cervezas y su contenido calrico. Un buen punto de partida para formarnos una primera impresin de esa relacin podra ser la representacin de la nube de puntos, tal como muestra el diagrama de dispersin. El eje vertical muestra el numero de caloras ( por cada tercio de L ) y el horizontal el contenido de alcohol ( expresado en porcentaje) . A simple vista , parece existir una relacin positiva entre ambas variables : conforme aumenta el porcentaje de alcohol , tambin aumenta el numero de caloras . La mayor parte de las cervezas de la muestra se agrupan entre el 4.5% y el 5% de alcohol , siendo relativamente pocas las cervezas que tienen un contenido de alcohol inferior a ese.
- 7. MODELO BASICO DE REGRESION LINEAL :
- 8. REGRESION LINEAL SIMPLE: Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin Y = so + s1X + donde: so : El valor de la ordenada donde la lnea de regresin se intersecta al eje Y. s1 : El coeficiente de regresin poblacional (pendiente de la lnea recta) : El error.
- 9. Suposiciones de la regresin lineal: 1. Los valores de la variable independiente X son "fijos". 2. La variable X se mide sin error (se desprecia el error de medicin en X) 3. Existe una subpoblacin de valores Y normalmente distribuido para cada valor de X. 4. Las variancias de las subpoblaciones de Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y estn sobre la misma recta. 6. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes. Terminologa: Promedios: y = yi /n; x = xi / n Sumas de cuadrados y productos de X e Y : SCY = (yi y)2 ; SCX = (xi x)2; SPXY = (xi x)(yi y) SCY tambin corresponde a la suma de cuadrados total = SC total Estimacin de parmetros: La funcin de regresin lineal simple es expresado como: Y = so + s1X + Anlisis: Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene: derivando respecto a y e igualando a cero, se obtiene:
- 10. Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros: La interpretacin del parmetro 1 es que un incremento en Xi de una unidad, Yi incrementar en 1 REGRESION LINEAL MULTIPLE: En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas. Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, , xk, cules son las que ms influyen en la variable dependiente Y. En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms variables explicativas y un trmino aleatorio: y = b0 + b1. x1 + b2. x2 +..bk .xk + u Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
- 11. Algunos criterios que deben de cumplir sern los siguientes: Tener sentido numrico. No deber de haber variables repetidas o redundantes Las variables introducidas en el modelo debern de tener una cierta justificacin terica. La relacin entre variables explicativas en el modelo y casos debe de ser como mnimo de 1 a 10. La relacin de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional. Hiptesis : Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos: a) Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo lineal: Y = X*B + U b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: V (ui ) = 2 c) Independencia: las perturbaciones aleatorias son independientes entre s: E(ui .uj ) =0, i j d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin normal: U N(0, 2) e) Las variables explicativas Xk se obtienen sin errores de medida. Estimacin de los parmetros por mnimos cuadrados : Vamos a calcular un hiperplano de regresin de forma que se minimice la varianza residual: Min (yi - yj )2
- 12. AJUSTE DE CURVAS El principal objetivo de mltiples investigaciones estadsticas es efectuar predicciones, de preferencia basndose en ecuaciones matemticas. Por ejemplo, un ingeniero gelogo quiz desea predecir el cauce de un ro para un mejor aprovechamiento de las aguas para construir canales de irrigacin, o la cantidad de metros que se desea perforar para encontrar un pozo, analizar en una lnea de regresin las probabilidades de que ocurra un fenmeno geodinmico externo. En la mayor parte de los estudios geofsicos (de exploracin) se utiliza el criterio de mnimos cuadrados para darle un mejor ajuste y predecir lo que se requiere. MTODO DE MNIMOS CUADRADOS: Se predice una variable dependiente en funcin de una variable independiente simple. En muchos problemas de este tipo la variable independiente se observa sin error o con un error que es despreciable cuando se compara con el error (variacin aleatoria) de la variable dependiente. As, a pesar que la variable independiente puede ser estable en x, las mediciones repetidas de ella pueden originar valores de originar valores de y que difieren mucho. Tales diferencias en los valores de y pueden atribuirse a diversas causas, principalmente a errores de medicin y a la existencia de otras variables incontrolables capaces de influir en el valor de y cuando x est fija.
- 13. Para dar un ejemplo en el cual la curva de regresin de y sobre x puede razonablemente esperarse que sea lineal, supngase que una muestra metlica extrada de una mina se analiza midiendo su deflexin a varias cargas. En la tabla siguiente, se dan los resultados de las doce mediciones, las x son las cargas en miles de libras y las y son las deflexiones correspondientes en milsimas de pulgada: Es evidente, en la figura donde estos valores se han graficado, que es razonable suponer que la relacin (curva de regresin) es lineal, esto es, una lnea recta que da una buena aproximacin sobre el rango de los datos disponibles. Esta clase de diagrama, en que se advierte cmo los puntos estn dispersos, se denomina diagrama de depresin.
- 14. A continuacin se quiere encontrar la lnea de regresin que mejor ajuste el recorrido de un ro a una pendiente constante donde la divisoria de aguas se encuentra en la cota 120, para lo cual se utilizar el criterio de mnimos cuadrados Escala: 1:2000 Paso 1: Se grafica el perfil Paso 2: Se proyecta el perfil longitudinal del ro
- 15. Paso 3: Tabulando los datos: Paso 4: Se desea calcular la ecuacin de la lnea que de alguna manera da el mejor ajuste. y = a + bx Para n =2 nmeros de datos: Y se obtiene: 840= 12a + 2460b 199200= 2460a + 6051600b Paso 5: Se desea hallar a y b para determinar la lnea por mnimos cuadrados que mejor se ajusta Por determinantes o por eliminacin se tiene: B= 0.0047 A= 72.651 Entonces: y = 72.651 + 0.0047x
- 16. Paso 6: Con la ecuacin anterior podemos utilizar los datos y graficar la curva que mejor se ajusta. A partir del grfico de la lnea ajustada, podemos realizar clculos como pendiente, rasante, etc. Es imposible realizar afirmaciones exactas acerca de la bondad de una estimacin como sta, a menos que hagamos algunas suposiciones sobre las distribuciones fundamentales de la variable aleatoria en la que se est interesado y sobre la naturaleza real de la regresin. INFERENCIAS BASADAS EN ESTIMADORES DE MNIMOS CUADRADOS El mtodo de mnimos cuadrados de la seccin anterior se emplea cuando la relacin entre x y la media de y es lineal o bastante cercana a una lnea recta, de tal manera que la lnea de mnimos cuadrados produzca predicciones bastante buenas. En lo que sigue se supone que la regresin es lineal y, ms an, que las n variables aleatoria que tienen valores son independientes y que estn distribuidas normalmente con las medias y la variancia comn . Si se escribe: Se deduce de las suposiciones mencionadas que los son valores de variables aleatorias independientes distribuidas normalmente y que tienen medias cero y la variancia comn . Antes de establecer un teorema relativo a la distribucin de los estimadores de mnimos cuadrados de y , es conveniente introducir alguna notacin especial. La expresiones siguientes estn relacionadas con los valores muestrales ocurren tan a menudo que conviene escribirlas como
- 17. Diagrama en que se advierten las suposiciones que sirven de base al teorema 1 Las primeras expresiones (al centro) se prefieren desde una base conceptual porque presentan las desviaciones de la media, y desde una base computacional porque son menos propensas a errores. Las segundas expresiones (a la derecha) se manejan en calculadoras manuales.
- 18. Teorema.1: Con las suposiciones dadas anteriormente, los estadsticos Son variables aleatorias que tienen distribucin t con n 2 grados de libertad. Si se quieren intervalos de confianza para los coeficientes de regresin y sustituimos el trmino medio de : EJEMPLO 2: Conforme al ejemplo 1, constryase un intervalo con un nivel de confianza del 95% para el coeficiente de regresin . Solucin: Utilizando los resultados numricos anteriores junto con:
- 19. Obtenemos en primer trmino Y de aqu: Dado t = 2036 para 10-2=8 grados de libertad, se obtiene lmites con una confianza del 95% Y, en consecuencia, el intervalo con un nivel de confianza del 95% En las pruebas de hiptesis relativas a los coeficientes de regresin , las que se refieren a son de especial importancia debido a que es la pendiente de la recta de regresin; esto es, es el cambio promedio de las y correspondiente a un incremento unitario de x. Si = 0, la lnea de regresin es horizontal y la media de las y no depende linealmente de x. En pruebas de la hiptesis nula , empleamos el segundo estadstico del problema .1 y los criterios son semejantes a los que aparecen en la tabla anteriormente con t y sustituidos por z.
- 20. Paso 1: Se grafica el perfil Paso 2: Se tabulan los datos Paso 3: Se desea calcular la lnea que mejor ajuste( mnimos cuadrados) Paso 4: Se hallan las variables independientes Paso 5: Se utiliza la frmula de ajuste de mnimos cuadrados. Paso 6: Se grafica el corte mejor ajustado
- 21. Ejemplo 1: Se ha efectuado un estudio en que se relacionan los puntajes de aptitud con la productividad en la industria. Despus de tres meses de entrenamiento del personal, sus postulantes, elegidos al azar, obtuvieron los siguientes puntajes: Encuentre una ecuacin que describa la relacin entre aptitud y la productividad.
- 22. Obtenidos los valores para los coeficientes b y c, se reemplazan en la ecuacin general de la recta.
- 23. Ejercicio 2: Del problema anterior Cul es la probabilidad esperada de un trabajador, cuyo puntaje de aptitud fue de 16? Respuesta: La productividad del trabajador es de 30.88