ANÁLISIS DE REGRESIÓN

download ANÁLISIS DE REGRESIÓN

of 12

  • date post

    06-Aug-2015
  • Category

    Documents

  • view

    964
  • download

    1

Embed Size (px)

description

estadistica

Transcript of ANÁLISIS DE REGRESIÓN

ANLISIS DE REGRESIN Y CORRELACIN 5.1. REGRESIN LINEAL SIMPLE, CURVILNEA Y MLTIPLE. REGRESIN LINEAL SIMPLE En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre una variable dependiente , las variables independientes X, y un trmino aleatorio . Este modelo puede ser expresado como: Donde es variable dependiente, explicada o regresando. : Es el valor de Y cuando X es igual a 0 : es el coeficiente de regresin que indica la pendiente de la recta de regresin

Ejemplo de una regresin lineal con una variable dependiente y una variable independiente

Mtodo de los mnimos cuadrados, el cual fue publicado por Legendre en 1805, y en dnde se inclua una versin del teorema de Gauss-Mrkov. Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, segn lo establecido, se tendr

De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la variable predictor a e Yi la variable respuesta que le corresponde, entonces

Ei es el error o desviacin aleatoria de Yi

REGRESION LINEAL SIMPLE. ESTIMACION Estimacin de los parmetros de la recta de regresin. El primer problema a abordar es obtener los estimadores de los parmetros de la recta de regresin, partiendo de una muestra de tamao n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intencin de extraer para cada xi un individuo de la poblacin o variable Yi . Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El mtodo de estimacin aplicable en regresin, denominado de los mnimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parmetros de la recta de regresin obtenidas con este procedimiento son:

Por tanto la recta de regresin estimada ser:

Por ejemplo: La recta de regresin representada corresponde a la estimacin obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardaco de un vertebrado.

REGRESION CURVILINEA Cuando las variables X e Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea. Es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de segundo grado es: Y =a+bX+cX2 donde a , b y c son los parmetros.

El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Se seguir para ello, un razonamiento y la utilizacin de las ecuaciones normales de Gauss. Las ecuaciones normales son: Y = na + b X + C X2 (1) X Y = a X + b X2 + C X3 (2) X2 Y = a X2 + b X3 + C X4 (3) Para lo cual se necesita elaborar el cuadro con cada una de las variables que aparecen en las ecuaciones normales y los resultados obtenidos en este sustituirlos en ellas para encontrar los valores de las constantes. Para encontrar los valores de las constantes utilizaremos matrices. Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, suelen ser nmeros ordenados en filas y columnas. Se llama matriz de orden "m n" a un conjunto rectangular de elementos aij dispuestos en m filas y en n columnas. El orden de una matriz tambin se denomina dimensin o tamao, siendo m y n nmeros naturales. Las matrices se denotan con letras maysculas: A, B, C, ... y los elementos de las mismas con letras minsculas y subndices que indican el lugar ocupado: a, b, c, ... Un elemento genrico que ocupe la fila i y la columna j se escribe aij . Si el elemento genrico aparece entre parntesis tambin representa a toda la matriz : A = (aij) Al encontrar los valores de las constantes que buscamos sustituimos los valores en la ecuacin de regresin curvilnea para obtener los resultados que buscamos. Y poder estimar. Hacer las estimaciones correspondientes. Algunas de las regresiones curvilneas son las siguientes

PARBOLA DE REGRESIN

En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de segundo grado es: Y=a+bX+cX2 Donde a , b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Se seguir para ello, un razonamiento similar al que se hace en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresin sea mnima:

Donde y i son los valores observados de la variable dependiente, y y *i valores estimados segn el modelo;

Por tanto, D se puede escribir de la forma:

Para encontrar los valores de a , b y c que hacen mnima la expresin anterior, se igualarn las derivadas parciales de D con respecto a dichos parmetros a cero y se resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen, igual que en el caso de la regresin lineal simple, como ecuaciones normales de Gauss.

REGRESIN HIPERBLICA Cuando la dependencia entre las variables X e Y es de forma hiperblica, interesa ajustar a la nube de puntos una funcin del tipo:

La funcin a minimizar ser:

Donde

Por lo tanto,

Para minimizar la expresin, se calculan las derivadas parciales respecto a los parmetros a y b, igualando a cero:

En consecuencia, las ecuaciones normales sern:

FUNCIN EXPONENCIAL, POTENCIAL, Y LOGARTMICA El problema de ajustar un modelo potencial, de la forma Y = A X b y uno exponencial Y = A B X se reduce al de la funcin lineal, con solo tomar logaritmos.

REGRESIN LINEAL MLTIPLE.

La regresin lineal mltiple estima los coeficientes de la ecuacin lineal, con una o ms variables independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede intentar predecir el total de facturacin lograda por servicios prestados en una IPS cada mes (la variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los aos de antigedad en el sistema del usuario.

En la regresin lineal mltiple se utilizan ms de una variable explicativa; esto nos ofrece la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas.

Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple. El Modelo de regresin lineal mltiple El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas: Modelo de regresin simple:

Modelo de regresin mltiple:

5.2. CORRELACIN.

La correlacin es la forma numrica en la que la estadstica ha podido evaluar la relacin de dos o ms variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente. En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. La correlacin trata de establecer la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas.

Tipos de correlacin 1 Co rre la cin d irect a La correlacin directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.

2 Co rre la cin in ve rsa La correlacin inversa se da cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribucin es una recta decreciente.

3 Co rre la cin nu la La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

Grado de correlacin El grado de correlacin indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos: 1 . Co rre la ci n f ue rt e La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.

2 . Co rre la ci n d bil La correlacin ser dbil cuanto ms separados estn los puntos de la recta.

3 . Co rre la ci n n u la

5.3. REGRESIN Y CORRELACIN PARA DATOS AGRUPADOS. REGRESIN PARA DATOS AGRUPADOS. REGRESIN MNIMO-CUADRTICA Consiste en explicar una de las variables en funcin de la otra a travs de un determinado tipo de funcin (lineal, parablica, exponencial, etc.), de forma que la funcin de regresin se obtiene ajustando las observaciones a la funcin elegida, mediante el mtodo de Mnimos-Cuadrados (M.C.O.). Elegido el tipo de funcin ( ) la funcin de regresin concreta se obtendr minimizando la expresin:

(yj - (xi ) ) 2. nij en el caso de la regresin de Y/X

(xi - (yj ) ) 2. nij en el caso de la regresin de X/Y Puede probarse que es equivalente ajustar por mnimos cuadrados la totalidad de las observaciones (toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresin de la media; de forma que la regresin mnimocuadrtica viene ser