Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual...

15
Predicción Individual. Si lo que interesa es predecir un valor individual Y, Y 0 correspondiente a un valor dado de X, digamos, X 0 , entonces, como se muestra el mejor estimador lineal insesgado de Y 0 está dada también por (5.10.1), pero su varianza es la siguiente: (10.6) Además, se demuestra que Y 0 también sigue una distribución normal con media y varianza dadas por (10.1) y (10.6), respectivamente. Al sustituir σ 2 por la desconocida σ 2 , se colige que también sigue una distribución t. Por consiguiente, la distribución t sirve para inferir sobre la verdadera Y 0 . Al continuar con el ejemplo, vemos que la predicción puntual de Y 0 es 14.4656, igual a Y 0 , y su varianza es 1.2357. Por tanto, el intervalo de confianza a 95% para Y 0 correspondiente a X 0 = 100 es. (12.0190 ≤ Y 0 |Y 0 = 20 ≤ 16.9122) (10.7)

Transcript of Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual...

Page 1: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Predicción Individual.Si lo que interesa es predecir un valor individual Y, Y0 correspondiente a un valor dado de X, digamos, X0, entonces, como se muestra el mejor estimador lineal insesgado de Y0 está dada también por (5.10.1), pero su varianza es la siguiente: (10.6)

Además, se demuestra que Y0 también sigue una distribución normal con media y varianza dadas por (10.1) y (10.6), respectivamente. Al sustituir σ2 por la desconocida σ2, se colige que también sigue una distribución t. Por consiguiente, la distribución t sirve para inferir sobre la verdadera Y0. Al continuar con el ejemplo, vemos que la predicción puntual de Y0 es 14.4656, igual a Y0, y su varianza es 1.2357. Por tanto, el intervalo de confianza a 95% para Y0 correspondiente a X0 = 100 es.(12.0190 ≤ Y0|Y0 = 20 ≤ 16.9122) (10.7)

Page 2: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y0 individual es más amplio que el intervalo para el valor medio de Y0. (¿Por qué?) Calculamos los intervalos de confianza como en (10.7) condicionales a los valores de X dados en la tabla 3.2 y se obtiene la banda de confianza a 95% para los valores individuales Y correspondiente a estos valores de X. Esta banda de confianza, al igual que la banda de confianza para Y0 asociada con los mismos X, se muestra en la figura 6.Note una característica importante de las bandas de confianza de la figura 5.6. La amplitud más pequeña de estas bandas se presenta cuando X0 = X. (¿Por qué?) Sin embargo, aumenta considerablemente a medida que Y0 se aleja de X. (¿Por qué?) Este cambio indicaría que la capacidad de predicción de la línea de regresión muestral histórica decrece mucho a medida que X0 se aleja cada vez más d X. Por consiguiente, se debe tener cuidado al “extrapolar” la línea de regresión histórica para predecir E(Y|X0) o Y0 asociada a una X0 dada muy alejada de la media muestral X.

Page 3: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Informe de resultados del análisis de regresión.- Hay diversas formas de presentar los resultados de un análisis de regresión; sin embargo, en este texto utilizaremos el siguiente formato, con el ejemplo de los salarios y el nivel de escolaridad.

Y1 = -0.0144 + 0.7240Xi

ee = (0.9317) (0.0700) r2 = 0.9065t = (-0.0154) (10.3428) gl = 11 (11.1)p = (0.987) (0.000) F1.11 = 108.30

En la ecuación (11.1), las cifras del primer conjunto de paréntesis son los errores estándar estimados de los coeficientes de regresión; las cifras del segundo conjunto son los valores t estimados calculados de (3.2) según la hipótesis nula de que el verdadero valor poblacional de cada coeficiente de regresión individual es cero (es decir, 10.3428 = ); y las cifras del tercer grupo son los valores p estimados. Por tanto, para 11gl, la probabilidad de obtener un valor t igual o mayor que 10.3428 es de 0.00009, o prácticamente cero.Al presentar los valores p de los coeficientes t estimados, se aprecia de inmediato el nivel exacto de significancia de cada valor t estimado Así, conforme a la hipótesis nula de que el verdadero valor de la pendiente poblacional es cero (es decir, que el nivel de escolaridad no produce ningún efecto en el salario promedio), la probabilidad exacta de obtener un valor t igual o mayor que 10.3428 es prácticamente cero. Recuerde que cuanto menor sea el valor p, menor será también la probabilidad de cometer un error si se rechaza la hipótesis nula.

Page 4: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Ya mostramos la conexión entre los estadístico F y t, a saber, F1.k = . Según la hipótesis nula de que el verdadero β2 = 0, la ecuación (11.1) muestra que el valor F es 108.30 (para 1 gl en el numerador y 11gl en el denominador), y el valor t es cercano a 10.34 (11 gl); como se esperaba, el primer valor es igual al último valor elevado al cuadrado, salvo por errores de aproximación. Ya se analizó la tabla ANOVA para este problema.

12.- Evaluación de los resultados del análisis de regresión.- . Ahora que presentamos los resultados del análisis de regresión del ejemplo de salarios y niveles de escolaridad en (11.1) cabe cuestionar la bondad del modelo ajustado. ¿Qué tan “bueno” es el modelo ajustado? Necesitamos ciertos criterios para responder esta pregunta.Primero, ¿están los signos de los coeficientes estimados de acuerdo con las expectativas teóricas o previas? A priori, β2 en el ejemplo de los salarios y el nivel de escolaridad debe ser positivo, En el presente ejemplo, lo es.

Page 5: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Segundo, si la teoría sostiene que la relación no debe ser solo positiva sino también estadísticamente significativa, ¿es el caso en la presente aplicación? Como analizamos en la sección 5.11, el coeficiente del nivel de escolaridad no solo es positivo, sino también estadísticamente significativo, es decir, diferente de cero; el valor p del valor t estimado es muy pequeño. Valen los mismos comentarios para el coeficiente del intercepto.

Tercero, ¿Qué tan bien explica el modelo de regresión la variación en el ejemplo? Se puede responder con r2. En nuestro ejemplo, r2 es de alrededor de 0.90, un valor mayor muy alto si consideramos que r2 puede ser máximo 1.Así, parece muy bueno el modelo escogido para explicar el comportamiento de los salarios promedio. Pero antes de comprometerse con él, sería interesante averiguar si satisface los apuestos del MCRLN. No veremos ahora los diversos supuestos, pues la simplicidad del modelo es clara

Page 6: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Solo hay un supuesto que se puede verificar, a saber, el de normalidad del término de perturbación, uj. Recuerde que las pruebas t y F requieren que el término de error siga una distribución normal. De lo contrario, el procedimiento de prueba no será válido en muestras pequeñas.Pruebas de normalidad.- Se consideran tres.1.- Histograma de residuos.Es un simple dispositivo grafico para saber algo sobre la forma de la función de densidad poblacional (FDP) de una variable aleatoria. En el eje horizontal se dividen los valores de la variable de interés (por ejemplo, los residuos de MCO) en intervalos convenientes, y sobre cada intervalo de clase se construyen rectángulos cuya altura sea igual al número de observaciones (es decir, la frecuencia) para ese intervalo de clase. Si mentalmente se coloca la curva de distribución normal en forma de campana sobre el histograma, se tendrá cierta idea sobre la pertinencia o no de la aproximación normal (FDP).

En la figura 7 se presenta el histograma de residuos correspondientes a la regresión de salarios y nivel de escolaridad. Este diagrama muestra que los residuos no tienen distribución normal perfecta; para una variable distribuida normalmente, la asimetría (una medida de la simetría) debe ser cero, y la curtosis (que mide si la distribución normal es alta o baja), 3.

Page 7: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

0

Residuo

Frec

uenc

ias

Figura 7Histograma de residuos de los datos de salarios y nivel de escolaridad

2

1

3

4

- 1.5 - 1.0 - 0.5 0 0.5 1.0 1.5

Histograma (La respuesta es el salario promedio por hora

Page 8: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Siempre es aconsejable trazar el histograma de los residuos de cualquier regresión como método aproximado y rápido para probar el supuesto de normalidad.2.- Grafica de probabilidad normalUn dispositivo gráfico relativamente sencillo para estudiar la forma de la función de densidad de probabilidad (FDP) de una variable aleatoria es la gráfica de probabilidad normal (GPN), la cual utiliza el papel de probabilidad normal, especialmente diseñado para gráficas. Sobre el eje horizontal, o eje X, se grafican los valores de la variable de interés (por ejemplo, los residuos de MCO, ui), y sobre el eje vertical, o eje Y, el valor esperado de esta variable si estuviera normalmente distribuida. Por tanto, si la variable fuese de la población normal, la GPN sería más o menos una línea recta. La GPN de los residuos correspondientes a la regresión de los salarios y el nivel de escolaridad se muestra en la figura 8, si la línea resultante en la GPN es aproximadamente una línea recta, se puede concluir que la variable de interés está normalmente distribuida. En la figura 7 se aprecia que los residuos del ejemplo están aproximadamente distribuidas normalmente, pues al aparecer una línea recta se ajusta a los datos de forma razonable.

Page 9: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

la prueba de normalidad Anderson-Darling, conocida como estadístico A2. La hipótesis nula es que la variable en cuestión esta normalmente distribuida. Como se muestra en la figura 5.8, para el ejemplo, el estadístico A2 calculado es 0.289. El valor p de obtener tal valor de A2 es de 0.558, razonablemente alto. Por consiguiente, no rechazamos la hipótesis de que los residuos del ejemplo ilustrativo están normalmente distribuidos. A propósito, en la figura 5.8 se muestran los parámetros de la distribución (normal), la media es aproximadamente 0, y la desviación estándar, de casi 0.8987..

Prueba de normalidad de Jarque-Bera (JB).- La prueba de normalidad JB es una prueba asintótica, o de muestras grandes. También se basa en los residuos de MCO. Esta prueba calcula primero la asimetría y la curtosis de los residuos de MCO, con el siguiente estadístico de prueba: (12.1)

Page 10: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

1

RESII

Porc

enta

jes

FIGURA 5.8Residuos de la regresión de salarios y nivel de escolaridad

10

5

20

30

- 2 - 1 0 1 2

Grafico de probabilidad de REII

40

50

6070

80

9095

99

Media = - 3.21111E-15Desv.est. = 0.8987N = 13A2 = 0.289Valor p = 0.558

Page 11: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

Donde n = tamaño de la muestra, S = coeficiente de asimetría y K = coeficiente de curtosis.Para una variable normalmente distribuida, S = 0 y K = 3. Por tanto, la prueba de normalidad JB constituye una prueba de la hipótesis conjunta de que S y K son 0 y 3, respectivamente. En este caso, se espera que el valor del estadístico JB sea igual a cero.De acuerdo con la hipótesis nula, la cual afirma que los residuos están normalmente distribuidos, Jarque y Bera mostraron que asintóticamente (es decir, en muestras grandes) el estadístico JB dado en (12.1) sigue la distribución ji cuadrada, con 2 gl. Si el valor p calculado del estadístico JB es lo bastante bajo en una aplicación, lo cual sucederá si el valor del estadístico difiere en gran medida de cero, se puede rechazar la hipótesis de que los residuos están normalmente distribuidos. Pero si el valor p es razonablemente alto, lo cual sucede cuando el valor del estadístico está cerca de cero, no rechazamos la suspensión de normalidad.

Page 12: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

En nuestro ejemplo, el estadístico JB estimado para la regresión de salarios y nivel de educación es 0.8286. La hipótesis nula de que los residuos en el presente ejemplo están distribuidos normalmente no puede rechazarse, pues el valor p de obtener un estadístico JB igual o mayor que 0.8286 es de alrededor de 0.66, o 66%. Esta probabilidad es muy alta. Observe que, aunque la regresión tiene 13 observaciones, estas se obtuvieron de una muestra de 528 observaciones, lo que parece razonablemente alto.Otras pruebas del ajuste del modelo.Recuerde que el MCRLN tiene muchos supuestos adicionales al de la normalidad del término de error. A medida que examinemos la teoría econométrica, consideraremos diversas pruebas de bondad del modelo.

Un ejemplo para concluir.- Regresemos al ejemplo anterior respecto del gasto alimentario en India. Con los datos de (7.2) y el formato (11.1), obtenemos la siguiente ecuación para el gasto:GasAlii = 94.2087 + 0.4368 GasToti

ee = (50.8563) (0.0783) (12.2) t = (1.8524) (5.5770) p = (0.0695) (0.0000)* r2 = 0.3698; gl = 53 F1,53 = 31.1034 (valor p = 0.0000)*Donde * significa extremadamente pequeño

Page 13: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

En primer lugar, interpretemos esta regresión. Como se esperaba, hay una relación positiva entre el gasto alimentario y el gasto total. Si este último se incrementara una rupia, en promedio, el gasto en comida aumentaría casi 44 paisas. Si el gasto total fuera nulo, el gasto promedio en comida sería más o menos de 94 rupias. Por supuesto, esta interpretación mecánica del intercepto quizá no tenga mucho sentido en la economía. El valor r2 de casi 0.37 significa que 37% de la variación en el gasto alimentario se explica por el gasto total, una aproximación para el ingreso.

Suponga que deseamos probar la hipótesis nula de que no existe relación entre el gasto alimentario y el total; es decir, el verdadero coeficiente de la pendiente β2 = 0. El valor estimado de β2 es 0.4368. Si la hipótesis nula es cierta, ¿Cuál es la probabilidad de obtener un valor igual a 0.4368? Según la hipótesis nula, se observa de (12.2) que el valor t es 5.5770 y que el valor p de obtener dicho valor t es prácticamente cero. En otras palabras, se puede rechazar la hipótesis nula con toda justificación. Pero suponga que la hipótesis nula fuese que β2 = 0.5, ¿qué pasaría? Con la prueba t obtenemos.

Page 14: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

La probabilidad de obtener una |t| de 0.8071 es mayor que 20%. Por tanto, no se rechaza la hipótesis de que el verdadero valor de β2 sea 0.5.Observe que, conforme a la hipótesis nula, el verdadero coeficiente de la pendiente es cero, el valor f es 31.1034, como se muestra en (12.2). Según la misma hipótesis nula, se obtiene un valor t de 5.5770. Si elevamos al cuadrado este valor, se obtiene 31.1029, que es casi el mismo que el valor F, con lo cual se muestra de nuevo la estrecha relación entre t y el estadístico F.(Nota: el número de gl del numerador del estadístico F debe ser 1, lo cual ocurre en este caso.)Con los residuos estimados de la regresión, ¿qué podemos decir respecto de la distribución de probabilidad del término de error? La respuesta se da en la figura 9. Como ahí se muestra,

Page 15: Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.

0

Residuos

Num

ero

de o

bser

vaci

ones

FIGURA 5.9Residuos de la regresión del gasto alimentario.

4

2

6

8

- 150 - 100 - 50 0 50 100 150

Series: residuosMuestra: 1.55Observaciones: 55Media = - 1.19 * 10 -14Mediana = 7.747849Máximo = 171.5859Mínimo = - 153.7664Desviación estándar = 66.23382Asimetría = 0.119816Curtosis = 3.234473Jarque-Bera = 0.257585Probabilidad = 0.879156

12

10

14