1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf ·...

Click here to load reader

  • date post

    19-Aug-2018
  • Category

    Documents

  • view

    216
  • download

    0

Embed Size (px)

Transcript of 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf ·...

  • Distribucion Normal estandar y cuadrados mnimosUniversidad de Puerto Rico

    ESTA 3041

    Prof. Hector D. Torres Aponte

    1. Distribucion Normal estandar

    En efecto, todas las distribuciones Normales son lo mismo si usamos las unidades de me-dida alrededor de su media que es el centro. El proceso para cambiar nuestra distribuciona estas variables se le conoce como estandarizacion.

    Definicion 1.1. Si x es una observacion de una distribucion con media y desviacionestandar , el valor estandar de x lo es

    z =x

    Este valor estandar tambien se le conoce como valor-z.

    El valor-z nos indica cuantas desviaciones estandares esta la observacion original de simedia y en que direccion. Las observaciones mayores que su media toman valores postivoscuando se estandarizan mientras los valores que son menores a su media toman valoresnegativos.

    Ejemplo 1.1. El peso de una bolsa de papitas cuya etiqueta indica que es de 9oz esaproximadamente Normal con = 9.12oz y = 0.15oz. El peso estandar es

    z =weight 9.12

    0.15

    Por ejemplo una bolsa que pese 9.3oz, su peso estandarizado lo es

    z =9.3 9.12

    0.15= 1.2

    o simplemente 1.2 desviaciones estandar por encima de la media. Similarmente una bolsaque pese 8.7oz tiene un peso estandarizado de

    z =8.7 9.12

    0.15= 2.8

    o 2.8 desviaciones por debajo de la media.

    Si las variables originales (antes de aplicar el proceso de estandarizacion) tenan unadistribucion normal, el proceso de estandarizacion no brinda una nueva escala (comun) yesta distribucion sigue siendo una Normal conocida como distribucion Normal estandar.

    1

  • Definicion 1.2. La distribucion Normal estandar es la distribucion Normal N (0, 1) quetiene media 0 y desviacion estandar 1. Si una variable x tiene una distribucion NormalN (, ) entonces la variable estandar lo es

    z =x

    y tiene una distribucion Normal.

    Ejemplo 1.2. Cual es la proporcion de todas las bolsas de papitas (cuya etiqueta indicaque su peso es de 9oz) que pesan menos de 9.3oz? Utilizando los datos del Ejemplo 1, podemosdecir que esta proporcion es el area bajo curva N (9.12, 0.15) a la izquierda del punto 9.3.Como el peso estandar correspondiente a 9.3 onzas lo es

    z =x

    =9.3 9.12

    0.15= 1.2

    el area es la misma que el area bajo la curva de la distribucion Normal estandar a la izquierdadel punto z = 1.2.

    z = 1.2

    Table entry = 0.8849

    Figura 1: El area bajo la curva Normal estandar a la izquierda del punto z = 1.2.

    Para encontrar este resultado de forma matematica necesitamos calculo diferencial. Pero,como no tenemos esa herramienta podemos utilizar unas tablas de valores llamada probabil-idades normales estandares.

    Definicion 1.3 (Proceso para utilizar la tabla Normal estandar). 1. Escriba el problemaen terminos de la variable observada x.

    2. Estandarizamos a x para re-escribir el problemas en terminos de variables Normalesestandares z. Dibujamos un diagrama para mostrar el area bajo la curva que queremosencontrar.

    3. En contramos el area bajo la curva requerida utilizando la tabla Normal estandar quese encuentra en la contraportada del libro. Note que el area total de esta curva siemprees 1.

    2

  • Ejemplo 1.3. La tasa de rendimiento anual de ciertas acciones se distribuye aproximada-mente Normal. Desde el 1945, la bolsa de valores Standard & Poors 500 tiene un rendimientoanual promedio de 12 % con una desviacion estandar de 16.5 %. Se toma esta distribucionNormal para el rendimiento anual por largos periodos. En que proporcion de anos el mercadobaja?

    1. Establecer el problema: Sea x la tasa de rendimiento anual de Standard & Poors 500.La variable x tiene una distribucion Normal N (12, 16.5). Queremos saber la proporcioncuando x < 0.

    2. Estandarizamos: Restando la media de x y dividiendo por la desviacion estandar, obten-emos:

    x < 0x 1216.5

    < 0

    z < 0.73

    3. Usamos la tabla: Utilizando la tabla para la distribucion Normal estandar podemos verque el area es 0.2327. El mercado va bajar anualmente un 23.27 % del tiempo. Noteque el area a la derecha de 0.73 es 1 0.2327 = 0.7673. Lo que nos indica que labolsa va a estar por encima un 76.73 % del tiempo (Ver Figura 2).

    z = 0.73

    Table entry = 0.2327

    Area = 0.7673

    Figura 2: Area bajo la curva en una curva Normal estandar

    Ejemplo 1.4. Que porciento de anos tendra un rendimiento anual entre un 12 % y 50 %?

    1. Queremos la proporcion de los anos entre 12 x 50.

    2. Estandarizamos

    12 x 5012 12

    16.5 x12

    16.5 50 12

    16.50 z 2.30

    3

  • 3. Usando la tabla, el area entre 0 y 2.30 es el area por dejabo de 2.30 menos el area pordebajo de 0 Ver Figura 3. De la tabla de distribucion obtenemos:

    area entre 0 y 2.30 = area debajo de 2.30 area debajo de 0.00= 0.9893 0.5000 = 0.4893

    Alrededor de 40 % de los anos tienen un rendimiento anual entre 12 % y 50 %.

    z = 0 z = 2.3

    Area = 0.5

    Area = 0.9893

    Area = 0.4893

    Figura 3: Area bajo la curva Normal estandar para el ejemplo 1.4

    4

  • 2. Regresion lineal y cuadrados mnimos

    Definicion 2.1. Una linea de regresion es una linea recta que describe como la variablerespuesta y cambia respecto a la variable explicativa x. Usamos la linea de regresion parapredecir los valores de y dado un valor x.

    0 5 10 15 20 25 30 35 40 45 50 55

    1211109876543210

    Average number of heating degree-days per day

    Ave

    rage

    am

    ount

    of g

    as c

    onsu

    med

    per

    day

    in h

    undr

    eds

    of c

    ubic

    feet

    Figura 4: Regresion lineal para el consumo de gas natural de cierta familia.

    La fgura 4 es un diagrama de dispercion para el consumo de gas natural. Vemos quelos datos tienen una relacion lineal muy fuerte entre la temperatura y la cantidad promediode gas consumido. La correlacion es r = 0.9953, vemos que esta es muy cercano a r = 1.La linea de regresion dibujada en la Figura 4 representa muy bien los datos obtenidos en eldiagrama de dispersion.

    Si queremos prenosticar cuanto gas podemos consumir cuando la temperatora esta en 20grados por da entonces tenemos que localizar cuando x = 20, luego nos movemos haca lalinea y vemos el valor de y el cual es aproximadamente 4.9 miles de pies cubicos de gas enese mes.

    Obviamente como es una prediccion, probablemente tenemos un error. Supongamos queen el mes que se hizo la prediccion realmente consumieron 5.1 miles de pies cubicos de gasnatural, entonces nuestro error de prediccion fue:

    error = observacion y prediccion y= 5.1 4.9 = 0.2

    Es por eso que queremos saber cual es la distancia mnima entre los puntos observados y lalinea. La Figura 5 ilustra esta idea.

    Definicion 2.2. La linea de regresion lineal de cuadrados mnimos de y respecto a x es lalinea que representa la suma de los cuadrados de las distancias verticales de los puntos de ladata hasta la linea haciendolos lo mas pequeno posible.

    5

  • 20 22 24 26 28 30 32

    4.5

    7.0

    5.0

    5.5

    6.0

    6.5

    Average number of heating degree-days per day

    Ave

    rage

    am

    ount

    of g

    as c

    onsu

    med

    per d

    ay in

    hun

    dred

    s of

    cub

    ic fe

    et

    predicted y

    distance y y

    observed y

    Definicion 2.3. Suponga que tenemos data sobre una variable explicativa x y una variablerespuesta y para n individuos. De esta data calculamos la media x y y y las desviacionesestandares sx y sy de las dos variables y su correlacion r. La regresion lineal (cuadradosmnimos) es la linea definida por:

    y = b0 + b1x

    con pendiente

    b1 = rsysx

    e interceptob0 = y b1x

    Ejemplo 2.1. La linea de la Figura 4 es en efecto una regresion linear de cuadrados mnimos.Esta linea tiene una ecuacion definida como:

    y = 1.0892 + 0.1890x

    La pendiente de la regresion lineal es siempre importante para interpretar la data. Lapendiente es la tasa de cambio de la cantidad de cambio en y cuando x incrementa por 1.En este ejemplo b1 = 0.1890 lo que implica a que grado de temperatura adicional aumenta elconsumo por 0.19 miles de pies cubicos de gas natural.

    El intercepto de la regresion lineal es el valor y cuando x = 0. Para la prediccion esbastante sencillo. Si queremos predecir para 20 grados en el da, sustituimos x = 20:

    y = 1.0892 + (0.1890) (20)

    = 1.0892 + 3.78 = 4.869

    6

  • Datos sobre la regresion lineal

    1. La identificacion de la variable explicativa y la variable respuesta es algo escencial almomento de establecer nuestra regresion.

    2. Existe una relacion entre la correlacion y la pendiente de la regresion. La pendiente es

    b1 = rsysx

    . Esta ecuacion nos indica el cambio a travez de la linea de regresion, hay un cambiode una desviacion in x respecto a r desviaciones estandares en y.

    3. La linea de regresion siempre pasa por el punto (x, y).

    7