Inferencia Estadística

of 41 /41
. -Pedro M. Valero Mora 2008 1 BLOQUE IV: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA PEDRO VALERO MORA

Embed Size (px)

description

Notas sobre Inferencia Estadística

Transcript of Inferencia Estadística

  • . BLOQUE IV: INTRODUCCIN A LA INFERENCIA ESTADSTICA

    PEDRO VALERO MORA -Pedro M. Valero Mora 2008 1

  • 1.1 Notacin. Parte 1 Distribucin muestral

    1.1 Notacin

    MUESTRA 1 {x1, x2, ..., xn}

    Estadsticos: 1 , 1 , 1 , ... Estimaciones puntuales: 1x , s1, p1,

    MUESTRA 2 {x1, x2, ..., xn}

    Estadsticos: 2 , 2 , 2 , ... Estimaciones puntuales: 2x , s2, p2,

    POBLACIN Parmetros: , , , ...

    Muestreo aleatorio

    Las estimaciones puntuales son las calculadas utilizando la muestra disponible y aplicando las formulas usuales

    Los parmetros son valores ideales que no conocemos exactamente en la gran mayora de los casos

    Los estadsticos son aproximaciones a los parmetros calculados a partir de las estimaciones puntuales ms los intervalos en los que puede razonablemente estar el parmetro

    1.2 Cul es la media?O la desviacin tpica, correlacin,etc.

    En el cuatrimestre anterior se estudia como calcular estimaciones puntuales.

    Los valores estimados para una muestra podran ser diferentes para una muestra diferente.

    En el informe PISA los resultados en matemticas en Espaa podran ser diferentes si se hubieran muestreado otros estudiantes.Parte 1 Distribucin muestral-Pedro M. Valero Mora 2008 2

  • 1.3 Muestras y distribuciones muestrales. No obstante, el resultado sera diferente pero no muy diferente. Cmo podemos valorar la diferencia?

    1.3 Muestras y distribuciones muestralesCul es el nivel medio de matemticas?

    Poblacin y muestra

    La figura de abajo representa los tres conceptos que vamos a manejar.

    15.7 17.7 19.8 21.8 23.8 25.8 27.8 29.8 31.8 33.8 35.8 37.8

    02

    46

    8

    15.7 17.7 19.8 21.8 23.8 25.8 27.8 29.8 31.8 33.8 35.8 37.8

    02

    46

    8

    x

    x

    a) Poblacin

    b) Muestra

    c) Distribucin muestralParte 1 Distribucin muestral-Pedro M. Valero Mora 2008 3

  • 1.4 Qu forma tiene la distribucin muestral?. 1.4 Qu forma tiene la distribucin muestral?Un poco de simulacin

    Demostracin en ViSta La idea es ver como la distribucion muestral va variando a medida que se va

    aumentando el nmero de muestras cogidas. Tambin se puede ver como el proceso funciona cuando las muestras que se cogen son

    ms grandes. Por ultimo, se puede ver que utilizando una distribucin que no es la normal, la

    distribucin muestral de la media tambin tiende a lo normal.

    Conclusiones La distribucin muestral tiene forma normal cuando se cogen muchas muestras y son

    grandes La distribucin muestral es aproximadamente normal independientemente de la forma

    que tenga la distribucin original.

    1.5 Por qu es importante la forma de la distribucin muestral de la media?Anticipando lo que vamos a ver

    La forma de la distribucin muestral de la media es importante porque nos per-mite calcular intervalos de confianza alrededor de la media.

    Como la distribucin muestral de la media es normal en muchos casos podemos utilizar los valores de z que ya conocemos

    No obstante, en la seccin siguiente aprenderemos que la distribucin muestral de la media no siempre es normal y que hay que utilizar tambin otras distribuciones. Esto ocurre cuando las muestras son pequeas.

    1.6 Y si las muestras son pequeas que pasa?La ltima para el camino

    Gosset demostr que cuando las muestras son pequeas, la distribucin mues-tral de la media sigue la distribucin t de Student con n-1 grados de libertad

    Gosset se dedicaba al control de calidad de Guiness y probar muestras muy grandes no estara bien vistoParte 1 Distribucin muestral-Pedro M. Valero Mora 2008 4

  • 1.6 Y si las muestras son pequeas que pasa?. Qu diferencia hay entre la distribucin normal y la distribucin t?

    La distribucin t con muestras pequeas es ms ancha (tiene valores ms grandes). Cuando la muestra aumenta, no hay mucha diferencia (muestra grande) Esto tiene la consecuencia de que cuando las muestras son pequeas es ms probable

    obtener resultados que se alejan de la media. En el caso de Gosset, al encontrar que los valores de calidad usados se alejaban de la

    media deseable, y usando la distribucin normal, se dio cuenta de que estaba rechazando ms muestras por baja calidad de lo que en principio debera. Al utilizar la distribucin t de Student eso dej de ocurrir.

    Ejercicio 1.6.1 En el informe PISA se dice que Espaa tiene una media en matemticas de 476. Podemos decir que Espaa tiene un rendimiento medio menor que Hungria?Solucin 1.6.1 La media de rendimiento para Espaa est calculada en una muestra, as que no sabemos realmente cual es el rendimiento medio en Espaa, slo una aproximacin. Como vere-mos en los siguientes temas, este tipo afirmaciones tienen que ser matizadas

    Ejercicio 1.6.2 Tiene un rendimiento mayor que Brasil?Solucin 1.6.2 La contestacin al Ejercicio 1.6.1 es tambin valida aqu.Parte 1 Distribucin muestral-Pedro M. Valero Mora 2008 5

  • 1.7 Caractersticas de la distribucin muestral de la media. 1.7 Caractersticas de la distribucin muestral de la mediaEl ejemplo ms normal

    La forma de la distribucin muestral de la media es la distribucin normal

    No obstante, esto se cumple slo si la muestra es grande (digamos ms de 30 o 40).

    Si la muestra es pequea, entonces la distribucin es la t con n-1 grados de libertad (la distribucin t se define con grados de libertad)

    La media de la distribucin muestral es la media de la poblacin

    La desviacin tpica de las distribuciones muestrales se llama Error tpico o estndar, y hay dos casos:

    Cuando conocemos la desviacin tpica de la poblacin.

    Error tpico con varianza conocida=

    Cuando no conocemos la desviacin tpica. Este caso es el ms comn en la prctica. El caso anterior es muy poco comn.

    Error tpico (con varianza desconocida)=

    En el caso que la varianza es desconocida, el Error Tpico debe compararse con la distribucin

    Esta correccin o caso especial slo tiene importancia con muestras pequeas ya que la distribucin t con muestras grandes ya hemos dicho que es muy parecida a la normal.

    n( )

    sn 1 n( )

    tn 1

    t NormalParte 1 Distribucin muestral-Pedro M. Valero Mora 2008 6

  • 1.8 Resumen de esta seccin. Nota importante: En la prctica casi siempre podremos utilizar la distribucin t porque cubre la mayora de los casos realistas.

    La nica situacin en la que deberamos utilizar la distribucin normal sera cuando la muestra es pequea y conocemos la desviacin tpica (lo cual es raro, pero vase Ejercicio 1.7.1).

    Ejercicio 1.7.1 Los administradores de un hospital estaban preocupados por la forma en que se estaba atendiendo a mujeres embarazadas en esa parte de la ciudad. Para estudiar esa atencin, examinaron el tiempo de gestacin de los nios nacidos en esa zona de la ciudad. Extrajeron una muestra de 25 nios nacidos en el hospital en los seis meses anteriores. El tiempo de gestacin humana se sabe que tiene una media de 266 das y una desviacin tpica de 16 das. Los adminis-tradores del hospital queran saber si la media del tiempo de gestacin de los nios nacidos en su hospital era la misma que la media conocida Cul es el error tpico del tiempo de gestacin humana?Solucin 1.7.1 Para este test habra que utilizar el valor establecido para la desviacin tpica (16 das), en lugar de estimarlo de la muestra (que adems no nos dan en el enunciado).

    Ejercicio 1.7.2 En el informe PISA se proporciona, adems de la media del nivel de matemticas por pases, el ERROR TPICO de esa media. A partir de ese error tpico, entre qu valores est el valor de Espaa?Solucin 1.7.2 De momento, todava no podemos hacer este ejercicio con lo que sabemos. En la seccin sobre intervalos de confianza aprenderemos a responder este tipo de cuestiones.

    1.8 Resumen de esta seccinLas ideas fundamentales del semestre en 5 minutos

    Nosotros trabajamos con muestras, no con poblaciones.

    No estamos seguros de los valores en la poblacin, slo de los valores en la muestra. Tenemos que estimar los primeros a partir de los segundos.

    En el caso de la media, aunque no sabemos su valor en la poblacin sabes cual es la distribucin muestral de la media->la distribucin normal con muestras grandes y la distribucin t-1 con muestras pequeas

    Tiene una desviacin tpica que llamamos error tpico y que sabemos como calcular (mirar frmula en page 6)

    Con todo lo anterior podemos pasar al siguiente paso: Hacer intervalos de con-fianza y pruebas de hiptesis para las mediasParte 1 Distribucin muestral-Pedro M. Valero Mora 2008 7

  • 2.1 Calculando intervalos de confianza. Parte 2 Intervalos de confianza

    2.1 Calculando intervalos de confianza

    Volviendo al informe PISA, para qu nos sirve la distribucin muestral? Vemos que y que (lo pone en la pgina 5 del

    informe) Sabemos que la distribucin muestral sigue la distribucin normal por lo que podemos

    usar sus propiedades.

    Si pudiramos muestrear la poblacin de escolares en Espaa muchas veces y suponiendo que 485 es la media de la poblacin, entonces:

    Entre estara la media de aproximadamente el 60% de las muestras

    Entre

    estara la media de aproximadamente el 95% de las muestras. Entre

    estara la media de aproximadamente el 99% de las muestras

    .Nosotros no podemos muestrear repetidas veces, ni tampoco estamos seguros de que 485 sea la media de la poblacin, pero asumiendo que la distribucin muestral de la media sigue la distribucin normal, podemos decir:

    Tenemos una confianza del 60% que la media de la poblacin est entre

    Tenemos una confianza del 95% que la media de la poblacin est entre

    Tenemos una confianza del 99% que la media de la poblacin est entre

    x 485= ET 2.4=

    485 2.4 x 1 ErrorTipico=

    485 1.96 2.4 x 1.96 ErrorTipico=

    485 2.575 2.4 x 2.575 ErrorTipico=

    x 1 ErrorTipico

    x 1.96 ErrorTipico

    x 2.575 ErrorTipicoParte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 8

  • 2.1 Calculando intervalos de confianza. La forma ms comn de un intervalo de confianza es:

    Ecuacin (1)

    En donde es la estimacin puntual, es la puntuacin obtenida de las tablas de la distribucin normal para que es el error admitido (normalmente 5%) dividido por 2 (por que hay que dejar la mitad a un lado y la otra mitad al otro lado)

    No obstante, hay que tener en cuenta que si la muestra es pequea no se utiliza la distribucin normal sino la distribucin muestral . Si usamos , en este caso, la frmula es:

    Qu valores tienen z y t ?

    con un nivel de confianza del 95% y prueba de dos colas tiene un valor 1.96. Este valor es interesante aprenderlo de memoria.

    con un nivel de confianza del 95% y muestras mayores de 40 es tambin prcticamente 1.96.

    con un nivel de confianza del 95% y muestras menores de 40 es mayor de 1.96 (es conveniente mirar el valor en las tablas).

    Ejercicio 2.1.1 En el informe PISA, Espaa tuvo una media de 484 y un Error tpico de 2.4. Cal-cular el intervalo de confianza entre los que estar la verdadera media.Solucin 2.1.1 Este ejercicio tiene trampa. Cul es?

    Ejercicio 2.1.2 El ejercicio de antes no se puede hacer. Falta la confianza con la que queremos trabajar. Normalmente utilizaremos un nivel de confianza del 95%. Cul es la z para 95%?Solucin 2.1.2 Hay que aprenderselo de memoria. Es 1.96.

    Ejercicio 2.1.3 Ahora, cul es el intervalo de confianza para Espaa?

    Solucin 2.1.3 Esto se lee del siguiente modo: Con una confianza del 95% la media de Espaa estara entre 479 y 489 aprox.

    Ejercicio 2.1.4 Supongamos que para hacer el intervalo anterior utilizamos la distribucin t en lugar de z. Qu valor deberamos buscar?

    Solucin 2.1.4 Deberamos buscar . Podemos ver que

    no hay diferencia prctica entre ese valor y el de z cuando el n es grande.

    x z 2 ET x( )

    x z 2

    z t t

    x tn 1 2, ET x( )

    z

    t

    t

    484 1.96 2.4 479.3 488.7,( )=

    t0.975 10761 1( ), 1.9601844=Parte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 9

  • 2.2 La distribucin muestral de otros estadsticos. Ejercicio 2.1.5 Cul es el intervalo de confianza para Finlandia? A partir de ahora si no indica-mos el nivel de confianza teneis que asumir que es el 95%Solucin 2.1.5 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.6 Cul es el intervalo de confianza para Suiza?Solucin 2.1.6 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.7 Cul es el intervalo de confianza para Francia?Solucin 2.1.7 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.8 Cul es el intervalo de confianza para Suecia?Solucin 2.1.8 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.9 (Este ejemplo est tomado de De Veaux, Velleman y Bock, 2005 p. 453). Los accidentes de vehculos a motor son la causa principal de muerte para la gente entre 4 a 33 aos. En el ao 2000, los accidentes de vehculos a motor fueron responsables de 41821 muertes en US, algo ms que los 41717 que en el ao anterior. Esto significa, en promedio, 115 muertes al da, o 1 muerte cada 13 minutos. La velocidad es un factor contribuyente en un 29% de los accidentes mortales. No slo se perdieron 12350 vidas en accidentes relacionados con velocidad en el ao 2000, sino que el coste econmico de esos accidentados es estimado en unos 27.4$ billones por ao. La calle Triphammer es una calle con mucho trfico que pasa por medio de un vecindario residen-cial. Los residentes estn preocupados porque los vehculos que pasan a menudo superan el lmite de 30 millas por hora. La polica local algunas veces pone un radar al lado de la carretera de tal modo que cuando pasan los vehculos, el detector muestra la velocidad a la que van. Para ver si los coches pasan a la velocidad correcta, un residente se puso cerca del radar y apunt la veloci-dad de los vehculos que pasaban durante un perido de 15 minutos. Cuando pasaban varios,

    apunt slo la velocidad del primero. Los resultados que obtuvo son que, con ,

    y . Utilizando un intervalo del 95%, Entre qu valores estara

    la velocidad de los vehculos que pasan por esa calle?Solucin 2.1.9 En este ejercicio no se indica la solucin a propsito

    2.2 La distribucin muestral de otros estadsticosEl ms importante es la proporcin

    Cada estadstico (media, varianza, proporcin, correlacin, etc.) tiene su pro-pia distribucin muestral.

    La forma de la distribucin de esos estadsticos suele ser la distribucin nor-mal o la t de Student pero no siempre.

    La varianza por ejemplo no sigue la distribucin normal ni la distribucin t.

    n 23=

    x 31= s 4.25=Parte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 10

  • 2.3 Distribucin muestral de las proporciones. La desviacin tpica sigue la distribucin t con muestras pequeas pero es normal con muestras de ms de 30 individuos.

    Las proporciones es uno de los casos ms interesantes. Lo veremos en la sec-cin siguiente.

    2.3 Distribucin muestral de las proporcionesLas proporciones son muy importantes

    Una proporcin es el nmero de veces que se da una caracterstica dividido por el total de casos:

    Si multiplicamos una proporcin por 100 tenemos un porcentaje. Aunque los porcentajes son ms conocidos usaremos proporciones porque los clculos son ms cmodos.

    La distribucin muestral de las proporciones sigue la distribucin binomial para n (nmero de casos) y p (la proporcin de xitos).

    No obstante, en la prctica se utiliza la denominada aproximacin normal a la

    binomial. Esta aproximacin se puede usar cuando np 10 y nq 10

    Por qu usamos una aproximacin en lugar de la correcta? Porque el calculo con la binomial es bastante largo y la aproximacin funciona bien en la mayora de los casos

    As pues, podemos usar la Ecuacin 1 para hacer intervalos de confianza cam-

    biando la media por la proporcin pero si antes comprobamos que np 10 y

    nq 10

    Ecuacin (2)

    El clculo del error tpico es especial en el caso de las proporciones. Esto es

    porque la desviacin tpica es pq y por tanto, el error tpico es (tener en cuenta

    que en esta frmula, q 1 p= )

    p yn---=

    p z 2 ET p( )

    ET p( ) pq------=

    Parte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 11 n

  • 2.3 Distribucin muestral de las proporciones. La importancia de esta diferencia es la siguiente: En este caso, el error tpico est directamente relacionado con la proporcin (decimos que el error tpico depende de la proporcin).

    Supongamos que tenemos 5 muestras de 10 sujetos con las proporciones siguientes: 0.1, 0.3, 0.5, 0.7, 0.9. Las desviaciones tpicas seran respectivamente: 0.3, 0.46, 0.5, 0.46, 0.3. Los errores tpicos seran respectivamente: 0.1, 0.14, 0.16, 0.14, 0.1.

    El ejemplo anterior muestra que la desviacin tpica y el error tpico se derivan de las propias proporciones y que los valores de proporciones ms cercanos al medio (al 0.5) tienen valores de desviaciones tpicas y errores tpicos ms altos.

    Ejercicio 2.3.1 En mayo 2002, una agencia de encuestas pregunt a 537 adultos muestreados al azar en Estados Unidos si, hablando en general, usted cree que la pena de muerte es aplicada justa o injustamente en US? De estos, un 53% contest que justa, y un 7% que no saban (y el resto que injustamente). Cul es el intervalo de confianza para los que piensan que la aplicacin es justa? Al nivel de confianza habitual, se puede decir que est por encima del 50% la gente que opina que la aplicacin es justa?Solucin 2.3.1 En primer lugar comprobamos si np>10. En este caso hacemos 537x0.53=284 que cumple de sobra la condicin de mayor que 10. Por tanto, usando la aproximacin normal

    tenemos .

    Ejercicio 2.3.2 En el informe PISA, en la pgina 4, se indica el porcentaje de uso de lenguas pro-pias en las diferentes comunidades. Cul es el intervalo de confianza para el Pas Vasco? Nota: El tamao de la muestra para el Pas Vasco est tambin en el informe.Solucin 2.3.2 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.3 Se puede calcular el mismo intervalo para Galicia?Solucin 2.3.3 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.4 En la pgina web http://www.whichsideareyouon.com/ aparece una campaa de un vendedor de ordenadores para que los que quieran voten para elegir el color de los ordenadores que fabrica esa marca. Hay dos colores, negro o titanio. En Europa, en el momento que escribo esto hay 26186 votos a favor de color titanio y 24876 a favor de color negro. Cul sera el inter-valo de confianza del porcentaje de los que votan a favor de titanio? Podramos decir que los de titanio ganan claramente la votacin? Solucin 2.3.4 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.5 En Francia hay 2006 a favor de titanio y 1876 a favor de negro. Gana el titanio?Solucin 2.3.5 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.6 En Espaa hay 1378 a favor de titanio y 773 a favor de negro. Gana el titanio o el negro?Solucin 2.3.6 En este ejercicio no se indica la solucin a propsito

    0.53 1.96 0.53 0.46537

    --------------------------- 0.57 0.49,( )Parte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 12

    http://www.whichsideareyouon.com/

  • 2.4 Intervalos de confianza y proporciones en la prctica. Ejercicio 2.3.7 En Alemania son 4151 a favor del negro y 3233 a favor del titanio. Gana el negro?Solucin 2.3.7 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.8 Resto de europa tenemos 3757 a favor de titanio y 3790 a favor de negro. Gana el negro?Solucin 2.3.8 En este ejercicio no se indica la solucin a propsito

    2.4 Intervalos de confianza y proporciones en la prcticaDnde tiene sentido aplicar este clculo?

    Cuando vemos como resultado de un estudio que se informa que el X% est a favor o en contra de una determinada opcin, objeto, idea, o lo que sea, nos podemos plantear si tiene sentido calcular un intervalo de confianza o no. Cundo y cmo tiene sentido hacer calcular este intervalo de confianza?

    El primer elemento que hay que tener en cuenta es el tamao de la muestra. Si la muestra es muy grande, los intervalos de confianza van a ser muy pequeos alrededor del valor calculado. Pongamos que el 75% de una muestra de 1000 individuos est de acuerdo con dejar de fumar en centros pblicos. El intervalo de confianza al 95% en la poblacin es aprox. de 77% a 73%. Vemos que con una muestra de ese tamao el intervalo no aporta mucho sobre lo que ya sabamos (que una mayora est a favor de la medida). Supongamos que la muestra es de slo 10 sujetos con el mismo resultado de 75%. Entonces el intervalo ira de 100% al 47%. Con slo una muestra de 10 el intervalo es tan amplio que ni siquiera estaramos seguros de s hay la mayora est a favor de la medida o hay un empate.

    Cuando tenemos algn tipo de lmite o valor que queremos comprobar si estamos por encima de l con bastante seguridad o no. Un ejemplo tpico son las estimaciones de voto. Si en unas votaciones se necesita ms de un 50% para ganar es importante ver si el intervalo de confianza calculado a partir de una muestra incluye ese valor (aunque hay que tener en cuentra otro factor en los estudios electorales->la gente que est indecisa y/o que cambia de idea. En ese caso estar por encima del 50% en los estudios no es suficiente para garantizar un resultado).

    2.5 Intervalos de confianza en paquetes estadsticosCmo podemos hacer este clculo con ordenador?

    Ejemplo: tenemos un grupo de nios al que les pasamos el WISC con los siguientes resultados:

    Table 1: Resultados hipotticos de un estudio. Cada casilla es el resultado para un sujeto

    410 430 739 370 317 464 525 289 491 196 268 372

    342 222 219 513 295 285 408 543 298 494 317 407Parte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 13

  • 2.5 Intervalos de confianza en paquetes estadsticos.

    Tie El SPSS nos produce lo siguiente (est en el comando pruebas t para una muestra:

    Estadsticos para una muestra

    24 384.29 126.412 25.804Tiempo WISCN Media

    Desviacintp.

    Error tp. dela media

    Prueba para una muestra

    14.893 23 .000 384.292 330.91 437.67mpo WISCt gl Sig. (bilateral)

    Diferenciade medias Inferior Superior

    95% Intervalo deconfianza para la

    diferencia

    Valor de prueba = 0

    El error tpico est aqu

    El intervalo est aqu

    ViSta (un programa gratuito) produce:

    Nos da el intervalo pero no el error tpicoParte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 14

  • 2.5 Intervalos de confianza en paquetes estadsticos. En el caso de proporciones necesitamos que la variable est en la forma de 0 y 1, 1 y 2. Por ejemplo, en la Tabla 2 se muestra el gnero de los sujetos que con-testaron a una encuesta.

    Si le pedimos una prueba t al SPSS con esos datos tenemos lo siguiente.

    Ejercicio 2.5.1 A un grupo de nios le pasamos el Test de las figuras Integradas (TFI), y obtene-mos los siguientes datos.

    El SPSS nos proporciona el siguiente output. El intervalo de confianza para la media incluye el valor 75?

    Table 2: Variable que codifica si es hombre o mujer. 1 significa mujer y 0 hombre. Slo se muestran los 15 primeros casos de 1517

    0 1 1 0 0 1 1 0 0 0 1 0 1 1

    Table 3: Resultados hipotticos de un estudio. Cada casilla es el resultado para un sujeto

    59 33 49 69 65 26 29 62 31 139 74 31

    48 23 9 128 44 49 87 43 55 58 113 7

    Estadsticos para una muestra

    1517 .42 .494 .013Sexo del encuestadoN Media

    Desviacintp.

    Error tp. dela media

    Prueba para una muestra

    33.082 1516 .000 .419 .39 .44Sexo del encuestadot gl Sig. (bilateral)

    Diferenciade medias Inferior Superior

    95% Intervalo deconfianza para la

    diferencia

    Valor de prueba = 0

    En este caso es fcil ver que se cumple la condicin de np>10 pero si la muestra es pequea habra que comprobarla

    La media es una proporcinParte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 15

  • 2.5 Intervalos de confianza en paquetes estadsticos. Solucin 2.5.1 No

    Ejercicio 2.5.2 Tenemos un grupo de sujetos a los que se les mide la cantidad de dopamina en sangre.

    El SPSS nos da el siguiente resultado. El intervalo incluye el valor 12?

    Solucin 2.5.2 Si

    Ejercicio 2.5.3 A un grupo de trabajadores se les pregunta si han tenido problemas con el jefe en los ltimos 6 meses. En el archivo de datos 1 indica que s que han tenido problems y 0 que no han tenido problemas. Diras que la proporcin de gente con problemas es muy alta?

    Table 4: Resultados hipotticos de un estudio. Cada casilla es el resultado para un sujeto

    10.5 20.0 11.2 13.0 18.0 15.6 14.5 10.4

    12.3 14.6 9.8 11.2 8.4 13.9 10.1 8.9

    16.9 12.4 11.1 14.2

    Prueba para una muestra

    8.007 23 .000 55.458 41.13 69.79Test figuras integradast gl Sig. (bilateral)

    Diferenciade medias Inferior Superior

    95% Intervalo deconfianza para la

    diferencia

    Valor de prueba = 0

    Estadsticos para una muestra

    24 55.46 33.932 6.926Test figuras integradasN Media

    Desviacintp.

    Error tp. dela media

    Estadsticos para una muestra

    20 12.850 3.1048 .6942DopaminaN Media

    Desviacintp.

    Error tp. dela media

    Prueba para una muestra

    18.509 19 .000 12.8500 11.397 14.303Dopaminat gl Sig. (bilateral)

    Diferenciade medias Inferior Superior

    95% Intervalo deconfianza para la

    diferencia

    Valor de prueba = 0Parte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 16

  • 2.6 Ejemplos del uso de intervalos de confianza. Solucin 2.5.3 En este caso es facil ver que no sin hacer clculos.

    2.6 Ejemplos del uso de intervalos de confianza

    Ser zurda y cancer de pecho

    nate left handedness and risk of breast cancer: case-cohort studye K Ramadhani, Sjoerd G Elias, Paulus A H van Noord, Diederick E Grobbee, Petra H M Peeters,o S P M Uiterwaal

    ng the proposed origins of breast cancer are intrauterinences, such as exposure to sex hormones.1 Such exposurealso influence cerebral lateralisation, with hand preferenceone of its manifestations. We know only of case-controls on a putative common origin of left handedness andt cancer, some of which show an association.2 We assessedssociation between handedness and incidence of breastr in a population based prospective cohort of healthy, mid-ed women followed up for 16 years.

    icipants, methods, and resultsbreast cancer screening study in Utrecht, the Netherlands,8 women born between 1932 and 1941 and recruiteden 1982 and 1985 (participation rate 40%) had baselineonnaire data recorded about reproductive history, demo-y, lifestyle, and innate hand preference and had anthropo-c measures taken. Linkage with the regional cancer registryded data on all new cases of invasive breast cancer thatred until 1 January 2000. Follow-up for adequate informa-b t th li d f ll 12 178 ld

    women with a body mass index of 25 but not in those windex was > 25 (P interaction 0.07), and in parous butnulliparous women (P interaction 0.02).

    CommentWe found that left handed women are more than twice as lto develop premenopausal breast cancer as non-left hanwomen. This risk is compatible with left handedness beimarker of constitutional risk rather than of environmental riwith postmenopausal breast cancer.

    Our findings among premenopausal women maycompatible with a stronger association in women with a nobody mass index, as high body mass index is a particular

    Association between handedness and incidence of breast cancer in studparticipants followed up at 16 years

    Innatehandedness Cases

    Estimatedperson years*

    Hazard ratio(95% confidence interval)

    Crude Adjusted

    En este estudio se utilizaron mtodos avanzados que no explicaremos (regresin de Cox).

    Estadsticos para una muestra

    1471 .03 .167 .004Problemas con el jefeN Media

    Desviacintp.

    Error tp. dela media

    Prueba para una muestra

    6.573 1470 .000 .029 .02 .04Problemas con el jefet gl Sig. (bilateral)

    Diferenciade medias Inferior Superior

    95% Intervalo deconfianza para la

    diferencia

    Valor de prueba = 0Parte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 17

  • 2.6 Ejemplos del uso de intervalos de confianza. Aunque no conozcamos los mtodos en detalle, lo que hemos aprendido sobre intervalos de confianza nos permite interpretar los resultados.

    Examinando la tabla de resultados

    demo-ropo-gistryr thatorma-wouldd vitalomenved ine datad 371nce ofnticesd col-on 8.2,ttp://

    andedon-left-53 1)

    Association between handedness and incidence of breast cancer in stuparticipants followed up at 16 years

    Innatehandedness Cases

    Estimatedperson years*

    Hazard ratio(95% confidence interval)

    Crude Adjuste

    Total

    Non-left handed 361 153 422 1.00 1.00

    Left handed 65 19 119 1.39 (1.09 to 1.81) 1.32 (0.99 t

    Premenopausal breast cancer

    Non-left handed 57 32 113 1.00 1.00

    Left handed 15 3329 2.41 (1.35 to 4.30) 2.20 (1.15 t

    Postmenopausal breast cancer

    Non-left handed 257 127 426 1.00 1.00

    Left handed 39 17 665 1.12 (0.80 to 1.57) 1.05 (0.75 t

    Body mass index 25Non-left handed 217 95 964 1.00 1.00

    Left handed 45 11 332 1.62 (1.17 to 2.24) 1.59 (1.15 t

    Body mass index >25

    Non-left handed 144 57 458 1.00 1.00

    Left handed 20 7787 1.05 (0.67 to 1.66) 1.04 (0.65 t

    Un 1 significa que el riesgo es el normal para todo el mundo. Para las mujeres, el valor 1.39 lo que significa mayor riesgo

    que todo el mundo. Fijarse que el intervalo de confianza casi incluye el 1

    Para este tipo de cancer, el riesgo es mucho mayorParte 2 Intervalos de confianza-Pedro M. Valero Mora 2008 18

  • 3.1 Introduccin a las pruebas de hiptesis. Parte 3 Pruebas de hiptesis

    3.1 Introduccin a las pruebas de hiptesisUn paso ms

    Cuando recogemos unos datos y tenemos una idea del resultado que esperamos o queremos que ocurra, decimos que tenemos una hiptesis:

    En el informe PISA podemos tener la hiptesis de que Espaa tiene unos resultados diferentes a la media (superiores o inferiores).

    En el informe PISA podemos tener la hiptesis de que Espaa tiene unos resultados superiores a la media.

    En el informe PISA podemos tener la hiptesis de que Espaa tiene unos resultados inferiores a la media.

    Suponiendo que sabemos1 que la media en matemticas de la OCDE es 500 y que Espaa tiene una media de 485 con error tpico de 2.4. Tendramos que:

    Con la primera hiptesis nos planteamos si Espaa tiene unos resultados diferentes a 500.

    Con la segunda hiptesis nos plantemos si Espaa tiene unos resultados superiores a 500.

    Con la tercera hiptesis nos planteamos si Espaa tiene unos resultados inferiores a 500

    Hay que tener en cuenta que la hiptesis que nos interesa es la . La es simplemente el resto de los valores.

    NOTA: =Hiptesis nula y =Hiptesis del estudio. Una regla nemotcnica: En una investigacin nosotros tenemos el papel de ser los

    fiscales. Nuestro objetivo es demostrar la culpabilidad (la He) pero la H0 es verdad hasta que se demuestre lo contrario.

    1 Suponiendo que sabemos? Qu quiere decir eso? Bien, en el informe PISA indica que la media de la OCDE es de 500 pero con un error tpico de 0.6, lo cual quiere decir que ese valor de 500 est calculado con una muestra y que por tanto no sabemso con exactitud cul es el valor en la poblacin. Ahora bien, como el procedimiento que estamos viendo necesita una hiptesis nula concreta tenemos que partir del supuesto de que 500 es el valor verdadero.

    H0 Espana 500He Espana 500

    =

    H0 Espana 500He Espana 500>

    H0 Espana 500He Espana 500

  • 3.1 Introduccin a las pruebas de hiptesis. Ejercicio 3.1.1 Un investigador est interesado en averiguar si las personas son capaces de identi-ficar con el mismo nivel de precisin las emociones de personas de otras culturas que las que son de la propia cultura. Se sabe que utilizando determinado mtodo de medicin, los adultos norte-americanos en general estn distribuidos normalmente con una media de 82 (de un total de 100) y una varianza de 20 (esa distribucin se basa en las posiciones obtenidas al identificar las emocio-nes expresadas por miembros de su propia cultura). En un estudio se pidi a 50 norteamericanos adultos que intentaran reconocer las emociones de sujetos de Indonesia. La media en este caso fue de 78. Plantea la hipotesis nula y la hipotesis del estudio para este ejemplo (Aron y Aron, p. 231).Solucin 3.1.1 La hiptesis del estudio sera que hay diferencias entre reconocer emociones con

    sujetos de culturas diferentes y sujetos de cultura propia. Es decir que . La

    hiptesis nula sera que no hay diferencias, es decir .

    Solucin 3.1.1 Fijaros en que el procedimiento consiste en comparar lo que nos ha salido en nuestro estudio concreto con un valor establecido por investigaciones previas, o un supuesto jus-tificado por medio de una teora o de cualquier otra manera.

    Ejercicio 3.1.2 Un psiclogo est interesado en las condiciones que afectan la cantidad de sueos que las personas recuerdan por mes y en los cuales se encuentran solos. Supondremos que, basn-donos en previas investigaciones extensivas, se sabe que en la poblacin general la cantidad de

    tales sueos por mes sigue una distribucin normal, con y . El investigador desea probar la prediccin que establece que la cantidad de sueos como los descritos ser mayor entre aquellas personas que recientemente hayan experimentado un hecho traumtico. Por lo tanto, el psiclogo analiza 36 individuos que han experimentado recientemente un hecho trau-mtico, hacindoles llevar un registro de sus sueos durante un mes. La media de sueos en los que se encuentran solos es 8. Plantea la hiptesis nula y la hiptesis del estudio para este caso (Aron y Aron, p. 231).Solucin 3.1.2 La hipotesis del estudio sera que nuestros sujetos tienen una media mayor de la

    media de los sujetos normales, luego y la hiptesis nula que

    .

    Ejercicio 3.1.3 En una encuesta preelectoral, el partido que ms apoyos recibe una intencin de voto del 52% con 1000 encuestas. Cul diras que sera una hipotesis del estudio adecuada para este caso?Solucin 3.1.3 Este ejercicio no tiene la solucin a propsito

    He 82

    H0 82=

    5= 4=

    He 5>

    H0 5Parte 3 Pruebas de hiptesis-Pedro M. Valero Mora 2008 20

  • 3.2 Usando intervalos de confianza para la prueba de hiptesis. 3.2 Usando intervalos de confianza para la prueba de hiptesisEl mtodo ms simple

    Podemos comprobar la primera de las hiptesis del informe PISA utilizando intervalos de confianza.

    Las hiptesis son:

    El intervalo de confianza para la media de Espaa en el informe PISA es:

    Como 500 no est en el intervalo entonces podemos decir que la media para Espaa es diferente de 500 (con una confianza del 95%).

    En definitiva, el procedimiento consiste en ver si el valor de la hiptesis nula est dentro de los valores del intervalo de confianza que hemos construido para el valor que nos ha salido en el estudio.

    Si el valor no est dentro del intervalo, rechazamos la hiptesis nula Si el valor est dentro del intervalo, no rechazamos la hiptesis nula

    Ejercicio 3.2.1 En el estudio del Ejercicio 3.1.1, el investigador organiza a 50 adultos norteame-ricanos para que identifiquen las emociones de individuos de Indonesia. La precisin media de estos 50 individuos fue 78. Utilizando un nivel de confianza del 0,05. Calcula el intervalo del 95% de confianza y rechaza o acepta la hiptesis nula basndote en ese intervalo.Solucin 3.2.1 La varianza del reconocimiento era 20, luego la desviacin tpica es

    segn se indicaba en el Ejercicio 3.1.1. El error tpico es

    . El intervalo de confianza es

    . En este caso la hiptesis nula era

    . Como el intervalo no incluye ese valor entonces rechazamos la hipotesis

    nula (los norteamericanos interpretan las emociones de modo diferente con los indonesios que con otros norteamericanos).

    H0 Espana 500He Espana 500

    =

    485 1.96 2.4 489.74 480.29,( )=

    489.74 480.29,( )

    20 4.47=

    ET 20( ) 50( ) 0.63=

    78 1.96 0.63 79.23 76.76,( )=

    H0 82=Parte 3 Pruebas de hiptesis-Pedro M. Valero Mora 2008 21

  • 3.3 Contraste de hiptesis. Ejercicio 3.2.2 Orientacin vocacional y madurez. De acuerdo con los datos recogidos durante los ltimos aos por un psiclogo escolar, los estudiantes de COU que no reciben orientacin vocacional obtienen una media de 190 en una prueba de madurez. El psiclogo opina que los estu-diantes que s reciben orientacin vocacional obtienen un promedio superior en la mencionada prueba. Para obtener evidencia, toma una muestra aleatoria de 100 estudiantes de COU de entre los que haban recibido orientacin vocacional y les pasa la prueba de madurez. Obtiene una media de 198 y una desviacin tpica de 24. Realiza la estimacin por intervalo de la media obte-nida en la prueba de madurez por los estudiantes de COU que han recibido orientacin vocacional con una confianza del 95%.

    Solucin 3.2.2 El intervalo es

    Ejercicio 3.2.3 Si el tamao muestral fuera n=1600. Cul sera el intervalo de confianza obte-nido?

    Solucin 3.2.3

    Ejercicio 3.2.4 Los datos obtenidos en la muestra de 100 estudiantes apoyan la opinin del psi-clogo con riesgo de error = 0.05?. Solucin 3.2.4 S. El intervalo no incluye el valor de 190 as que los estudiantes con orientacin vocacional son diferentes de los estudiantes en general.

    3.3 Contraste de hiptesisEl procedimiento habitual

    Los contrastes de hiptesis tienen la forma

    Ecuacin (3)

    En el ejemplo de PISA, tenemos la hiptesis

    Ecuacin (4)

    Aplicando la frmula, tenemos

    198 1.96 24100

    ------------- 202.7 193.296,( )=

    198 1.96 241600

    ---------------- 199.176 196.824,( )=

    Estimacin Puntual Valor TericoEstadstico de Contraste

    Error Tpico

    =

    H0 Espana 500He Espana 500

    =

    EstadisticodeContraste 485 5002.4

    ------------------------ 6.25= =Parte 3 Pruebas de hiptesis-Pedro M. Valero Mora 2008 22

  • 3.4 Una nota sobre el clculo de la desviacin tpica para pruebas de hiptesis. Comparacin del estadstico de contraste El estadstico se compara con el valor de la distribucin de referencia (generalmente

    o ) para el nivel de confianza dado (para 95% y dos colas es ) En nuestro ejemplo, si la fuera verdadera, el estadstico de contraste debera

    estar entre 1.96 y -1.96. Como -6.25 no est rechazamos la y aceptamos la (es decir, la media de Espaa no es 500)

    Ejercicio 3.3.1 Usando el enunciado del Ejercicio 3.1.2 Llegara usted a la conclusin de que las personas que han sufrido recientemente una experiencia traumtica tienen una cantidad signi-ficativamente diferente de sueos en los que se encuentran solas? (utiliza el nivel 0,05 y plantea una hiptesis de dos colas)

    Solucin 3.3.1 La estimacin puntual en ese estudio fue de 8. El valor terico es . El

    error tpico es . El valor del estadstico de contraste es

    . Ese valor es mayor que 1.96 luego rechazamos la hiptesis nula

    (es decir, la gente que ha tenido recientemente una experiencia traumtica difiere de la poblacin general).

    Ejercicio 3.3.2 En el estudio del Ejercicio 3.1.1, el investigador organiza a 50 adultos norteame-ricanos para que identifiquen las emociones de individuos de Indonesia. La precisin media de estos 50 individuos fue 78. Utilizando un nivel de 0,05, haz los clculos para la prueba de hipte-sis planteada en el propio Ejercicio 3.1.1.

    Solucin 3.3.2 En el ejercicio se plante que y que . En

    nuestro caso, la media de la muestra . La varianza de la muestra no es conocida pero se nos informa que la varianza de la poblacin es 20. Con esos datos tenemos que

    y que . La conclusin de esto es

    que efectivamente los sujetos eran menos capaces de reconocer las expresiones de los indonesios.

    3.4 Una nota sobre el clculo de la desviacin tpica para pruebas de hiptesisPor qu -1?

    Recordareis que la frmula de la desviacin tpica es:

    z t z 1.96H0

    H0He

    5=

    436

    ---------- 0.667=

    8 50.667------------- 4.5=

    He 80 H0 80=

    x 78=

    ET 2050

    ---------- 0.63= z 78 800.63

    ------------------ 3.17=

    ( )2ix

    x xs

    n

    = Parte 3 Pruebas de hiptesis-Pedro M. Valero Mora 2008 23

  • 3.5 Contrastes de hiptesis para proporciones. Esta frmula es vlida cuando no queremos generalizar los resultados a una poblacin. Es decir, no queremos estimar la desviacin tpica de la poblacin:

    Ahora bien, para hacer contrastes de hiptesis es necesario hacer esta esti-macin. En ese caso, la frmula que se utiliza es un poco diferente de la habitual:

    Fijaros que en este caso dividimos por n-1 y que usamos el smbolo ya que estamos estimando la desviacin tpica (de ah el capuchn)

    Es muy importante este detalle sobre el clculo de la desviacin tpica? Si la muestra es muy pequea s que puede tener algo de efecto dividir por n-1 en lugar

    de slo por n En los exmenes de anlisis de datos no distinguir entre una u otra puede ser terrible!!!

    3.5 Contrastes de hiptesis para proporcionesUn caso especial

    Las proporciones son un caso especial porque como decamos la desviacin tpica depende de la proporcin.

    Como consecuencia de lo anterior, el clculo de contrastes de hiptesis es diferente para el caso de las proporciones. Veamoslo con un ejemplo:

    En una industria se hacen unas piezas de metal grandes que se usan para construir aviones. Estas piezas a menudo se agrietan durante el proceso de fabricacin as que hay que hacer-las de nuevo. Un 20% de las piezas se rompen al hacerlas pero a travs de un nuevo pro-ceso de fabricacin se han fabricado 400 piezas en las que slo un 17% estaban rotas. Se podra decir que este nuevo proceso de fabricacin ha logrado reducir la cantidad de pie-zas rotas?

    Para estudiar el ejemplo anterior podemos realizar un contraste de hiptesis en el que se compara el 20% histrico con el 17% que hemos obtenido en una muestra. Para ello necesitamos en primer lugar calcular el error tpico.

    Para calcular el error tpico necesitamos la desviacin tpica la cual cuando trabajamos con proporciones se obtiene multiplicando el porcentaje de xitos por el de fracasos y sacando la raz.

    Ahora bien, qu proporcin tenemos que usar para ese clculo? La obtenida en la muestra de 400 (0.17) o la otra que es la hiptesis nula (0.20)?

    ( )21

    ix

    x xn

    =

    xParte 3 Pruebas de hiptesis-Pedro M. Valero Mora 2008 24

  • 3.6 Contrastes de hiptesis con ordenador. La respuesta es que cuando hacemos un contraste de hiptesis actuamos como si la hiptesis nula fuera verdadera. De este modo, lo ms consecuente es calcular el error tpico a partir de ese valor. Por tanto, haremos:

    Fijaros que usamos el smbolo para hacer ver que estamos tomando ese valor de la hiptesis nula (por cierto, en este caso no deberamos llamar al resultado error tpico sino simplemente desviacin tpica).

    Con nuestros datos

    A partir de este resultado podemos hacer la prueba de hiptesis habitual:

    Qu diriamos con ese resultado? Si utilizamos el criterio habitual de z mayor o menor de 1.96 diriamos que ese 17% no es significativo (aunque si recogieramos ms muestra y el porcentaje se mantuviera podra pasar a ser significativo. Otro aspecto es si plantearamos el problema como de una cola tal y como veremos ms adelante).

    3.6 Contrastes de hiptesis con ordenadorHacindolo fcil

    En el ejemplo de la Section 3.3podemos calcular la probabilidad asociada al

    estadstico de contraste si H0 fuera verdadera (este procedimiento es el utilizado

    por los ordenadores). Esta probabilidad es . Por tanto, rechazamos la hiptesis

    nula ya que es muy poco probable. Tener en cuenta que la distribucin de referencia en el ordenador es generalmente

    ya que stos calculan este valor exacto. Veamos el siguiente ejemplo

    A un grupo de sujetos se les pregunta por su nivel de felicidad con posibles contestaciones 1=Muy feliz, 2=Bastante feliz y 3= No demasiado feliz. El investigador quiere comprobar si la media de felicidad en el grupo es de 1. Los resultados se muestran a continua-cin.Rechazamos la H0?

    ET p0( )p0q0

    n-----------=

    p0

    ET p0( )0.20 0.8

    400------------------------ 0.02= =

    z 0.17 0.200.02

    --------------------------- 1.5= =

    p 0.0000001Parte 3 Pruebas de hiptesis-Pedro M. Valero Mora 2008 33

  • 3.8 Contrastes de hiptesis unilaterales con ordenador. Solucin 3.8.2 En este ejercicio no se indica la solucin a propsito

    Ejercicio 3.8.3 En el Ejercicio 3.8.2 y con la Figura 2, qu conclusin llegaramos si nuestra hiptesis fuera simplemente que la perdida de peso es diferente de cero?Solucin 3.8.3 En este ejercicio no se indica la solucin a propsito

    Ejercicio 3.8.4 Qu hay de la perdida de trigliceridos?

    Solucin 3.8.4 En este ejercicio no se indica la solucin a propsito

    Figura 2: Contrastes de hiptesis para el HDL en Statview

    5.093 42 3.282 .0021 1.961 8.225Mean DF t-Value P-Value 95% Low er 95% Upper

    Perdida HDL

    One Sample AnalysisHypothesized Mean = 0

    5.093 42 3.282 .0010 7.703Mean DF t-Value P-Value 95% Upper

    Perdida HDL

    One Sample AnalysisHypothesized Mean = 0

    Figura 3: Contrastes de hiptesis para los trigliceridos en Statview

    3.419 42 .386 .7015 -14.457 21.295Mean DF t-Value P-Value 95% Low er 95% Upper

    Perdida Trigliceridos

    One Sample AnalysisHypothesized Mean = 0

    3.419 42 .386 .3507 18.317Mean DF t-Value P-Value 95% Upper

    Perdida Trigliceridos

    One Sample AnalysisHypothesized Mean = 0Parte 3 Pruebas de hiptesis-Pedro M. Valero Mora 2008 34

  • 4.1 Supuestos de las pruebas de hiptesis de medias. Parte 4 Evaluacin de supuestos

    4.1 Supuestos de las pruebas de hiptesis de mediasEvaluando la normalidad

    Una duda que puede surgir es si lo anterior depende de la distribucin que siga la poblacin normal o no

    Para que las pruebas de hiptesis y los intervalos de confianza descritos funci-onen bien se tiene que dar:

    Tener una muestra grande Que la poblacin de origen sea aproximadamente normal si la muestra es pequea

    En este segundo caso es especialmente importante diagnosticar si la muestra proviene de una poblacin que sigue la distribucin normal (aproximadamente)

    No obstante, nosotros no tenemos datos de la poblacin entera. Slo tenemos datos de la muestra que hemos recogido.

    La muestra es difcil que nos de informacin clara sobre si la poblacin sigue la distribucin normal.

    En la prctica, lo que hacemos es mirar si la muestra es aproximadamente normal. Para comprobar esto podemos hacer un histograma (Figura 4).

    Qu hay que comprobar en un histograma? Valores extremos o extraos. En el grfico siguiente vemos que hay un

    seor que tuvo una bajada de colesterol negativa (es decir que le subi el colesterol) muy grande en comparacin con el resto. La solucin a esto Parte 4 Evaluacin de supuestos-Pedro M. Valero Mora 2008 35

  • 4.1 Supuestos de las pruebas de hiptesis de medias. consistira en investigar a este caso individualmente y quizs repetir los anlisis excluyendo a este caso. Si se eliminan casos hay que indicarlo en el informe correspondiente.

    Datos asimtricos: En la Figura 5 se puede ver que el histograma no es simtrico. La mayora de las ciudades se acumulan en la parte baja (no hay que trabajar mucho para comprar una hamburguesa).

    Figura 4: Histograma de perdida (loss) de colesterol

    0

    2

    4

    6

    8

    10

    12

    14C

    ount

    -80 -60 -40 -20 0 20 40 60 80Cholesterol Loss

    Figura 5: Histograma de minutos de trabajo para comprar una hamburguesa con patatas fritas en ciudades del mundo

    5 0 1 00 1 50 2 00 2 50

    M in u to s d e tr ab a jo n e ce s ar io s p a ra c o m p r ar u n a B ig m ac c o n p at a ta s

    0

    5

    1 0

    1 5

    20

    25

    Frec

    uen

    cia

    M e an = 5 3 ,2 9S td . D e v . = 4 5 ,0 82N = 45Parte 4 Evaluacin de supuestos-Pedro M. Valero Mora 2008 36

  • 4.1 Supuestos de las pruebas de hiptesis de medias.

    undo Cuando la variable es asimtrica, quitar los casos extremos normalmente no cambia mucho el aspecto del grfico (Figura 6).

    Figura 6: Histograma de minutos de trabajo para comprar una hamburguesa con patatas fritas en ciudades del m

    0 5 0 1 0 0 1 5 0

    M i n u t o s d e tr a b a jo n e c e s a r i o s p a ra c o m p ra r u n a B i g m a c c o n p a t a ta s

    0

    5

    1 0

    1 5

    2 0

    Frec

    uenc

    ia

    M e a n = 4 9 , 1 6S t d . D e v . = 3 5 , 9 7 6N = 4 4Parte 4 Evaluacin de supuestos-Pedro M. Valero Mora 2008 37

  • 4.1 Supuestos de las pruebas de hiptesis de medias. Varias modas (multimodalidad). En los cuatro histogramas de la Figura 7 se ven cuatro variables referidas a flores.

    En este caso, si quisieramos hacer pruebas de hiptesis o calcular medias para esas variables lo mejor sera dividir las variables en dos grupos.

    Ejercicio 4.1.1 Crees que el histograma de la Figura 8 tiene forma normal?

    -0.6 4.4 9.4 14.4 19.4 24.4

    020

    40

    60

    8.5 20.2 31.9 43.6 55.3 67.0

    020

    40

    60

    SepalWidth

    20.423.326.229.132.034.937.840.743.646.5

    020

    40

    60

    SepalLength

    44.9 50.3 55.7 61.1 66.5 71.9 77.3 82.7

    010

    20

    30

    40

    Figura 7: Medidas de unas floresParte 4 Evaluacin de supuestos-Pedro M. Valero Mora 2008 38

  • 4.1 Supuestos de las pruebas de hiptesis de medias. Solucin 4.1.1 No. Es asimtrico positivo.

    Ejercicio 4.1.2 Y el peso de los sujetos?

    Solucin 4.1.2 En este caso el histograma no es muy normal pero no hay asimetra exagerada, ni se ven claramente modas. Estos datos son aceptables.

    Ejercicio 4.1.3 Y el colesterol original?

    Figura 8: Edad del grupo de sujetos sometidos al experimento sobre colesterol

    0

    10

    20

    30

    40

    50

    60

    Cou

    nt

    17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5Age

    Histogram

    Figura 9: Peso del grupo de sujetos sometidos al experimento sobre colesterol

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    Cou

    nt

    100 120 140 160 180 200 220 240Weight

    HistogramParte 4 Evaluacin de supuestos-Pedro M. Valero Mora 2008 39

  • 4.1 Supuestos de las pruebas de hiptesis de medias. Solucin 4.1.3 El histograma de estos datos indica que los datos se comportan de manera acep-table.

    Ejercicio 4.1.4 Y la altura?

    Solucin 4.1.4 Hay una ligera asimetra pero los datos son aceptables tambin.

    Ejercicio 4.1.5 Y la tensin? (tener en cuenta que estn las dos medidas de la tensin).

    0

    2.5

    5

    7.5

    10

    12.5

    15

    17.5

    20

    22.5

    Cou

    nt

    100 120 140 160 180 200 220 240 260 280 300Cholesterol

    Histogram

    Figura 10: Colesterol del grupo de sujetos sometidos al experimento sobre colesterol

    Figura 11: Altura del grupo de sujetos sometidos al experimento sobre colesterol

    0

    2.5

    5

    7.5

    10

    12.5

    15

    17.5

    20

    22.5

    Cou

    nt

    57.5 60 62.5 65 67.5 70 72.5 75 77.5 80 82.5Height

    HistogramParte 4 Evaluacin de supuestos-Pedro M. Valero Mora 2008 40

  • 4.1 Supuestos de las pruebas de hiptesis de medias.

    150Solucin 4.1.5 En ambos casos hay valores extremos pero en la diastlica es muy exagerado. Habra que revisar ese valor.

    Figura 12: Altura del grupo de sujetos sometidos al experimento sobre colesterol

    0

    5

    10

    15

    20

    25

    30

    Cou

    nt

    95 100 105 110 115 120 125 130 135 140Systolic BP

    Histogram

    0

    5

    10

    15

    20

    25

    30

    35

    40

    Cou

    nt

    50 60 70 80 90 100 110 120 130 140Diastolic BP

    HistogramParte 4 Evaluacin de supuestos-Pedro M. Valero Mora 2008 41

    Bloque IV: Introduccin a la Inferencia EstadsticaPedro Valero Mora

    Parte 1 Distribucin muestral1.1 Notacin1.2 Cul es la media?. En el cuatrimestre anterior se estudia como calcular estimaciones puntuales.

    1.3 Muestras y distribuciones muestrales. a) Poblacin. b) Muestra. c) Distribucin muestral

    1.4 Qu forma tiene la distribucin muestral?1.5 Por qu es importante la forma de la distribucin muestral de la media?. La forma de la distribucin muestral de la media es importante porque nos permite calcular intervalos de confianza alrededor de la media.. Como la distribucin muestral de la media es normal en muchos casos podemos utilizar los valores de z que ya conocemos. No obstante, en la seccin siguiente aprenderemos que la distribucin muestral de la media no siempre es normal y que hay que utilizar tambin otras distribuciones. Esto ocurre cuando las muestras son pequeas.

    1.6 Y si las muestras son pequeas que pasa?. Gosset demostr que cuando las muestras son pequeas, la distribucin muestral de la media sigue la distribucin t de Student con n-1 grados de libertadEjercicio 1.6.2 Tiene un rendimiento mayor que Brasil?Solucin 1.6.2 La contestacin al Ejercicio 1.6.1 es tambin valida aqu.

    1.7 Caractersticas de la distribucin muestral de la media. La media de la distribucin muestral es la media de la poblacinEjercicio 1.7.2 En el informe PISA se proporciona, adems de la media del nivel de matemticas por pases, el ERROR TPICO de esa media. A partir de ese error tpico, entre qu valores est el valor de Espaa?Solucin 1.7.2 De momento, todava no podemos hacer este ejercicio con lo que sabemos. En la seccin sobre intervalos de confianza aprenderemos a responder este tipo de cuestiones.

    1.8 Resumen de esta seccin. Nosotros trabajamos con muestras, no con poblaciones.. No estamos seguros de los valores en la poblacin, slo de los valores en la muestra. Tenemos que estimar los primeros a partir de los segundos.. En el caso de la media, aunque no sabemos su valor en la poblacin sabes cual es la distribucin muestral de la media->la distribucin normal con muestras grandes y la distribucin t-1 con muestras pequeas. Con todo lo anterior podemos pasar al siguiente paso: Hacer intervalos de confianza y pruebas de hiptesis para las medias

    Parte 2 Intervalos de confianza2.1 Calculando intervalos de confianza. Qu valores tienen y ?Ejercicio 2.1.2 El ejercicio de antes no se puede hacer. Falta la confianza con la que queremos trabajar. Normalmente utilizaremos un nivel de confianza del 95%. Cul es la z para 95%?Solucin 2.1.2 Hay que aprenderselo de memoria. Es 1.96.

    Ejercicio 2.1.3 Ahora, cul es el intervalo de confianza para Espaa?Solucin 2.1.3 Esto se lee del siguiente modo: Con una confianza del 95% la media de Espaa estara entre 479 y 489 aprox.

    Ejercicio 2.1.4 Supongamos que para hacer el intervalo anterior utilizamos la distribucin t en lugar de z. Qu valor deberamos buscar?Solucin 2.1.4 Deberamos buscar . Podemos ver que no hay diferencia prctica entre ese valor y el de z cuando el n es grande.

    Ejercicio 2.1.5 Cul es el intervalo de confianza para Finlandia? A partir de ahora si no indicamos el nivel de confianza teneis que asumir que es el 95%Solucin 2.1.5 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.6 Cul es el intervalo de confianza para Suiza?Solucin 2.1.6 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.7 Cul es el intervalo de confianza para Francia?Solucin 2.1.7 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.8 Cul es el intervalo de confianza para Suecia?Solucin 2.1.8 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.1.9 (Este ejemplo est tomado de De Veaux, Velleman y Bock, 2005 p. 453). Los accidentes de vehculos a motor son la...Solucin 2.1.9 En este ejercicio no se indica la solucin a propsito

    2.2 La distribucin muestral de otros estadsticos. Cada estadstico (media, varianza, proporcin, correlacin, etc.) tiene su propia distribucin muestral.. La forma de la distribucin de esos estadsticos suele ser la distribucin normal o la t de Student pero no siempre.. Las proporciones es uno de los casos ms interesantes. Lo veremos en la seccin siguiente.

    2.3 Distribucin muestral de las proporciones. Una proporcin es el nmero de veces que se da una caracterstica dividido por el total de casos:. Si multiplicamos una proporcin por 100 tenemos un porcentaje. Aunque los porcentajes son ms conocidos usaremos proporciones porque los clculos son ms cmodos.. La distribucin muestral de las proporciones sigue la distribucin binomial para n (nmero de casos) y p (la proporcin de xitos).. No obstante, en la prctica se utiliza la denominada aproximacin normal a la binomial. Esta aproximacin se puede usar cuando y. As pues, podemos usar la Ecuacin 1 para hacer intervalos de confianza cambiando la media por la proporcin pero si antes comprobamos que y. El clculo del error tpico es especial en el caso de las proporciones. Esto es porque la desviacin tpica es y por tanto, el error tpico es (tener en cuenta que en esta frmula, )Solucin 2.3.1 En primer lugar comprobamos si np>10. En este caso hacemos 537x0.53=284 que cumple de sobra la condicin de mayor que 10. Por tanto, usando la aproximacin normal tenemos .Ejercicio 2.3.2 En el informe PISA, en la pgina 4, se indica el porcentaje de uso de lenguas propias en las diferentes comunida...Solucin 2.3.2 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.3 Se puede calcular el mismo intervalo para Galicia?Solucin 2.3.3 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.4 En la pgina web http://www.whichsideareyouon.com/ aparece una campaa de un vendedor de ordenadores para que lo...Solucin 2.3.4 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.5 En Francia hay 2006 a favor de titanio y 1876 a favor de negro. Gana el titanio?Solucin 2.3.5 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.6 En Espaa hay 1378 a favor de titanio y 773 a favor de negro. Gana el titanio o el negro?Solucin 2.3.6 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.7 En Alemania son 4151 a favor del negro y 3233 a favor del titanio. Gana el negro?Solucin 2.3.7 En este ejercicio no se indica la solucin a propsito

    Ejercicio 2.3.8 Resto de europa tenemos 3757 a favor de titanio y 3790 a favor de negro. Gana el negro?Solucin 2.3.8 En este ejercicio no se indica la solucin a propsito

    2.4 Intervalos de confianza y proporciones en la prctica. Cuando vemos como resultado de un estudio que se informa que el X% est a favor o en contra de una determinada opcin, objeto,...

    2.5 Intervalos de confianza en paquetes estadsticosTable 1: Resultados hipotticos de un estudio. Cada casilla es el resultado para un sujeto. El SPSS nos produce lo siguiente (est en el comando pruebas t para una muestra:. ViSta (un programa gratuito) produce:. En el caso de proporciones necesitamos que la variable est en la forma de 0 y 1, 1 y 2. Por ejemplo, en la Tabla 2 se muestra el gnero de los sujetos que contestaron a una encuesta.Table 2: Variable que codifica si es hombre o mujer. 1 significa mujer y 0 hombre. Slo se muestran los 15 primeros casos de 1517Table 3: Resultados hipotticos de un estudio. Cada casilla es el resultado para un sujetoEjercicio 2.5.2 Tenemos un grupo de sujetos a los que se les mide la cantidad de dopamina en sangre. El SPSS nos da el siguiente resultado. El intervalo incluye el valor 12?

    Table 4: Resultados hipotticos de un estudio. Cada casilla es el resultado para un sujetoSolucin 2.5.2 SiEjercicio 2.5.3 A un grupo de trabajadores se les pregunta si han tenido problemas con el jefe en los ltimos 6 meses. En el arc...Solucin 2.5.3 En este caso es facil ver que no sin hacer clculos.

    2.6 Ejemplos del uso de intervalos de confianza. Ser zurda y cancer de pecho

    Parte 3 Pruebas de hiptesis3.1 Introduccin a las pruebas de hiptesis. Cuando recogemos unos datos y tenemos una idea del resultado que esperamos o queremos que ocurra, decimos que tenemos una hiptesis:Ejercicio 3.1.2 Un psiclogo est interesado en las condiciones que afectan la cantidad de sueos que las personas recuerdan por...Solucin 3.1.2 La hipotesis del estudio sera que nuestros sujetos tienen una media mayor de la media de los sujetos normales, luego y la hiptesis nula que .

    Ejercicio 3.1.3 En una encuesta preelectoral, el partido que ms apoyos recibe una intencin de voto del 52% con 1000 encuestas. Cul diras que sera una hipotesis del estudio adecuada para este caso?Solucin 3.1.3 Este ejercicio no tiene la solucin a propsito

    3.2 Usando intervalos de confianza para la prueba de hiptesis. Podemos comprobar la primera de las hiptesis del informe PISA utilizando intervalos de confianza.. En definitiva, el procedimiento consiste en ver si el valor de la hiptesis nula est dentro de los valores del intervalo de confianza que hemos construido para el valor que nos ha salido en el estudio.Ejercicio 3.2.2 Orientacin vocacional y madurez. De acuerdo con los datos recogidos durante los ltimos aos por un psiclogo e...Solucin 3.2.2 El intervalo es

    Ejercicio 3.2.3 Si el tamao muestral fuera n=1600. Cul sera el intervalo de confianza obtenido?Ejercicio 3.2.4 Los datos obtenidos en la muestra de 100 estudiantes apoyan la opinin del psiclogo con riesgo de error = 0.05?.Solucin 3.2.4 S. El intervalo no incluye el valor de 190 as que los estudiantes con orientacin vocacional son diferentes de los estudiantes en general.

    3.3 Contraste de hiptesis. Los contrastes de hiptesis tienen la forma. Comparacin del estadstico de contrasteEjercicio 3.3.2 En el estudio del Ejercicio 3.1.1, el investigador organiza a 50 adultos norteamericanos para que identifiquen l...Solucin 3.3.2 En el ejercicio se plante que y que . En nuestro caso, la media de la muestra . La varianza de la muestra no es ...

    3.4 Una nota sobre el clculo de la desviacin tpica para pruebas de hiptesis. Recordareis que la frmula de la desviacin tpica es:. Esta frmula es vlida cuando no queremos generalizar los resultados a una poblacin. Es decir, no queremos estimar la desviacin tpica de la poblacin:. Ahora bien, para hacer contrastes de hiptesis es necesario hacer esta estimacin. En ese caso, la frmula que se utiliza es un poco diferente de la habitual:

    3.5 Contrastes de hiptesis para proporciones. Las proporciones son un caso especial porque como decamos la desviacin tpica depende de la proporcin.. Como consecuencia de lo anterior, el clculo de contrastes de hiptesis es diferente para el caso de las proporciones. Veamoslo con un ejemplo:

    3.6 Contrastes de hiptesis con ordenador. En el ejemplo de la Section 3.3podemos calcular la probabilidad asociada al estadstico de contraste si fuera verdadera (este procedimiento es el utilizado por los ordenadores).Ejercicio 3.6.2 En una encuesta, se pregunta a los sujetos si piensan que el nivel de impuestos que se paga en su pas es demasi...Solucin 3.6.2 La hiptesis nula es de nuevo el valor medio. En el output se indica este valor y como vemos la prueba de hiptes...

    Ejercicio 3.6.3 Para los resultados del Ejercicio 3.6.2, crees que la diferencia entre los resultados obtenidos y nuestra hiptesis es de importancia prctica?Solucin 3.6.3 Una de las cuestiones ms incmodas de las pruebas de hiptesis es cuando uno ve que la diferencia da la impresi...

    Ejercicio 3.6.4 Se quiere saber si en uno de los primeros experimentos utilizados para determinar la velocidad de la luz se obtu...Solucin 3.6.4 El resultado se puede ver en varios sitios. En el apartado de Significance test vemos que el valor de p