Download - P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

Transcript
Page 1: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 1

Repaso de la clase anterior.

• Teorema Central del Límite (TCL)

•Utilización del TCL para aproximar algunas distribuciones conocidas (Binomial, Poisson, Binomial Negativa).

Page 2: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 2

1) Un corolario del TCL que puede demostrarse sin mayor esfuerzo permite librarse de tener que conocer exactamente el valor de la varianza σ2 (que frecuentemente es desconocido) y reemplazarlo por una estimación empírica de la misma (calculable a partir de los datos). Usaremos mucho este resultado!!! 

Este Corolario dice: 

Si X1,..., Xn iid con esperanza μ y varianza finita σ2 , y si 

 Mn= (X1+...+ Xn)/n , σ2 n= ((X1- Mn)2+...+ (Xn- Mn)2)/n,

 

entonces, para n grande, la distribución de 

√n (Mn - μ)/ σn 

se puede aproximar por una N(0,1).  

Algunas primeras observaciones respecto al TCL

Page 3: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 3

 2) Se puede demostrar (ver libro) que la convergencia a la distribución normal es uniforme, es decir, si Fn es la distribución de √n (Mn - μ)/ σn y si, como de costumbre, es la distribución N(0,1), entonces se tiene que 

limn sup tR |Fn(t)- (t)|=0 

(Esto permite aproximar el valor de Fn por la distribución normal aún en puntos “móviles”)

 

Un primer ejemplo de aplicación del TCL.   

¿¿¿De dónde surge el “margen de error” en las encuestas de opinión pública???

 

¿¿¿Cómo hago para decidir si la proporción de defectuosos en un lote industrial de gran tamaño supera o no una proporción crítica, a partir de la observación de la calidad de una muestra elegida al azar dentro del lote???

Page 4: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 4

 

En ambos casos se trata de establecer una estimación de una proporción p desconocida, pero con especificación del grado de

precisión y certidumbre de tal estimación. 

Es decir, queremos ser capaces de decir: 

“p está entre tal y cual valor (obtenidos a partir de una muestra) con determinada probabilidad” (nunca tenemos certeza absoluta en una

estimación estadística) 

(esto es lo que en la jerga estadística se llama construír un Intervalo de Confianza (IdC) )

 

Page 5: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 5

 

Más precisamente, si tenemos X1,..., Xn iid cuya distribución depende de un parámetro desconocido y tomamos (0,1) arbitrario (usualmente = 0.10, = 0.05 o = 0.01), un Intervalo de confianza al nivel para el parámetro desconocido es un intervalo

 

[a(X1,...., Xn), b(X1,....,Xn)] 

(sus extremos dependen de la muestra) tal que

 

P([a(X1,....,Xn), b(X1,....,Xn)]) = 1-

Más en general, si se tiene que

limn P([a(X1,....,Xn), b(X1,....,Xn)]) = 1-

se dice que el intervalo en cuestión es un Intervalo de Confianza asintótico (o aproximado).

Page 6: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 6

 

Construiremos entonces un I de C asintótico para la proporción p en nuestro muestreo.

Supongamos entonces que muestreamos al azar sin reposición y con equiprobabilidad una muestra de n artículos y que n, siendo grande, es pequeño en comparación con el tamaño del lote. Podemos entonces plantear el modelo binomial y suponer entonces que:

si Xi=1 indica que el i-ésimo artículo muestreado es defectuoso y Xi=0 indica lo contrario, entonces se tiene que,

 X1,..., Xn iid ~ Ber(p)

Page 7: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 7

 Teniendo en cuenta la LFGN, es razonable proponer que 

a(X1,....,Xn) = Mn - , b(X1,....,Xn) = Mn + ,

 

y el problema es determinar tal que 

limn P(p[ Mn -, Mn +])=1- 

Pero 

P(p[ Mn - , Mn + ]) = P( |n(Mn - p)/ σn | n / σn)

 y, por el TCL (y la tercera observación posterior) , el último término

se puede aproximar por 

P(|N(0,1)| n / σn)

Page 8: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 8

 Dado a>0, llamemos za al punto (que se busca en la tabla de la N(0,1)) tal que

 P(N(0,1)> za )=a(e.g., z0.05=1.645, z0.025=1.96),

 

entonces si se toman / σn = z/2

 

se tiene queP( |N(0,1)| n / σn) = P( |N(0,1)| z/2) =

1- P( |N(0,1)| > z/2) = (por la simetría de la N(0,1)) 1- 2 P(N(0,1) > z/2) = 1-

 Resulta entonces que un IdC aproximado al nivel para p es

[ Mn – (n)-1/2 σn z/2, Mn +(n)-1/2 σn z/2] 

y además, en este caso (variables de Bernoulli), puede verificarse queσn= [Mn (1-Mn)] 1/2

Page 9: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 9

 Ejemplo concreto:

 

Para variar, pongámoslo en el contexto de una encuesta electoral. Si en Uruguay se hace una encuesta a 2500 votantes, entre los cuales un 31% manifiesta su intención de votar la opción A, estimar la proporción del total de votantes uruguayos que prefieren A. Como el total de votantes uruguayos es más de un millón de personas, el tamaño de la muestra (2500), siendo grande, es pequeño en comparación con el total de votantes. Es aplicable entonces el marco teórico anterior, llamando p a la proporción de votantes de A en Uruguay. Obviamente, aquí Mn es la proporción de votantes de A en la muestra (0.31).

Page 10: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 10

 

Resulta entonces que el IdC asintótico al nivel 5% para p es 

[ 0.31 – (2500)-1/2(0.31x(1-0.31))1/2 1.96, 0.31 + (2500)-1/2 (0.31x(1-0.31 ))1/2 1.96 ] =

[ 0.31 – 0.01813, 0.31 + 0.01813], 

o sea, 31% 2%!!! 

(De aquí vienen los famosos 2% y similares de los que tanto nos hablan cada cinco años!!)

 

Page 11: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 11

Test de Hipótesis.

Hay un inmensa variedad de situaciones en la vida cotidiana y en la práctica profesional que requieren la toma de decisiones frente a un marco de incertidumbre, en el que no podemos tener certeza absoluta de que nuestras conclusiones son ciertas.

  

Por ejemplo:

Page 12: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 12

•En una fábrica, la proporción de defectuosos en el lote no puede superar un nivel crítico p0, pues de hacerlo, nuestros clientes nos presentarán reclamos (los famosos claim), perderemos mercado y/o prestigio, etc. Para controlar la calidad de nuestra producción, tomamos una muestra de artículos de nuestro lote y debemos decidir, a partir de lo observado en la muestra, si la proporción de defectuosos en el lote supera o no el valor crítico p0. Ya no se trata de estimar la proporción de defectuosos, sino directamente de decidir si es o no mayor que un cierto valor, exponiéndonos, por nuestros posibles errores, a muy distintos riesgos (por un lado dejar de vender un lote apto, por otro vender un lote malo).

Page 13: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 13

• En una obra vial, urbanística o portuaria, debemos dimensionar una estructura; según distintas mediciones de los esfuerzos a la que la misma se verá sometida, debemos decidir cuánto material, de qué calidad, etc., debemos emplear para que la estructura tenga la resistencia requerida. Aquí nuevamente hay dos errores posibles : sobrestimar los materiales requeridos (con las consecuentes pérdidas económicas) o subestimarlos (con la consecuente pérdida de seguridad). Obsérvese en este ejemplo de qué distinta naturaleza son las consecuencias de los dos posibles errores: ¿cómo se comparan los dólares de más que se gastan si uno se equivoca en sobreestimar los requerimientos, con las vidas humanas que se pueden perder si la obra no es suficientemente segura???

Page 14: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 14

Nos consta fehacientemente que hay profesionales universitarios que en ocasiones han cuantificado el valor de las pérdidas humanas en términos estrictamente económicos, calculando pagos por seguros, indemnizaciones, etc. y así han comparado cuánto les “dolía” cada error, llegando a asumir riesgos de seguridad muy considerables (con consecuencias trágicas) en pos de un mayor rédito económico.

Cuánto vale el sufrimiento ajeno para un profesional es un buen medidor de su sensibilidad y de cuál es su ética profesional. No podemos aquí concentrarnos a reflexionar sobre este tipo de problemática, pero bien merecen tanta o más atención que cualquier curso de Física, Matemática o Computación y sería muy deseable que la reflexión ética, profunda, auténtica y autocrítica nos acompañara en cada paso de nuestra vida profesional.

Page 15: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 15

     En un control ambiental o sanitario, debemos inspeccionar la calidad del agua (para consumo como agua potable o , en otro ejemplo, las aguas de las playas para baños) o del aire, con el objeto de decidir si satisface los requerimientos de calidad que habilitan a su utilización. Nuevamente hay dos errores posibles de muy distinto tenor!!     Un ejemplo más cotidiano de decisión frente a incertidumbre: ¿¿cómo decidir, a partir de la “muestra” de haber conocido a otra persona durante un cierto tiempo , si esa deslumbrante y encantadora damisela o si ese dulce y seductor caballero son la pareja perfecta o si se transformarán al cabo de alguos años en una arpía malhumorada de ruleros o en un oso gruñón en pantuflas?? (Si alguno de ustedes descubre el método perfecto para resolver este problema, tiene el Premio Nobel y la gratitud de la Humanidad asegurados!!)

Page 16: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 16

Podríamos seguir agregando una larga lista de ejemplos de las más diversas ramas de la Ingeniería donde siempre nos encontramos con:      La necesidad de decidir entre distintas hipótesis cuál es la correcta, disponiendo de información estadística, por lo que no hay ninguna posibilidad de resolver con absoluta certeza      La existencia de dos errores posibles de decisión, que a menudo tiene consecuencias de muy distinta naturaleza (lo cual a menudo afecta a cuestiones muy profundas de ética profesional) 

Analizaremos ahora en más detalle un ejemplo: un caso muy simplificado de reconstrucción de una imagen.

 

Page 17: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 17

Imaginemos que alguien (el Emisor) nos manda una imagen, la que, durante su transmisión, es afectada por interferencias, por “ruido”, de manera tal que nosotros (el Receptor), cuando vemos en nuestra pantalla la imagen que recibimos, lo que nos encontramos es la superposición de la imagen recibida con todo el ruido que se incorporó durante su transmisión.

  Naturalmente, debemos tener en el receptor algún tipo de filtro que saque el ruido y deje en nuestra pantalla solamente la imagen original enviada; la pregunta es cómo se hace eso, cómo se hace para que el receptor aprenda a distinguir, dentro de lo que “ve”, lo que es ruido y debe ignorar, de lo que es señal emitida que debe guardar!!!! 

 

   

Page 18: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 18

 En una primera aproximación muy simplificada, supongamos que nuestras imágenes son en sólo dos colores (típicamente blanco y negro, aquí lo presentaremos en amarillo y azul para facilitar su visualización) y que nuestra pantalla se puede dividir en un grán número de pequeños rectangulitos (lamados “pixels”, de “picture element”) tales que cada rectangulito debe pintarse completamente de uno de los dos posibles colores (lográndose la “continuidad” de la imagen al observarla desde suficiente distancia).   

Imaginemos entonces que el emisor nos manda la imagen siguiente:

 

Page 19: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 19

Page 20: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 20

•Veamos cómo podríamos instrumentar un “filtro” para leer imágenes de este tipo. Supongamos que la lectura de la imagen se produce mediante n lecturas de una magnitud física para cada pixel j (1 j K) y que en cada pixel j codificamos la imagen original por un cero o un uno; es decir que cada pixel lo codificamos por j, donde

  j=0 representa que el pixel j es amarillo y

j=1 representa que el pixel j es azul.

Page 21: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 21

Supongamos además (en un primer abordaje muy grosero)) que la magnitud que nos permite leer la imagen se comporta de manera independiente en distintos pixels y concentrémonos entonces en describir cómo se hace el proceso de “lectura” de la imagen en un pixel determinado (problema que luego se repite en cada uno de los K pixels). Digamos entonces que para un pixel dado, observamos n veces una magnitud física (una intensidad, por ejemplo), y supongamos que cada lectura de dicha magnitud corresponde a observar el verdadero valor de más el ruido incorporado, el que para simplificar supondremos N(0,2) e iid. O sea que tenemos en cada pixel lo que comúnmente se denomina modelo de posición:

Xi= + i, 1 i n,

donde: 

Page 22: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 22

      X1,..., Xn son nuestras n “lecturas” u observaciones de la señal recibida       El valor de indica de qué color debemos pintar cada pixel ( 0 corresponde a amarillo, 1 a azul)      1,..., n son los “ruidos” incorporados durante la tranmisión, los que en una primera aproximación muy

simplificada supondremos iid y  N(0,2), con un valor conocido.

Page 23: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 23

Nuestro problema es decidir si es cero o es uno, a partir de la observación de los valores X1,..., Xn .  Llamando Mn al promedio de los datos observados, parece bastante natural fijar como regla de decisión la siguiente: 

      Si Mn >1/2 decidimos que es uno y pintamos el pixel de azul       Si Mn 1/2 decidimos que es cero y pintamos el pixel de amarillo .

Page 24: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 24

Obsérvese entonces que tenemos dos tipos de error, que, para clarificar ideas, llamaremos respectivamente Error de tipo I y Error de tipo II:       Error de tipo I: pintar de azul un pixel que en la imagen emitida es amarillo (decidir que es uno cuando en realidad es cero)      Error de tipo II: pintar de amarillo un pixel que en la imagen emitida es azul (decidir que es cero cuando en realidad es uno)

 

Page 25: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 25

 Para calcular las probabilidades de ambos errores, usaremos las siguientes observaciones:       Si =0, se tiene que la distribución de n Mn / es una N(0,1).       Si =1, se tiene que la distribución de   n (Mn –1)/ es una N(0,1). 

Llamando entonces =P(Error tipo I), =P(Error tipo II),  nos dedicaremos ahora a calcular y .

Page 26: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 26

•Para clarificar la notación, pongamos nombre a cada una de las dos hipótesis posibles sobre el verdadero color del pixel      H0 (Hipótesis nula): El pixel es amarillo      H1 (Hipótesis alternativa): El pixel es azul

Como para calcular probabilidades sobre Mn debemos precisar cuál de las hipótesis asumimos (pues como se señaló, es diferente la distribución según cuál de las dos hipótesis sea cierta), indicaremos por PHi

(A), i=0, 1

 que estamos calculando la probabilidad del suceso A suponiendo que Hi es cierta.

Page 27: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 27

Tenemos entonces: 

=P(Error tipo I)= P(pintar de azul un pixel amarillo)= 

PH0(Mn >1/2)= PH0

(n Mn / >n /(2))= P(N(0,1)> n /(2)).

  

Por otra parte, tenemos: 

=P(Error tipo II)= P(pintar de amarillo un pixel azul)= 

PH1(Mn 1/2)=

PH1 (n (Mn –1)/ -n /(2))= P(N(0,1) - n /(2))=

( por simetría de la normal) P(N(0,1)> n /(2)).

Page 28: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 28

==P(N(0,1)> n /(2))

En resumen, tenemos en este ejemplo que:

La siguiente tablita muestra como varía este cálculo al variar n, en un ejemplo en que =2.

Page 29: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 29

   

n Alfa (=Beta)18 0.0668072330 0.0264036950 0.0062096870 0.00154808

100 0.00020352120 5.3776E-05150 7.4567E-06175 1.4566E-06200 2.871E-07225 5.6983E-08250 1.1372E-08275 2.28E-09300 4.5884E-10350 1.8754E-11400 7.7394E-13450 3.2196E-14500 0

Page 30: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 30

Obsérvese que al aumentar n, las probabilidades de error disminuyen, obteniéndose reconstrucciones casi “perfectas” (con pequeñísimas probabilidades de error) cuando n es muy grande. Esto es típico de los procediemientos estadísticos: suelen funcionar muy bien en la medida que los tamaños de las muestars disponibles sean grandes.

Si graficamos la anterior tabla este hecho se manifiesta de manera harto elocuente:

Page 31: P Y E 2012 Clase 16Gonzalo Perera1 Repaso de la clase anterior. Teorema Central del Límite (TCL) Utilización del TCL para aproximar algunas distribuciones.

P Y E 2012 Clase 16 Gonzalo Perera 31

Caso en que el umbral c=1/2: Gráfica de Alfa(=Beta, para c=1/2) vs. n

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

18 30 50 70 100 120 150 175 200 225 250 275 300 350 400 450 500

n

Alf

a

Alfa (=Beta)