Análisis Estadístico de Datos Climáticos

download Análisis Estadístico  de  Datos Climáticos

of 45

  • date post

    23-Jan-2016
  • Category

    Documents

  • view

    54
  • download

    3

Embed Size (px)

description

Análisis Estadístico de Datos Climáticos. Revisión de probabilidad y aplicaciones Análisis exploratorio de datos univariados. Facultad de Ciencias – Facultad de Ingeniería 2009. M. Barreiro – M. Bidegain – A. Díaz. Ω. A. B. C. Revisión de conceptos sobre probabilidad. - PowerPoint PPT Presentation

Transcript of Análisis Estadístico de Datos Climáticos

  • Anlisis Estadstico de Datos ClimticosFacultad de Ciencias Facultad de Ingeniera

    2009M. Barreiro M. Bidegain A. DazRevisin de probabilidad y aplicaciones

    Anlisis exploratorio de datos univariados

  • Revisin de conceptos sobre probabilidad Utilizamos las probabilidades para cuantificar la incertidumbreEventos o sucesos, espacio muestral , particin de Diagramas de Venn

  • Axiomas de probabilidad

    1) P(A) 0 si A 2) P() = 13) Si A1, A2,.An son disjuntos dos a dos, P(A1 U A2 U..U An) = P(A1) + P(A2) ++ P(An)

  • Interpretaciones de la probabilidad Ley de los grandes nmeros (Ley dbil) Interpretacin bayesiana (subjetiva)Es el fundamento para estimar probabilidades a partir de las frecuencias. Frecuencia: Casos favorables / Casos posibles Interpretacin frecuencista

  • Algunas propiedades: 0 P(A) 1 P(A U B) = P(A) + P(B) P(A B)

  • Probabilidad condicionalA BEs la probabilidad de que ocurra un suceso A, dada la ocurrencia de otro suceso B, de probabilidad no nula.Def: P(A | B) = P (A B) / P(B) con P(B) 0

    Es un concepto especialmente importante porque en el clima hay muchas variables interaccionando.

  • Ejemplos1) P(llueva maana | hoy llovi)3) P(ocurra un evento meteorolgico | fue pronosticado)2) P(TSM promedio en el Pacfico ecuatorial sea > 27,5 C maana | hoy es > 28 C)4) P(en Uruguay llueva por encima de lo normal en noviembre | en setiembre la TSM en el Pacfico ecuatorial est 1C por encima del promedio)

  • No confundir relaciones estadsticas con relaciones causa-efecto!!

  • DATOS ESTACIN METEOROLGICA CARRASCOHumedad Relativa y Precipitacin Diciembre 1997

  • Estimar:

    a) P( PP > 1 mm)

    b) P( PP > 1 mm maana | PP > 1 mm hoy)

    c) P(HR > 75%)

    d) P( PP > 1 mm | HR > 75 %)

    e) P( PP > 1 mm | HR

  • IndependenciaConcepto: Dos sucesos E1 y E2 son independientes si la ocurrencia de uno no afecta la ocurrencia del otro.Independencia P(E1E2) = P(E1).P(E2)o P(E1|E2)=P(E1), o P(E2|E1)=P(E2)Ej: 1) fenmenos naturales 2) pronsticos

  • Aplicacin: Persistencia (o memoria)Es la existencia de dependencia estadstica positiva entre valores sucesivos de una misma variable.

    La persistencia se da en diferentes escalas, dependiendo del fenmeno que se trate. Ej, TSM y presin atmosfrica.

    Est asociada a la probabilidad condicional, y tiene consecuencias estadsticas.

  • Ley de probabilidad totalSi los eventos Ei forman una particin de :

  • Teorema de Bayes Sirve para invertir probabilidades condicionales, combinando informacin previa con informacin nueva

  • Ejercicio:

    Estimar P(HR>75 % | PP> 1 mm),usando Bayes y los resultados anteriores.Verificar por clculo directo.

  • Datos univariados

    Anlisis exploratorio de datos

  • Datos climticosObservaciones (datos medidos; datos interpolados)

    Salidas de modelos numricos: Simulaciones o pronsticos (posibilidad de variar condiciones iniciales o de borde)

  • Robustez y resistencia

    Cuantiles (percentiles)

    Medidas numricas de resumen

    Tcnicas grficas de resumenAnlisis exploratorio de datos univariados

  • Robustez y resistenciaEs deseable que un mtodo de anlisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos.

    P. ej., que los resultados no dependan esencialmente de que los datos sigan una distribucin gaussiana.

    Un mtodo es robusto cuando sus resultados no dependen esencialmente de cul sea la distribucin de los datos.

    Un mtodo es resistente si no es influido considerablemente por unos pocos datos atpicos (outliers)

  • Ejemplo:

    dados los conjuntos

    {11 12 13 14 15 16 17 18 19}

    y

    {11 12 13 14 15 16 17 18 91}

    Distintas medidas de tendencia central:

    En ambos casos, el valor central es 15, pero los promedios son 15 y 23 respectivamente.

  • Estadsticos de orden de una muestra aleatoria

    Sea { x1, x2, ..., xn } una muestra aleatoria de datosSe ordenan en forma ascendente:

    { x(1), x(2) , ..., x(n) } son los estadsticos de orden

    ( cumplindose que x(1) x(2) x(n) )

    Ej: {7 -2 1 7 -3 4 0} {-3 -2 0 1 4 7 7}

  • Cuantiles de una muestra aleatoria(percentiles)Ej.: 1) Sea la muestra aleatoria {7 -2 2 7 -3 4 0}

    Cmo podemos estimar un valor central que, en sentido amplio, deje probabilidad a ambos lados? {-3 -2 0 2 4 7 7}

    Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 2:

    {-3 -2 0 2 4 7 7}. Se dice que la mediana de la muestra es 2. q0.5 = 2

    percentil 50

  • CuantilesEj. 2) Sea ahora la muestra {7 1 7 -3 4 0}

    Cul ser la mediana?

    {-3 0 1 4 7 7}

    Convencionalmente, se suele tomar el promedio entre los dos valores centrales, o sea

    (1 + 4) /2 = 2.5.

    Pero, si no se tiene ms informacin, podra elegirse cualquier valor en ese intervalo (1,4)

  • Generalizando, sea p tal que 0 < p < 1.Los p-quantiles (qp) ( o percentiles) son valores que dejan,en cierto sentido, probabilidad p a su izquierda, y probabilidad 1-p a su derecha. p1- pqpP(X qp) = pP(X qp) = 1 - p

  • Estimacin de los cuantilesEn general, los percentiles no son nicos y por lo tanto, no hay una nica forma de estimarlos.

    Una forma posible para una muestra aleatoria de tamao n es:

    tomar los estadsticos de orden como los cuantiles (0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente

    2) para los cuantiles con probabilidades entre (0.5/n) y ([n-0.5]/n), se interpola linealmente.

    3) los valores mnimo o mximo de la muestra se asignan a los cuantiles para probabilidades fuera de ese rango.

  • Principales medidas numricas de resumen de un conjunto de datos 1) Localizacin: valor de tendencia central del conjunto 2) Dispersin: alrededor del valor central 3) Simetra: cmo estn distribuidos los datos respecto del valor central4)

  • Localizacin Media Medianaq0.50 La mediana divide el conjunto de datos en dos subconjuntos ordenados con igual cantidad de datos . Importante: la mediana permite trabajar con estimaciones de probabilidadesLa media est comprendida entre el mnimo y el mximo de la muestra.

  • Ejemplo: (con muy pocos datos!!)2 4 9 11 142 4 9 11 7004(outlier) ?? Localizacin La media no es robusta ni resistenteSe puede estimar que P (X 9) ~ 0.5 ~ P(X 9)

  • Los cuantiles ms usados

    Mediana q0.5 Cuartiles, q0.25 , q0.75 Terciles, q0.33 , q0.66 Quintiles, deciles,

    q0.05 q0.95Localizacin

  • Robustez vs. EficienciaPor qu se usa ms la media que la mediana?

    Porque en el caso (muy frecuente) de una distribucin gaussiana es un estimador ms eficiente que la mediana: es decir que tiene menos dispersin alrededor del valor a estimar, o de otra forma, con menos valores (una muestra ms pequea) se obtiene la misma dispersin.Adems, la media es ms fcil de tratar matemticamente, y es nica para una muestra dada.

  • Matlab

  • Dispersin Intervalo intercuartil IQR = q0.75 - q0.25(Robusto y resistente)No usa el 25% superior e inferior de los datos

  • Dispersin Desviacin estndar muestral(2 = varianza de la poblacin)(Ni robusta ni resistente)Desviacin absoluta de la medianaMAD = median |xi q0.5|

  • SimetraCoeficiente de asimetra de la muestraAmbos son adimensionados < 0 > 0Indice de Yule-Kendall

  • Tcnicas grficas de resumenBoxplots

    Histogramas

    Distribuciones de frecuencia acumulada

  • Boxplots (barritas)

  • 0 10 20 30 40 50 60 70 80 90 100 110 120 130.....Min = 3.20q0.25 = 43.645q0.50 = 60.345q0.75 = 84.96Max = 124.27 Boxplots (barritas)

  • Temperatura diaria mxima en MelbourneSe destacan valores extremos inusuales

  • HistogramasAdems de la localizacin, la dispersin, y la simetra, tambin muestran si los datos son multimodales

  • HistogramasPrecipitacin Rivera agosto 1914-1997mediana=78.5 mmmedia = 97.9 mm

  • HistogramasPrecipitacin Rivera abril 1914-1997mediana=110.5 mmmedia = 141.7 mm

  • Histogramas

  • Distribuciones empricas de frecuencia acumuladaP (X x)mediana=110.5 mmP(X110.5) = 0.5110.5 mm

  • Distribuciones empricas de frecuencia acumulada

  • Matlab

    Variables medidas (atmosfricas, ocanicas, y otras)