Análisis Estadístico de Datos Climáticos

45
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad y aplicaciones Análisis exploratorio de datos univariados

description

Análisis Estadístico de Datos Climáticos. Revisión de probabilidad y aplicaciones Análisis exploratorio de datos univariados. Facultad de Ciencias – Facultad de Ingeniería 2009. M. Barreiro – M. Bidegain – A. Díaz. Ω. A. B. C. Revisión de conceptos sobre probabilidad. - PowerPoint PPT Presentation

Transcript of Análisis Estadístico de Datos Climáticos

Page 1: Análisis Estadístico  de  Datos Climáticos

Análisis Estadístico de

Datos Climáticos

Análisis Estadístico de

Datos Climáticos

Facultad de Ciencias – Facultad de Ingeniería

2009

M. Barreiro – M. Bidegain – A. Díaz

Revisión de probabilidad y aplicaciones

Análisis exploratorio de datos univariados

Page 2: Análisis Estadístico  de  Datos Climáticos

Revisión de conceptos sobre probabilidad

• Utilizamos las probabilidades para cuantificar la incertidumbre

• Eventos o sucesos, espacio muestral Ω, partición de Ω

B

ΩA

C

Diagramas de Venn

Page 3: Análisis Estadístico  de  Datos Climáticos

Axiomas de probabilidad

1) P(A) ≥ 0 si A є Ω

2) P(Ω) = 1

3) Si A1, A2,….An son disjuntos dos a dos, P(A1 U A2 U…..U An) = P(A1) + P(A2) +…+ P(An)

Page 4: Análisis Estadístico  de  Datos Climáticos

Interpretaciones de la probabilidad

Ley de los grandes números

(Ley “débil”)

• Interpretación bayesiana (subjetiva)

Es el fundamento para estimar probabilidades a partir de las frecuencias.

Frecuencia: “Casos favorables” / “Casos posibles”

• Interpretación frecuencista

Page 5: Análisis Estadístico  de  Datos Climáticos

Algunas propiedades:

0 ≤ P(A) ≤ 1

P(B) P(A) BA Si

P(A)1)P(Ac

P(A U B) = P(A) + P(B) – P(A ∩ B)

Page 6: Análisis Estadístico  de  Datos Climáticos

Probabilidad condicional

A ∩ B

Es la probabilidad de que ocurra un suceso A, dada la ocurrencia de otro suceso B, de probabilidad no nula.

Def: P(A | B) = P (A ∩ B) / P(B) con P(B)≠ 0

Ω

Es un concepto especialmente importante porque en el clima hay muchas variables interaccionando.

Page 7: Análisis Estadístico  de  Datos Climáticos

Ejemplos

1) P(llueva mañana | hoy llovió)

3) P(ocurra un evento meteorológico | fue pronosticado)

2) P(TSM promedio en el Pacífico ecuatorial sea > 27,5 ºC mañana | hoy es > 28 ºC)

4) P(en Uruguay llueva por encima de “lo

normal” en noviembre | en setiembre la TSM en el Pacífico ecuatorial está 1ºC por encima del promedio)

Page 8: Análisis Estadístico  de  Datos Climáticos

No confundir relaciones estadísticas con relaciones causa-efecto!!

Page 9: Análisis Estadístico  de  Datos Climáticos

DATOS ESTACIÓN METEOROLÓGICA CARRASCOHumedad Relativa y Precipitación

Diciembre 1997

DIA HR (%) PP (mm) DIA HR (%) PP (mm)1 71 0 17 70 0

2 54 0 18 75 0

3 61 23.88 19 92 0

4 52 0 20 86 0

5 70 0 21 74 0

6 67 0 22 89 13.97

7 85 23.11 23 88 84.07

8 65 0 24 81 0

9 81 0 25 80 0

10 91 3.05 26 94 5.08

11 89 2.03 27 77 29.97

12 98 0 28 67 0

13 97 8.89 29 81 0

14 82 27.94 30 73 1.02

15 72 7.11 31 63 0

16 65 0

Page 10: Análisis Estadístico  de  Datos Climáticos

Estimar:

a) P( PP > 1 mm)

b) P( PP > 1 mm mañana | PP > 1 mm hoy)

c) P(HR > 75%)

d) P( PP > 1 mm | HR > 75 %)

e) P( PP > 1 mm | HR <= 75 %)

Page 11: Análisis Estadístico  de  Datos Climáticos

Independencia

• Concepto: Dos sucesos E1 y E2 son independientes si la ocurrencia de uno no afecta la ocurrencia del otro.

Independencia ↔ P(E1∩E2) = P(E1).P(E2)

o P(E1|E2)=P(E1), o P(E2|E1)=P(E2)

Ej: 1) fenómenos naturales 2) pronósticos

Page 12: Análisis Estadístico  de  Datos Climáticos

Aplicación: Persistencia (o “memoria”)

• Es la existencia de dependencia estadística positiva entre valores sucesivos de una misma variable.

• La persistencia se da en diferentes escalas, dependiendo del fenómeno que se trate. Ej, TSM y presión atmosférica.

• Está asociada a la probabilidad condicional, y tiene consecuencias estadísticas.

Page 13: Análisis Estadístico  de  Datos Climáticos

Ley de probabilidad total

Ω

A

Si los eventos Ei forman una partición de Ω:

Page 14: Análisis Estadístico  de  Datos Climáticos

Teorema de Bayes

Ω

A

Sirve para “invertir” probabilidades condicionales, combinando información previa con información nueva

Page 15: Análisis Estadístico  de  Datos Climáticos

Ejercicio:

Estimar

P(HR>75 % | PP> 1 mm),

usando Bayes y los resultados anteriores.

Verificar por cálculo directo.

Page 16: Análisis Estadístico  de  Datos Climáticos

Datos univariados

Análisis exploratorio de datos

Page 17: Análisis Estadístico  de  Datos Climáticos

Datos climáticos

Observaciones (datos medidos; datos interpolados)

Salidas de modelos numéricos:

Simulaciones o pronósticos (posibilidad de variar condiciones iniciales o de borde)

Page 18: Análisis Estadístico  de  Datos Climáticos

• Robustez y resistencia

• Cuantiles (percentiles)

• Medidas numéricas de resumen

• Técnicas gráficas de resumen

Análisis exploratorio de datos univariados

Page 19: Análisis Estadístico  de  Datos Climáticos

Robustez y resistencia

Es deseable que un método de análisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos.

P. ej., que los resultados no dependan esencialmente de que los datos sigan una distribución gaussiana.

Un método es robusto cuando sus resultados no dependen esencialmente de cuál sea la distribución de los datos.

Un método es resistente si no es influido considerablemente por unos pocos datos atípicos (“outliers”)

Page 20: Análisis Estadístico  de  Datos Climáticos

Ejemplo:

dados los conjuntos

{11 12 13 14 15 16 17 18 19}

y

{11 12 13 14 15 16 17 18 91}

Distintas medidas de “tendencia central”:

En ambos casos, el valor central es 15, pero los promedios son 15 y 23 respectivamente.

Page 21: Análisis Estadístico  de  Datos Climáticos

Estadísticos de orden de una muestra aleatoria

Sea { x1, x2, ..., xn } una muestra aleatoria de datos

Se ordenan en forma ascendente:

{ x(1), x(2) , ..., x(n) } son los estadísticos de orden

( cumpliéndose que x(1) ≤ x(2) ≤ …≤ x(n) )

Ej: {7 -2 1 7 -3 4 0} {-3 -2 0 1 4 7 7}

Page 22: Análisis Estadístico  de  Datos Climáticos

Cuantiles de una muestra aleatoria(percentiles)

Ej.: 1) Sea la muestra aleatoria {7 -2 2 7 -3 4 0}

¿Cómo podemos estimar un valor central que, en sentido amplio, deje probabilidad ½ a ambos lados? {-3 -2 0 2 4 7 7}

Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 2:

{-3 -2 0 2 4 7 7}. Se dice que la mediana de la muestra es 2.

q0.5 = 2 “percentil 50”

Page 23: Análisis Estadístico  de  Datos Climáticos

Cuantiles…

Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0}

¿Cuál será la mediana?

{-3 0 1 4 7 7}

Convencionalmente, se suele tomar el promedio entre los dos valores centrales, o sea

(1 + 4) /2 = 2.5.

Pero, si no se tiene más información, podría elegirse cualquier valor en ese intervalo (1,4)

Page 24: Análisis Estadístico  de  Datos Climáticos

Generalizando, sea p tal que 0 < p < 1.

Los p-quantiles (qp) ( o percentiles) son valores que dejan,en cierto sentido, probabilidad p a su izquierda, y probabilidad 1-p a su derecha.

• • •• • •••• •

p

•1- p

qp

P(X ≤ qp) = p P(X ≥ qp) = 1 - p

Page 25: Análisis Estadístico  de  Datos Climáticos

Estimación de los cuantiles

En general, los percentiles no son únicos y por lo tanto, no hay una única forma de estimarlos.

Una forma posible para una muestra aleatoria de tamaño n es:

1)tomar los estadísticos de orden como los cuantiles (0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente

2) para los cuantiles con probabilidades entre (0.5/n) y ([n-0.5]/n), se interpola linealmente.

3) los valores mínimo o máximo de la muestra se asignan a los cuantiles para probabilidades fuera de ese rango.

Page 26: Análisis Estadístico  de  Datos Climáticos

Principales medidas numéricas de resumen de un conjunto de datos

1) Localización: valor de “tendencia central” del conjunto

2) Dispersión: alrededor del valor central

3) Simetría: cómo están distribuidos los datos respecto del valor central

4)…

Page 27: Análisis Estadístico  de  Datos Climáticos

Localización

Media

Mediana q0.50

N

xx

N

1i

i_

La mediana “divide el conjunto de datos en dos subconjuntos ordenados con igual cantidad de datos” .

Importante: la mediana permite trabajar con estimaciones de probabilidades

La media está comprendida entre el mínimo y el máximo de la muestra.

Page 28: Análisis Estadístico  de  Datos Climáticos

Ejemplo: (con muy pocos datos!!)

2 4 9 11 14

2 4 9 11 7004

8x_

1406x_

(outlier) ??

Localización

La media no es robusta ni resistente

Se puede estimar que P (X ≥ 9) ~ 0.5 ~ P(X ≤ 9)

Page 29: Análisis Estadístico  de  Datos Climáticos

Los cuantiles más usados…

• Mediana q0.5

• Cuartiles, q0.25 , q0.75

• Terciles, q0.33 , q0.66

• Quintiles, deciles,

• q0.05 q0.95

Localización

4

2 0.750.5 0.25 qqq Trimedia

Page 30: Análisis Estadístico  de  Datos Climáticos

Robustez vs. Eficiencia

¿Por qué se usa más la media que la mediana?

Porque en el caso (“muy frecuente”) de una distribución gaussiana es un estimador más eficiente que la mediana: es decir que tiene menos dispersión alrededor del valor a estimar, o de otra forma, con menos valores (una muestra más pequeña) se obtiene la misma dispersión.Además, la media es más fácil de tratar matemáticamente, y es única para una muestra dada.

Page 31: Análisis Estadístico  de  Datos Climáticos

Matlab

Variable Comando

media mean

cuantil quantile

percentil prctile

mediana median

Page 32: Análisis Estadístico  de  Datos Climáticos

Dispersión

• Intervalo intercuartil

IQR = q0.75 - q0.25

(Robusto y resistente)

“No usa” el 25% superior e inferior de los datos

Page 33: Análisis Estadístico  de  Datos Climáticos

Dispersión

• Desviación estándar muestral

σ)x(x1N

1s

N

1i

2_

i

(σ2 = varianza de la población)

(Ni robusta ni resistente)

•Desviación absoluta de la mediana

MAD = median |xi – q0.5|

Page 34: Análisis Estadístico  de  Datos Climáticos

Simetría

Coeficiente de asimetría de la muestra

Ambos son adimensionados

γ < 0

γ > 0

Indice de Yule-Kendall

Page 35: Análisis Estadístico  de  Datos Climáticos

Técnicas gráficas de resumen

• Boxplots

• Histogramas

• Distribuciones de frecuencia acumulada

Page 36: Análisis Estadístico  de  Datos Climáticos

Boxplots (“barritas”)

Page 37: Análisis Estadístico  de  Datos Climáticos

0 10 20 30 40 50 60 70 80 90 100 110 120 130

. . . . .

Min = 3.20

q0.25 = 43.645

q0.50 = 60.345

q0.75 = 84.96

Max = 124.27

Boxplots (“barritas”)

Page 38: Análisis Estadístico  de  Datos Climáticos

Temperatura diaria máxima en Melbourne

Se destacan valores extremos inusuales

Page 39: Análisis Estadístico  de  Datos Climáticos

Histogramas

Además de la localización, la dispersión, y la simetría, también muestran si los datos son multimodales

Page 40: Análisis Estadístico  de  Datos Climáticos

HistogramasPrecipitación Rivera agosto 1914-1997

0 50 100 150 200 250 3000

5

10

15

20

25

mm

No.

de

ocur

renc

ias

Precipitación Rivera agosto 1914-1997

mediana=78.5 mm

media = 97.9 mm

Page 41: Análisis Estadístico  de  Datos Climáticos

HistogramasPrecipitación Rivera abril 1914-1997

mediana=110.5 mm

media = 141.7 mm

Page 42: Análisis Estadístico  de  Datos Climáticos

Histogramas

Page 43: Análisis Estadístico  de  Datos Climáticos

Distribuciones empíricas de frecuencia acumulada

P (X ≤ x)

mediana=110.5 mm

P(X≤110.5) = 0.5

110.5 mm

Page 44: Análisis Estadístico  de  Datos Climáticos

Distribuciones empíricas de frecuencia acumulada

Page 45: Análisis Estadístico  de  Datos Climáticos

Matlab

“Variable” Comando

Desviación estándar, varianza

std

var

Intervalo intercuartil

iqr

Desv. abs. de la

mediana

mad

histograma hist

Distr. de frecuencia acumulada

ecdf