1.1 Predicción Espacial {Z()s d n - Bienvenidos junio 12 kriging.… · 0 1 ˆ() n ii i Z sZsλ =...
Transcript of 1.1 Predicción Espacial {Z()s d n - Bienvenidos junio 12 kriging.… · 0 1 ˆ() n ii i Z sZsλ =...
1.1 Predicción Espacial
Sea el campo aleatorio ( ){ }dRDssZ ⊂∈: donde se ha observado el atributo Z en las ubicaciones nsss ,,, 21 y se desear predecir dicho atributo en una ubicación no observada, basándose en los valores obtenidos en las muestras hechas. Las técnicas de predicción espacial son modalidades de una familia de métodos llamada Kriging. El nombre se debe al Ingeniero minero D.G. Krige, quien desarrolló en la década de los 50, métodos empíricos para predecir características de una mina en alguna ubicación de interés donde no se conocían datos, usando las características conocidas en lugares cercanos donde si habían sido tomados. Su método original es conocido como Kriging ordinario. El Kriging aparece en muchas formas de acuerdo a si se conocen la media, la distribución de probabilidad de Z(s), si las predicciones son hechas para puntos o áreas y así sucesivamente. Sin embargo, es importante recordar que el Kriging no es el único método de predicción espacial; existen métodos determinísticos como distancia inversa, interpolación polinomial global, interpolación polinomial local, triangulación lineal, funciones de base radial entre otros. La ventaja del kriging sobre los métodos determinísticos es la estimación de la varianza del error de predicción, lo cual permite además estimar intervalos de confianza para dicha predicción además de que el kriging es un método de estimación que da el mejor estimador lineal insesgado (cuando se cumplen todos los supuestos). Inicialmente, el kriging fue desarrollado para aquellos casos donde hay presencia de estacionariedad y posteriormente fue extendido para casos donde se cumple la hipótesis intrínseca.
1.1.1 Generalidades sobre el kriging La toma de muestras da la información de lo que ocurre en cada punto. Sin embargo, no da información acerca de la relación que pueda existir entre dichos puntos. Se requiere de una forma precisa de estimar valores en puntos intermedios o en el caso de bloques, por ejemplo, estimar el promedio sobre el bloque. La precisión del estimador usado depende de varios factores:
El número de muestras tomadas La calidad de la medición en cada punto Las ubicaciones de las muestras en la zona; si las muestras son igualmente espaciadas se alcanza una mejor cobertura, dando mayor información
acerca de la zona que aquella que se obtendría de muestras muy agrupadas en unos sectores y separadas en otros. Sin embargo, en la práctica, debido a las características de las regiones de estudio, muchas veces es preciso tomar muestras irregularmente espaciadas.
las distancias entre las muestras; para la predicción es mas confiable usar muestras vecinas que muestras distantes, esto es, la precisión mejora cuando la cercanía de las muestras aumenta, y se deteriora cuando esta disminuye. La extrapolación no es aconsejable.
La continuidad espacial de la variable o atributo en estudio; es más fácil estimar el valor de una variable bastante regular en una región que una que presenta grandes fluctuaciones.
1.1.2 Introducción a la teoría del kriging
Ejemplo
Supongamos que se tienen las mediciones Z(s1), Z(s2), Z(s3) y Z(s4), en los puntos s1, s2, s3 y s4 respectivamente, y se requiere predecir el valor Z(s0). El valor a predecir se ubica mas cerca de s2 que de cualquier otra ubicación donde se tenga medición; por lo tanto, es lógico pensar que Z(s0) es mas parecido a Z(s2) que a cualquiera de los otros tres valores medidos. De acuerdo a lo anterior, se puede optar para la predicción, por una media ponderada de las cuatro mediciones, en la cual Z(s2) tiene mayor peso que cualquier otra, seguida en su orden por Z(s4), Z(s3) y por último Z(s1).
Así, 0 1 1 2 2 3 3 4 4Z(s )= Z(s )+ Z(s )+ Z(s )+ Z(s )λ λ λ λ Donde los iλ , 1,2,3,4i = son los factores de ponderación o pesos tales que
2 4 3 1λ λ λ λ> > > y 4
1
1ii
λ=
=∑ .
En general, para obtener una estimación de Z(s0), se realiza una combinación lineal de los valores Z(si), 1i n= … :
*s1 *s2 +s0
*s3 *s4
01
ˆ ( ) ( )n
i ii
Z s Z sλ=
= ∑
Los parámetros iλ son los factores de ponderación o coeficientes de ponderación y son calculados de acuerdo a los siguientes criterios:
0ˆ ( )Z s sea insesgado
0 0ˆ( ( ) ( ))Var Z s Z s− sea mínima
Note que
2 20 0 0 0 0 0
22 20 0 0 0 0 0
ˆ ˆ ˆ( ( ) ( )) ( ( ) ( )) ( ( ) ( ))
ˆ ˆ ˆ( ( ) ( )) ( ( ) ( )) ( ( ) ( ))
Var Z s Z s E Z s Z s E Z s Z s
E Z s Z s E Z s Z s E Z s Z s
− = − − −
⎡ ⎤= − − − = −⎣ ⎦
Ahora
[ ]
2 20 0 0 0
1 1 1
20 0
1 1 1
ˆ( ( ) ( )) ( ) ( ) 2 ( ) ( ) ( )
( ) ( ) 2 ( ) ( ) ( )
n n n
i i j j i ii j i
n n n
i j i j i ii j i
E Z s Z s E Z s Z s Z s Z s Z s
E Z s Z s E Z s Z s E Z s
λ λ λ
λ λ λ
= = =
= = =
⎡ ⎤⎛ ⎞⎛ ⎞− = − +⎢ ⎥⎜ ⎟⎜ ⎟⎝ ⎠⎢ ⎥⎝ ⎠⎣ ⎦
⎡ ⎤⎡ ⎤= − +⎣ ⎦ ⎣ ⎦
∑ ∑ ∑
∑∑ ∑
Si ha estimado el semivariograma o bien se conoce la función de covarianza, también se tendrán los valores
[ ] 20 0( ) ( ) , ( ) ( ) y ( )i j iE Z s Z s E Z s Z s E Z s⎡ ⎤⎡ ⎤⎣ ⎦ ⎣ ⎦
Por lo tanto, se encontrarán los iλ minimizando esta varianza. Del respectivo proceso de minimización se obtendrá un sistema de ecuaciones, que cambiará de acuerdo a las hipótesis que se tengan sobre la media y la covarianza del proceso, y la distribución de la variable en estudio. En la próxima sección se mencionarán algunos de estos casos.
1.1.3 Cálculo de los factores de ponderación para algunos casos Kriging Simple El kriging simple asume el conocimiento tanto de la media como de la covarianza del proceso. Por supuesto, es poco práctico ya que en general
estos dos parámetros son desconocidos y es preciso estimarlos a partir de los datos de la muestra. Definamos la variable
( ) ( )Y s Z s µ= −
donde µ es la media de la variable en la región de estudio y por lo tanto
( ) 0E Y s =⎡ ⎤⎣ ⎦ .
Entonces si ahora encontramos la predicción de ( )0Y s , tendremos
( ) ( )01
ˆn
i ii
Y s Y sλ=
= ∑ .
Ahora para encontrar los factores de ponderación vamos a minimizar el error de predicción ( ) ( )( )0 0Y s Y s− . Como ( )0Y s es desconocido, se minimizará el
error cuadrático medio de predicción; esto es, hay que minimizar
( ) ( )( )2
0 0ˆE Y s Y s−
Que según vimos en la sección anterior, se puede escribir como
[ ]
[ ]
2 20 0 0 0
1 1 1
01 1 1
ˆ( ( ) ( )) ( ) ( ) 2 ( ) ( ) ( )
2 (0)
n n n
i j i j i ii j i
n n n
i j i j i ii j i
E Y s Y s E Y s Z s E Y s Y s E Y s
Cov s s Cov s s Cov
λ λ λ
λ λ λ
= = =
= = =
⎡ ⎤⎡ ⎤− = − +⎣ ⎦ ⎣ ⎦
⎡ ⎤= − − − +⎣ ⎦
∑∑ ∑
∑∑ ∑
Ahora, se aplica el proceso clásico de minimización derivando parcialmente respecto a cada uno de los parámetros iλ e igualando a cero estas derivadas, con lo que las ecuaciones quedan:
( ) ( ) ( )2
0 0 01
ˆ 2 2 0 i = 1 nn
j i j iji
E Y s Y s Cov s s Cov s sλλ =
∂ ⎡ ⎤ ⎡ ⎤− = − − − =⎣ ⎦⎣ ⎦∂ ∑ …
con lo cual queda definido un sistema de n ecuaciones con n incógnitas. Para j ( )1j n= … arbitraria la ecuación es:
( )
( )
01
01
2 2 0
n
j i j ij
n
j i j ij
Cov s s Cov s s
Cov s s Cov s s
λ
λ
=
=
⎡ ⎤− − − =⎣ ⎦
⎡ ⎤− = −⎣ ⎦
∑
∑
Que es un sistema con única solución en virtud de la matriz de coeficientes la cual es definida positiva. Así para predecir la variable original Z
( ) ( )01
ˆn
i ii
Z s Zµ λ µ=
= + −∑
y la varianza del error de predicción queda
( ) ( )( ) ( )( ) ( )0 0 01
ˆn
i i ii
Var Z s Z s Var Z s Cov s sλ=
− = − −∑
De donde podemos concluir que la varianza del error de predicción es menor a la varianza de la variable en estudio, lo cual es consecuencia del conocimiento de los parámetros del proceso. Kriging Ordinario El kriging ordinario se usa cuando la variable es estacionaria con covarianza conocida y media desconocida. Aunque el proceso es similar al del kriging simple, no podemos centrar la variable, ya que no conocemos µ , así que es necesario trabajar directamente con la variable en estudio Z. Nuevamente la predicción es
01
ˆ ( ) ( )n
i ii
Z s Z sλ=
= ∑
Al no conocer la media es necesario garantizar la propiedad de insesgamiento:
( ) ( )[ ] ( ) ( )
( )[ ] ( )[ ]
1 Cuando
01 01
0
1
11
110
01
00*
=
=⎥⎦
⎤⎢⎣
⎡−⇔=⎥
⎦
⎤⎢⎣
⎡−
=−=−
=⎥⎦
⎤⎢⎣
⎡−=−
∑
∑∑
∑∑
∑
=
==
==
=
n
ii
n
ii
n
ii
n
ii
n
iii
n
iii
sZEsZE
sZsZEsZsZE
λ
λλµ
µµλλ
λ
( )ˆE Z Z=
De esta forma,
( )1
( )n
i ii
E Z s E Zλ µ=
⎡ ⎤ = =⎢ ⎥⎣ ⎦∑
lo cual es equivalente a
[ ]1 1
( )n n
i i ii i
E Z sλ λ µ µ= =
= =∑ ∑
Por tanto, es indispensable que se cumpla la condición de que
1
1n
ii
λ=
=∑
para obtener un estimador insesgado. Se mantiene igual la segunda condición que es la de mínima varianza; partamos de la expresión ya deducida de la varianza
[ ]2 20 0 0 0
1 1 1
ˆ( ( ) ( )) ( ) ( ) 2 ( ) ( ) ( )n n n
i j i j i ii j i
E Z s Z s E Z s Z s E Z s Z s E Z sλ λ λ= = =
⎡ ⎤⎡ ⎤− = − +⎣ ⎦ ⎣ ⎦∑∑ ∑
Donde bajo las nuevas condiciones se tiene:
( ) 2
2 2 2 20
( ) ( )
( ) (0)
i j i jE Z s Z s Cov s s
E Z s Cov
µ
µ σ µ
⎡ ⎤ = − +⎣ ⎦⎡ ⎤ = + = +⎣ ⎦
Sustituyendo en la varianza queda
( ) ( ) ( )2 20 0
1 1 1 1 1 1
ˆ( ( ) ( )) 2 0 2 1n n n n n n
i j i j i i j i j ii j i i j i
E Z s Z s Cov s s Cov s s Cλ λ λ µ λ λ λ= = = = = =
⎡ ⎤− = − − − + + − +⎢ ⎥
⎣ ⎦∑∑ ∑ ∑∑ ∑
pero
2
1 1 1 1
2 1 1 0n n n n
i j i ii j i i
λ λ λ λ= = = =
⎡ ⎤ ⎡ ⎤− + = − =⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦∑∑ ∑ ∑
por la propiedad de insesgamiento. Así que la expresión a minimizar es
( ) ( ) ( )1 1 1
2 0n n n
i j i j i i ji j i
Cov s s Cov s s Cλ λ λ= = =
− − − +∑∑ ∑
bajo la restricción
( )ˆE Z Z=
Se utiliza para estos casos el método de los multiplicadores de Lagrange:
( ) ( ) ( )1
, ni
i i j i jii
Cov s s Cov s sφ λ µ
λ µλ =
∂= − − − −
∂ ∑
( ) ( ) ( )1
, ni
i i j i jii
Cov s s Cov s sφ λ µ
λ µλ =
∂= − − − −
∂ ∑
( ) ( )1
0n
i i j i ji
Cov s s Cov s sλ µ=
− − − − =∑
( ) ( )1
n
i i j i ji
Cov s s Cov s sλ µ=
− − = −∑
( )1
,1
ni
ii
φ λ µλ
µ =
∂ ⎡ ⎤= −⎢ ⎥∂ ⎣ ⎦∑
1
1 0n
iiλ
=
− =∑
1
1n
iiλ
=
=∑
Dando como resultado el sistema de 1n + ecuaciones del kriging ordinario:
( ) ( )1
n
i i j i ji
Cov s s Cov s sλ µ=
− − = −∑
1
1n
ii
λ=
=∑
a partir de las cuales se encuentran los valores de los factores de ponderación para llevar a cabo la predicción. Por último, la varianza del error de predicción para este caso es
( ) ( )( ) ( )( ) ( )0 0 01
ˆn
i i ii
Var Z s Z s Var Z s Cov s sλ µ=
− = − − +∑
que tal como es de esperarse es mayor que la del kriging simple, debido al desconocimiento de la media de la variable en estudio. Kriging Ordinario para variables intrínsecas Este es un caso más general, en el cual la varianza no existe y las condiciones impuestas sobre la variable regionalizada son:
( ) ( ) 0E Z s h Z s+ − =⎡ ⎤⎣ ⎦
( ) ( ) ( )12
h Var Z s h Z sγ = + −⎡ ⎤⎣ ⎦
Nuevamente, hay que imponer las siguientes restricciones
Estimación lineal
01
ˆ ( ) ( )n
i ii
Z s Z sλ=
= ∑
Insesgamiento
( )ˆE Z Z=
Mínima varianza
( ) ( ) ( ) ( )2
0 0 0 0ˆ ˆVar Z s Z s E Z s Z s⎡ ⎤ ⎡ ⎤− = −⎣ ⎦ ⎣ ⎦ es mínima
Aplicando nuevamente el método de los multiplicadores de Lagrange, se obtienen los factores de ponderación y la varianza del error de predicción es
( ) ( )( ) ( )0 0 01
ˆn
i ii
Var Z s Z s s sλγ µ=
− = − +∑
Este es el caso más general ya que es válido tanto para variables estacionarias como para variables intrínsecas.
En general, el kriging es òptimo cuando la variable en estudio proviene de una población con distribución normal. La alternativa con cual se debe trabajar es aplicarle a la variable una transformación que la lleve a una normal y a partir de la nueva variable transformada estimar el semivariograma y aplicarle las ecuaciones del kriging. Al final, el análisis requiere llevar la variable a su escala original. Un caso que surge bastante en casos prácticos es el de la distribución log‐normal.
1. Análisis de normalidad
1.1 ANÁLISIS GRÁFICO
GRÁFICOS GENERALES Características de la distribución de probabilidad normal tales como simetría y apuntamiento, pueden ser ilustradas por los gráficos clásicos de la estadística descriptiva, como el histograma, el diagrama de caja y bigotes, y el diagrama de tallo y hojas; a continuación estos gráficos para una muestra de una variable aleatoria con distribución de probabilidad normal:
5560
6570
7580
85
Histogram of x
x
Freq
uenc
y
50 55 60 65 70 75 80 85
050
100
150
Gráfico 1. Diagrama de caja e histograma de una muestra aleatoria proveniente de una
distribución de probabilidad normal
Es importante recordar que el histograma no es único. Por lo tanto, para esperar un comportamiento acampanado del histograma, una opción es construir los intervalos de la forma ksx ± 1 con 3,2,1,0=k según hasta donde existan datos. En algunas disciplinas se usa la construcción de los histogramas con base en intervalos “equiprobables”; luego en este caso se esperaría un histograma con todos los rectángulos a la misma altura.
1 El procedimiento de verificar que a 1, 2 y 3 desviaciones estándar de la media se encuentra respectivamente, el 68.26%, el 95.44% y el 99.74% de las observaciones se conoce como regla empírica.
Gráfico 2. Diagrama de Tallo y hojas de una muestra aleatoria proveniente de una
distribución de probabilidad normal
En este diagrama de tallo y hojas se observa claramente la figura acampanada de forma horizontal. Sin embargo, existe un gráfico diseñado exclusivamente para el análisis de normalidad:
GRÁFICO QXQ El gráfico cuantil‐cuantil, consiste en la comparación de los cuantiles muestrales con los poblacionales, de tal forma que entre mas similares sean estas dos series de datos, mejor será el ajuste y por lo tanto, se espera que el diagrama de dispersión entre ellos se aproxime bastante a una línea recta. Los pasos para la construcción de este gráfico son los siguientes:
1. Cuantiles muestrales: Se ordenan las observaciones nxxx ,,, 21 … de
menor a mayor )()2()1( ,,, nxxx … . El dato )(ix corresponderá al cuantil
(proporción) ni. Por ejemplo, si la muestra tuviera 200 observaciones, el
dato )10(x corresponderá al cuantil (proporción) %505.020010
== , ya
que el 5% de las observaciones son inferiores al dato )10(x . Se suele
utilizar para corrección por continuidad n
i )( 2/1− .
2. Cuantiles poblacionales: Sean nqqq ,,, 21 … los cuantiles poblaciones, es
decir, iq es el valor por debajo del cual se encuentran, una proporción de
ni )( 2/1− de datos de la población. estos se encuentran aplicando a cada
proporciòn muestral la distribución normal inversa:
( )ii pq 1−Φ= 3. Se ubican en el plano cartesiano las parejas ordenadas ( )( )ii xq , y se
analiza la cercanía a la linealidad de dicho gráfico.
Gráfico 3. Cuantil‐Cuantil en el caso en el que la distribución normal ajusta adecuadamente
los datos de la muestra.
En este caso, las observaciones se aproximan bastante a la recta y por lo tanto, se puede pensar en que el supuesto de normalidad es válido. Todo el software estadístico lo tiene implementado. A continuación un gráfico cuyo comportamiento evidencia que la muestra no proviene de una distribución de probabilidad normal.
-3 -2 -1 0 1 2 3
2000
040
000
6000
080
000
1000
0012
0000
norm quantiles
sala
rio
Gráfico 4. Cuantil‐Cuantil en el caso en el que la distribución normal no representa un buen
ajuste para los datos de la muestra.
Si bien, el análisis gráfico, es muy importante e ilustrativo, continúa siendo una herramienta de estadística descriptiva y por tanto no es concluyente. Incluso cuando se tiene prácticamente la certeza sobre el comportamiento aproximadamente normal de los datos, es necesaria la aplicación de inferencia estadística, ya que la conclusión es acerca de la distribución de la variable de donde proviene la muestra. A continuación, se relacionan varias pruebas de normalidad.
1.2 PRUEBAS DE HIPÓTESIS
PRUEBA DE SHAPIRO Y WILK Esta prueba se centra en determinar la bondad del ajuste de una recta al gráfico QQ. Es exclusiva para probar normalidad.
Donde es la varianza muestral,
son los coeficientes tabulados para esta prueba y
es el j‐ésimo elemento de la muestra ordenada
PRUEBAS BASADAS EN ASIMETRÍA Y CURTOSIS
ASIMETRÍA Si 50>n , el coeficiente de asimetría, tiene una distribución de probabilidad asintóticamente normal con parámetros
( ) 0=AsE y ( )n
AsVar 6=
Por lo tanto, ( )0,1N~6n
AsZ =
( )0,1N~6
nAsZ =
CURTOSIS Si 200>n , el coeficiente de curtosis, tiene una distribución de probabilidad asintóticamente normal con parámetros
( ) 3=kE y ( )n
kVar 24=
Por lo tanto, ( )0,1N~24
3
n
kZ −=
( ) ( )0,1N~243 nkZ −
=
PRUEBA DE JARQUE Y BERA (JB) También llamada prueba Ómnibus, esta involucra simultáneamente los coeficientes de asimetría y curtosis. Se requiere que la muestra tenga al menos 200 observaciones.
PRUEBA DE BONDAD DE AJUSTE CHI‐CUADRADO DE PEARSON Algoritmo
1. Construir una tabla de frecuencias, la cual en lo posible no tenga menos de 5 intervalos y además, no haya menos de 5 datos en cada intervalo.
2. Encontrar las frecuencias “esperadas” según , esto es, encontrar , donde es la probabilidad del intervalo i
3. Calcular el estadístico de prueba y comparar con el cuantil teórico correspondiente
PRUEBA DE KOLMOGOROV SMIRNOV Esta prueba calcula la distancia entre la función de distribución muestral y la función de distribución teórica supuesta en la , Algoritmo
1. Encontrar la distribución de frecuencias muestral
Con base en la muestra ordenada
2. Encontrar la correspondiente distribución teórica 3. Calcular el estadístico de prueba
Su distribución exacta se encuentra tanto en los programas estadísticos como en varios libros de estadística no paramétrica.
Nota 1
Cuando los parámetros de la función son estimados de la muestra, es necesario aplicar la corrección de Lilliefors a la distribución del .
TRANSFORMACIÓN BOX COX La familia de transformaciones Box Cox, es de mucha utilidad cuando se han detectado problemas de heterocedasticidad, falta de normalidad o falta de linealidad, y se buscan métodos para realizar las respectivas correcciones; la muy conocida transformación logarítmica es un caso particular de esta importante familia; incluso, en muchas ocasiones se utiliza de forma mecánica sin tener en cuenta otras posibilidades. La forma general de la familia de transformaciones Box Cox es la siguiente: Si 0>iy ; i∀ , ni ,,1…= . Se define la nueva variable ( )λy como
⎪⎩
⎪⎨⎧
=
≠−
= 0 para log
0 para 1)(
λ
λλ
λ
λ
y
yy
En el caso en el cual no se cumpla 0>iy ; i∀ , ni ,,1…= se puede realizar una traslación de la variable y; en este caso quedaría
( )( )
( )⎪⎩
⎪⎨⎧
=+
≠−+
=+ 0 para log
0 para 1)(
λ
λλ
λ
λ
my
mymy
La justificación para que la transformación sea logy 0 para =λ es el uso de la regla de L’hospital:
El valor de que logra la mejor transformación de la variable de interés, es el que maximiza la cantidad
es la estimación máximo verosímil de la varianza de la variable .