Områdeestimation - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap7.pdf ·...

42
Kapitel 7 Områdeestimation Lad (ν θ ) θΘ være en parametriseret statistisk model på (X, E). I kapitel 4 definerede vi såkaldte punktestimatorer af parameteren θ. Disse estimatorer fungerer sådan at vi på baggrund af en observation x ∈X gætter på en helt bestemt parameterværdi θ = t( x) som vores bud på den sande parameter. En mere forsigtig tilgang kunne være at gætte på en større mængde af mulige para- metre, hvori vi regner med at finde den sande parameter. Det fører til definitionen af en områdeestimator, som er en afbildning C : X→ P(Θ). Til hvert punkt x ∈X knytter vi altså en delmængde C( x) Θ. Principielt er det lovligt at C( x) = for visse x. Det betyder at man for sådanne observationer ikke har tiltro til nogen parameter overhovedet - hvis man gør en observation af den karakter, fører det naturligt til at man kasserer modellen. Hvis vi udfører forsøget med resultat x ∈X, så kan vi finde det tilhørende område- estimat C( x). Udfører vi forsøget en gang til, får vi en anden observation x 0 ∈X og dermed et andet områdeestimat C( x 0 ). Vi ser at områdeestimatet er stokastisk, det er en transformation af den gjorte observation. For at understrege dette synspunkt kan vi skrive C(X). Der er dog ikke tale om nogen stokastisk variabel i sædvanlig for- stand: C(X) har værdier i en mængde P(Θ) af mængder, og sådan et rum har ikke umiddelbart nogen σ-algebra. 201

Transcript of Områdeestimation - web.math.ku.dkweb.math.ku.dk/~erhansen/stat1TS_03/doku/noter/kap7.pdf ·...

  • Kapitel 7

    Områdeestimation

    Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E). I kapitel 4 defineredevi såkaldte punktestimatorer af parameteren θ. Disse estimatorer fungerer sådan atvi på baggrund af en observation x ∈ X gætter på en helt bestemt parameterværdiθ = t(x) som vores bud på den sande parameter.

    En mere forsigtig tilgang kunne være at gætte på en større mængde af mulige para-metre, hvori vi regner med at finde den sande parameter. Det fører til definitionen afen områdeestimator, som er en afbildning

    C : X → P(Θ).

    Til hvert punkt x ∈ X knytter vi altså en delmængde C(x) ⊂ Θ. Principielt er detlovligt at C(x) = ∅ for visse x. Det betyder at man for sådanne observationer ikke hartiltro til nogen parameter overhovedet - hvis man gør en observation af den karakter,fører det naturligt til at man kasserer modellen.

    Hvis vi udfører forsøget med resultat x ∈ X, så kan vi finde det tilhørende område-estimat C(x). Udfører vi forsøget en gang til, får vi en anden observation x′ ∈ X ogdermed et andet områdeestimat C(x′). Vi ser at områdeestimatet er stokastisk, det eren transformation af den gjorte observation. For at understrege dette synspunkt kanvi skrive C(X). Der er dog ikke tale om nogen stokastisk variabel i sædvanlig for-stand: C(X) har værdier i en mængde P(Θ) af mængder, og sådan et rum har ikkeumiddelbart nogen σ-algebra.

    201

  • 202 Kapitel 7. Områdeestimation

    7.1 Konfidensområder

    Lad som før (νθ)θ∈Θ være en statistisk model på (X,E), og lad C(X) være en områ-deestimator for θ. Når man udfører eksperimentet et antal gange, må man forventeat C(X) vil indeholde den sande parameter i visse tilfælde og ikke i andre. Jo oftereC(X) indeholder den sande parameter, jo bedre er områdeestimatoren. Funktionen

    θ 7→ Pθ(θ ∈ C(X)) (7.1)

    kaldes områdeestimatorens dækningsgrad. Vi siger at områdeestimatoren C er et(1 − α)-konfidensområde (eller sikkerhedsområde) hvis dækningsgraden systema-tisk er større end 1 − α, altså hvis

    Pθ(θ ∈ C(X)) ≥ 1 − α for alle θ ∈ Θ. (7.2)

    Hvis man skal sammenligne forskellige (1−α)-konfidensområder, vil man som regelforetrække dem for hvilke der gælder lighedstegn i (7.2) for alle θ ∈ Θ, eller i hvertfald for så mange θ som muligt. Ikke fordi det er dårligt med et ulighedstegn, tværti-mod, men fordi man i så fald kommer til at undervurdere den faktiske dækningsgrad,når man kun hæfter sig ved den nedre grænse 1 − α.

    Det er meget vigtigt at (7.2) læses rigtigt. Hvis α = 0.05 er påstanden, at der påforhånd er 95% sandsynlighed for at observere et konfidensområde der indeholderden sande parameter. Eller: hvis man udfører forsøget mange gange, vil den sandeparameter ligge i det observerede konfidensområde i 95% af tilfældene. Påstanden erderimod ikke at man efter at have observeret x ∈ X kan sige at der er 95% sandsyn-lighed for at C(x) indeholder den sande parameter.

    Der er udkæmpet akademiske krige om disse formuleringer, og det er vigtigt at forståforskellen: hvis man har gjort en observation x, så er C(x) entydigt og deterministiskbestemt. Måske er det sande θ med i C(x) og måske er det ikke med - vi kender ikkesvaret, men spørgsmålet er ikke af statistisk natur, det er 100% deterministisk. Detgiver ikke mening at komme med sandsynlighedsudsagn om det.

    I hvert fald ikke hvis man er frekventist. Indenfor det Bayesianske paradigme ud-trykker sandsynligheder ikke frekvenser, men subjektiv tiltro til forskellige udsagn.For en Bayesianer giver det god mening at hævde at der er 95% sandsynlighed for atdet sande θ ligger i C(x). Det betyder at han har en relativt høj tiltro til at den sandeparameter ligger inde i det område han har beregnet. Han vil i øvrigt kalde området

  • 7.1. Konfidensområder 203

    et kredibilitetsområde fremfor et konfidensområde, men den definerende egenskaber i begge tilfælde (7.2). Frekventisten, på den anden side, tror ingenting, han påståri stedet. Og han har en procedure der sikrer at han i de fleste tilfælde har ret i sinpåståelighed.

    Forskellene i hvad man kan sige og ikke sige om konfidensområder udgør et af demest iøjnefaldende skel mellem frekventistisk og Bayesiansk statistik, og i populærefremstillinger betragtes det nogen gange som den eneste forskel (hvad der er helt mis-forstået - forskellene stikker langt dybere, og berører alt hvad man siger). De flesteikke-statistikere har det nemmest med Bayesianske konfidensområder! Det frekven-tistiske rap over fingrene, der uddeles til folk der siger at det observerede område-estimat C(x) har “95% sandsynlighed” for at indeholde den sande parameter, virkernærmest intolerant på mange.

    Da Neyman og Pearson indførte de abstrakte konfidensområder omkring 1930, varmålet for så vidt ikke at ramme den sande parameter særligt præcist. Deres argumentvar at uanset hvor smalt eller bredt vi vælger et områdeestimat, så vil vi aldrig fåat vide om den sande parameter i et konkret tilfælde ligger i området eller ej. Virisikerer altid at tage fejl. Så deres mål var at opstille en regel for hvordan man skulleopføre sig, en regel der skulle sikre at man dummer sig så lidt som overhovedetmuligt. Hvis en statistiker igennem et langt liv opstiller 95% konfidensområder i hverteneste estimationsproblem han kommer ud i, og derefter gebærder sig som om densande parameter ligger i hans konfidensområde, så vil han kun i hvert 20. eksperimentkomme til at gå planken ud med en fejlagtig påstand.

    Mange andre statistikere, i særdeleshed Fisher, havde intet til overs for denne ide,der ikke fokuserer på den underliggende videnskabelige problemstilling, men på sta-tistikerens renommé. Som vi skal se i afsnit 7.2 er det imidlertid muligt at knyttepunktestimation og områdeestimation sammen på en måde så områdeestimatet bely-ser punktestimatets præcision. Brugt på den måde er konfidensområder ikke kontro-versielle, de er tværtimod hjørnestenen i al praktisk statistik.

    Når man skal finde konfidensmængder, skal man altså finde de parametre som mereeller mindre passer med en given observation. Det springer i øjnene at det er den dualeproblemstilling til at finde konkordansmængder, hvor man jo søger de observationerder passer til en givet parameter. Denne intuitive dualitet kan formaliseres:

  • 204 Kapitel 7. Områdeestimation

    Sætning 7.1 Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E). Hvis vifor hvert θ ∈ Θ har et konkordansområde A(θ) for νθ på niveau α, så er områdeesti-matoren C : X → P(Θ), givet ved

    C(x) := {θ ∈ Θ | x ∈ A(θ)} , (7.3)

    et (1 − α)-konfidensområde.

    B: Der gælder oplagt at

    θ ∈ C(x)⇔ x ∈ A(θ).

    Og dermed har vi for alle θ ∈ Θ at

    Pθ(θ ∈ C(X)) = Pθ(X ∈ A(θ)) = 1 − α,

    præcis som ønsket.�

    Vi vil ofte bruge en lidt mere generel konstruktion, hvor vi tager udgangspunkt i enkombinant R : Θ×X → Y. For hvert θ ∈ Θ ser vi på den stokastiske variabel R(θ, X),der har værdier i Y. Vi finder fordelingen af denne stokastiske variabel, under anta-gelse af at θ er den sande parameter, og konstruerer derudfra et konkordansområdeA(θ) i Y på niveau 1 − α. Det tilsvarende konfidensområde er

    C(x) = {θ ∈ Θ | R(θ, x) ∈ A(θ)} .

    Samme argumentation som i sætning 7.1 fører til at den konstruerede områdeestima-tor har en dækningsgrad på 1 − α.

    Teknikken bliver specielt simpel hvis man tager udgangspunkt i en pivot, altså enkombinant R : Θ × X → Y sådan at fordelingen af R(θ, X) under Pθ ikke varierermed θ. I så fald vælger man en mængde B ⊂ Y så

    Pθ(R(θ, X) ∈ B) = 1 − α.

    Hvilket θ der bruges her spiller ingen rolle på grund af pivotegenskaben. Da er

    C(x) = {θ ∈ Θ | R(θ, x) ∈ B}

    et 1 − α konfidensområde for θ.

  • 7.1. Konfidensområder 205

    Den typiske kombinant R : Θ×X → Y er selvfølgelig ikke en pivot. Men hvisY = Rkan man ofte modificere R til en ny kombinant R′, der er en pivot. Mere præcist: LadFθ være fordelingsfunktionen for R(θ, X) under Pθ. Da er

    R′(θ, x) = Fθ(

    R(θ, x))

    en ny kombinant, der er meget tæt beslægtet med den gamle. Hvis Fθ er kontinuert,så er det et standardresultat at R′(θ, X) under Pθ er ligefordelt på (0, 1). Og dermed erR′ faktisk en pivot.

    Bortset fra ordvalget, er der ikke meget nyt i disse pivotkonstruktioner. I kapitel 1blev alle konkordansområder konstrueret på baggrund af transformationer X → R.Sådan går vi stadig frem, blot tillader vi at transformationen varierer fra θ til θ. Pivot-betingelsen er, som vi lige har set, en mindre vigtig teknisk detalje.

    Eksempel 7.2 Lad os betragte den simple eksponentialfordelingsmodel, hvor vi haruafhængige reelle stokastiske variable X1, . . . , Xn der hver især er eksponentialfordeltmed en ukendt parameter λ > 0. Vi ønsker at fremstille et 95% konfidensområde forλ. For at kunne gøre regningerne konkrete antager vi at n = 10, og benytter data fraeksempel 3.1.

    Vi baserer først konstruktionen på kombinanten

    R1(λ, x1, . . . , xn) =1λ n

    n∑

    i=1

    xi =x•λ.

    Hvis λ er den sande parameter, så er X• en Γ-fordelt variabel med formparametern og skalaparameter λ, og derfor er R1(λ, X1, . . . , Xn) en pivot: den er Γ-fordelt medformparameter n og skalaparameter 1/n. Lad os undtagelsesvist bruge et centralt kon-kordansområde for den pågældende Γ-fordeling, vi vælger det symmetriske område.Vi finder derfor 2.5% og 97.5% fraktilen for Γ-fordelingen med n = 10 frihedsgra-der og skalaparameter 0.1, nemlig 0.4795 og 1.7085. Da bliver konkordansområdetsvarende til parameter λ

    A1(λ) ={

    (x1, . . . , x10) | 0.4795 <x•λ< 1.7085

    }

    .

    Konfidensområdet svarende til en observation (x1, . . . , x10) fås da ved at løse ulighe-den

    0.4795 <x•λ< 1.7085

  • 206 Kapitel 7. Områdeestimation

    med hensyn til λ. Vi får altså

    C1(x1, . . . , x10) =

    (

    x•1.7085

    ,x•

    0.4795

    )

    = (0.59 x•, 2.09 x•) .

    Med data fra eksempel 3.1 får vi x• = 0.3964 og dermed konfidensområdet

    C1 = (0.232, 0.827).

    Bemærk at den gennemsnitlige længde af dette konfidensområde er

    Eλ|C1(X1, . . . , X10)| =(

    10.4795

    − 11.7085

    )

    EλX• = 1.500λ.

    Man kunne også basere konstruktionen på et venstrestillet konkordansområde forΓ-fordelingen, hvilket falder bedre i tråd med hvordan man plejer at behandle Γ-fordelinger. Vi finder 95% fraktilen for Γ-fordelingen med formparameter 10 og ska-laparameter 0.1, nemlig 1.5705. Dermed bliver konkordansområdet

    A2(λ) ={

    (x1, . . . , x10) | 0 <x•λ< 1.5705

    }

    ,

    og ved at vende konstruktionen om, fås konfidensområdet

    C2(x1, . . . , xn) =

    (

    x•1.5705

    ,∞)

    = (0.64 x•,∞).

    Med data fra eksempel 3.1 får vi x• = 0.3964 og dermed konfidensområdet

    C2 = (0.252,∞).

    De to konstruerede konfidensområder er nogenlunde enige nedadtil. Men det er ke-deligt at C2 er ubegrænset opadtil. Det er en fare ved etsidede konkordansområder atde nogle gange leder til sådanne ubehageligheder.

    Vi kunne starte forfra, og basere konstruktionen på kombinanten

    R3(λ, x1, . . . , xn) =nλ

    x(1) =nλ

    min(x1, . . . , xn).

    Hvis λ er den sande parameter, er X(1) eksponentialfordelt med parameter λ/n, ogdermed er R3(λ, X1, . . . , Xn) eksponentialfordelt med parameter 1, altså en pivot. Vi

  • 7.1. Konfidensområder 207

    finder 2.5% og 97.5% fraktilen for en standard eksponentialfordeling til 0.025 hhv.3.689, og dermed er et symmetrisk konkordansområde

    A3(λ) ={

    (x1, . . . , x10) | 0.025 <10 x(1)λ

    < 3.689

    }

    .

    Konfidensområdet findes ved at løse

    0.025 <10λ

    x(1) < 3.689

    med hensyn til λ, hvilket giver området

    C3(x1, . . . , x10) =( x(1)0.3689

    ,x(1)

    0.0025

    )

    .

    Med data fra eksempel 3.1 får vi x(1) = 0.037 og dermed konfidensområdet

    C3 = (0.100, 14.8).

    Bemærk at den gennemsnitlige længde af dette konfidensområde er

    Eλ|C3(X1, . . . , X10)| =(

    10.025

    − 13.689

    )

    Eλn X(1) = 39.73λ.

    Der er dramatisk forskel på kvaliteten af C1 og C3. Uanset det sande λ, vil C3 typiskvære faktor 25 længere end C1! Det er således næsten tilfældet for de konkrete data.De to intervaller har samme dækningsgrad, så de vil lige ofte indeholde den sandeparameter. Men de er ikke lige gode til at udelukke en “falsk” parameter λ1. Vi serat C3 har uhyre svært ved at udelukke et λ1 af samme størrelsesorden som den sandeparameter. Mens C1 vil kunne udelukke λ1, medmindre den ligger meget tæt på densande parameter.

    Eksempel 7.3 Betragt den simple normalfordelingsmodel, hvor X1, . . . , Xn er uaf-hængige reelle stokastiske variable, der hver især er N(ξ, σ2)-fordelt med ukendtmiddelværdi og varians. Vi ønsker at fremstille et 95% konfidensområde for parame-teren (ξ, σ2). Vi vil basere konstruktionen på kombinanten

    R(ξ, σ2; x1, . . . , xn) =√

    nx• − ξ√σ2

    .

  • 208 Kapitel 7. Områdeestimation

    Hvis (ξ, σ2) er de sande parametre, så er X• en N(ξ, σ2/n)-fordelt variabel, og der-med er R standard normalfordelt. Idet 2.5% og 97.5% fraktilen for en standard nor-malfordeling er -1.96, hhv. 1.96, ser vi at et 95% konkordansområde for R er

    A(ξ, σ2) ={

    (x1, . . . , xn) | −1.96 <√

    nx• − ξ√σ2

    < 1.96

    }

    .

    Vi finder det tilsvarende konfidensområde som

    C(x1, . . . , xn) = {(ξ, σ2) ∈ R × (0,∞) | −1.96√

    σ2

    n< x• − ξ < 1.96

    σ2

    n}.

    Hvis vi snitter C(x1, . . . , xn) med et fast σ2, får vi intervallet

    x• − 1.96√

    σ2

    n, x• + 1.96

    σ2

    n

    .

    Det fulde område i parameterplanen er tegnet op i figur 7.1. Det er ikke et særligt til-fredsstillende konfidensområde, på baggrund af figuren er vi ikke i stand til at kommemed meningsfulde udsagn, hverken om middelværdien eller om variansen. Problemeter naturligvis at den kombinant vi baserer konstruktionen på, ikke er særligt hensigts-mæssig. Den forsøger at måle hvor godt data passer med middelværdiparameteren,uden at tage hensyn til hvor godt data passer med variansparameteren. Problemeter langt hen ad vejen det samme som i eksempel 4.12, hvor minimering af en kva-dratsum ikke tillod os at sige noget om variansparameteren.

    For diskrete fordelinger opstår der som sædvanlig problemer med at de ønskede lig-ninger ikke kan løses eksakt. Man søger da konkordansområder A(θ) der er så småsom muligt, samtidig med at de opfylder

    Pθ(X ∈ A(θ)) ≥ 1 − α for alle θ ∈ Θ.

    Vi konstruerer igen konfidensområderne

    C(x) = {θ ∈ Θ | (θ, x) ∈ A}

    og vi ser at de opfylder

    Pθ(θ ∈ C(X)) = Pθ(X ∈ A(θ)) ≥ 1 − α for alle θ ∈ Θ.

    Det er næsten aldrig muligt at finde sådanne konfidensområder for diskrete fordelin-ger eksplicit, det må gøres numerisk. Bemærk endvidere at man sjældent kan findepivoter.

  • 7.1. Konfidensområder 209

    −4 −2 0 2 4

    05

    1015

    2025

    30

    PSfrag replacements

    ξ

    σ2

    Figur 7.1: Konfidensområder for den simple normalfordelingsmodel med n = 10 på bag-grund af en observation med x• = 1.

    Eksempel 7.4 Lad os betragte møntkast-modellen, hvor vi har uafhængige reellestokastiske variable X1, . . . , Xn med

    P(Xi = 1) = p, P(Xi = 0) = 1 − p for i = 1, . . . , n,

    hvor p er en ukendt parameter. Vi ønsker at konstruere et 95% konfidensområde forp.

    Vi baserer konstruktionen på transformationen

    s(x1, . . . , xn) = x• =n

    i=1

    xi.

    Hvis p er den sande parameter, er X• binomialfordelt med parametre (n, p). Vi kannumerisk lokalisere et symmetrisk konkordansområde A(p) for denne fordeling. Vifinder altså a(p) ∈ {0, 1, . . . , n} så

    Pp(X• < a(p)) < 0.025, Pp(X• ≤ a(p)) ≥ 0.025.

    Tilsvarende finder vi b(p) ∈ {0, 1, . . . , n} så

    Pp(X• < b(p)) < 0.975, Pp(X• ≤ b(p)) ≥ 0.975.

  • 210 Kapitel 7. Områdeestimation

    p

    s

    0.0 0.2 0.4 0.6 0.8 1.0

    05

    1015

    2025

    p

    knin

    gsgr

    ad

    0.0 0.2 0.4 0.6 0.8 1.0

    0.90

    0.92

    0.94

    0.96

    0.98

    1.00

    Figur 7.2: Konfidensområder for binomialfordelingsmodellen med længde 25. Området sva-rende til en observation s er det vandrette stykke i højde s på tegningen til venstre. Højretegning viser den faktiske dækningsgrad af disse intervalestimater. Bemærk at de lodrettestreger i den højre tegning repræsenterer diskontinuiteter, der opstår efterhånden som punkterglider ind i og ud afA(p).

    Konkordansområdet er da

    A(p) = {a(p), a(p) + 1, . . . , b(p)}

    og konfidensområdet svarende til observationen X• = s bliver

    C(s) = {p ∈ (0, 1) | a(p) ≤ s ≤ b(p)}.

    Disse områder er for n = 25 optegnet i figur 7.2. På nabotegningen vises den faktiskedækningsgrad. Vi ser at den varierer en del med p, men at den holder sig over dennominelle værdi på 95%.

    Eksempel 7.5 Den naturlige model for fødselsdata fra eksempel 1.1, når vi ikke påforhånd lægger os fast på at der fødes lige mange drenge og piger, er at antallet afdrenge er binomialfordelt med længde 66.170 og ukendt sandsynlighedsparameterp ∈ (0, 1). Den naturlige estimator gennemsnitsestimator p̂ bliver i dette tilfælde

    p̂ =34.05566.170

    = 0.515.

    Det forekommer overraskende nok ikke at være så frygteligt langt fra værdien 0.5,som vi i eksempel 1.1 blankt afviste skulle passe med data. Men vi kan belyse hvorpræcist estimatet er, ved at anvende metoden fra eksempel 7.2.

  • 7.2. Estimatorer og konfidensområder 211

    Når man konstruerer et symmetrisk 95% konkordansområde A(p) for hvert p ∈ (0, 1)så viser det sig at 34.055 er indeholdt iA(p) hvis og kun hvis

    p ∈ (0.511, 0.518).

    Altså er dette interval vores konfidensområde. Vi konstaterer at dette interval er gan-ske snævert - de mange observationer gør at det sande p er bestemt ret præcist. Vikonstaterer også at intervallet ikke indeholder 0.5. En mere kuriøs detalje er at inter-vallet ikke er helt symmetrisk omkring p̂.

    7.2 Estimatorer og konfidensområder

    Lad (νθ)θ∈Θ være en statistisk model på (X,E). De konfidensområder, vi har fundetindtil nu, har næsten alle haft samme karakter. Vi har som udgangspunkt taget en esti-mator t : X → Θ af parameteren, og undersøgt fordelingen af t(X) under Pθ. Dennefordeling har typisk (og forhåbentlig) været voldsomt θ-afhængig, men det har væretmuligt at fjerne θ-afhængigheden ved eksplicit manipulation. Vi har altså fundet enafbildning h : Θ × Θ→ Y for en passende mængde Y, sådan at kombinanten

    R(θ, x) = h(θ, t(x)) (7.4)

    er en pivot. Når vi konstruerer et konfidensområde for θ på baggrund af denne pivot,kan resultatet fortolkes som et udsagn om vores tillid til estimatoren t.

    Hidtil har vi formuleret sådanne tillidsudsagn i termer af fordelingen af t(X) underdet sande Pθ. Men i ægte statistiske situationer kender vi jo ikke det sande θ, ogderfor kender vi faktisk ikke den fordeling vi bør interessere os for. Et konfidensom-råde baseret på en pivot af formen (7.4) kræver derimod ikke kendskab til den sandeparameter, den er et tillidsudsagn om t(x) udelukkende baseret på observationen x.

    I praktiske statistiske modeller er man uheldigvis sjældent i stand til eksplicit at an-give fordelingen af en estimator, og man er slet ikke i stand til at manipulere parame-terafhængigheden væk eksakt. Så det ligger tilsyneladende langt uden for mulighe-dernes grænse at præstere en pivot af formen (7.4).

    Men hvis man stiller sig tilfreds med approksimative konfidensintervaller, kanasymptotisk teori ofte redde en ud af suppedasen. Lad os et øjeblik antage at Θ = R.

  • 212 Kapitel 7. Områdeestimation

    Vi har i mange situationer at

    t ◦ X ≈ N(

    θ, σ2(θ))

    under Pθ, (7.5)

    for en passende variansfunktion σ2(θ). Hvis t er maksimaliseringsestimatoren, erσ2(θ) forbundet med den inverse information, for andre typer estimatorer ser manat (7.5) er opfyldt med andre variansfunktioner. Udfra (7.5) får vi at

    t ◦ X − θ√

    σ2(θ)≈ N(0, 1) under Pθ.

    Med andre ord:

    (θ, x) 7→ t(x) − θ√σ2(θ)

    (7.6)

    er en approksimativ pivot, og vi kender oven i købet den fælles fordeling. Et oplagtbud på et 95% konfidensområde er derfor

    C1(x) =

    θ ∈ R | −1.96 < t(x) − θ√σ2(θ)

    < 1.96

    . (7.7)

    Præcis hvilken kvalitet dette “konfidensområde” har, afhænger af hvordan (7.5) skalforstås. Men hvis der er tale om en asymptotisk normalfordeling som i definition 5.9,så vil den tilsvarende følge af C1-områder have en dækningsgrad der konvergerermod 95%.

    Hvis σ2(θ) er en kompliceret funktion af θ, kan det være meget vanskeligt at løsede nødvendige uligheder i (7.7). Man gør derfor nogle gange den antagelse at σ2(θ)sikkert er nogenlunde konstant, og at (7.6) derfor kan erstattes af

    (θ, x) 7→ t(x) − θ√σ2(t(x))

    . (7.8)

    Hvis det står til troende at denne størrelse er approksimativt N(0, 1)-fordelt, så kanman konstruere områdeestimatet

    C2(x) =

    θ ∈ R | −1.96 < t(x) − θ√σ2(t(x))

    < 1.96

    .

    Her er det banalt at løse de nødvendige uligheder, og man finder at

    C2(x) =(

    t(x) − 1.96√

    σ2(t(x)), t(x) + 1.96√

    σ2(t(x)))

    . (7.9)

  • 7.2. Estimatorer og konfidensområder 213

    Overgangen fra (7.7) til (7.8) er ikke uskyldig. Den fungerer kun, hvis σ2(θ) er es-sentielt konstant. I visse modeller, hvor den forventede information varierer vold-somt med parameteren, kan området (7.9), baseret på maksimaliseringsestimatorensasymptotiske fordeling, således have en faktisk dækningsgrad langt fra de nominelle95% - og dækningsgraden kan udmærket blive værre og værre, jo flere observationerman gør! Ikke desto mindre anvendes (7.9) rutinemæssigt. For eksempel vil de konfi-densintervaller som mange statistiske computerpakker producerer, ofte være baseretpå en variant af (7.9).

    I praksis erstatter man ofte den approksimative pivot (7.6) med dens kvadrat

    (θ, x) 7→ (t(x) − θ)2

    σ2(θ),

    der er approksimativt χ2-fordelt med 1 frihedsgrad, og hvor store værdier er udtrykfor diskordans. I så fald bliver

    C1(x) ={

    θ | (t(x) − θ)2 ≤ 3.84 σ2(θ)}

    , (7.10)

    hvilket ved et nøjere eftersyn viser sig at være identisk med (7.7). Grunden til atvi foretrækker (7.10), er at denne formel lader sig generalisere til flerdimensionaleparametre.

    Eksempel 7.6 Vi betragter igen den simple eksponentialfordelingsmodel, med uaf-hængige reelle stokastiske variable X1, . . . , Xn, der alle er eksponentialfordelt medukendt parameter λ > 0. Vi har i eksempel 5.12 konstateret at hvis

    t(x) = x• =1n

    n∑

    i=1

    xi

    så er

    t ◦ X ≈ N(

    λ,λ2

    n

    )

    .

    Baserer man regningerne på den approksimative pivot

    (λ, x1, . . . , xn) 7→(x• − λ)2λ2/n

    kan man som en eksercits i andengradsligninger finde området

    {

    λ | (x• − λ)2

    λ2/n< 3.84

    }

    =

    x•1 + 1.96√

    n

    ,x•

    1 − 1.96√n

    .

  • 214 Kapitel 7. Områdeestimation

    Med data fra eksempel 3.1 fås intervallet

    (0.245, 1.043) (7.11)

    hvilket er en anelse større (hvilket er dårligt!) end det bedste af de eksakte konfi-densområder, der blev fundet i eksempel 7.2. Men denne områdeestimators faktiskeegenskaber er ikke så dårlige, man kan regne sig frem til at for n = 10 er den faktiskedækningsgrad 95.5%, i fin overensstemmelse med de nominelle 95%.

    Hvis vi i stedet benytter den ekstra approksimation der fører til kombinanten

    (λ, x1, . . . , xn) 7→(x• − λ)2

    x•2/n

    får man uden videre det approksimative konfidensområde{

    λ | (x• − λ)2

    x•2/n< 3.84

    }

    =

    (

    x• − 1.96x•√

    n, x• + 1.96

    x•√n

    )

    .

    Med data fra eksempel 3.1 fås(0.151, 0.642) (7.12)

    hvilket ligger dramatisk skævt placeret i forhold til (7.11). Man kan regne ud at deapproksimationer der har ledt frem til (7.12) er så grove at denne områdeestimatorfor n = 10 i virkeligheden kun har en dækningsgrad på 90% - hvilket er længerevæk fra den nominelle dækningsgrad på 95% end godt er. Når det går så galt, hardet naturligvis at gøre med at antallet af observationer i dette eksempel er meget lavt.Hvis n = 200 er områdeestimatorens faktiske dækningsgrad 94.7%.

    Hvis vi vender os mod flerdimensionale modeller, hvor Θ ⊂ Rk, kan man gennemføreen analog argumentation, baseret på en estimator t : X → Θ, hvis

    t ◦ X ≈ N (θ,Σ(θ)) under Pθ,

    hvor Σ(θ) er en passende symmetrisk, positivt definit matrixfunktion. Da er

    (t ◦ X − θ)T Σ(θ)−1 (t ◦ X − θ) (7.13)

    approksimativt χ2-fordelt med k frihedsgrader, og således stort set en pivot. Argu-menteres som tidligere, fører det til konfidensområdet

    C1(x) ={

    θ | (t(x) − θ)T Σ(θ)−1 (t(x) − θ) < zk}

    , (7.14)

  • 7.3. MLE og konfidensområder 215

    hvor zk er 95% fraktilen for χ2-fordelingen med k frihedsgrader. Gentages springetfra (7.7) til (7.8) fås

    C2(x) ={

    θ | (t(x) − θ)T Σ(t(x))−1 (t(x) − θ) < zk}

    , (7.15)

    Som en eksercits i lineær algebra kan man vise, at C2(x) er en k-dimensional ellip-soide med centrum i t(x), og med akser der typisk ligger skævt i forhold til koordina-takserne. Den faktiske dækningsgrad af C2(x) er tvivlsom - men for en flerdimensio-nal mængde at være, er området relativt nemt at finde og beskrive.

    7.3 MLE og konfidensområder

    For en domineret model måler kvotientteststørrelsen

    Q(θ, x) =Lx(θ)

    supϑ∈Θ Lx(ϑ),

    på oplagt vis parameteren θ op mod maksimaliseringsestimatoren, og det er derfornaturligt at lade kvotientteststørrelsen danne baggrund for en kvalitetsvurdering afmaksimaliseringsestimatoren. Kvotientteststørrelsen er sjældent pivot, men i princip-pet kan man finde konkordansområder af formen

    A(θ) = {x ∈ X | Q(θ, x) > zθ} ,

    hvor zθ’erne vælges så de giver de rigtige dækningsgrader, hvorefter man venderkonstruktionen om og finder konfidensområdet

    C(x) = {θ ∈ Θ | Q(θ, x) > zθ} . (7.16)

    Eksempel 7.7 Lad os betragte den simple eksponentialfordelingsmodel, hvor vi haruafhængige reelle stokastiske variable X1, . . . , Xn der hver især er eksponentialfordeltmed en ukendt middelværdi λ > 0. Vi har tidligere fundet loglikelihoodfunktionen

    `X1,...,Xn(λ) = n log λ +X•λ

    der minimeres af

    λ̂ =X•n.

  • 216 Kapitel 7. Områdeestimation

    Vi ser at

    `X1,...,Xn(λ̂) = n logX•n+ n.

    Dermed er

    −2 log Q(λ, X1, . . . , Xn) = 2(

    n log λ +X•λ− n log X•

    n− n

    )

    .

    Denne størrelse har ikke nogen kendt fordeling. Principielt kan vi for hvert λ - eller ihvert fald for passende mange λ’er - finde et wλ, der løser

    Pλ(−2 log Q(λ, X1, . . . , Xn) < wλ) = 0.95 ,

    ved at simulere f.eks. 1000 gentagelser af eksperimentet med λ som den sande para-meter, udregne −2 log Q i hvert tilfælde, ordne disse −2 log Q-værdier, og udtage detværdi nr. 950 - altså 95%-fraktilen i den empiriske fordeling af −2 log Q-værdier.

    −2 log Q

    0 2 4 6 8 10

    0.0

    0.2

    0.4

    0.6

    Figur 7.3: Simulation af −2 log Q i en model med n = 10 uafhængige, eksponentialfordeltevariable. Forsøget er gennemført, hvor variablene havde middelværdi 1, men andre middel-værdier havde ført til præcis samme fordeling. Forsøget er gentaget 10000 gange. Den lod-rette streg er placeret i 95%-fraktilen for den empiriske fordeling, nemlig 3.90. Man må for-vente at denne afskæringsværdi varierer en del med n - det gør den ikke i praksis, men detkan man ikke vide, før forsøget er gennemført.

    Det er nemt nok at skrive det relevante computerprogram, men køretiden vil være be-tydelig, fordi simulationerne principielt skal gentages for hvert λ for sig. Men et lille

  • 7.3. MLE og konfidensområder 217

    mirakel åbenbares: −2 log Q er faktisk en pivot i dette eksempel. En lille omskrivningviser at

    −2 log Q(λ, X1, . . . , Xn) = 2(

    n log n − n + X•λ− n log X•

    λ

    )

    .

    Det vil sige at −2 log Q er en transformation af X•λ

    . Eftersom transformationen hver-ken involverer observation eller parametre, og eftersom X•

    λer pivot, bliver −2 log Q

    også pivot. Og det betyder at man kun behøver at gennemføre simulationseksperi-mentet for et enkelt λ - man vil få samme afskæringsværdi for de øvrige λ’er.

    0.5 1.0 1.5 2.0

    510

    15

    PSfrag replacements

    λ

    `(λ

    )

    Figur 7.4: Et eksakt 95% konfidensområde for skalaparameteren λ i modellen for uafhæn-gige, identisk fordelte eksponentialfordelte variable. Tegningen viser loglikelihoodfunktio-nen for λ, baseret på n = 10 og X• = 3.964. De to vandrette streger er afsat i henholdvisminimum og minimum plus z/2, hvor z = 3.90 er 95%-fraktilen i den empiriske fordeling af−2 log Q-værdier, fundet i figur 7.3.

    På figur 7.3 har vi optegnet resultaterne af et sådant simulationseksperiment, i ensituation hvor n = 10. Simulationerne er gennemført med λ = 1, men andre λ-værdier ville naturligvis give anledning til samme fordeling af −2 log Q. Vi finder atden empiriske 95%-fraktil er 3.90. Sættes det ind i (7.16) fås

    C(X1, . . . , X10) ={

    λ | 2(

    10 log 10 − 10 + X•λ− 10 log X•

    λ

    )

    < 3.90}

    De konkrete data fra eksempel 3.1, med n = 10 og X• = 3.964, fører via den grafiske

  • 218 Kapitel 7. Områdeestimation

    konstruktion i figur 7.4 til området

    (0.225, 0.795) .

    Det lille mirakel i eksempel 7.7, hvor kvotientteststørrelsen viste sig at være pivot,indtræffer desværre næsten aldrig. I de fleste modeller vil en figur, der svarer til fi-gur 7.4, få et et udseende som skitseret i figur 7.5. Afskæringskurven må findes vedsimulationseksperimenter for hver parameter for sig.

    PSfrag replacements

    λ

    `(λ

    )

    Figur 7.5: En skematisk konstruktion af et eksakt 95% konfidensområde baseret på kvotient-teststørrelsen, i en model hvor denne størrelse ikke er pivot. Den bølgede afskæringskurve erafsat som minimum plus zλ/2, hvor zλ er 95%-fraktilen i fordelingen af −2 log Q under Pλ.Tegningen er ikke retvisende, i praksis er afskæringskurven næsten flad for de fleste modeller.

    Det er næppe muligt at følge dette program i praksis, i hvert fald ikke hvis para-meteren er flerdimensional. Hvert simulationseksperiment vil jo tage tid, og for hvisparameteren er højdimensional, skal der gennemføres rigtig mange simulationseks-perimenter. Problemet er at antallet af punkter i et ikke alt for groft gitter i Rk eksplo-derer med k - dette fænomen kaldes gerne curse of dimensionality.

    Til alt held er figur 7.5 misvisende. Den faktiske afskæringskurve vil ikke være bøl-get, den vil stort set være flad. For −2 log Q er ofte approksimativt χ2-fordelt, se

  • 7.3. MLE og konfidensområder 219

    f.eks. sætning 5.22. Hvis parametermængden Θ er en åben delmængde af Rk, er detderfor ofte rimeligt at bruge et konfidensområde af formen

    C(x) = {θ ∈ Θ | −2 log Q(θ, x) < zk} ,

    eller som man oftest skriver i praksis,

    C(X) ={

    θ ∈ Θ | `x(θ) < `x(θ̂) +zk2

    }

    ,

    hvor zk er 95% fraktilen for χ2-fordelingen med k frihedsgrader. Den præcise begrun-delse for at bruge dette område som konfidensområde må søges i asymptotisk teori,men f.eks. under betingelserne fra sætning 5.21, vil den faktiske dækningsgrad afområdet konvergere mod 95%, når antallet af observationer går mod uendeligt.

    En lidt anden måde at bruge den asymptotiske teori på, er at udnytte at Cramérssætning eller en af dens generaliseringer giver os anledning til at tro at maksimalise-ringsestimatoren θ̂ er veldefineret for “de fleste” potentielle observationer, og at

    θ̂ ≈ N(

    θ, i(θ)−1)

    . (7.17)

    Argumenterne i afsnit 7.2 leder os til at betragte størrelsen

    (

    θ̂ − θ)T

    i(θ)(

    θ̂ − θ)

    ,

    der kaldes Walds teststørrelse. Under Pθ er denne størrelse approksimativt χ2-fordelt med k frihedsgrader hvor k er dimensionen af parametermængde Θ. Man kanfå en kvalitetsvurdering af maksimaliseringsestimatoren θ̂ ved at konstruere det ap-proksimative 95% konfidensområde

    C1(X) ={

    θ ∈ Θ |(

    θ̂ − θ)T

    i(θ)(

    θ̂ − θ)

    < zk}

    ,

    hvor zk er 95% fraktilen for en χ2-fordeling med k frihedsgrader.

    Om man vil bruge kvotientteststørrelsen eller Walds teststørrelse som udgangspunktfor konstruktionen af et konfidensområde, er lidt en smagssag - en stor del af besværeti beviset for sætning 5.21 bestod i at redegøre for at de to teststørrelser er stort set ens.Områderne vil som regel være sammenlignelige, men ikke helt identiske. Præciseargumenter for at foretrække det ene område frem for det andet, kunne basere sigpå kvaliteten af χ2-approksimationen, men svaret er i så fald ikke systematisk: det

  • 220 Kapitel 7. Områdeestimation

    varierer fra model til model, og fra asymptotisk scenario til asymptotisk scenario, om−2 log Q eller Walds teststørrelse er “mest χ2-fordelt”.

    De nødvendige regninger for at finde områdeestimatoren er i begge tilfælde kompli-cerede, og man forfalder ikke helt sjældent til at erstatte Walds teststørrelse med densåkaldte falske Waldteststørrelse,

    (

    θ̂ − θ)T

    i(θ̂)(

    θ̂ − θ)

    ,

    der leder til et ellipseformet områdeestimat med θ̂ i centrum,

    C2(X) ={

    θ ∈ Θ |(

    θ̂ − θ)T

    i(θ̂)(

    θ̂ − θ)

    < zk}

    .

    Den faktiske dækningsgrad af disse ellipser er ofte tæt på de nominelle 95% - men denkan også være langt fra! Det er ganske vanskeligt at opstille asymptotiske scenarier,hvor man har kontrol over den falske Waldteststørrelses opførsel, i modsætning til−2 log Q eller den “ægte” Waldteststørrelse, der begge kan vises at være asymptotiskχ2-fordelte, i stort set alle de scenarier, hvor Cramérs sætning holder.

    Eksempel 7.8 Hvis X1, . . . , Xn er uafhængige, identisk fordelte Γ-fordelte variablemed ukendt formparameter λ og ukendt skalaparameter β, så er loglikelihoodfunk-tionen

    `X1,...,Xn(λ, β) = nλ log β + n log Γ(λ) − (λ − 1)n

    i=1

    log Xi +1β

    n∑

    i=1

    Xi .

    Vi fandt i eksempel 3.20 scorefunktionen

    D`X1,...,Xn(λ, β) =

    n log β + nΨ(λ) −n

    i=1

    log Xi ;nλβ− 1β2

    n∑

    i=1

    Xi

    ,

    og observeret information

    D2`X1,...,Xn(λ, β) =

    nΨ′(λ) nβ

    − nλβ2+

    2β3

    ∑ni=1 Xi

    .

    Her betegner Ψ(λ) ogΨ′(λ) henholdvis di- og trigammafunktionerne. Den forventedeinformation bliver

    in(λ, β) =

    nΨ′(λ) nβ

    nλβ2

    .

  • 7.3. MLE og konfidensområder 221

    Skønt den observerede information ikke er positivt definit, så ville den have væretdet, hvis vi havde parametriseret modellen en anelse anderledes. Hvis vi havde para-metriseret ved formparameteren λ og den inverse skalaparameter 1

    β, så ville tætheden

    have været på den eksponentielle form fra (6.3), og helt analogt med regningerne iden logistiske regressionsmodel ville vi se at den observerede information ikke villeafhænge af de gjorte observationer, hvilket ville være rigeligt til at sikre konveksitetat loglikelihoodfunktionen. I den parametrisering vi foretrækker - med formparame-ter og skalaparameter - er loglikelihoodfunktionerne ikke konvekse, men en eventuelløsning til likelihoodligningen vil svare til en løsning af likelihoodligningen i den eks-ponentielle parametrisering, og må derfor nødvendigvis være det globale minimumfor likelihoodfunktionen.

    Likelihoodligningerne er

    log β + Ψ(λ) =1n

    n∑

    i=1

    log Xi

    βλ =1n

    n∑

    i=1

    Xi

    De kan ikke løses eksplicit, men er ikke vanskelige at løse ved numeriske metoder(enten Newton-Raphson eller Fisher scoring, som man nu synes). I et konkret datasætmed n = 100 og summariske størrelser

    1n

    n∑

    i=1

    log Xi = 2.591611 og1n

    n∑

    i=1

    Xi = 14.30888 , (7.18)

    (se eksempel 3.4) finder man løsningen

    λ̂ = 7.38 β̂ = 1.94 ,

    der så må udgøre maksimaliseringsestimatoren. Desuden findes den minimale værdiaf loglikelihoodfunktionen til at være 303.3655. Derfor er konfidensområdet baseretpå kvotientteststørrelsens asymptotiske fordeling

    C(x1, . . . , xn) ={

    (λ, β) | `x1,...,xn (λ, β) < 303.3655 +z2

    }

    ,

    hvor z = 5.99 er 95%-fraktilen for en χ2-fordeling med to frihedsgrader. Dette om-råde er tegnet op i figur 7.6, sammen med tilsvarende områder baseret på Waldsteststørrelse og på den falske Waldteststørrelse.

  • 222 Kapitel 7. Områdeestimation

    4 6 8 10 12

    1.0

    1.5

    2.0

    2.5

    3.0

    3.5

    PSfrag replacements

    λ

    β

    Figur 7.6: Tre approksimative konfidensområder for parametrene i modellen for uafhæn-gige, identisk fordelte Γ-fordelte variable. Tegningen er baseret på n = 100 simulerede va-riable med summariske størrelser givet ved (7.18). Det fuldt optrukne område er baseret påkvotientteststørrelsen, det stiplede område er baseret på Walds teststørrelse og det prikkedeområde er baseret på den falske Waldteststørrelse.

    De tre approksimative konfidensområder i figur 7.6 er nogenlunde sammenfaldende,men ikke helt. Når området baseret på kvotientteststørrelsen (eller på Walds teststør-relse) ikke er elliptisk, er der grund til at være på vagt overfor de nominelle dæknings-grader af områderne, baseret på asymptotiske fordelinger - de kan være vildledende.Argumenterne for de asymptotiske fordelinger er groft sagt baseret på at man ser bortfra den tredie afledede af loglikelihoodfunktionerne, og en manglende ellipticitet afdet approksimative konfidensområde er en advarsel om at den tredie afledede alli-gevel spiller en vis rolle: enten er Cramérs sætning forkert for den studerede modeleller også er “den asymptotiske situation” endnu ikke indtrådt - som regel vil manvælge den sidste fortolkning. Hvis vi konstruerede en tegning som figur 7.6, baseretpå n = 1000 observationer og samme summariske størrelse som i (7.18), så ville detre approksimative konfidensområder dels være meget mindre end dem man ser påfigur 7.6, og dels være næsten uskelnelige.

    I et større simulationseksperiment blev der genereret uafhængige Γ-fordelte variablemed sand formparameter 7 og sand skalaparameter 2. For n = 10, 100 og 1000blev der genereret 10.000 datasæt, for hvert datasæt blev de tre approksimative kon-

  • 7.4. Konfidensområder for parameterfunktioner 223

    fidensområder fundet, og det blev undersøgt om de indeholdt den sande parameter.Resultaterne er opsummeret i tabel 7.1. Den faktiske dækningsgrad for området ba-seret på kvotientteststørrelsen er imponerende tæt på de nominelle 95%, selv hvisdatasættene kun indeholder n = 10 observationer hver. De faktiske dækningsgraderfor de to andre områder er ikke helt så flotte, før datasættene bliver store. Til gengælder dækningsgraden for disse to områder overraskende tæt på hinanden, i betragtningaf at områderne er ganske forskellige, som det fremgår af figur 7.6.

    n −2 log Q Wald Falsk Wald10 0.933 0.654 0.634

    100 0.950 0.883 0.880

    1000 0.951 0.942 0.944

    Tabel 7.1: Dækningsgraden for tre approksimative konfidensområder for parametrene i mo-dellen for uafhængige, identisk fordelte Γ-fordelte variable, undersøgt for datasæt af forskel-lig størrelse, men alle med sande parametre λ = 7, β = 2. Hver celle i tabellen er baseret påsimulation af 10.000 datasæt af den angivne størrelse.

    7.4 Konfidensområder for parameterfunktioner

    I modeller, hvor parametermængden Θ er en delmængde af Rk hvor k > 1, er mansjældent for alvor interesseret i at finde konfidensområder på den måde vi hidtil harbeskrevet. Procedurerne leder ofte til komplicerede delmængder af Rk, mængder somer svære at beskrive og som er svære for alvor at sige noget prægnant om.

    I praksis knytter den primære interesse sig næsten altid til en reel parameterfunktionτ : Θ → R. Vi er da interesserede i en mængdefunktion D : X → P(R) der opfylderat

    Pθ(τ(θ) ∈ D(X)) = 1 − α for alle θ. (7.19)

    Vi taler om et konfidensområde for parameterfunktionen τ. Hvis vi har en sådanmængdefunktion D, så vil C : X → Θ givet ved

    C(x) = τ−1(D(x)),

    være et “almindeligt” konfidensområde for hele parameteren θ.

  • 224 Kapitel 7. Områdeestimation

    Hvis den primære interesse ligger i θ’s 1. koordinat, og hvis vi har fundet en mæng-defunktion D : X → P(R) der opfylder (7.19), så vil den associerede “almindelige”konfidensmængde være C(x) = D(x)×Rk−1 - eller hvor meget af denne mængde, dernu er indeholdt i Θ. Det er klart at i så fald bruger vi al datakraften til at sige nogetom θ’s 1. koordinat, mens vi ingen restriktioner lægger på de øvrige koordinater.

    I praksis forsøger man gerne at lave et konfidensområde for en parameterfunktion τudfra en pivot af formen

    R(θ, x) = Z(τ(θ), x)

    hvor Z : R×X → R er en vilkårlig afbildning. Som sædvanlig vælges et acceptområdeB ⊂ R sådan at

    Pθ(R(θ, X) ∈ B) = 1 − α for alle θ ∈ Θ.

    I så fald bliverD(x) = {η ∈ R | Z(η, x) ∈ B}

    det ønskede konfidensområde for τ. Thi

    Pθ(τ(θ) ∈ D(X)) = Pθ(Z(τ(θ), X) ∈ B) = Pθ(R(θ, X) ∈ B) = 1 − α.

    Eksempel 7.9 Betragt den simple normalfordelingsmodel, hvor X1, . . . , Xn er uaf-hængige reelle stokastiske variable, der hver især er N(ξ, σ2)-fordelt med ukendtmiddelværdi og varians. Vi ønsker at fremstille et 95% konfidensområde for hver afparametrene ξ og σ2.

    Lad os starte med følgende kombinant:

    R1(ξ, σ2; x1, . . . , xn) =

    √n (x• − ξ)√

    S S D/(n − 1).

    Hvis (ξ, σ2) er de sande parametre, så er de to størrelser

    n

    σ2(X• − ξ) og

    SSD

    (n − 1)σ2

    henholdsvis standard normalfordelt og χ2-fordelt med n − 1 frihedsgrader og ska-laparameter 1/(n − 1). Eftersom de to størrelser er uafhængige, følger det atR1(ξ, σ2; X1, . . . , Xn) - der er brøken af de to - er t-fordelt med n − 1 frihedsgrader. Isærdeleshed afhænger denne fordeling ikke af de indgående parametre, og dermed erR1 pivot!

  • 7.4. Konfidensområder for parameterfunktioner 225

    Endvidere ser vi at R1 kun afhænger af parameteren (ξ, σ2) gennem førstekoordinatenξ. Et 95% konfidensområde for ξ er derfor

    D1(x1, . . . , xn) =

    {

    ξ ∈ R | −q <√

    n (x• − ξ)√SSD/(n − 1)

    < q

    }

    =

    x• − q

    SSDn(n − 1) , x• + q

    SSDn(n − 1)

    ,

    hvor q er 97.5% fraktilen for t-fordelingen med n − 1 frihedsgrader (vi har her brugtat t-fordelingen er symmetrisk om 0). For n stor er q ≈ 1.96.

    Man kunne tilsvarende vælge en kombinant der kun afhænger af parameteren gennemσ2, og på den måde producere et konfidensområde for σ2. F.eks.

    R2(ξ, σ2; x1, . . . , xn) = SSD/σ

    2.

    Hvis (ξ, σ2 er de sande parametre, er R2 χ2-fordelt med n− 1 frihedsgrader og skala-parameter 1, og altså pivot.

    Lad os forsøge at komme med en generel konstruktion af et konfidensområde forparameterfunktionen τ : Θ → Ψ for en domineret statistisk model, baseret på enlikelihoodtankegang. Først konstrueres profillikelihoodfunktionen

    L̃τx(ψ) = supθ:τ(θ)=ψ

    Lx(θ)

    som et udtryk for hvor godt observationen x ∈ X og parameterfunktionsværdienψ ∈ Ψ passer sammen. Den bedste overensstemmelse, altså den største værdi af L̃τx,fås i ψ̂ = τ(θ̂), hvor θ̂ er maksimaliseringsestimatoren. En naturlig ide er da at vurdereethvert ψ ved hjælp af en kvotientteststørrelse baseret på profillikelihoodfunktionen,

    Q̃τ(ψ, x) =L̃τx(ψ)

    supψ′∈Ψ L̃τx(ψ′)

    =L̃τx(ψ)

    L̃τx(ψ̂).

    Bemærk at den maksimale værdi af profillikelihoodfunktionen er identisk med denmaksimale værdi af den oprindelige likelihoodfunktion. Udtrykt direkte ved hjælp afden originale likelihoodfunktion, er kvotientteststørrelsen udfra profillikelihoodfunk-tionen derfor

    Q̃τ(ψ, x) =supθ:τ(θ)=ψ Lx(θ)

    supθ Lx(θ).

  • 226 Kapitel 7. Områdeestimation

    Ved at se på

    (θ, x) 7→ Q̃τ(τ(θ), x)

    har vi skabt en kombinant der kun afhænger af parameteren θ gennem parameter-funktionen τ(θ), og som har en klar fortolkning: værdier tæt ved 1 opfattes på denmåde at x og τ(θ) stemmer godt overens, værdier tæt ved 0 opfattes som manglendeoverensstemmelse.

    Bruger man denne kombinant til at konstruere konfidensområder, skal man for hvertθ finde et zθ ∈ (0, 1) så

    Pθ(

    Q̃τ(τ(θ), x) > zθ)

    = 0.95 ,

    hvorefter konfidensområdet (i Θ) bliver

    C(x) = {θ ∈ Θ | Q̃(τ(θ), x) > zθ} .

    Her dukker et væmmeligt problem op: hvis θ1 og θ2 er to parametre sådan at τ(θ1) =τ(θ2) men sådan at zθ1 og zθ2 er forskellige, så risikerer man at det ene θ er med ikonfidensområdet, mens det andet ikke er med. I så fald har hele konstruktionen væretforgæves, for C(x) har ikke form af en τ-originalmængde. Det er altså afgørende atθ 7→ zθ er konstant langs hver niveaukurve for τ.

    Indtil nu har pivotegenskaberne af kombinanterne kun været indført af bekvemme-lighedsgrunde: for at gøre det praktisk muligt at omregne fra konkordansområdertil konfidensområder. Men når man diskuterer konfidensområder for parameterfunk-tioner, bliver en vis pivothed essentiel, også ud fra et strengt teoretisk synspunkt:Fordelingen af kombinanten må for så vidt gerne variere med parameteren. Men ikkeså længde vi kun varierer parameteren indenfor en niveaukurve for parameterfunk-tionen. Kombinanten skal så at sige være pivot på hver niveaukurve.

    At lede efter kombinanter, der kun afhænger af parameteren gennem en givet para-meterfunktion τ, og som er pivote langs hver niveaukurve for τ, er ikke nogen nemopgave. Men så længe vi fokuserer på kvotientteststørrelser, så kommer asymptotiskteori ofte til undsætning. Der gælder nemlig følgende generalisering af sætning 5.22:

    Sætning 7.10 Lad Y1, . . . ,Yn være uafhængige identisk fordelte variable, hver medfordeling νθ = fθ · µ, hvor θ ∈ Θ. Antag at Θ er en åben delmængde af Rk, og atτ : Θ → Rm er en parameterfunktion. Lad L̃τ være profillikelihoodfunktionen for τ,

  • 7.4. Konfidensområder for parameterfunktioner 227

    og lad Q̃τ være den tilsvarende kvotientteststørrelse. Under passende regularitetsfor-udsætninger vil

    −2 log Q̃τ(τ(θ0),Y1, . . . ,Yn) = −2 logL̃τY1,...,Yn(τ(θ0))

    L̃τY1,...,Yn(τ(θ̂n))

    konvergere i fordeling mod en χ2-fordeling med m frihedsgrader under Pθ0 .

    Indholdet af sætning 7.10 er at kvotientteststørrelsen baseret på profillikelihoodfunk-tionen for τ - i hvert fald asymptotisk set - er en rigtig pivot, og ikke blot en pi-vot langs niveaukurver for τ. Bruges sætning 7.10 på den trivielle parameterfunktionθ 7→ θ, er påstanden den samme som i sætning 5.22. Ligesom vores tidligere asymp-totiske sætninger, kan konklusionen i sætning 7.10 opretholdes i en meget bred vifteaf asymptotiske scenarier, ikke blot det her angivne.

    Eksempel 7.11 Lad X1, . . . , Xn være uafhængige, reelle stokastiske variable, alleΓ-fordelte med ukendt formparameter λ og ukendt skalaparameter β, og lad os kon-struere et konfidensområde for formparameteren λ.

    For fast λ maksimeres likelihoodfunktionen (3.5) af

    β̂(λ) =

    ∑ni=1 Xin λ

    ,

    og dermed er profilloglikelihoodfunktionen for λ givet som

    ˜̀X1,...,Xn(λ) = `X1,...,Xn(λ, β̂(λ))

    = nλ log

    (∑ni=1 Xin λ

    )

    + n log Γ(λ) − (λ − 1)n

    i=1

    log Xi + nλ .

    For datasættet bag figur 7.6, dvs. et datasæt med n = 100 og de summariske størrelserfra (7.18), er profilloglikelihoodfunktionen tegnet op på figur 7.7. Konfidensområdetaflæses ved samme grafiske konstruktion som i figur 7.4, og findes til at være

    (5.57, 9.56) .

    Det er et noget mindre interval end projektionerne af de todimensionale konfidens-områder i figur 7.6 ned på førstekoordinaten, så vi har faktisk fået bedre styr over

  • 228 Kapitel 7. Områdeestimation

    4 6 8 10 12

    304

    306

    308

    310

    PSfrag replacements

    λ

    ˜̀

    Figur 7.7: Et approksimativt konfidensområde for formparameteren λ i modellen for uaf-hængige, identisk fordelte Γ-fordelte variable med ukendt form og skala. Tegningen viserprofilloglikelihoodfunktionen for λ, baseret på n = 100 variable med summariske størrelsergivet ved (7.18). De to vandrette streger er afsat i henholdsvis minimum og minimum plusz/2, hvor z er 95%-fraktilen for en χ2-fordeling med 1 frihedsgrad.

    λ på denne måde. Til gengæld har vi med λ-konfidensområdet helt undladt at sigenoget der kan lokalisere det sande β.

    En tilsvarende konstruktion, hvor man finder et konfidensområde for skalaparame-teren β, kan i princippet udføres. Men dels er det mindre interessant (skalaparame-teren er ufortolkelig, hvis man ikke kender formparameteren), og dels er det en heldel sværere, for man kan ikke maksimere likelihoodfunktionen eksplicit i λ for fastβ. Profillikelihoodfunktionen for β må således findes ved for hvert β at maksimerefunktionen

    λ 7→ LX1,...,XN (λ, β)

    ved numeriske metoder. Det kan sagtens lade sig gøre, men er altså forholdsvis reg-netungt.

    Et mere interessant - og lige så svært - problem, er at finde et konfidensområde formiddelværdien α = βλ. Niveaukurverne for denne parameterfunktion er hyperbler i(λ, β)-planen, og et konfidensområde for α består altså af et bundt af disse hyperbler.

  • 7.4. Konfidensområder for parameterfunktioner 229

    Når man skal finde profillikelihoodfunktionen for α, skal man maksimere likelihood-funktionen langs hver hyperbel. Denne form for optimering omtales gerne som mak-simering under en glat bibetingelse, og skønt det er et område hvor computerteknolo-gien har gjort betydelige fremskridt, er det en hel del sværere end at maksimere langskoordinatakser. Vi vælger derfor at reparametrisere likelihoodfunktionen i termer afformparameteren λ og middelværdien α. Den resulterende loglikelihoodfunktion bli-ver

    `X1,...,Xn(λ, α) = nλ log(

    α

    λ

    )

    + n log Γ(λ) − (λ − 1)n

    i=1

    log Xi +λ

    α

    n∑

    i=1

    Xi .

    Profillikelihoodfunktionen for α kan heller ikke med dette udgangspunkt gives enlukket form. Men for hvert fast α er loglikelihoodfunktionen en funktion af een vari-abel, og en passende numerisk teknik giver anledning til en profilloglikelihoodfunk-tion som den i figur 7.8, der er konstrueret ud fra de samme data som figur 7.6.

    10 12 14 16 18

    310

    320

    330

    340

    PSfrag replacements

    α

    ˜̀

    Figur 7.8: Et approksimativt konfidensområde for middelværdien α = βλ i modellen foruafhængige, identisk fordelte Γ-fordelte variable med ukendt form og skala. Tegningen viserprofilloglikelihoodfunktionen for α, baseret på n = 100 variable med summariske størrelsergivet ved (7.18). De to vandrette streger er afsat i henholdsvis minimum og minimum plusz/2, hvor z er 95%-fraktilen for en χ2-fordeling med 1 frihedsgrad.

    Konfidensområdet for α aflæses på figur 7.8 til at være

    (13.32, 15.40) ,

  • 230 Kapitel 7. Områdeestimation

    hvilket er et ret snævert interval (midtpunkt ± 7%), en hel del snævrere end konfiden-sområdet for formparameteren λ (midtpunkt ± 25%). Middelværdien i en Γ-fordelingbestemmes altså ganske præcist, selv om man kun har forholdsvis få observationer tilrådighed. Mens den ekstra information, der skal til for helt at fastlægge fordelingen,er langt sværere at få fat på, og kræver mange observationer. Dette forhold kan forså vidt aflæses af figur 7.6, hvor de todimensionale konfidensområders krumning kanopfattes som et udtryk for at disse områder forsøger at følge de hyperbler, hvorpå αer konstant - det lykkes ikke helt, men de gør et behjertet forsøg.

    Vi har set at det er ganske let at konstruere et approksimativt konfidensområde foren etdimensional parameterfunktion, når man først har optegnet profilloglikelihood-funktionen. I praksis finder man naturligvis ikke disse områder ved at udføre grafiskekonstruktioner med en lineal, man lader computeren om at beregne intervallerne.Alligevel er det vigtigt at man tegner grafen for profilloglikelihoodfunktionen, fortegningen giver mulighed for en grafisk kontrol af den asymptotiske procedure.

    Hvis profilloglikelihoodfunktionen har en markant skævhed omkring minimums-punktet, er det et advarselssignal, der fortæller at man skal være varsom med at tropå konfidensområdets nominelle dækningsgrad. Hvis funktionen derimod ligner etandengradspolynomium i hele det konstruerede interval omkring minimumspunktet,vil man være tilbøjelig til at stole på at den asymptotiske situation er indtrådt, og atkonfidensområdets faktiske dækningsgrad er tæt på den nominelle.

    Figur 7.8 giver ingen anledning til nervøsitet på denne konto. Figur 7.7 har derimoden lille skævhed, der dog ikke for alvor rokker ved vores tillid til asymptotikken. Detvar ikke på forhånd til at vide at 100 observationer er nok til at den asymptotiskesituation er indtrådt i modellen med uafhængige Γ-fordelte variable - og som denmanglende ellipticitet af konfidensområderne i figur 7.6 viser, er den asymptotiskesituation da heller ikke indtrådt for alle formål.

    7.5 Konfidensintervaller ved bootstrap

    I stedet for den lange række af approksimationer der ledte frem til en pivot, der erapproksimativt χ2-fordelt, kunne man tage udgangspunkt i følgende noget simplerepåstand: hvis τ : Θ → R er en reel parameterfunktion, og hvis t : X → Θ er en

  • 7.5. Konfidensintervaller ved bootstrap 231

    estimator for den fulde parameter, så er størrelsen

    (θ, x) 7→ τ(t(x)) − τ(θ) (7.20)

    måske en approksimativ pivot. Vi har i hvert fald forsøgt at stabilisere førstemomentet

    Et umiddelbart bud kunne være at denne kombinant er approksimativt normalfordelt,men det behøver den ikke at være. Pointen er at hvis vi tror på at pivotegenskabener opfyldt, så kan vi simulere den fælles fordeling frem. Vi vælger en parameterθ1 ∈ Θ og behandler den som den sande parameter (i praksis vil man ofte lade θ1 =t(x), sådan at θ1 faktisk er et estimat af den virkelige sande parameter). Simuler nyedatapunkter x1, . . . , xN ∈ X frem, genereret som uafhængige observationer fra νθ1 .På baggrund af hver af disse falske observationer, reestimerer vi θ, og får estimatert(x1), . . . , t(xN). Og dermed får vi τ-estimater τ(t(x1)), . . . , τ(t(xN )).

    Hvis vi lokaliserer de empiriske 2.5% og 97.5%-fraktiler z1 og z2 i den empiriskefordeling af

    τ(t(x1)) − τ(θ1), . . . , τ(t(xN)) − τ(θ1) ,

    så kan et simpelt områdeestimat for τ nu være

    D(x) = {η ∈ R | z1 < τ(t(x)) − η < z2} = (τ(t(x)) − z2, τ(t(x)) − z1) .

    Denne tilgang til konfidensproblemet kaldes bootstrap. Bootstrap betyder støvle-strop, og begrebet refererer til historien om Baron von Münchausen, der reddede sigop af kviksand ved at hive i sine egne støvlestropper. På analog vis bruger vi her pa-rameterestimatet t(x) (i form at θ1) til at vurdere præcisionen af “sig selv” Det virkeri første omgang urimeligt at man kan få noget fornuftigt ud af det. Men bemærk denekstra påstand om at (7.20) er en pivot - det er den der får teknikken til at give mening.Hvorvidt denne påstand er rimelig, vil variere fra eksempel til eksempel. Som regelprøver man at basere konstruktionen på kombinanter, der i højere grad end (7.20) måformodes at være pivote, men sådanne kombinanter vil være problemspecifikke.

    Pointen er naturligvis at man ofte kan finde en næsten-pivot kombinant, og bootstrap-teknikken har vist sig at fungere godt i en bred vifte af situationer, også selv om pa-rameterestimatoren t er af tvivlsom kvalitet. Det er således meget populært at boot-strappe i ikke-parametriske eller semiparametriske modeller.

    Eksempel 7.12 Lad X1, . . . , Xn være uafhængige, identisk fordelte reelle stokastiskevariable, med en ukendt fordeling µ. Vi ønsker at opstillet et 95% konfidensområde

  • 232 Kapitel 7. Områdeestimation

    for medianen af µ. Medianen er et udtryk for µ’s egenskaber, og derfor er det naturligtat se på medianen som en parameterfunktion.

    Problemets ikke-parametriske karakter gør at bootstrap er den oplagte metode. Somunderliggende estimator af den fulde parameter µ, bruger vi det empiriske mål

    µ̂ =1n

    n∑

    i=1

    �Xi .

    Vi simulerer nu N “falske datasæt” (på engelsk taler man gerne om phony data) afsamme størrelse som det oprindelige datasæt,

    X11 X12 · · · X1nX21 X22 · · · X2n...

    .... . .

    ...

    XN1 XN2 · · · XNn

    på en sådan måde at alle de falske variable er uafhængige og identisk fordelte medfordeling µ̂. Det er uhyre let at simulere disse data, for at trække en variabel med for-deling µ̂, betyder simpelthen at trække et heltal k mellem 1 og n efter en ligefordeling,og så bruge det tilhørende ægte datapunkt Xk.

    Man siger gerne at de falske data kommer til verden ved at man trækker tilfældigtmed tilbagelægning fra de ægte data. Denne procedure bidrager umiddelbart til denintuitive skepsis over for bootstrap-begrebet, for simulationsprocedurerne generereraldrig nye data, kun gentagelser af de data man allerede har. Og hvordan skulle mandog blive klogere af det? Det tog det statistiske miljø mange år at overkomme denneskepsis.

    Lad os kalde den empiriske median af de ægte data for M. For hvert af de falskedatasæt udregner man den empiriske median, lad os kalde dem M1, . . . , MN . Vi finderde empiriske 2.5% og 97.5%-fraktiler z1 og z2 for størrelserne

    M1 − M, . . . , MN − M ,

    og konstruerer på den baggrund områdeestimatet

    (M − z2 M − z1) .

    Disse regninger baserer sig på kombinanten

    (µ, x1, . . . , xn) 7→ Median(µ̂(x1, . . . , xn)) −Median(µ) ,

  • 7.6. Prediktion 233

    der nok ikke er så pivot endda. Et bedre resultat kunne sikkert opnås ved at dividereen skalafaktor ud. Man kunne forsøge sig med kombinanten

    (µ, x1, . . . , xn) 7→Median(µ̂(x1, . . . , xn)) −Median(µ)√

    s2,

    hvor s2 er et variansestimat for µ, f.eks. den empiriske varians af x1, . . . , xn. Det førertil såkaldte studentized bootstrap konfidensområder.

    Antagelsen bag bootstrap er svagere end de tilsvarende antagelser bag de asymp-totiske konfidensområder. Alligevel vil den faktiske dækningsgrad af omhyggeligtkonstruerede bootstrap konfidensområder ofte svare bedre til den nominelle dæk-ningsgrad. Og hvis der ikke er mange gentagelser involveret i forsøget, så er bootstrapbaserede konfidensområder i høj grad at foretrække fremfor de asymptotisk baserede,også i parametriske modeller.

    Bootstrap-baserede teknikker er, sammen med andre computerintensive metoder,kommet i høj kurs i de senere år, i takt med at computerkraft er blevet tilgængelig foralle. Bortset fra pivotantagelsen (som man jo ikke kan gøre noget ved), så kan alle degjorte approksimationer kontrolleres ved at gøre N tilstrækkelig stor.

    7.6 Prediktion

    En situation, der er meget beslægtet med konstruktion af konfidensområder, er pre-diktion, hvor man på baggrund af allerede gjorte observationer, forsøger at sige nogetom endnu ikke gjorte observationer. Der skal ikke lægges noget tidsligt i at observa-tionen “endnu” ikke er gjort, observationen kan udmærket være gjort men endnu ikkeafsløret for statistikeren. Eller den kan være principielt uobserverbar, sådan som vihar arbejdet med det i modellen for afskårne eksponentialfordelinger i eksempel 2.15.

    Formelt vil vi forestille os to stokastiske variable på (Ω,F), vi kan kalde dem X ogY med værdier i henholdsvis (X,E) og (Y,K), og en parametriseret statistisk model(Pθ)θ∈Θ for deres simultane fordeling (denne kryptiske formulering dækker over atdet er billedmålene (X,Y)(Pθ) på produktrummet (X × Y,E ⊗ K) som kræves speci-ficeret). Vi lader X svare til den gjorte observation og Y til den endnu ikke gjorte.

  • 234 Kapitel 7. Områdeestimation

    Et prediktionsområde for Y er en afbildning C : X → K. Til hvert punkt x ∈ Xknyttes altså en målelig delmængde C(x) af Y. Prediktionsområdets dækningsgrader afbildningen

    θ 7→ Pθ(Y ∈ C(X)) .Typisk ønsker man at konstruere et prediktionsområde med en dækningsgrad påmindst 95% for alle θ. Det er underforstået i denne formulering at man ønsker atgøre områderne C(x) så små som muligt, herunder at den faktiske dækningsgrad erså tæt på 95% som muligt og ikke væsentlig større (for i så fald er områderne C(x)på sin vis “for store”).

    I visse situationer kan man slippe afsted med en variant af pivot-tankegangen. Hviskan kan finde en fælles transformation af X og Y , hvis fordeling ikke varierer med θ,så kan man bruge den som grundlag for konstruktionen. Hvis R : X × Y → Z er en(passende målelig) transformation sådan at

    Z = R(X,Y)

    har den samme fordeling, uanset hvilket θ der er sandt, og hvis A er et konkordans-område for Z på niveau α, så er dækningsgraden for prediktionsområdet

    C(x) = {y ∈ Y | R(x, y) ∈ A}

    præcis 1 − α. Hvis man skal konstruere et sådant R, skal man så at sige bruge X til ateliminere parameterafhængigheden af Y .

    Eksempel 7.13 Lad X1, . . . , Xn,Y være uafhængige reelle variable, alle N(ξ, σ2)-fordelte med ukendt middelværdi og varians. Vi forestiller os at vi har observeretalle X’erne, og at Y er den næste observation i rækken, som vi ønsker at danne os etbegreb om på forhånd. Vi har tidligere set på det nyttige i at indføre størrelserne

    X• =1n

    n∑

    i=1

    Xi , SSD =n

    i=1

    (Xi − X•)2 .

    Disse størrelser er uafhængige, og da de er dannet udelukkende ud fra X’erne, er deogså uafhængige af Y . Dermed er

    Y − X• ∼ N(

    0,

    (

    1 +1n

    )

    σ2)

    ,

    og denne differens er uafhængig af SSD. Ved at argumentere som i eksempel 7.9, fåsat

    n − 11 + 1n

    Y − X•√SSD

  • 7.6. Prediktion 235

    er t-fordelt med n − 1 frihedsgrader. Enhver parameterafhængighed er væk! Derforkan vi konstruere et prediktionsområde med en dækningsgrad på 95% ved at sætte

    C(X1, . . . , Xn) =

    y ∈ R | −q <√

    n − 11 + 1n

    Y − X•√SSD

    < q

    ,

    hvor q er 97.5%-fraktilen for en t-fordeling med n − 1 frihedsgrader. Det er i dettetilfælde ganske nemt at løse ulighederne, og vi ser at

    C(X1, . . . , Xn) =

    ξ̂ − q√

    (1 +1n

    )σ̂2 , ξ̂ + q

    (1 +1n

    )σ̂2

    hvor ξ̂ og σ̂2 er de oplagte parameterestimatorer på baggrund af X’erne, givet ved(4.4). Man kan på ret oplagt vis læse dette prediktionsområde som et konkordansom-råde, regnet ud som om ξ̂ og σ̂2 er de sande parametre, tilsat lidt korrektion for at tagehøjde for fejlen i denne approksimation. Når n går mod ∞, bliver parametrene bedreog bedre bestemt, og korrektionsfaktorerne i prediktionsområdet bliver tilsvarendemindre og mindre betydningsfulde (q konvergerer mod 1.96, der er 97.5%-fraktil ien standard normalfordeling). Men selve prediktionsområdet bliver naturligvis ikkevilkårligt snævert, selv efter observation af uendeligt mange X’er, vil der stadig væreen restvariabilitet i Y , så længde Y er uafhængig af alle X’erne.

    Så nemt som i eksempel 7.13 går det sjældent at eliminere parametrene i den uobser-verede variabels fordeling, og en succesfuld konstruktion af prediktionsområder eren uhyre vanskelig kunst.

    Hvis man vil tage til takke med et groft bud på et prediktionsområde, hvis faktiskedækningsgrad kan overstige 1−α ganske betydeligt, er der dog en generel procedureud fra konfidensområder: Lad C(x) ⊂ Θ være et konfidensområde for parameterenθ, baseret udelukkende på X, og antag at dette konfidensområde har dækningsgrad1 − α/2. Find for hvert θ ∈ Θ et konkordansområde A(θ) ⊂ Y for Y , også på niveauα/2. Brug nu prediktionsområdet

    D(x) =⋃

    θ∈C(x)A(θ) .

    Hvis θ0 er den sande parameter, ser vi at

    (Y < D(X)) ⊂ (θ0 < C(X)) ∪ (Y < A(θ0)) ,

  • 236 Kapitel 7. Områdeestimation

    og derfor er

    Pθ0(Y < D(X)) ≤ Pθ0(θ0 < C(X)) + Pθ0(Y < A(θ0)) ≤ α/2 + α/2 .

    Uheldigvis har man ingen kontrol over vurderingerne i disse regninger, og det kon-struerede prediktionsområde er ofte alt, alt for stort.

    7.7 Opgaver

    O 7.1. Lad X1, . . . , Xn være uafhængige reelle stokastiske variable, med tæthe-den

    f (x) =

    axa+1

    for x > 1

    0 ellers,(7.21)

    hvor a > 2 er en ukendt parameter. Vi diskuterer altså en speciel type Paretofordeltevariable.

    S 7.1(a). Gør rede for at Xi har 2. moment. Find middelværdi og varians.

    S 7.1(b). Brug middelværdien af Xi til at konstruere en momentestimator ã fora.

    S 7.1(c). Gør rede for at ã er asymptotisk normalfordelt, og find de asymptoti-ske parametre.

    S 7.1(d). Brug den asymptotiske fordeling af ã til at konstruere et approksima-tivt 95% konfidensområde for a.

    S 7.1(e). Opskriv likelihoodfunktionen, log-likelihoodfunktionen, scorefunk-tionen og informationsfunktionen.

    S 7.1(f). Find den forventede information.

    S 7.1(g). Gør rede for at der er en entydig maksimaliseringsestimator â, ogskriv den op.

    S 7.1(h). Brug strukturen af â til at konstruere et eksakt 95% konfidensområdefor a. (Vink: log Xi har en kendt fordeling.)

    S 7.1(i). Gør rede for at â er asymptotisk normalfordelt, og angiv de asympto-tiske parametre.

  • 7.7. Opgaver 237

    S 7.1(j). Konstruer på baggrund af den asymptotiske fordeling af â et approk-simativt 95% konfidensområde for a.

    S 7.1(k). Der er givet følgende observationer:

    i 1 2 3 4 5 6 7 8 9Xi 1.71 2.71 1.53 1.64 1.14 1.44 1.93 1.52 2.06

    Estimer a, og udregn de tre konstruerede områdeestimater.

    O 7.2. Lad X1, . . . , Xn være uafhængige reelle stokastiske variable, med tæthe-den

    f (x) =

    1β(β+1) (x + 1)e

    −x/β for x > 0

    0 ellers,(7.22)

    hvor β > 0 er en ukendt parameter.

    S 7.2(a). Gør rede for at (7.22) definerer en tæthed.

    S 7.2(b). Gør rede for at Xi har momenter af vilkårlig orden. Find middelværdiog varians.

    S 7.2(c). Opskriv likelihoodfunktionen, log-likelihoodfunktionen, scorefunk-tionen og informationsfunktionen.

    S 7.2(d). Find den forventede information.

    S 7.2(e). Gør rede for at der er en entydig maksimaliseringsestimator β̂, ogskriv den op

    S 7.2(f). Gør rede for at β̂ er asymptotisk normalfordelt, og angiv de asympto-tiske parametre.

    S 7.2(g). Konstruer på baggrund af den asymptotiske fordeling af β̂ et approk-simativt 95% konfidensområde for β.

    S 7.2(h). Der er givet følgende observationer:

    i 1 2 3 4 5 6 7 8 9 10Xi 11.32 4.87 2.71 3.25 9.15 0.48 4.56 12.87 2.17 5.67

    Estimer β, og angiv et approksimativt 95% konfidensområde.

  • 238 Kapitel 7. Områdeestimation

    O 7.3. Lad X1, . . . , Xn,Y1, . . . ,Yn være uafhængige reelle stokastiske variable,sådan at Xi’erne er Poissonfordelte med middelværdi eβ, mens Yi’erne er eksponen-tialfordelte med middelværdi e−β. Her er β ∈ R en ukendt parameter.

    S 7.3(a). Opskriv likelihoodfunktionen, log-likelihoodfunktionen, scorefunk-tionen og informationsfunktionen.

    S 7.3(b). Find den forventede information.

    S 7.3(c). Gør rede for at der er en entydig maksimaliseringsestimator β̂, ogskriv den op.

    S 7.3(d). Gør rede for at β̂ er asymptotisk normalfordelt, og angiv de asymp-totiske parametre.

    S 7.3(e). Konstruer på baggrund af den asymptotiske fordeling af β̂ et approk-simativt 95% konfidensområde for β.

    S 7.3(f). Der er givet følgende observationer:

    i 1 2 3 4 5 6 7 8 9Xi 2 5 4 3 0 1 3 5 2Yi 0.42 0.32 1.09 0.02 0.46 0.03 0.32 0.17 0.16

    Estimer β, og angiv et approksimativt 95% konfidensområde.

    O 7.4. Lad X og Y være ikke-negative reelle stokastiske variable, hvis simultanefordeling har tæthed

    f (x, y) =1α

    (

    xx + y

    )α−1e−(x+y)/α for x ∈ (0,∞), y ∈ (0,∞), (7.23)

    med hensyn til Lebesguemålet på R2. Her er α ∈ (0,∞) en ukendt parameter.

    S 7.4(a). Gør rede for at (7.23) vitterligt definerer en sandsynlighedstæthed.(Vink: Ikke så nemt endda. Prøv med substitution i det todimensionale integral.)

    S 7.4(b). Vis at

    Z =X

    X + Y, V = X + Y

    er uafhængige, henholdsvis B(α, 1)-fordelt og Γ-fordelt med formparameter 2 ogskalaparameter α.

  • 7.7. Opgaver 239

    Lad nu (X1,Y1), . . . , (Xn,Yn) være uafhængige todimensionale stokastiske variable,alle med fordeling givet ved (7.23). Lad

    α̃ =

    ∑ni=1 Xi + Yi

    2n.

    S 7.4(c). Vis at α̃ er en central estimator af α. Gør endvidere rede for at α̃ erasymptotisk normalfordelt, og find de asymptotiske parametre.

    S 7.4(d). Opskriv likelihoodfunktionen og log-likelihoodfunktionen. Findscorefunktionen og informationsfunktionen.

    S 7.4(e). Find den forventede information.

    S 7.4(f). Gør rede for at der er en entydig maksimaliseringsestimator α̂, ogskriv den op.

    S 7.4(g). Gør rede for at α̂ er asymptotisk normalfordelt, og angiv de asymp-totiske parametre.

    S 7.4(h). Sammenlign estimatorerne â og ã for a.

    S 7.4(i). Konstruer på baggrund af den asymptotiske fordeling af â et approk-simativt 95% konfidensområde for a. Gentag øvelsen på baggrund af den asymp-totiske fordeling af ã.

    S 7.4(j). Der er givet følgende observationer:

    i 1 2 3 4 5 6 7 8 9Xi 0.439 8.185 4.152 1.075 5.518 1.970 1.316 1.327 1.344Yi 0.015 1.203 2.896 0.052 0.528 4.455 0.059 1.864 0.540

    Estimer α, og angiv et approksimativt 95% konfidensområde. Brug begge estima-torer og sammenlign.

    O 7.5. Lad X1, . . . , Xn være uafhængige observationer fra en ligefordeling på(0, θ), hvor θ er en ukendt parameter. Brug fordelingen af X(n) til at konstruere eteksakt 95% konfidensområde for θ.

    O 7.6. Lad X1, . . . , Xn være uafhængige reelle stokastiske variable, identisk for-delte med tæthed

    f (x) =

    {

    a xa−1 for x ∈ (0, 1)0 ellers

    hvor a > 0 er en ukendt parameter.

  • 240 Kapitel 7. Områdeestimation

    S 7.6(a). Opskriv likelihoodfunktionen og log-likelihoodfunktionen. Findscorefunktionen og informationsfunktionen.

    S 7.6(b). Find den forventede information.

    S 7.6(c). Gør rede for at der er en entydig maksimaliseringsestimator â, ogskriv den op.

    S 7.6(d). Gør rede for at â er asymptotisk normalfordelt, og angiv de asymp-totiske parametre.

    Sæt

    X =1n

    n∑

    i=1

    Xi, ã =X

    1 − X.

    S 7.6(e). Gør rede for at ã er asymptotisk normalfordelt, og angiv de asymp-totiske parametre.

    S 7.6(f). Sammenlign estimatorerne â og ã for a.

    S 7.6(g). Konstruer på baggrund af den asymptotiske fordeling af â et approk-simativt 95% konfidensområde for a. Gentag øvelsen på baggrund af den asymp-totiske fordeling af ã.

    S 7.6(h). Der er givet følgende observationer:

    i 1 2 3 4 5 6 7 8 9Xi 0.802 0.105 0.679 0.825 0.727 0.862 0.289 0.919 0.534

    Estimer a, og angiv et 95% konfidensområde. Brug begge estimatorer og sammen-lign.

    O 7.7. Lad X og Y være ikke-negative reelle stokastiske variable, hvis simultanefordeling har tæthed

    f (x, y) = x−α y−(xα+1) for x ∈ (1,∞), y ∈ (1,∞), (7.24)

    med hensyn til Lebesguemålet på R2. Her er α ∈ (0,∞) en ukendt parameter.

    S 7.7(a). Gør rede for at (7.24) vitterligt definerer en sandsynlighedstæthed.

    S 7.7(b). Find den marginale fordeling af log X, og find middelværdi og vari-ans.

    S 7.7(c). Find middelværdi og varians af X log Y .

  • 7.7. Opgaver 241

    Lad nu (X1,Y1), . . . , (Xn,Yn) være uafhængige todimensionale stokastiske variable,alle med fordeling givet ved (7.24). Lad

    α̃ =1n

    n∑

    i=1

    Xi log Yi

    S 7.7(d). Vis at α̃ er en central estimator af α. Gør endvidere rede for at α̃ erasymptotisk normalfordelt, og find de asymptotiske parametre.

    S 7.7(e). Opskriv likelihoodfunktionen og log-likelihood funktionen. Findscorefunktionen og informationsfunktionen.

    S 7.7(f). Find den forventede information.

    S 7.7(g). Gør rede for at der er en entydig maksimaliseringsestimator α̂, ogskriv den op.

    S 7.7(h). Gør rede for at α̂ er asymptotisk normalfordelt, og angiv de asymp-totiske parametre.

    S 7.7(i). Sammenlign estimatorerne α̂ og α̃ for α.

    S 7.7(j). Konstruer på baggrund af den asymptotiske fordeling af α̂ et approk-simativt 95% konfidensområde for a. Gentag øvelsen på baggrund af den asymp-totiske fordeling af ã.

    S 7.7(k). Der er givet følgende observationer:

    i 1 2 3 4 5 6 7 8 9Xi 1.05 1.05 1.30 1.32 1.01 1.81 1.14 1.81 1.27Yi 2.74 1.79 1.27 8.18 10.46 2.59 21.72 1.17 2.57

    Estimer α, og angiv et approksimativt 95% konfidensområde. Brug begge estima-torer og sammenlign.

  • 242 Kapitel 7. Områdeestimation