Kursusmateriale Chi-i-Anden Test 7-9-2009[1]

download Kursusmateriale Chi-i-Anden Test 7-9-2009[1]

of 37

  • date post

    10-Oct-2014
  • Category

    Documents

  • view

    174
  • download

    2

Embed Size (px)

Transcript of Kursusmateriale Chi-i-Anden Test 7-9-2009[1]

KURSUSMATERIALE TIL DET NYE STATISTIKPENSUM Det foreliggende udkast til kursusmateriale er lagt ud til orientering for kollegerne med henblik p at indhente kommentarer til materialet. Sammen med Susanne Christensens elevnote (se forordet til kursusmaterialet) definerer kursusmaterialet det kommende obligatoriske pensum i 2-test for niveauerne MatB og MatA, der forventes at trde i kraft for elever, der starter sommeren 2010. Eventuelle kommentarer sendes til fagkonsulent Bjrn Grn: Bjorn.Gron@uvm.dk (redaktionen afsluttet 7-9-2009) 1 (version 7-9-2009) Forord Lektor i statistik Susanne Christensen, Institut for Matematiske fag ved Aalborg Universi-tet har p min opfordring skrevet en note om 2 (chi-i-anden). Noten1 dkker de emner, der ptnkes inddraget som kernestof i matematik stx p B- og p A-niveau, nemlig test for uafhngighed mellem to inddelingskriterier og test for fordeling af en given stikprve (test for goodness of fit). Lreplansjusteringerne vil glde for de elever, der starter i gym-nasiet sommeren 2010. Noten er blevet lst og kommenteret af en baggrundsgruppe nedsat af fagkonsulenten: Aksel Bertelsen, Helge Gram Christensen, Steen Dilling, Bjrn Felsager, Olav Lyndrup og Jan Srensen. Det er vores vurdering at noten kan danne grundlag for undervisning i emnet, og materialet stilles frit til rdighed til kopiering til ens elever. I tilknytning til denne note er der udarbejdet et supplerende materiale som bl.a. inddra-ger en eksperimentel tilgang til hypotesetest. I appendiks er demonstreret hvorledes dette kan gres med brug af forskellige vrktjsprogrammer. Den eksperimentelle tilgang kan bde indg som en del af den mundtlige prve og som en metode til besvarelsen af sprgsml ved den skriftlige prve. Fuldt pointtal i en besvarelse vil kunne opns bde med anvendelse af en eksperimentel tilgang og med anvendelse af indbyggede funktioner i et vrktjsprogram. Der er endelig lagt flere opgaver ind i dette materiale, lige som litteraturlisten er udbygget. Dette supplerende materiale kan enten anvendes direkte af den enkelte lrer eller danne grundlag for et skolebaseret kursus i emnet Bjrn Grn, fagkonsulent 1 Noten findes p adressen: http://www.math.aau.dk/highschool/chi2JULI09.pdf 2 (version 7-9-2009) Indholdsfortegnelse: Forord side 1 Indledning side 3 1. Statistisk test for uafhngighed mellem to inddelingskriterier (2test for uafhngighed) side 4 Om teststrrelsens fordeling under H0 side 9 Opgaver side 12 2. Hvad gr vi, hvis vi har flere niveauer p hvert af inddelingskriterierne? side 14 Om teststrrelsens fordeling under H0 side 18 Opgaver side 21 3. Statistisk test for fordeling af en stikprve (2test for goodness of fit) side 24 Om teststrrelsens fordeling under H0 side 26 Opgaver side 29 Strre opgaver, der kan indg i projekter sammen med biologi side 31 Litteraturliste side 34 Noter side 35 Appendiks 1: Eksperimentel tilgang til 2-test med forskellige vrktjsprogrammer Appendiks 2: Standardvrktjer til udfrelse af 2-test med forskellige programmer Indledning 3 (version 7-9-2009) At trffe sine valg i en usikker verden den statistiske model-lerings rolle. Et kursusmateriale baseret p en note af E. Susanne Christensen. Lektor i statistik. Institut for Matematiske Fag. Aalborg Universitet. I mange tilflde og i mange forskellige faglige sammenhnge m man trffe en afgrelse eller basere en overbevisning p et ikke fuldstndigt informationsgrundlag. Det er fx tilfldet, nr man nsker at gtte p udfaldet af et kommende folketingsvalg og kun har en opinionsundersgelse, eller nr man nsker at afgre, om antallet af rygere er stigende blandt unge mennesker, men ikke har mulighed for at sprge alle unge, om de ryger eller ej. Ens afgrelse eller resultat kommer i sdanne tilflde til at vre prget af, hvilken stik-prve1 man fr fat i til sin undersgelse. Et eksempel: Vi vil undersge om holdningen til skattelettelser i Danmark er den samme for gymnasie-elever som for gymnasielrere. For at vre sikre p svaret skulle vi sprge hele populati-onen, dvs. samtlige gymnasieelever og gymnasielrere. Men en sdan strategi er normalt bde praktisk og konomisk umuligt. S for at finde ud af det, m vi indsamle nogle data, som vi kan basere vores konklusioner p: Vi skal have en stikprve! Hvis vi var s heldige at vide, at alle gymnasieelever i landet var enige med hinanden og alle gymnasielrere var indbyrdes enige i sprgsmlet om skattelettelser, s kunne vi hurtigt blive frdige. Vi skulle bare sprge n person fra hver gruppe, hvad de mente om sagen, og s afgre om de to grupper ogs var enige. Og vi ville vre helt sikre p, at vi havde draget den rigtige konklusion. Men s nemt gr det sjldent. Der kan vre ret stor forskel p meningerne indenfor gruppen. Og selvom det faktisk skulle forholde sig sdan at de fleste gymnasieelever gr ind for skattelettelser, s kan vi jo godt vre uheldige at udvlge de elever, der er imod og omvendt med lrerne til vores stikprve. Hvis det er tilfldet, s vil vi ende op med den forkerte konklusion om grup-pernes mening om sprgsmlet. Vi skal alts ikke bare have en stikprve, men en stik-prve, der er udvalgt, s vi har en begrundet tro p, den er reprsentativ2 for populatio-nen. Det vi kan gre for at mindske risikoen for at lave forkerte konklusioner er at tage for-nuftige stikprver, der er store nok til at risikoen for at komme til en forkert konklusi-on bliver acceptabel. Statistik gr (blandt andet) ud p at prcisere alle de begreber, der her str i anfrselstegn. Hvad sandsynligheden er, for at drage en forkert konklusion, kan beregnes. I hvert tilflde hvis man flger nogle enkle regler, nr man indsamler data. I denne note skal vi se p, hvordan man kan stte tal p ens usikkerhed i et par speci-fikke tilflde. 4 (version 7-9-2009) 1. Statistisk test for uafhngighed mellem to inddelingskriteri-er (2 test for uafhngighed) Hvis vi vil undersge om det at bruge mange penge p tj er lige udbredt blandt unge kvinder og unge mnd, er den mest objektive mde at forholde sig til problemstillingen, at lave en empirisk undersgelse, dvs. ved at man indsamler data, og drager sine slutnin-ger p baggrund af disse. Allerfrst er der et par ting, der skal prciseres! Hvad er det for nogle unge, vi interesserer os for? I den statistiske terminologi hedder det at fastlgge populationen. Lad os sige, at det er unge mellem 15 og 20 r bosiddende i Danmark, vi er interesseret i. S skal vi have prciseret, hvad vi egentligt forstr ved, at bruge mange penge p tj. I den statistiske terminologi siger man, at vi skal have formuleret modellen og hypoteserne. Modellen kunne her vre, at andelen af kvinder, der bruger mere end 1500 kr. om mne-den p tj er pk og den tilsvarende for mndene er pm. (Andelen pk er lig med sandsynlig-heden3 for, at en kvinde tilfldigt udvalgt fra populationen bruger mere end 1500 kr. p tj om mneden ). Grnsen for hvornr man bruger mange penge p tj er jo her sat sub-jektivt, og kan selvflgeligt gres til genstand for diskussion4. Vi kommer tilbage til hvilke matematiske krav, der skal stilles til denne grnse. Hypotesen er, at pm = pk, eller sagt i ord: Andelen af unge mnd der bruger mange penge p tj er den samme som den tilsvarende andel for unge kvinder. For at undersge vores hypotese kan vi fx gennemfre flgende eksperiment: Vi udvlger et antal unge mellem 15 og 20 r tilfldigt og sprger, hvor mange penge de bruger p tj om mneden. Derefter tller vi op, hvor mange kvinder, der bruger mere end 1500 kr, om mneden p tj og tilsvarende for mnd. Vores resultat af undersgelsen kan vi organisere i tabellen nedenfor (hvor tallene er fikti-ve - ikke resultat af en virkelig undersgelse. Sdan en kan holdet selv lave!). Kn\Forbrug