studentenaccountancy.weebly.comstudentenaccountancy.weebly.com/.../6/...formules.docx  · Web...

4
n≥ t 2 ×s 2 E 2 p onder/ boven = a 1/ a 2 n Hypergeometrische verdeling (zonder teruglegging), gebruik nCR in de GR: P ( k =k )= ( K k )( NK nk ) ( n N ) Kan benaderd worden door de binominale benadering (met teruglegging): P ( k =k )= ( n k ) π k ( 1π ) nk Kan weer benaderd worden door de Poissonverdeling: P ( k =k )= μ k k! e μ Verder: μ=nπσ= ( 1π)∗ Nn N1 Onder de laatste wortel staat de eindigheidscorrectie, welke bij kleine populaties word gebruikt t= xμ s n xμ σ n =z Er zijn wel voorwaardes voor de benaderingen: Hyper-> Bi: n N <0.10 Bi -> Poi: π <0.10+n≥ 20 poi->norm: μ≥ 10 Schatten van gemiddelden [cont] (betrouwbaarheidsinterval) geeft de mate van waarschijnlijkheid weer, dus nooit 100% zeker: ±t α/ 2 × s n ¿ besteschatting Df= n – 1 Let op: ook op de z of t waardes. Bij n≥200 z-waarde, anders t. En als σ is gegeven ook z-waarde gebruiken Verder geld: n≥100, aannemen dat er normale verdeling geld. Ook vermelden. Bij kleine populaties ( n N >0.10) moet eindigheidscorrectie toegepast worden. min. steekproef schatten: E =onnauwkeurigheid en is ½ betrouwbaarheidsinterval Voor kleine populaties indien ( n N >0.10): n= N 1+γ γ= E 2 ×( N1) t 2 ×s 2 Afrondingen naar buiten Schatten van een percentage [dis] (goed/fout) : 1. Binominale benadering (F- verdeling ; T13.8 ), ofwel de exacte formule: p onder = k k +( nk+1 ) ×F a/ 2 v1 = 2n- 2k+2 en v2=2k p boven = k+ 1 k +1+ nk F α/ 2 v1 = 2k+2 v2 = 2n-2k 2. Poisson benadering (T13.5) : Indien: π<0.10 ; n≥20 ; F- tabel niet mog. Onder- of bovengrens uit de tabel afleiden. En dan: a 1 / 2= μ= πna1 en a2 zijn afhankelijk van de waardes uit de tabel. Altijd de voorwaarden vermelden. Toetsen Toetsen 4 stappen: 1. hypotheses opstellen 2 bepaal de toetsingsgrootheid 3 bepaal het kritieke gebied 4. formulier de conclusie: (4 elementen: toetsingsgrootheid wel/niet in KG, H 0 wel/niet verwerpen, verbale omschrijving, α of β risico relevant). Beschrijf toetsingsgrootheid (µ of π) Toetsen op een gemiddelde [cont] : 1. Methode toetsen met KG: variatie1: μ±t kritiek s n links (= -)als < en rechts (= +)als > moet bewijzen (H1) t berekend=¿ μ s n ¿ wanneer t berekend en t kritiek ( T 13.4 ). t b >t k H 0 verwerpen (visa versa). Variatie 2: Significantie berekenen (het α-risico bepalen van je steekproefgemiddelde).p- waarde/π ≤ α H 0 verwerpen (en visa versa) 2. Methode Schattingsinterval Als μ uit H 0 in het schattingsinterval lig, H 0 niet verwerpen. (kan met gegevens hiervoor) Onderscheidingsvermogen (1-β, de kans dat een onjuiste populatie wordt afgekeurd): β=P ( xZμ 1 ) α en β risico zijn erg belangrijk (fout van de eerste soort of tweede soort). Dit doe je door de nieuwe t-waarde te bepalen. Om β-risico te handhaven, n bepalen: n= ( t α +t β ) 2 ( μ 1 μ 0 ) 2 s 2 Toetsen op foutfractie [dis] (goed/fout) : 1 .Methode toetsen met KG ( T13.1) : H 0: π ≤/≥ …

Transcript of studentenaccountancy.weebly.comstudentenaccountancy.weebly.com/.../6/...formules.docx  · Web...

Page 1: studentenaccountancy.weebly.comstudentenaccountancy.weebly.com/.../6/...formules.docx  · Web viewRegressie model: y 1 = β 0 + β 1 *x+ε De benadering ... Mahalanobis Distance

n≥ t 2×s2

E2

ponder /boven=a1 /a2

n

Hypergeometrische verdeling (zonder teruglegging), gebruik nCR in de GR:

P (k=k )=(Kk )(N−K

n−k )( nN)

Kan benaderd worden door de

binominale benadering (met teruglegging):

P (k=k )=(nk )π k (1−π )n−k

Kan weer benaderd worden door de Poissonverdeling:

P (k=k )= μk

k !e−μ

Verder:

μ=n∗π σ=√nπ (1−π )∗√ N−nN−1

Onder de laatste wortel staat de eindigheidscorrectie, welke bij kleine populaties word gebruikt

t= x−μs

√n

≈ x−μσ√n

=z

Er zijn wel voorwaardes voor de benaderingen:

Hyper-> Bi: nN

<0.10

Bi -> Poi: π<0.10+n≥20poi->norm: μ≥10

Schatten van gemiddelden [cont](betrouwbaarheidsinterval) geeft de mate

van waarschijnlijkheid weer, dus nooit 100% zeker:

± t α /2×s

√n

¿beste schatting

Df= n – 1

Let op: ook op de z of t waardes. Bij n≥200 z-waarde, anders t. En als σ is gegeven ook z-waarde gebruiken

Verder geld: n≥100, aannemen dat er normale verdeling geld. Ook vermelden.

Bij kleine populaties (nN

>0.10) moet

eindigheidscorrectie toegepast worden.

min. steekproef schatten:

E =onnauwkeurigheid en is ½ betrouwbaarheidsinterval

Voor kleine populaties indien (nN

>0.10):

n= N1+γ

γ=E2×(N−1)t 2×s2

Afrondingen

naar buiten

Schatten van een percentage [dis] (goed/fout) :

1. Binominale benadering (F-verdeling ; T13.8), ofwel de exacte formule:

ponder=k

k+ (n−k+1 )×Fa /2v1 = 2n-2k+2

en v2=2k

pboven=k+1

k+1+ n−kFα /2

v1 = 2k+2 v2 = 2n-2k

2. Poisson benadering (T13.5): Indien: π<0.10 ; n≥20 ; F-tabel niet mog.Onder- of bovengrens uit de tabel afleiden. En dan:a1/2=μ=π∗na1 en a2 zijn afhankelijk van de waardes uit de tabel. Altijd de voorwaarden vermelden.

ToetsenToetsen 4 stappen:1. hypotheses opstellen2 bepaal de toetsingsgrootheid3 bepaal het kritieke gebied4. formulier de conclusie:(4 elementen: toetsingsgrootheid wel/niet in KG, H0 wel/niet verwerpen, verbale omschrijving, α of β risico relevant). Beschrijf toetsingsgrootheid(µ of π)

Toetsen op een gemiddelde [cont] : 1. Methode toetsen met KG:

variatie1: μ±t kritieks

√nlinks (= -)als < en

rechts (= +)als > moet bewijzen (H1)

tberekend=¿ −μ

s√n

¿

wanneer tberekend en tkritiek (T 13.4 ). tb >tk H0 verwerpen (visa versa). Variatie 2: Significantie berekenen (het α-risico bepalen van je steekproefgemiddelde).p-waarde/π ≤ α H0 verwerpen (en visa versa)

2. Methode Schattingsinterval Als μ uit H0 in het schattingsinterval lig, H0

niet verwerpen. (kan met gegevens hiervoor)

Onderscheidingsvermogen (1-β, de kans dat een onjuiste populatie wordt afgekeurd):β=P(x≠Z∨μ1)α en β risico zijn erg belangrijk (fout van de eerste soort of

tweede soort). Dit doe je door de nieuwe t-waarde te bepalen.

Om β-risico te handhaven, n bepalen:

n=(t α+t β )2

(μ1−μ0 )2∗s2

Toetsen op foutfractie [dis] (goed/fout) : 1 .Methode toetsen met KG ( T13.1) : H0: π ≤/≥ …Binominale verdeling(T13.1): uit de tabel de gegevens halen. Afhankelijk van steekproef grootte (let op: π wordt bovenaan opgezocht). De kg wordt in k (=aantal fouten) bepaald & KG: {k|k ≤/≥ …}

Poisson benadering(T13.2 of 5): F-tabel kan niet (binominale benadering) π<0.10. μ=π∗n De kg wordt in k (=aantal fouten) bepaald & KG: {k|k = …}

2. Methode Schattingsinterval Binominale verdeling(T13.1): uit de tabel de gegevens halen. Als πbelangrijk uit H0 in het schattingsinterval lig, H0 niet verwerpen.

Poisson benadering(T13. 5): F-tabel kan niet (binominale benadering) ; π<0.10.Pbelangrijk (berekend het percentage) ligt in het schattingsinterval, dan H0 niet verwerpen (en vise versa).

Grote van de steekproef indien π & k

bekend: n=a2

pbelangrijk of

log(∝)log (1−p0)

Chi-kwadraat toetsGaat om Benfords law. Alle cijfers beginnen het meest met 1, daarna 2, enz. hier moeten getallen reeksen aan voldoen, kan op worden getoetst.

H0: geeft de mogelijke π’s weer (of voldoet aan Benfords law)H1: minstens één van de π’s verschilt (voldoet niet aan Benfords law)Ei=n*πi

Ei Oi (Oi-Ei) (Oi-Ei)2/Ei

Som van de laatste kolom moet getoetst worden aan de kritieke waarde (uit tabel).

P (i )=log( i+1i )I= de mogelijke getallen. Geeft de kans op een bepaald getal weer.

Voorwaarden voor de Chi-kwadraat toets:- n ≥20- de waarnemingen zijn onafhankelijk- de kans dat een waarneming in een

Page 2: studentenaccountancy.weebly.comstudentenaccountancy.weebly.com/.../6/...formules.docx  · Web viewRegressie model: y 1 = β 0 + β 1 *x+ε De benadering ... Mahalanobis Distance

bepaalde cel valt is constant- de verwachte cel frequentie in elke cel moet minstens gelijk zijn aan 5

KG = kritieke gebied kg = kritieke grens afr. Df < ; T-waarde og< & bg>

Page 3: studentenaccountancy.weebly.comstudentenaccountancy.weebly.com/.../6/...formules.docx  · Web viewRegressie model: y 1 = β 0 + β 1 *x+ε De benadering ... Mahalanobis Distance

Regressie analyse:

Soorten regressie: tijdreeks, cross-sectie. Doelen: voorspellen, analyseren

Eisen voor toepassing regressie: de storingsterm is normaal verdeel (analyse 5); spreiding storingsterm is constant (homoscedasticiteit, 6); waarnemingen moeten onafhankelijk zijn (analyse 7).

Overige analyses (voor zuiverheid): samengevoegde groepen (1), tijdsvertraging (2), y- uitbaters (3..a), x-uitbaters (3.b), invloedrijke punten (4).

Regressie model: y1=β0+β1∗x+εDe benadering (de regressielijn):

y=b0+b1∗x

b1=∑ xy−n∗x∗y

(n−1 )∗s2b0= y−b1∗x

Kwaliteit van het verband (Piersons’s)

correlatiecoëfficiënt: r=β=R=b1∗sx

s y

r= cov (x , y )sx∗s y

r ligt tussen -1 en 1. R2 geeft

verklaring weer, ligt tussen 0 en 1. Hoe hoger hoe meer er verklaard, vanaf 0.8 sterk verband. Geeft ook de kwaliteit weer.

Spreiding van de punten: std error of the estimate = se = √se

2=√MSE

se2=n−1

n−2∗(1−r 2)∗sy

2

Variantieanalysetotale deviatie: ( y¿¿1− y)¿verklaarde deviatie( y1− y )onverklaarde deviatie ( y1− y1)

Sum of squares: Total SS=SSR+SSEVerklaard (SSR), onverklaard (SSE), berekend met bovenstaand in kwadraat.

Aantal vrijheidsgraden: TotalSS: df=n-1, SSR: df=k, SSE: df=n-k-1. K=1

determinatiecoëficient r2= SSRTotalSS

Toetsen van het regressiemodeltoeten op β1 (de richtingscoëfficiënt dus):tweezijdig: H0: β1=0 en H1: β1≠0eenzijdig, stijgend: H0: β1≤0 en H1: β1>0eenzijdig, dalend: H0: β1≥0 en H1: β1<0β1=richtingscoëfficiënten van de populatie (naar de casus toe schrijven).

Toetsen aan tberekend: dit kan op verschillende manieren:

t berekend=b1sb1

sb1=sy

sx∗√ 1−r2

n−k−1

Vervolgens tberekend vergelijken met tkritiek (uit tabel, let op: df=n-2). Vervolgens conclusie in 4 delen.

Toetsen op ρ (rho): tweezijdig: H0: ρ=0 en H1: ρ≠0eenzijdig, stijgend: H0: ρ≤0 en H1: ρ>0eenzijdig, dalend: H0: ρ≥0 en H1: ρ<0ρ= de populatiecorrelatiecoëfficiënt

t berkend=r √n−k−1

√1−r2

Ligt aan de gegevens die beschikbaar zijn welke je kan gebruiken. Let op, F-waarde is altijd (en alleen tweezijdig).

F-waarde: tweezijdig: H0: β1=0 en H1: β1≠0

β1=richtingscoëfficiënt van de populatie (naar de casus toe schrijven). OFtweezijdig: H0: ρ=0 en H1: ρ≠0ρ= de populatiecorrelatiecoëfficiënt

Fberekend=MSRMSE

=r 2/k

(1−r2)/(n−k−1)=

(n−2 )∗r2

1−r2

Voor Fkritiek:v1=k en v2=n-k-1. Eenzijdig kritiek gebied, de negatieve waarde zijn namelijk positief geworden (gekwadreerd). F waarde is t2.

Analyseselke analyse kent: verwijzing van betreffende afbeelding, conclusie, vermelding evt. remedie.1. Samengevoegde groepen: visueel waarnemen. Rm: splitsen of stoppen2. Tijdsvertraging (alleen tijdreeks): oorzaak en gevolg niet in dezelfde periode, ontdekken door visuele waarneming. Rm: yt in relatie brengen met xt-1

3a. Uitbaters in y-richting: kritieke grens bepalen: -2 en 2 bij n<100 en -3 en 3 bij n≥100. Rm: oorzaak eenmalig, verwijderen, geen oorzaak handhaven. Bij geen eenmalige oorzaak, dummy variabele. 3b. uitbaters in x-richting: Mahalanobis Distance (MD). Kritieke waarde bepalen: MD kr=MD+3∗sMD. Rm: zelfde 3a.4. Invloedrijke punten: Cook’s Distance (CD). Kritieke grens bepalen: CDkr=CD+3∗sCD. Rm: indien punt herkenbaar EN oorzaak is gegeven verwijderen, anders handhaven. 5. Normaliteit van de residuen: (essentieel) H0=residuen zijn normaal verdeeldH1= residuen zijn niet normaal verdeeldBij n<50, SW en n>50 KS. Toetsen aan de

significantie. Rm: tezamen met de volgende analyse.6. Homoscedastichiteit: (essentieel) H0=residuen zijn homoscedastischH1= residuen zijn heteroscedastischOok toetsen aan significantie, Rm: A. regressiemodel aanpassen, B WLS regressie. 7. Autocorrelatie (alleen bij tijdreeks): H0=geen autocorrelatieH1= wel autocorrelatieMet Durbin-Watson, tabel 13.9waardes tussen 0 en 4. Bij kleiner dan 2 is er positieve autocorrelatie en groter dan 2 negatieve autocorrelatie. Rm: autoregressie

Voorspellen:

y0±t α /2∗se∗√1+ 1n +(x0−x )2

(n−1 )∗sx2

Je

berekend de spreiding voor een bepaalde x waarden aan de hand van de opgestelde

regressiemodel

Voor de

uitbuiters:

Ja fout handmatig corricerenis er een fout

gevonden

Neewaarneming handhavenNee: is het een

bijzondere omstandigheid

Neewaarmeming verwijderenJaL zal dit vaker

kunnen optreden

dummyvariabelehandmatigcorricerenJa: waarneming

corrigeren