studentenaccountancy.weebly.comstudentenaccountancy.weebly.com/.../6/...formules.docx · Web...
Transcript of studentenaccountancy.weebly.comstudentenaccountancy.weebly.com/.../6/...formules.docx · Web...
n≥ t 2×s2
E2
ponder /boven=a1 /a2
n
Hypergeometrische verdeling (zonder teruglegging), gebruik nCR in de GR:
P (k=k )=(Kk )(N−K
n−k )( nN)
Kan benaderd worden door de
binominale benadering (met teruglegging):
P (k=k )=(nk )π k (1−π )n−k
Kan weer benaderd worden door de Poissonverdeling:
P (k=k )= μk
k !e−μ
Verder:
μ=n∗π σ=√nπ (1−π )∗√ N−nN−1
Onder de laatste wortel staat de eindigheidscorrectie, welke bij kleine populaties word gebruikt
t= x−μs
√n
≈ x−μσ√n
=z
Er zijn wel voorwaardes voor de benaderingen:
Hyper-> Bi: nN
<0.10
Bi -> Poi: π<0.10+n≥20poi->norm: μ≥10
Schatten van gemiddelden [cont](betrouwbaarheidsinterval) geeft de mate
van waarschijnlijkheid weer, dus nooit 100% zeker:
± t α /2×s
√n
¿beste schatting
Df= n – 1
Let op: ook op de z of t waardes. Bij n≥200 z-waarde, anders t. En als σ is gegeven ook z-waarde gebruiken
Verder geld: n≥100, aannemen dat er normale verdeling geld. Ook vermelden.
Bij kleine populaties (nN
>0.10) moet
eindigheidscorrectie toegepast worden.
min. steekproef schatten:
E =onnauwkeurigheid en is ½ betrouwbaarheidsinterval
Voor kleine populaties indien (nN
>0.10):
n= N1+γ
γ=E2×(N−1)t 2×s2
Afrondingen
naar buiten
Schatten van een percentage [dis] (goed/fout) :
1. Binominale benadering (F-verdeling ; T13.8), ofwel de exacte formule:
ponder=k
k+ (n−k+1 )×Fa /2v1 = 2n-2k+2
en v2=2k
pboven=k+1
k+1+ n−kFα /2
v1 = 2k+2 v2 = 2n-2k
2. Poisson benadering (T13.5): Indien: π<0.10 ; n≥20 ; F-tabel niet mog.Onder- of bovengrens uit de tabel afleiden. En dan:a1/2=μ=π∗na1 en a2 zijn afhankelijk van de waardes uit de tabel. Altijd de voorwaarden vermelden.
ToetsenToetsen 4 stappen:1. hypotheses opstellen2 bepaal de toetsingsgrootheid3 bepaal het kritieke gebied4. formulier de conclusie:(4 elementen: toetsingsgrootheid wel/niet in KG, H0 wel/niet verwerpen, verbale omschrijving, α of β risico relevant). Beschrijf toetsingsgrootheid(µ of π)
Toetsen op een gemiddelde [cont] : 1. Methode toetsen met KG:
variatie1: μ±t kritieks
√nlinks (= -)als < en
rechts (= +)als > moet bewijzen (H1)
tberekend=¿ −μ
s√n
¿
wanneer tberekend en tkritiek (T 13.4 ). tb >tk H0 verwerpen (visa versa). Variatie 2: Significantie berekenen (het α-risico bepalen van je steekproefgemiddelde).p-waarde/π ≤ α H0 verwerpen (en visa versa)
2. Methode Schattingsinterval Als μ uit H0 in het schattingsinterval lig, H0
niet verwerpen. (kan met gegevens hiervoor)
Onderscheidingsvermogen (1-β, de kans dat een onjuiste populatie wordt afgekeurd):β=P(x≠Z∨μ1)α en β risico zijn erg belangrijk (fout van de eerste soort of
tweede soort). Dit doe je door de nieuwe t-waarde te bepalen.
Om β-risico te handhaven, n bepalen:
n=(t α+t β )2
(μ1−μ0 )2∗s2
Toetsen op foutfractie [dis] (goed/fout) : 1 .Methode toetsen met KG ( T13.1) : H0: π ≤/≥ …Binominale verdeling(T13.1): uit de tabel de gegevens halen. Afhankelijk van steekproef grootte (let op: π wordt bovenaan opgezocht). De kg wordt in k (=aantal fouten) bepaald & KG: {k|k ≤/≥ …}
Poisson benadering(T13.2 of 5): F-tabel kan niet (binominale benadering) π<0.10. μ=π∗n De kg wordt in k (=aantal fouten) bepaald & KG: {k|k = …}
2. Methode Schattingsinterval Binominale verdeling(T13.1): uit de tabel de gegevens halen. Als πbelangrijk uit H0 in het schattingsinterval lig, H0 niet verwerpen.
Poisson benadering(T13. 5): F-tabel kan niet (binominale benadering) ; π<0.10.Pbelangrijk (berekend het percentage) ligt in het schattingsinterval, dan H0 niet verwerpen (en vise versa).
Grote van de steekproef indien π & k
bekend: n=a2
pbelangrijk of
log(∝)log (1−p0)
Chi-kwadraat toetsGaat om Benfords law. Alle cijfers beginnen het meest met 1, daarna 2, enz. hier moeten getallen reeksen aan voldoen, kan op worden getoetst.
H0: geeft de mogelijke π’s weer (of voldoet aan Benfords law)H1: minstens één van de π’s verschilt (voldoet niet aan Benfords law)Ei=n*πi
Ei Oi (Oi-Ei) (Oi-Ei)2/Ei
Som van de laatste kolom moet getoetst worden aan de kritieke waarde (uit tabel).
P (i )=log( i+1i )I= de mogelijke getallen. Geeft de kans op een bepaald getal weer.
Voorwaarden voor de Chi-kwadraat toets:- n ≥20- de waarnemingen zijn onafhankelijk- de kans dat een waarneming in een
bepaalde cel valt is constant- de verwachte cel frequentie in elke cel moet minstens gelijk zijn aan 5
KG = kritieke gebied kg = kritieke grens afr. Df < ; T-waarde og< & bg>
Regressie analyse:
Soorten regressie: tijdreeks, cross-sectie. Doelen: voorspellen, analyseren
Eisen voor toepassing regressie: de storingsterm is normaal verdeel (analyse 5); spreiding storingsterm is constant (homoscedasticiteit, 6); waarnemingen moeten onafhankelijk zijn (analyse 7).
Overige analyses (voor zuiverheid): samengevoegde groepen (1), tijdsvertraging (2), y- uitbaters (3..a), x-uitbaters (3.b), invloedrijke punten (4).
Regressie model: y1=β0+β1∗x+εDe benadering (de regressielijn):
y=b0+b1∗x
b1=∑ xy−n∗x∗y
(n−1 )∗s2b0= y−b1∗x
Kwaliteit van het verband (Piersons’s)
correlatiecoëfficiënt: r=β=R=b1∗sx
s y
r= cov (x , y )sx∗s y
r ligt tussen -1 en 1. R2 geeft
verklaring weer, ligt tussen 0 en 1. Hoe hoger hoe meer er verklaard, vanaf 0.8 sterk verband. Geeft ook de kwaliteit weer.
Spreiding van de punten: std error of the estimate = se = √se
2=√MSE
se2=n−1
n−2∗(1−r 2)∗sy
2
Variantieanalysetotale deviatie: ( y¿¿1− y)¿verklaarde deviatie( y1− y )onverklaarde deviatie ( y1− y1)
Sum of squares: Total SS=SSR+SSEVerklaard (SSR), onverklaard (SSE), berekend met bovenstaand in kwadraat.
Aantal vrijheidsgraden: TotalSS: df=n-1, SSR: df=k, SSE: df=n-k-1. K=1
determinatiecoëficient r2= SSRTotalSS
Toetsen van het regressiemodeltoeten op β1 (de richtingscoëfficiënt dus):tweezijdig: H0: β1=0 en H1: β1≠0eenzijdig, stijgend: H0: β1≤0 en H1: β1>0eenzijdig, dalend: H0: β1≥0 en H1: β1<0β1=richtingscoëfficiënten van de populatie (naar de casus toe schrijven).
Toetsen aan tberekend: dit kan op verschillende manieren:
t berekend=b1sb1
sb1=sy
sx∗√ 1−r2
n−k−1
Vervolgens tberekend vergelijken met tkritiek (uit tabel, let op: df=n-2). Vervolgens conclusie in 4 delen.
Toetsen op ρ (rho): tweezijdig: H0: ρ=0 en H1: ρ≠0eenzijdig, stijgend: H0: ρ≤0 en H1: ρ>0eenzijdig, dalend: H0: ρ≥0 en H1: ρ<0ρ= de populatiecorrelatiecoëfficiënt
t berkend=r √n−k−1
√1−r2
Ligt aan de gegevens die beschikbaar zijn welke je kan gebruiken. Let op, F-waarde is altijd (en alleen tweezijdig).
F-waarde: tweezijdig: H0: β1=0 en H1: β1≠0
β1=richtingscoëfficiënt van de populatie (naar de casus toe schrijven). OFtweezijdig: H0: ρ=0 en H1: ρ≠0ρ= de populatiecorrelatiecoëfficiënt
Fberekend=MSRMSE
=r 2/k
(1−r2)/(n−k−1)=
(n−2 )∗r2
1−r2
Voor Fkritiek:v1=k en v2=n-k-1. Eenzijdig kritiek gebied, de negatieve waarde zijn namelijk positief geworden (gekwadreerd). F waarde is t2.
Analyseselke analyse kent: verwijzing van betreffende afbeelding, conclusie, vermelding evt. remedie.1. Samengevoegde groepen: visueel waarnemen. Rm: splitsen of stoppen2. Tijdsvertraging (alleen tijdreeks): oorzaak en gevolg niet in dezelfde periode, ontdekken door visuele waarneming. Rm: yt in relatie brengen met xt-1
3a. Uitbaters in y-richting: kritieke grens bepalen: -2 en 2 bij n<100 en -3 en 3 bij n≥100. Rm: oorzaak eenmalig, verwijderen, geen oorzaak handhaven. Bij geen eenmalige oorzaak, dummy variabele. 3b. uitbaters in x-richting: Mahalanobis Distance (MD). Kritieke waarde bepalen: MD kr=MD+3∗sMD. Rm: zelfde 3a.4. Invloedrijke punten: Cook’s Distance (CD). Kritieke grens bepalen: CDkr=CD+3∗sCD. Rm: indien punt herkenbaar EN oorzaak is gegeven verwijderen, anders handhaven. 5. Normaliteit van de residuen: (essentieel) H0=residuen zijn normaal verdeeldH1= residuen zijn niet normaal verdeeldBij n<50, SW en n>50 KS. Toetsen aan de
significantie. Rm: tezamen met de volgende analyse.6. Homoscedastichiteit: (essentieel) H0=residuen zijn homoscedastischH1= residuen zijn heteroscedastischOok toetsen aan significantie, Rm: A. regressiemodel aanpassen, B WLS regressie. 7. Autocorrelatie (alleen bij tijdreeks): H0=geen autocorrelatieH1= wel autocorrelatieMet Durbin-Watson, tabel 13.9waardes tussen 0 en 4. Bij kleiner dan 2 is er positieve autocorrelatie en groter dan 2 negatieve autocorrelatie. Rm: autoregressie
Voorspellen:
y0±t α /2∗se∗√1+ 1n +(x0−x )2
(n−1 )∗sx2
Je
berekend de spreiding voor een bepaalde x waarden aan de hand van de opgestelde
regressiemodel
Voor de
uitbuiters:
Ja fout handmatig corricerenis er een fout
gevonden
Neewaarneming handhavenNee: is het een
bijzondere omstandigheid
Neewaarmeming verwijderenJaL zal dit vaker
kunnen optreden
dummyvariabelehandmatigcorricerenJa: waarneming
corrigeren