Hoofdstuk 3 - UGentmvdaele/files/statbio/studslidesh3.pdf · • Zijn de mediaan en het gemiddelde...

31
Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele [email protected] Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data – p. 1/31

Transcript of Hoofdstuk 3 - UGentmvdaele/files/statbio/studslidesh3.pdf · • Zijn de mediaan en het gemiddelde...

Hoofdstuk 3 :Numerieke beschrijving van data

Marnix Van [email protected]

Vakgroep Toegepaste Wiskunde en Informatica

Universiteit Gent

Numerieke beschrijving van data – p. 1/31

Beschrijvende maten• We beschrijven populaties en steekproeven d.m.v.

karakteristieken

• populaties worden gekenmerkt doorparameters

µ, σ, ρ, . . .

• steekproeven worden gekenmerkt doorstatistieken

x, s, r, . . .

• 3 soorten karakteristieken

• centraliteitsmatenbeschrijven de ligging (location)

• spreidingsmatenbeschrijven de spreiding (dispersion)

• vormmatenbeschrijven de vorm

Numerieke beschrijving van data – p. 2/31

Centraliteitsmaten• het rekenkundig gemiddelde

• de mediaan

• de modus

• en het meetkundig gemiddelde

Numerieke beschrijving van data – p. 3/31

Het rekenkundig gemiddeldeHet (rekenkundig) gemiddelde (mean), vanx1, x2, . . . ,xn is

x =x1 + x2 + · · · + xn

n=

1

n

n∑j=1

xj

Het gemiddelde van de waarden 1, 2, 3, 4 en 5 bedraagt

x =1 + 2 + 3 + 4 + 5

5= 3

Het gemiddelde van 1, 2, 3, 4 en 50 bedraagt

x =1 + 2 + 3 + 4 + 50

5= 12

x is gemakkelijk te berekenen maar is gevoelig voor uitschieters.

Middel tegen die gevoeligheid :trimmed meanNumerieke beschrijving van data – p. 4/31

Het rekenkundig gemiddelde

x =1

n

n∑j=1

xj f(x) =1

n

n∑j=1

f(xj)

a x + b=1

n

n∑j=1

(a xj + b)= a x + b

Bijzonder geval :x − x= 0

f(x) + g(x) =1

n

n∑j=1

(f(xj) + g(xj))

=1

n

n∑j=1

f(xj) +1

n

n∑j=1

g(xj)= f(x) + g(x)

Numerieke beschrijving van data – p. 5/31

Het rekenkundig gemiddeldeGegeven : frequentietabel

Gevraagd : bepaalx.

• discrete data : heeftxi absolute frequentieni, dan

x =1

n

n∑j=1

xj=1

n

∑i

ni xi

Voorbeeld : gemiddelde van1, 2, 1, 3 en2

x =1

5

5∑j=1

xj =1 + 2 + 1 + 3 + 2

5= 1.8

=1

5

3∑i=1

ni xi =2 × 1 + 2 × 2 + 1 × 3

5= 1.8

Numerieke beschrijving van data – p. 6/31

Het rekenkundig gemiddeldeGegeven : frequentietabel

Gevraagd : bepaalx.

• continue data : benader elkexi door het klassemiddentj

waarvoorti − ∆i

2≤ xj < ti +

∆i

2

x =1

n

n∑j=1

xj≈ 1

n

∑i

ni ti

x =1

117

117∑j=1

xj = 180.538

≈ 1

117

∑i

ni ti = 180.5385

Numerieke beschrijving van data – p. 7/31

MediaanDemediaan (median)vanx1, x2, . . ., xj, . . . , xn is de middelste

waarde als de metingen gerangschikt worden van klein naar

groot.

De mediaan van de waarden 1, 2, 3, 4 en 5 bedraagt3.

De mediaan van 1, 2, 3, 4 en 50 bedraagt3.

De mediaan is minder gevoelig dan het gemiddelde en kan ook

gebruikt worden bij ordinale data.

Numerieke beschrijving van data – p. 8/31

De modusDe modus (mode)van een verzameling meetwaarden wordt

gedefinieerd als de waarde waarvoor de frequentie het hoogst is.

In geval gewerkt wordt met klassen, spreekt men van demodale

klasse.

Gebruik :

• bij grote steekproeven de meest populaire waarde

aanduiden

• bij bimodale verdelingen

Numerieke beschrijving van data – p. 9/31

Het meetkundig gemiddeldeHetmeetkundig gemiddelde (geometric mean)van

x1, x2, . . . , xj, . . . , xn wordt gedefinieerd als

GM = n√

x1 x2 · · · xj · · · xn.

log GM=1

n

n∑i=1

log xi= log x

De logaritme van GM= het (rekenkundig) gemiddelde van de

logaritme van de waarnemingen.

Het GM van 10, 100 en 1000 bedraagt 100 vermits

GM= 3√

10 × 100 × 1000 = 100.

log10 GM=1

3

3∑i=1

log10 xi=1

3(1 + 2 + 3)= 2=⇒ GM = 102 = 100

Numerieke beschrijving van data – p. 10/31

Centraliteitsmaten : richtlijnenTwee factoren spelen een rol :

• de schaal (kwantitatief of niet-kwantitatief)

• symmetrisch- of scheef-zijn van deverdelingvan de

waarnemingen

Richtlijnen :

• x : bij kwantitatieve data en voor (min of meer)

symmetrische distributies

• mediaan : bij ordinale data en voor kwantitatieve data

waarvan de distributie scheef is

• modus : bij bimodale verdelingen

• meetkundig gemiddelde : bij observaties gemeten op een

logaritmische schaalNumerieke beschrijving van data – p. 11/31

Spreidingsmaten• minimum en maximum

• range

• standaarddeviatie en variantie

• variatiecoëfficiënt

• percentielen

Numerieke beschrijving van data – p. 12/31

De rangeDe rangevan een verzameling meetwaarden

x1, x2, . . . , xj, . . . , xn wordt gedefinieerd als het verschil

tussen de grootste en de kleinste meetwaarde.

Numerieke beschrijving van data – p. 13/31

Minimum en maximumKleinste en grootste meetwaarde

Dit geeft iets meer informatie dan de range.

Voorbeeldsteekproef :

• uit meetwaarden :min = 164 cm enmax = 196 cm, d.w.z.

range= 32 cm

• uit frequentietabel :min = 163.5 cm enmax = 196 cm,

d.w.z. range= 33 cm

Numerieke beschrijving van data – p. 14/31

ProbleemNoch de range, noch min-max kunnen verschillen detecteren

tussen volgende verdelingen :

� �0 1 2 3 4 5 6 0 1 2 3 4 5 6

� �ff

x x

(a) (b)

Numerieke beschrijving van data – p. 15/31

Spreidingsmaten

• afwijking : x − x =1

n

n∑i=1

(xi − x)

x − x =1

n

n∑i=1

xi − 1

n

n∑i=1

x = x − x = 0

• gemiddelde afwijking: |x − x| =1

n

n∑i=1

|xi − x|

• variantie: (x − x)2 =1

n

n∑i=1

(xi − x)2

Numerieke beschrijving van data – p. 16/31

SteekproefvariantieDevariantie (variance)s2

X van een verzameling vann waarden

x1, x2, . . ., xn van de grootheidX wordt gedefinieerd als het

gemiddelde van de kwadraten van de afwijkingen van de

waarden t.o.v. hun gemiddeldex :

s2X =

1

n

n∑i=1

(xi − x)2 .

De standaarddeviatie (standard deviation)of standaardafwijking

sX wordt gedefinieerd als de positieve vierkantswortel van de

variantie :

sX =√

s2X .

Numerieke beschrijving van data – p. 17/31

Verbeterde steekproefvariantieDe steekproefvariantie

s2X =

1

n

n∑i=1

(xi − x)2

is een benadering voor de populatievariantieσ2X .

Men kan aantonen dats2X systematisch een te kleine benadering

levert voorσ2X en dat een betere benadering gegeven wordt door

de zogenaamdeverbeterde steekproefvarianties′2X met

s′2X =1

n − 1

n∑i=1

(xi − x)2 =n

n − 1s2

X .

Numerieke beschrijving van data – p. 18/31

Steekproefvariantie

s2X =

1

n

n∑i=1

(xi − x)2

s2X = (x − x)2

= x2 − 2x x + x2

= x2 − 2x x + x2

= x2 − x2

s2X =

1

n

n∑i=1

x2i − x2

Numerieke beschrijving van data – p. 19/31

Steekproefvariantie van functies

s2f(X) = [f(x)]2 − f(x)

2

Toegepast opf(x) = a x + b

s2a X+b = (a x + b)2 − a x + b

2

= a2 x2 + 2 a b x + b2 − (a x + b)2

= a2 x2 + 2 a b x + b2 − (a2x2 + 2 a b x + b2)

= a2 (x2 − x2)

= a2 s2X

sa X+b = |a| sX

Numerieke beschrijving van data – p. 20/31

Ongelijkheid van ChebyshevVoor om het even welke positieve waardek geldt : minstens een

fractie1 − 1/k2 van alle meetwaarden ligt in het interval

]x − k s, x + k s[.

Bewijs : gegevenn, x ens; kiesk. Verdeel de meetwaarden in

D = {xj | |xj − x| < k s} enV = {xj | |xj − x| ≥ k s} ,

zodat#D + #V = n

n s2 =∑

xj∈D∪V

(xj − x)2≥∑xj∈V

(xj − x)2≥∑xj∈V

k2 s2= k2 s2 (#V )

⇐⇒ #V

n≤ 1

k2,

d.w.z. de fractie van den meetwaarden die totV behoren is

hoogstens1/k2 en dus ligt minstens1 − 1/k2 in D.

Numerieke beschrijving van data – p. 21/31

Ongelijkheid van ChebyshevVoor om het even welke positieve waardek geldt : minstens een

fractie1 − 1/k2 van alle meetwaarden ligt in het interval

]x − k s, x + k s[.

k ]x − k s, x + k, s[ 1 − 1k2

1 ]x − 1 s, x + 1, s[ 0 = 0%

2 ]x − 2 s, x + 2 s[ 34

= 75%

3 ]x − 3 s, x + 3 s[ 89≈ 90%

Deze regel geldt altijd, hoe het histogram er ook uitziet !

In de praktijk zijn de vermelde fracties meestal hoger !

Numerieke beschrijving van data – p. 22/31

Vuistregel voor belvormige verdelingen

• ongeveer 68 % ligt in]x − s, x + s[ =]3.128, 7.091[

• ongeveer 95 % ligt in]x − 2 s, x + 2 s[=]1.146, 9.073[

• bijna alle metingen liggen in

]x − 3 s, x + 3 s[=] − 0.836, 11.055[

ni

x0 1 2 3 4 5 6 7 8 9 10 11

4

8

12

16

20

.......................... ......................

........................

......................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

..

........

........

........

........

........

........

........

........

.....

........

........

........

........

........

........

........

........

.....

................................................................................................................... ............................................................................................. ......................2 sx

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

x = 5.109

s = 1.981

Numerieke beschrijving van data – p. 23/31

Dez-score van een meetwaardeAls de meetwaardenxj uitgedrukt zijn in bvb. meter, dan

• is x ook in meter

• is s2X in vierkante meter

• is sx in meter

Transformatie :zj =xj − x

sX

zj is dimensieloos met waarden in[−3, 3]

Deze transformatie fungeert als

een soort standaardisatie van de meetwaarden.

Numerieke beschrijving van data – p. 24/31

VariatiecoëfficiëntDe variatiecoëfficiënt (variation coefficient)van een verzameling

niet-negatieve meetwaardenx1, x2, . . . , xi, . . . , xn van de

grootheidX wordt gedefinieerd als

s

x.

Numerieke beschrijving van data – p. 25/31

Spreidingsmaten : richtlijnen• sX : alsx wordt gebruikt, d.i. bij min of meer symmetrische

kwantitatieve data.

• Percentielen en interquartielen :

• wanneer de mediaan wordt gebruikt : bij ordinale data of bij

scheef-verdeelde kwantitatieve data

• wanneerx wordt gebruikt, maar als het de bedoeling is

individuele waarnemingen te vergelijken met een

verzameling normen

• interquartiele range : voor de beschrijving van de centrale 50 %

van een distributie, onafhankelijk van de vorm

• range : bij kwantitatieve data als het de bedoeling is de nadruk te

leggen op extreme waarden

• variatiecoëfficiënt : indien kwantitatieve verdelingen op

verschillende schalen worden vergelekenNumerieke beschrijving van data – p. 26/31

Vormmaten• x − x = 0

• (x − x)2 : variantie (spreidingsmaat)

• (x − x)3 : scheefheid

• (x − x)4 : kurtosis

scheefheid en kurtosis zijn vormmaten

Numerieke beschrijving van data – p. 27/31

ScheefheidDe scheefheid (skewness)vanx1, x2, . . . , xj, . . . , xn wordt

gedefinieerd als

1

n

n∑j=1

(xj − x)3

s3

(a) (b)

(d)(c)

(a) negatief scheef (b) positief scheef

(c) en (d) symmetrischNumerieke beschrijving van data – p. 28/31

ScheefheidVerband met ligging van mediaan en gemiddelde

• Zijn de mediaan en het gemiddelde gelijk, dan is de

distributie min of meer symmetrisch.

• Is het gemiddelde groter dan de mediaan, dan is de

distributie positief scheef.

• Is het gemiddelde kleiner dan de mediaan, dan is de

distributie negatief scheef.

Numerieke beschrijving van data – p. 29/31

KurtosisDekurtosis (curtosis)vanx1, x2, . . . , xj, . . . , xn wordt

gedefinieerd als

1

n

n∑j=1

(xj − x)4

s4 .

(a)

(b) (c)(a) leptokurtisch (b) platykurtisch en(c) kurtosis≈ 3

Numerieke beschrijving van data – p. 30/31

Een voorbeeldDescriptives-----------------------------------------------------------------------| | GESLACHT | Statistic | Std. Err| ------- | -- | ----------------- | ----------- | --------- | -------| GEWICHT | m | Mean | 68,87 | ,79| | | ----------------- | ----------- | --------- | -------| | | 95% Confidence | Lower Bound | 67,30 || | | Interval for Mean | ----------- | --------- | -------| | | | Upper Bound | 70,44 || | | ----------------- | ----------- | --------- | -------| | | 5% Trimmed Mean | 68,72 || | | ----------------- | ----------- | --------- | -------| | | Median | 68,00 || | | ----------------- | ----------- | --------- | -------| | | Variance | 73,320 || | | ----------------- | ----------- | --------- | -------| | | Std. Deviation | 8,56 || | | ----------------- | ----------- | --------- | -------| | | Minimum | 52 || | | ----------------- | ----------- | --------- | -------| | | Maximum | 90 || | | ----------------- | ----------- | --------- | -------| | | Range | 38 || | | ----------------- | ----------- | --------- | -------| | | Interquartile Range | 12,50 || | | ----------------- | ----------- | --------- | -------| | | Ske ness | 296 | 224

Numerieke beschrijving van data – p. 31/31