Statistik für Ingenieure Vorlesung 8 - tu-freiberg.de · This famous (Fisher's or Anderson's) iris...

23
Statistik f¨ ur Ingenieure Vorlesung 8 Prof. Dr. Hans-J¨ org Starkloff TU Bergakademie Freiberg Institut f¨ ur Stochastik 12. Dezember 2016

Transcript of Statistik für Ingenieure Vorlesung 8 - tu-freiberg.de · This famous (Fisher's or Anderson's) iris...

Statistik fur IngenieureVorlesung 8

Prof. Dr. Hans-Jorg Starkloff

TU Bergakademie FreibergInstitut fur Stochastik

12. Dezember 2016

Bezeichnungen und Klassifikationen von Merkmalen

I Bezeichnungen:I Grundgesamtheit: Ω .

I Untersuchungseinheit: ω oder i .

I Merkmale: X , Y , Z oder auch X1 , X2 , X3 , . . . .

I Menge der Merkmalsauspragungen: S .

I Merkmalsauspragungen oder -werte: x = X (ω) oder xi = X (i) .

I Mathematisch betrachtet ist ein Merkmal eine Funktion X : Ω→ S ,die jeder Untersuchungseinheit die zugehorige Merkmalsauspragungzuordnet.

I Klassifikationen von Merkmalen: zum BeispielI qualitative Merkmale, Rangmerkmale und quantitative Merkmale;

I diskrete, stetige und spezielle Merkmale.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 2

Merkmalstypen

I Qualitatives Merkmal: es gibt weder eine naturliche Ordnung derAuspragungen, noch ist es sinnvoll, Abstande oder Verhaltnisse derAuspragungen zu betrachten; Auspragungen werden meist verbalbeschrieben.

I Rangmerkmal: es gibt eine naturliche Ordnung der Auspragungen,aber es ist nicht sinnvoll, Abstande oder Verhaltnisse zu betrachten;Auspragungen werden verbal oder durch ganze Zahlen beschrieben.

I Quantitatives Merkmal: Auspragungen sind Zahlen, es gibt einenaturliche Ordnung, Abstande oder Verhaltnisse sind interpretierbar.

I Diskretes Merkmal: Auspragungen sind isolierte Zustande, dieMenge der moglichen Auspragungen ist hochstens abzahlbar.

I Stetiges Merkmal: Auspragungen (Werte) sind Zahlen, sie liegendicht, zwischen je zwei Auspragungen ist stets eine weitere moglich.

I Beachte: Jede praktische Messung bei stetigen Merkmalen ist –durch die jeweilige Grenze der Messgenauigkeit bedingt – diskret.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 3

Merkmalstypen (Beispiele)Merkmal Auspragungen Art

Geschlecht m / w keine Ordnung qualitativ

Automarke Fiat, Toyota, ... keine Ordnung qualitativ

Prufungsnote 1, 2, 3, 4, 5 Ordnung, RangmerkmalAbst. nicht interpr.

Beliebtheit von sehr, maßig, nicht Ordnung, RangmerkmalPolitikern Abst. nicht interpr.

Anzahl Kinder 0, 1, 2, 3, ... Ordnung, quantitativ,in einer Familie Abst. interpr., diskret

keine Auspr. zw.2 anderen mogl.

Regenmenge 20mm, 50mm, ... Ordnung, quantitativ,an einem Tag Abst. interpr., stetig

Verhaltn. interpr.,zwischen 2 Auspr.immer weitere mogl.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 4

Skalenniveaus

I Je nach Art des Merkmals werden die Merkmalsauspragungenanhand verschiedener Skalen gemessen:

I Nominalskala (lat. nomen = Name);

I Ordinalskala (lat. ordinare = ordnen, auch Rangskala);

I Intervallskala;

I Verhaltnisskala (auch Ratioskala, Rationalskala, Proportionalskala);

I Absolutskala.

I Intervall-, Verhaltnis- und Absolutskala werden auch in demOberbegriff metrische Skala (oder Kardinalskala; griech.metron = Maß) zusammengefasst.

I Auch feinere oder andere Unterteilungen und spezielle Skalenwerden genutzt.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 5

Nominalskala

I Die Merkmalsauspragungen entsprechen begrifflichen Kategorien.

I Es gibt keine naturliche Ordnungsrelation.I Sind nur zwei Auspragungen vorhanden, spricht man auch von

dichotomen Merkmalen, z.B.I Geschlecht (

”mannlich“,

”weiblich“);

I Zustimmung (”Ja“,

”Nein“).

I Gibt es eine vor der Datenerhebung feststehende Einteilung derGrundgesamtheit in endlich viele disjunkte Klassen und wird jedeUntersuchungseinheit eindeutig in eine der Klassen eingeordnet,spricht man auch von einer kategoriellen Skala. Die Auspragungenheißen dann auch Kategorien oder Stufen des Merkmals.

I Beispiele sindI Familienstand (

”ledig“,

”verheiratet“,

”geschieden“,

”verwitwet“);

I Status (”Eigentumer“,

”Hauptmieter“,

”Untermieter“);

I Status (”Azubi“,

”Geselle“,

”Meister“);

I Behandlung (”Placebo“,

”altes Medikament“,

”neues Medikament“).

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 6

Ordinalskala

I Zwischen den Merkmalsauspragungen besteht eine naturlicheReihenfolge (Ordnungsrelation, Anordnung).

I Abstande zwischen zwei Auspragungen (oder Quotienten) habenkeine inhaltliche Bedeutung.

I Beispiele sindI Hochster Schulabschluss (

”Keiner“,

”Hauptschule“,

”Mittlere Reife“,

”Hochschulreife“);

I Status (”Eigentumer“,

”Hauptmieter“,

”Untermieter“);

I Status (”Azubi“,

”Geselle“,

”Meister“);

I Bewertung (”gut“,

”mittel“,

”schlecht“).

I Eine Ordinalskala mit ganzzahligen Ordungsziffern (Rangen,Rangziffern), die mit 1 beginnend in ununterbrochener Reihenfolgehintereinander stehen, heißt auch Rangskala, z.B. Rangplatze in derBundesliga.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 7

Intervallskala

I Merkmalsauspragungen (Merkmalswerte) sind reelle Zahlen.

I Neben der Ordnungsrelation zwischen den Merkmalsauspragungenlassen sich auch deren Abstande interpretieren. Es existiert allerdingsein willkurlich gesetzter Nullpunkt.

I Beispiel: Temperatur in C .

I Quotienten durfen nicht gebildet werden, so ist z.B. die Aussage

”20C ist doppelt so warm wie 10C“ sinnlos.

I Eine Intervallskala wird auch reelle Skala genannt.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 8

Verhaltnisskala

I Bei einer Verhaltnisskala (auch ratio, positiv reell, relativen Skala)konnen nur positive Zahlen beobachtet werden.

I Zusatzlich zu den Eigenschaften der Intervallskala gibt es einennaturlichen Nullpunkt.

I Multiplikation und Division sind inhaltlich sinnvolle Operationen, derQuotient von zwei Werten ist inhaltlich sinnvoll (4 ist doppelt sogroß wie 2).

I Beispiele: Gewichte, Langen.

I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen(und eventuell versuchen), durch Logarithmieren der Daten zu einerreellen Skala zu gelangen. Oft kann man dann zugrundeliegendeGesetzmaßigkeiten viel besser erkennen.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 9

Absolutskala

I Zusatzlich zu den Forderungen der Verhaltnisskala ist neben demnaturlichen Nullpunkt hier auch eine naturliche Einheit zwingendvorgeschrieben.

I Dies ist zum Beispiel bei Merkmalen der Fall, wenn dieMerkmalsauspragungen Anzahlen sind.

I Beispiel Anzahl von Kindern in einem Haushalt.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 10

Bemerkung

I Auch andere bzw. weitere Einteilungen und spezielle Skalen werdengenutzt, z.B. die Anteilskala.

I Bei einer Variable in der Anteilskala (auch Wahrscheinlichkeitsskala)konnen nur Werte zwischen 0 und 1 beobachtet werden. Die Wertesind als Anteile interpretierbar.

I Durch die naturliche Beschrankung auf das Intervall [0, 1] konnendie Werte nicht beliebig addiert werden und der

”Rest“ bis zur 1

spielt immer eine Rolle.

I Sind nur kleine Anteile von Interesse, kann oft mit einer Ratio-Skalagearbeitet werden, sind auch großere Anteile wichtig, sollte man mitder Anteilskala rechnen.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 11

Das Problem der Reprasentativitat

Die Reprasentativitat spielt fur statistische Auswertungen und Aussageneine sehr große Rolle. Dabei konnen unter anderem zwei Probleme beiTeilerhebungen von Bedeutung sein.

I Das Auswahlverfahren der Individuen aus der Grundgesamtheit (dasZiehen der Stichprobe). Dieses sollte so organisiert sein, dass

I jedes Individuum die gleiche Chance hat, ausgewahlt zu werden und

I dass die Individuen unabhangig voneinander ausgewahlt werden.

Zu beachten ist, dass zu jedem Individuum auch mehrere Merkmalebeobachtet werden konnen.

I Die Erhebung einer Stichprobe aus Zufallsexperimenten. Dabei solltegewahrleistet sein, dass

I die Versuche unter gleichbleibenden Versuchsbedingungendurchgefuhrt werden und dass

I die Zufallsexperimente unabhangig voneinander durchgefuhrt werden.

Auch in diesem Fall konnen mehrere Merkmale von Interesse sein.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 12

Verbundene Stichproben

I Liegen zwei oder mehr Stichproben vor, deren Werte einanderpaarweise zugeordnet sind, spricht man von einer gepaartenStichprobe bzw. von verbundenen Stichproben.

I Diese entstehen zum Beispiel dann, wenn man zwei oder mehrMerkmale an ein- und demselben statistischen Objekt beobachtet.

I Beispiele:I Messwerte fur die Wirkungen jeweils zweier Medikamente fur ein- und

dieselben Patienten;I Anzahl von Bestellungen einer Kundengruppe vor (1. Stichprobe) und

nach (2. Stichprobe) einer Werbeaktion.

I Verbundene (mathematische) Stichproben werden durchunabhangige Zufallsvektoren (X1,Y1) , . . . , (Xn,Yn) modelliert.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 13

Erste Analyseschritte fur einen neuen Datensatz

Eine Datenauswertung beginnt mit folgenden Analyseschritten:

I Wie liegen die Daten vor ?Datenmatrix, Datentafel, unvorbereitet, . . . .

I Welche Variablen gibt es und was bedeuten sie ?Dazugehorige Beschreibung beachten .

I Welche Skala haben die einzelnen Variablen ?diskret: nominal, kategoriell, ordinal, Intervall, Anzahl;stetig: reell, ratio, Anteil, (Anzahlverstetigung, z.B. Preise);speziell: irgendwie anders .

I Ein-, Zwei-, oder Mehrstichprobensituation, verbundene(gepaarte) oder gepoolte Großen in der Stichprobe ?Eine Grundgesamtheit, zwei oder mehrere bzw. einZufallsexperiment, zwei oder mehrere ?

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 14

Fortsetzung: erste Analyseschritte

I Was sind die Grundgesamtheiten ?Welche wunschen wir uns ?Fur welche sind die Daten wohl reprasentativ ?

I Sind die Daten fur die Grundgesamtheit reprasentativ ?Wie sind die Daten zustandegekommen, gab es eine unabhangigeund gleichwahrscheinliche Auswahl der statistischen Individuenund/oder unabhangige Zufallsexperimente unter gleichbleibendenBedingungen, so dass die Variablen als unabhangig und identischverteilt angesehen werden konnen ?

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 15

Nutzung von Statistik-Computerprogrammen

I Statistische Untersuchungen werden heutzutage im Allgemeinenunter Verwendung von Statistik-Computerprogrammen durchgefuhrt.

I Im Rahmen dieser Vorlesung werden entsprechende Vorgehensweisenmit Hilfe des Programmpakets

”R“ illustriert.

I Es konnen naturlich nicht alle Details im Zusammenhang mit diesemProgrammpaket in den Ubungen geubt werden, deshalb sind hierselbststandige Bemuhungen wunschenswert.

I Die Interpretation der Ausgabeinformationen derComputerprogramme und die prinzipielle Vorgehensweise (dieSchritte, die nacheinander und in Abhangigkeit von bereits erzieltenErgebnissen durchzufuhren sind) sind jedoch Bestandteil derVorlesung und auch der Ubung und gehoren zum Prufungsstoff.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 16

Das Programmpaket”R“

I”R“ ist ein freies Statistik-Softwarepaket.

I Es kann unter http://www.cran.r-project.org/ kostenlosheruntergeladen werden.

I R ist ein kommandozeilenorientiertes Programm. Man gibt Befehleein, die sofort ausgefuhrt werden und oft Ausgabeinformationenerzeugen.

I Mit Hilfe von Skripten konnen aufeinanderfolgende Befehlskettenzur Verarbeitungen vorbereitet und dann jedes Mal bei Bedarfausgefuhrt werden.

I Durch die Mitarbeit vieler Personen wachst der Umfang derProgramme und damit der Umfang der mit R bearbeitbarenProbleme standig.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 17

Beispieldatensatz”Iris“

I Der Datensatz enthalt Werte von jeweils 50 Blumen von 3Blumenarten

”Iris setosa“ (Borsten-Schwertlilie),

”Iris versicolor“

(Schwertlilie) und”Iris virginica“ (Virginische oder Blaue

Sumpfschwertlilie).

I Zu jeder Blume wurden jeweils die folgenden Informationen erhoben:I die Lange des Kelchblattes in cm (

”Sepal.Length“);

I die Breite des Kelchblattes in cm (”Sepal.Width“);

I die Lange des Blutenblattes in cm (”Petal.Length“);

I die Breite des Blutenblattes in cm (”Petal.Width“);

I die Blumenart (”Species“).

I Die Daten konnen in R wie folgt geladen werden:> data(iris).

I Informationen zum Datensatz erhalt man in R durch> help(iris).

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 18

R Dokumentation zum Iris-Beispieldatensatz

iris datasets R Documentation

Edgar Anderson's Iris Data

Description

This famous (Fisher's or Anderson's) iris data set gives the measurements in centimeters of the variablessepal length and width and petal length and width, respectively, for 50 flowers from each of 3 species ofiris. The species are Iris setosa, versicolor, and virginica.

Usage

irisiris3

Format

iris is a data frame with 150 cases (rows) and 5 variables (columns) named Sepal.Length,Sepal.Width, Petal.Length, Petal.Width, and Species.

iris3 gives the same data arranged as a 3-dimensional array of size 50 by 4 by 3, as represented byS-PLUS. The first dimension gives the case number within the species subsample, the second themeasurements with names Sepal L., Sepal W., Petal L., and Petal W., and the third the species.

Source

Fisher, R. A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7,Part II, 179–188.

The data were collected by Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of theAmerican Iris Society, 59, 2–5.

References

Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth &Brooks/Cole. (has iris3 as iris.)

See Also

matplot some examples of which use iris.

Examples

dni3 <- dimnames(iris3)ii <- data.frame(matrix(aperm(iris3, c(1,3,2)), ncol=4, dimnames = list(NULL, sub(" L.",".Length", sub(" W.",".Width", dni3[[2]])))), Species = gl(3, 50, labels=sub("S", "s", sub("V", "v", dni3[[3]]))))all.equal(ii, iris) # TRUE

[Package datasets version 2.15.2 Index]

R: Edgar Anderson's Iris Data http://127.0.0.1:28690/library/datasets/html/iris.html

1 von 1 03.12.2012 20:47.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 19

Datenmatrix als Darstellungsform fur statistische Daten

I Eine Darstellung der von den Untersuchungseinheiten erhobenengleichartigen Daten in einer Tabelle mit Zeilen und Spalten ist eineDatenmatrix . Von jeder Untersuchungseinheit werden die gleichenMerkmale erhoben.

I Die Informationen zu einer Untersuchungseinheit werden in einerZeile dargestellt. Die zu den einzelnen Zeilen gehorenden Individuenbezeichnet man auch als Falle und die zugehorigen Daten(individuelle) Datensatze.

I Die zu einem Merkmal gehorende Information wird jeweils in einerSpalte dargestellt. Die Spalten bezeichnet man auch als Variable unddie Spaltenuberschrift als den Namen der Variable.

I Am Schnittpunkt der i−ten Zeile mit der j−ten Spalte ist also derBeobachtungswert xij fur die j−te Variable beim i−ten Individuumeingetragen. Zur modellbasierten Analyse werden die Werte xij alsRealisierungen von Zufallsgroßen Xij angesehen.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 20

Datenliste

I Gibt es nur Beobachtungen zu einem Merkmal, konnen dieBeobachtungswerte in einer Datenliste angegeben werden.

I Beispiel: R-Datensatz”morley“ (Lichtgeschwindigkeitsmessungen)

> data(morley)

> help(morley)

> morley

> lightspeeds=morley$Speed + 299000

> lightspeeds[1:20]

[1] 299850 299740 299900 300070 299930 299850 299950

[8] 299980 299980 299880 300000 299980 299930 299650

[15] 299760 299810 300000 300000 299960 299960

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 21

Datentafel

I Die Datentafel ist eine alternative Darstellung der Daten zurDatenmatrix, wenn nur diskrete Merkmale auftreten und diestatistische Information durch Anzahlen von Untersuchungseinheitenangegeben werden kann.

I Eine Datentafel enthalt die Anzahl der Untersuchungseinheiten mitder gegebenen Faktorkombination in der jeweiligen Zelle.

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 22

Beispiel Datentafel fur Datensatz”Titanic“

Ein Beispieldatensatz in R ist der Datensatz”Titanic“:

> data(Titanic)

> help(Titanic)

> Titanic

> ftable(Titanic,col.vars=c("Class","Survived"))

Class 1st 2nd 3rd Crew

Survived No Yes No Yes No Yes No Yes

Sex Age

Male Child 0 5 0 11 35 13 0 0

Adult 118 57 154 14 387 75 670 192

Female Child 0 1 0 13 17 14 0 0

Adult 4 140 13 80 89 76 3 20

Prof. Dr. Hans-Jorg Starkloff Statistik fur Ingenieure Vorlesung 8 Geandert: 12. Dezember 2016 23