Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine...

32
Bagging, Random Forest und Boosting Seminar Maschinelles Lernen Simone Horstmann 24. Mai 2019 Bagging, Random Forest und Boosting

Transcript of Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine...

Page 1: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Bagging Random Forest und BoostingSeminar Maschinelles Lernen

Simone Horstmann

24 Mai 2019

Bagging Random Forest und Boosting

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting

Voraussetzungen

o Mittlerer quadratischer Fehler (MSE)

MSE (x0) = Bias2(y0) + Varτ (y0) + σ2

wobei σ2 die Varianz des Fehlerterms darstellto Die Varianz ist ein Maszlig dafuumlr wie weit die Vorhersagewerte

von ihrem Erwartungswert abweichen

Varτ (y0) = Eτ [y0 minus Eτ (y0)]2

o Der Bias ist ein Maszlig fuumlr die Abweichung der Vorhersagewertey0 von den wahren Werten der Funktion f(x)

Bias2(y0) = [f (x0) minus Eτ (y0)]2

Bagging Random Forest und Boosting Voraussetzungen

o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden

o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting

o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting

Bagging Random Forest und Boosting Voraussetzungen

rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren

o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias

o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt

Bagging Random Forest und Boosting Voraussetzungen

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Bagging

Bagging auch genannt Bootstrap aggregation

o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte

Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche

Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die

Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 2: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting

Voraussetzungen

o Mittlerer quadratischer Fehler (MSE)

MSE (x0) = Bias2(y0) + Varτ (y0) + σ2

wobei σ2 die Varianz des Fehlerterms darstellto Die Varianz ist ein Maszlig dafuumlr wie weit die Vorhersagewerte

von ihrem Erwartungswert abweichen

Varτ (y0) = Eτ [y0 minus Eτ (y0)]2

o Der Bias ist ein Maszlig fuumlr die Abweichung der Vorhersagewertey0 von den wahren Werten der Funktion f(x)

Bias2(y0) = [f (x0) minus Eτ (y0)]2

Bagging Random Forest und Boosting Voraussetzungen

o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden

o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting

o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting

Bagging Random Forest und Boosting Voraussetzungen

rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren

o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias

o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt

Bagging Random Forest und Boosting Voraussetzungen

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Bagging

Bagging auch genannt Bootstrap aggregation

o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte

Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche

Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die

Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 3: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Voraussetzungen

o Mittlerer quadratischer Fehler (MSE)

MSE (x0) = Bias2(y0) + Varτ (y0) + σ2

wobei σ2 die Varianz des Fehlerterms darstellto Die Varianz ist ein Maszlig dafuumlr wie weit die Vorhersagewerte

von ihrem Erwartungswert abweichen

Varτ (y0) = Eτ [y0 minus Eτ (y0)]2

o Der Bias ist ein Maszlig fuumlr die Abweichung der Vorhersagewertey0 von den wahren Werten der Funktion f(x)

Bias2(y0) = [f (x0) minus Eτ (y0)]2

Bagging Random Forest und Boosting Voraussetzungen

o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden

o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting

o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting

Bagging Random Forest und Boosting Voraussetzungen

rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren

o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias

o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt

Bagging Random Forest und Boosting Voraussetzungen

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Bagging

Bagging auch genannt Bootstrap aggregation

o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte

Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche

Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die

Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 4: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

o Kapazitaumlt Anzahl der Aspekte der Daten welche im Modellberuumlcksichtigt werden

o Mit steigender Kapazitaumlt passt sich das Modell an dieTrainingsdaten an rArr Bias sinkt rArr Overfitting

o Modell mit geringerer Kapazitaumlt kann wahren Zusammenhangnicht mehr erfassen rArr Varianz sinkt rArr Underfitting

Bagging Random Forest und Boosting Voraussetzungen

rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren

o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias

o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt

Bagging Random Forest und Boosting Voraussetzungen

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Bagging

Bagging auch genannt Bootstrap aggregation

o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte

Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche

Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die

Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 5: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

rArr rsquoModel averagingrsquo-Methoden sollen Generalisierungsfehlerminimieren

o Bagging und Random Forest Methoden senken die Varianz beigleichbleibendem Bias

o Beim Boosting wird ein Modell konstruiert das durch houmlhereKapazitaumlt den Bias senkt

Bagging Random Forest und Boosting Voraussetzungen

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Bagging

Bagging auch genannt Bootstrap aggregation

o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte

Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche

Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die

Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 6: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Bagging

Bagging auch genannt Bootstrap aggregation

o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte

Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche

Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die

Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 7: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Bagging auch genannt Bootstrap aggregation

o erweitert ein Modell zu mehreren Modelleno dafuumlr werden aus dem Trainingsdatensatz sogenannte

Bootstrap samples erzeugto auf diese wird dasselbe Modell dh der gleiche

Trainingsalgorithmus und die gleiche Zielfunktion angewandtrArr Vorhersage des urspruumlnglichen Modells f (x) wird durch die

Vorhersage des Kollektivs der rsquobaggedrsquo Modelle fbag(x) ersetzt

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 8: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Bagging - Funktionsweise

1 Aus dem Trainingsdatensatz Zwerden B Bootstrap samples Z lowastb

mit b=12B generiert2 Fuumlr jedes Bootstrap sample wird

ein Vorhersagemodell generiertwobei immer derselbeTrainingsalgorithmus verwendetwird

Bagging Random Forest und Boosting Bagging

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 9: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Bagging - Funktionsweise

Die Vorhersage jedes Bootstrap samplesf lowastb(x) flieszligt mit gleichem Gewicht indie Gesamtvorhersage ein

fbag(x) = 1B

B983131

b=1f lowastb(x)

Bei Klassifikationsbaumlumen ergibt sichdie Vorhersage durch Mehrheitsvotumaller B Baumlume

Gbag(x) = argmaxk fbag(x)

Bagging Random Forest und Boosting Bagging

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 10: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Bewertung der Bagging-Methode

Durch Bagging laumlsst sich die VarianzreduzierenBei gleichbleibendem Biaswert derBaumlume (gleicher Trainingsalgorithmus)reduziert sich somit der quadratischeFehler

Bagging Random Forest und Boosting Bagging

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 11: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Besonders bei sogenannten instabilen Methoden kannBagging zu einer Verbesserung fuumlhrenEin Entscheidungsbaum ist aufgrund seiner Hierachie instabil dheine kleine Veraumlnderung der Daten kann schon eineFehlklassifizierung bewirkenrarr Durch Anwendung der Baggingmethode erhaumllt man B Baumlume

die alle auf verschiedenen Datensaumltzten Z lowastb basierenrarr Baumlume bestehen aus unterschiedlichen Variablen und besitzen

verschieden viele Knotenpunkterarr Die Baumlume werden nicht alle denselben Fehler wie der

urspruumlngliche Baum erzeugenrArr Reduzierung von Varianz amp Testfehler

Bagging Random Forest und Boosting Bagging

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 12: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Random Forest

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 13: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Die Random Forest Methodeo ist eine Modifikation der Bagging-Methodeo Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

samples uumlberfuumlhrto Entscheidungsbaummodell wird zu B Baumlumen basierend auf

den B Bootstrap samples erweitertrArr Daruumlber hinaus wird die Generierung der Baumlume so

modifiziert dass diese moumlglichst wenig korrelieren

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 14: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Random Forest - Funktionsweise1 Von b=1 bis B

11 Erstelle Bootstrap sample Zlowast der GroumlszligeN

12 Erstelle Entscheidungsbaum anhand desBootstrap sample durch rekusivesAnwenden der folgenden Schritte aufjeden Endknoten bis dieMinimumknotengroumlszlige nmin erreicht ist

121 Waumlhle aus den p Variablen m zufaumllligaus

122 Waumlhle aus den m Variablen die bestefuumlr den Knotenpunkt aus

123 Teile den Knoten in zweiKinderknoten auf

2 Gib die Gesamtheit aller B Baumlume zuruumlckTbB

1

Bagging Random Forest und Boosting Random Forest

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 15: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Random Forest - Funktionsweise

Bei Regression wird uumlber die Vorhersagewertejedes Baumes gemittelt

f Brf (x) = 1

B

B983131

b=1Tb(x)

Bei Klassifizierung erhaumllt man die Klasse durchMehrheitsvotum

CBrf (x) = majorityvoteCb(x)B

1

Bagging Random Forest und Boosting Random Forest

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 16: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Die Varianz kann durch den sogenannten De-Korrelationseffektgesenkt werdenDie Varianz fuumlr genau einen Targetpunkt x ist gegeben durch

Var frf (x) = ρ(x)σ2

wobeiρ(x) = corr [T (x Θ1(Z ))T (x Θ2(Z ))]

die Korrelation zweier zufaumlllig gewaumlhlter Baumlume im Random Forestund

σ2(x) = VarT (x Θ(Z ))

die Stichprobenvarianz eines zufaumlllig gewachsenen Baumes ist

Bagging Random Forest und Boosting Random Forest

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 17: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Anzahl der Variablen m aus denenan jedem Knotenpunkt ausgewaumlhltwerden kann sinkt wobei die mVariablen zufaumlllig gewaumlhlt sindrArr Wahrscheinlichkeit dass

identische Baumlume erstelltwerden sinkt

rArr Korrelation der Baumlume sinkt

Bagging Random Forest und Boosting Random Forest

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 18: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

m wird kleiner und reduziert dieKorrelationrArr reduziert die VarianzrArr bei (fast) gleichbleibendem

BiaswertrArr reduziert MSE bzw den

Test Fehler

Bagging Random Forest und Boosting Random Forest

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 19: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Out-of-bag sampleIst eine Beobachtung zi = (xi yi) nicht im Bootstrap sampleenthalten kann sie genutzt werden um genau die Baumlume zutesten welche aus dem bootstrap sample generiert wurden

Bagging Random Forest und Boosting Random Forest

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 20: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Boosting

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 21: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Die Boosting Methode

o konstruiert ein Modell mit houmlherer Kapazitaumlt undo senkt dadurch den Biaso Die Grundidee von Boosting besteht darin aus vielen

sogenannten rsquoweak learnersrsquo ein Kollektiv zu erstellen das dieModellvorhersage verbessert

o Boosting basiert dabei vorwiegend auf Entscheidungsbaumlumen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 22: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Boosting - Funktionsweise anhand der AdaBoost Methode

Die AdaBoost Methode erstellt iterativ eine Folge vonEntscheidungsbaumlumen mit je einem Knotenpunkt amp einerEntscheidungsvariable

Wie stark die Entscheidung des Baumesin die Gesamtentscheidung einflieszligenwird wird durch sein Stimmgewichtαm beschriebenrarr αm berechnet sich durch die

Fehlerquote der Variable errmund die Stichproben-Gewichte wi

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 23: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Stichproben-Gewicht wi ist zuBeginn 1

N und wird in jeder Iterationerneuertrarr wi berechnet sich durch die

Stimmgewichtung des vorherigenBaumes αmminus1

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 24: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Boosting - Funktionsweise anhand der AdaBoost Methode

Das Gewicht von falsch kategorisiertenStichproben wird erhoumlht indem es mitdem Faktor eαm skaliert wird

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 25: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Boosting - Funktionsweise anhand der AdaBoost Methode

Der naumlchste Klassifikator wird dannanhand der neuen StichprobengewichteausgewaumlhltrArr Hatte ein Klassifikator also eine

hohe Fehlerquote werden diefalsch klassifizierten Inputdaten dieWahl des naumlchsten Klassifikatorsstaumlrker beeinflussen

Bagging Random Forest und Boosting Boosting

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 26: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Boosting - Funktionsweise anhand der AdaBoost Methode

rArr Die Baumlume in einem von AdaBoostgenerierten Modell sind also abhaumlngigvoneinander und haben unterschiedlicheGewichtung bei der Modellvorhersage G(x) = σ(

983123αmGm(x))

Bagging Random Forest und Boosting Boosting

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 27: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Boosting Allgemeino Iterativ werden einzelne Entscheidungsbaumlume erstellt sodass

das Modell am Ende aus der Summe aller Baumlume besteht

fM(x) =M983131

m=1T (x θm)

rarr um einen neuen Baum θm zu definieren muss immer wiederfolgende Gleichung geloumlst werden

θm = argminθm

N983131

i=1L(yi fmminus1(xi) + T (xi θm))

rarr da hierbei auch fmminus1(xi) der Vorhersagewert des vorigenBaumes in Betracht gezogen wird sind die Baumlume abhaumlngig

o die Entscheidungen der rsquoweak learnerrsquo flieszligen nichtgleichwertig sondern gewichtet in die Gesamtentscheidung ein

Bagging Random Forest und Boosting Boosting

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 28: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Die Idee von Gradient Boosting

Eine moumlgliche Loumlsung der Gleichung ist ein Regressionsbaumder die Residuen yi minus fmminus1(xi) bestmoumlglich vorhersagt

rArr jeder Baum wird dann von den Fehlvorhersagen desvorhergehenden Baumes beeinflusst

Bagging Random Forest und Boosting Boosting

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 29: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Uumlbersicht

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 30: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Uumlbersicht der 3 Methoden

Alle drei Methoden zielen darauf den Generalisierungs- bzwTestfehler zu senken

o Bagging und Random Forest reduzieren die Varianz desModells

o Boosting reduziert den Biaswert des ModellsDie drei Methoden basieren auf der Grundidee vonEntscheidungsbaumlumen

o Bagging kann fuumlr verschiedene Trainingsalgorithmenangewandt werden

o Random Forest und Boosting erweitern immer einEntscheidungsbaummodell

Bagging Random Forest und Boosting Uumlbersicht

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 31: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Inhaltsverzeichnis

Voraussetzungen

Bagging

Random Forest

Boosting

Uumlbersicht

Literatur

Bagging Random Forest und Boosting Literatur

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur

Page 32: Bagging, Random Forest und Boosting - mi.uni-koeln.de · Die Random Forest Methode o ist eine Modifikation der Bagging-Methode o Trainingsdatensatz wird ebenfalls in sogenannte Bootstrap

Literatur

T Hastie R Tibshirani and JH Friedman The Elements ofStatistical Learning Data Mining Inference and PredictionSpringer Verlag 2009

Ian Goodfellow Yoshua Bengio and Aaron Courville DeepLearning MIT Press 2016 httpwwwdeeplearningbookorg

Bagging Random Forest und Boosting Literatur