Der Entscheidungsbaum

Bevor wir den Wald verstehen, brauchen wir den Baum. Ein Entscheidungsbaum klassifiziert wie ein Arzt beim Durchfragen: eine Ja/Nein-Frage nach der anderen, bis die Diagnose feststeht — und er lernt selbst, welche Fragen er stellen soll.

Kernidee: Finde die Frage (Feature + Schwellwert), die die Daten am besten in reinere Gruppen aufteilt. Wiederhole das in jeder Gruppe. Stoppe, wenn die Gruppen rein genug sind.

So sieht das für PlantVillage aus

Jeder innere Knoten testet ein Feature gegen einen Schwellwert, jedes Blatt ist eine Klasse. Ein neues Bild läuft von der Wurzel nach unten — Vorhersage in Mikrosekunden, und der Pfad ist die Erklärung gleich mit.

Woher kommen die Fragen? Gini-Impurity

Beim Training probiert der Baum an jedem Knoten alle Features und viele Schwellwerte durch und bewertet jeden Kandidaten danach, wie rein die beiden entstehenden Gruppen wären:

Gini(Gruppe) = 1 − Σₖ pₖ² (pₖ = Anteil der Klasse k in der Gruppe)

Gruppe besteht nur aus einer Klasse → Gini = 0 (perfekt rein).
Zwei Klassen je 50 % → Gini = 0,5 (maximal unrein bei 2 Klassen).
Gewählt wird der Split mit der größten Impurity-Reduktion (gewichtetes Mittel der Kind-Gruppen vs. Eltern-Knoten).
In jeder Kind-Gruppe: dasselbe Spiel, rekursiv.

Warum eigentlich? — Warum braucht der Baum keine skalierten Features?

Ein Split fragt nur: Ist Feature j größer als t? Diese Frage ist invariant gegen jede monotone Transformation — ob das Feature in [0, 1] oder [0, 10.000] lebt, ändert nur den gelernten Schwellwert, nicht die Aufteilung. Der ganze StandardScaler-Komplex aus LogReg und SVM entfällt ersatzlos. Das macht Bäume (und Wälder) zum dankbarsten Verfahren für heterogene, schlecht normalisierte Features — einer der Gründe ihrer Beliebtheit auf Tabellendaten.

Häufiger Denkfehler — Den Baum unbegrenzt wachsen lassen

Ohne Stopp-Kriterium splittet der Baum weiter, bis jedes Blatt nur noch ein einziges Trainingsbild enthält — 100 % Trainings-Accuracy, auswendig gelernt. Schlimmer noch: Bäume sind instabil. Ein paar andere Trainingsbilder, und gleich der Wurzel-Split kippt — und mit ihm der gesamte Baum darunter. Hohe Varianz ist die Krankheit des Entscheidungsbaums. Man kann sie mit max_depth und min_samples_leaf lindern — oder sie zur Stärke umdrehen. Genau das tut der Random Forest in der nächsten Lektion.

Tiefer rein — Gini vs. Entropy — und warum es fast egal ist

Die Alternative zur Gini-Impurity ist die Entropie (−Σ pₖ log pₖ, der „Information Gain“ aus der Informationstheorie). Beide Kurven sind fast deckungsgleich: maximal bei Gleichverteilung, null bei Reinheit. In der Praxis unterscheiden sich die resultierenden Bäume selten messbar; Gini ist der sklearn-Default, weil der Logarithmus entfällt und es schneller rechnet. Erwähnenswert fürs Kolloquium: Beide sind gierige lokale Kriterien — der global optimale Baum ist NP-hart, der gierige Baum nur eine gute Heuristik.

← Tuning: C & gamma Vom Baum zum Wald →