Der Entscheidungsbaum

Bevor wir den Wald verstehen, brauchen wir den Baum. Ein Entscheidungsbaum klassifiziert wie ein Arzt beim Durchfragen: eine Ja/Nein-Frage nach der anderen, bis die Diagnose feststeht — und er lernt selbst, welche Fragen er stellen soll.

Kernidee: Finde die Frage (Feature + Schwellwert), die die Daten am besten in reinere Gruppen aufteilt. Wiederhole das in jeder Gruppe. Stoppe, wenn die Gruppen rein genug sind.

So sieht das für PlantVillage aus

janeinGrün-Anteil > 60 % ?Gelb-Anteil > 15 % ?Braun-Anteil > 30 % ?gesundGelbmosaikBraunfäuleMehltau

Jeder innere Knoten testet ein Feature gegen einen Schwellwert, jedes Blatt ist eine Klasse. Ein neues Bild läuft von der Wurzel nach unten — Vorhersage in Mikrosekunden, und der Pfad ist die Erklärung gleich mit.

Woher kommen die Fragen? Gini-Impurity

Beim Training probiert der Baum an jedem Knoten alle Features und viele Schwellwerte durch und bewertet jeden Kandidaten danach, wie rein die beiden entstehenden Gruppen wären:

Gini(Gruppe) = 1 − Σₖ pₖ²     (pₖ = Anteil der Klasse k in der Gruppe)
  1. Gruppe besteht nur aus einer Klasse → Gini = 0 (perfekt rein).
  2. Zwei Klassen je 50 % → Gini = 0,5 (maximal unrein bei 2 Klassen).
  3. Gewählt wird der Split mit der größten Impurity-Reduktion (gewichtetes Mittel der Kind-Gruppen vs. Eltern-Knoten).
  4. In jeder Kind-Gruppe: dasselbe Spiel, rekursiv.
Warum eigentlich?Warum braucht der Baum keine skalierten Features?
Ein Split fragt nur: Ist Feature j größer als t? Diese Frage ist invariant gegen jede monotone Transformation — ob das Feature in [0, 1] oder [0, 10.000] lebt, ändert nur den gelernten Schwellwert, nicht die Aufteilung. Der ganze StandardScaler-Komplex aus LogReg und SVM entfällt ersatzlos. Das macht Bäume (und Wälder) zum dankbarsten Verfahren für heterogene, schlecht normalisierte Features — einer der Gründe ihrer Beliebtheit auf Tabellendaten.
Häufiger DenkfehlerDen Baum unbegrenzt wachsen lassen
Ohne Stopp-Kriterium splittet der Baum weiter, bis jedes Blatt nur noch ein einziges Trainingsbild enthält — 100 % Trainings-Accuracy, auswendig gelernt. Schlimmer noch: Bäume sind instabil. Ein paar andere Trainingsbilder, und gleich der Wurzel-Split kippt — und mit ihm der gesamte Baum darunter. Hohe Varianz ist die Krankheit des Entscheidungsbaums. Man kann sie mit max_depth und min_samples_leaf lindern — oder sie zur Stärke umdrehen. Genau das tut der Random Forest in der nächsten Lektion.
Tiefer reinGini vs. Entropy — und warum es fast egal ist
Die Alternative zur Gini-Impurity ist die Entropie (−Σ pₖ log pₖ, der „Information Gain“ aus der Informationstheorie). Beide Kurven sind fast deckungsgleich: maximal bei Gleichverteilung, null bei Reinheit. In der Praxis unterscheiden sich die resultierenden Bäume selten messbar; Gini ist der sklearn-Default, weil der Logarithmus entfällt und es schneller rechnet. Erwähnenswert fürs Kolloquium: Beide sind gierige lokale Kriterien — der global optimale Baum ist NP-hart, der gierige Baum nur eine gute Heuristik.