Der Kernel-Trick

Was, wenn keine gerade Straße existiert? Die SVM-Antwort ist einer der elegantesten Tricks des klassischen ML: Hebe die Daten in einen höherdimensionalen Raum, in dem sie wieder linear trennbar sind — ohne diesen Raum jemals zu betreten.

Kernel-Trick: Die SVM braucht von den Daten nur Skalarprodukte ⟨xᵢ, xⱼ⟩. Ein Kernel k(xᵢ, xⱼ) liefert das Skalarprodukt in einem höheren Raum direkt — ohne die Transformation auszurechnen.

Das Ein-Dimensionen-Beispiel

In 1D liegen die grünen Punkte zwischen den violetten — keine einzelne Schwelle trennt sie. Eine simple zweite Dimension (der quadrierte Abstand zur Mitte) macht sie mit einer horizontalen Linie trennbar. Genau diese Idee skaliert der Kernel-Trick auf beliebig komplexe Abbildungen.

Der Trick im Detail

Die SVM-Optimierung (in ihrer dualen Form) berührt die Daten nur über Skalarprodukte ⟨xᵢ, xⱼ⟩ — nie über einzelne Koordinaten.
Statt die Daten mit φ(x) hochzuheben und dann ⟨φ(xᵢ), φ(xⱼ)⟩ zu rechnen, definiert man eine Funktion k(xᵢ, xⱼ), die dieses Ergebnis direkt liefert.
Der hochdimensionale Raum wird nie materialisiert — man bezahlt nur den Preis der Kernel-Auswertung pro Punktepaar.

Der wichtigste Kernel: RBF

k(x, x') = exp(−γ · ||x − x'||²)

Der RBF-Kernel (Radial Basis Function) misst schlicht Ähnlichkeit: 1 für identische Punkte, gegen 0 für weit entfernte. γ (gamma) steuert, wie schnell die Ähnlichkeit abfällt — also wie lokal das Modell denkt. Die Entscheidungsgrenze im Originalraum kann damit beliebig gekrümmt sein.

Warum eigentlich? — Warum ist das billiger als selbst transformieren?

Ein Polynom-Feature-Mapping von 512 Dimensionen auf Grad 3 erzeugt über 22 Millionen Kombinations-Features — pro Bild. Der Polynom-Kernel (⟨x, x'⟩ + c)³ liefert dasselbe Skalarprodukt mit einer Operation auf den originalen 512 Zahlen. Beim RBF-Kernel ist es noch drastischer: Sein impliziter Feature-Raum ist unendlichdimensional — explizit transformieren ist nicht teuer, sondern unmöglich. Der Kernel macht das Unmögliche zu einer Zeile Mathematik.

Häufiger Denkfehler — RBF auf unskalierte Features loslassen

||x − x'||² summiert über alle Dimensionen. Lebt ein Feature in [0, 10.000] und die anderen in [0, 1], besteht die Distanz praktisch nur aus diesem einen Feature — der Kernel ist blind für den Rest. Symptom: Die SVM ist kaum besser als Raten, obwohl die Features gut sind. StandardScaler vor jeder RBF-SVM ist keine Empfehlung, sondern Pflicht.

Tiefer rein — Wann linear, wann RBF?

Faustregel aus der Praxis: Bei vielen Dimensionen und vergleichsweise wenigen Beispielen (Texte, Histogramme, Gen-Daten) sind die Daten oft schon fast linear trennbar — linearer Kernel reicht, trainiert dramatisch schneller und überfittet weniger. RBF lohnt sich bei wenigen Dimensionen mit komplexen Grenzen oder wenn der lineare Versuch sichtbar underfittet (Train-Score schon schlecht). Für PlantVillage-Histogramme: zuerst LinearSVC, RBF nur als Vergleich — die Praxis-Lektion zeigt den Zeitunterschied.

← Intuition: die breiteste Straße Praxis: SVC auf PlantVillage →