Intuition: die breiteste Straße · ML-Klassifikation

SVM: die breiteste Straße

Zwischen zwei trennbaren Punktwolken gibt es unendlich viele Trennlinien — Logistic Regression nimmt irgendeine gute. Die Support Vector Machine stellt eine schärfere Frage: Welche Linie hat zu beiden Seiten den größten Sicherheitsabstand?

Maximum Margin: Die SVM legt nicht eine Linie, sondern die breiteste mögliche Straße zwischen die Klassen. Die Mitte der Straße ist die Entscheidungsgrenze.

Das Bild, das man nie wieder vergisst

Die umrandeten Punkte sind die Support-Vektoren: die Trainingsbeispiele, die direkt am Straßenrand liegen. Nur sie bestimmen die Grenze — alle anderen Punkte könnte man löschen, ohne dass sich irgendetwas ändert. Daher der Name des Verfahrens.

Drei Eigenschaften, die daraus folgen

Sparsamkeit — Das fertige Modell besteht nur aus den Support-Vektoren. Bei sauber trennbaren Daten sind das wenige; bei verrauschten Daten werden es viele (und das Modell langsam).
Robustheit der Grenze — Punkte tief im eigenen Gebiet ziehen die Grenze nicht zu sich. Die Logistic Regression dagegen schiebt ihre Grenze auch wegen Punkten, die längst richtig klassifiziert sind.
Empfindlichkeit gegen Ausreißer am Rand — Ein einziges falsch gelabeltes Blatt nahe der Grenze kann die Straße drastisch verengen. Dagegen gibt es den Soft Margin (unten).

Warum eigentlich? — Warum sollte die breiteste Straße besser generalisieren?

Neue, ungesehene Blätter streuen um die Trainingsbeispiele herum. Liegt die Grenze knapp an einer Klasse, kippen schon kleine Abweichungen Punkte auf die falsche Seite. Ein breiter Margin ist ein Puffer gegen genau diese Streuung. Das ist nicht nur Intuition: Aus der statistischen Lerntheorie folgt, dass die erwartete Fehlerrate mit wachsendem Margin sinkt — unabhängig von der Dimension des Feature-Raums. Deshalb funktionieren SVMs auch bei 512 Dimensionen und vergleichsweise wenigen Beispielen gut.

Häufiger Denkfehler — Von der SVM Wahrscheinlichkeiten erwarten

Eine SVM liefert von Haus aus nur Seite + Abstand zur Grenze (decision_function), keine Wahrscheinlichkeit. SVC(probability=True) schraubt intern eine Kalibrierung per Kreuzvalidierung dran — das macht das Training spürbar langsamer und die Werte sind eine Näherung. Wer Wahrscheinlichkeiten als Kernfeature braucht, ist bei der Logistic Regression von vornherein richtiger.

Tiefer rein — Soft Margin: bezahlbare Regelverstöße

Echte Daten sind selten perfekt trennbar — PlantVillage-Histogramme zweier ähnlicher Krankheiten überlappen. Der Soft Margin erlaubt Punkten, in der Straße oder sogar auf der falschen Seite zu liegen, gegen eine Strafe (Schlupfvariablen ξᵢ). Der Parameter C wechselt den Kurs der Währung: großes C = Verstöße teuer = schmale Straße, die sich um jeden Punkt windet; kleines C = Verstöße billig = breite, ruhige Straße. Das zugehörige Loss heißt Hinge Loss: null Strafe ab genug Abstand, linear ansteigend davor.

← Tuning: C, Solver & Fallstricke Der Kernel-Trick →