Intuition: Linie + Sigmoid · ML-Klassifikation

Logistic Regression: Linie + Sigmoid

Das einfachste der vier Verfahren — und genau deshalb der richtige Start. Logistic Regression rechnet eine gewichtete Summe der Features aus und drückt das Ergebnis durch eine S-Kurve, damit eine Wahrscheinlichkeit zwischen 0 und 1 herauskommt. Das ist wirklich alles.

In einer Formel: p(krank) = σ(w₁x₁ + w₂x₂ + … + b). Die Gewichte w sagen, welche Features wie stark für „krank“ sprechen. σ ist die Sigmoid-Funktion.

Interaktiv: die Sigmoid an einem Feature

Vereinfachen wir auf ein Feature: den Anteil brauner Pixel im Blatt-Foto. Die Steilheit entspricht dem Gewicht, die Schwelle dem (umgerechneten) Bias:

Steilheit (Gewicht)12

Schwelle (Bias)0.40

Links von der Entscheidungsgrenze sagt das Modell „gesund“, rechts „krank“. Die Steilheit bestimmt, wie sicher sich das Modell nahe der Grenze ist — die Grenze selbst bleibt eine harte Linie.

Warum „Regression“, wenn es klassifiziert?

Historisch gewachsen: Das Verfahren regrediert die Log-Odds (das Verhältnis von p zu 1−p, logarithmiert) linear auf die Features. Erst die Sigmoid macht daraus eine Wahrscheinlichkeit, erst der Schwellwert eine Klasse. Der Name beschreibt die Mechanik, nicht den Einsatzzweck.

Warum eigentlich? — Warum überhaupt eine S-Kurve?

Eine rohe gewichtete Summe kann −500 oder +3000 ergeben — als Wahrscheinlichkeit unbrauchbar. Die Sigmoid σ(z) = 1/(1+e^(−z)) quetscht jeden Wert in (0, 1), ist monoton (mehr Indiz → mehr Wahrscheinlichkeit) und differenzierbar (wichtig fürs Training). Und sie hat eine saubere Interpretation: Ihr Input z ist genau der Log-Odds-Wert. Sie ist nicht irgendeine S-Kurve, sondern die mathematisch passende.

Häufiger Denkfehler — Linear heißt nicht primitiv

„Logistic Regression kann nur Linien“ stimmt — aber im Feature-Raum, nicht im Bild. Unsere 512 Histogramm-Dimensionen spannen einen Raum auf, in dem eine Hyperebene erstaunlich viel trennen kann. Und wer Features quadriert oder kombiniert (Polynomial Features), bekommt gekrümmte Grenzen im Originalraum — mit demselben linearen Verfahren. Die Grenze des Modells ist oft eher die Grenze der Features.

Tiefer rein — Von 2 auf 38 Klassen: Softmax

PlantVillage hat 38 Klassen, nicht 2. Die Verallgemeinerung: pro Klasse ein eigener Gewichtsvektor, also 38 Scores pro Bild — und statt der Sigmoid normiert die Softmax alle 38 Scores zu einer Wahrscheinlichkeitsverteilung, die sich zu 1 summiert. Vorhersage = Klasse mit dem höchsten Wert. scikit-learn macht das automatisch, sobald y mehr als zwei Werte hat. Details in der Mathe-Lektion.

← Metriken & Confusion Matrix Mathe: Cross-Entropy & Gradient Descent →