Das einfachste der vier Verfahren — und genau deshalb der richtige Start. Logistic Regression rechnet eine gewichtete Summe der Features aus und drückt das Ergebnis durch eine S-Kurve, damit eine Wahrscheinlichkeit zwischen 0 und 1 herauskommt. Das ist wirklich alles.
In einer Formel: p(krank) = σ(w₁x₁ + w₂x₂ + … + b). Die Gewichte w sagen, welche Features wie stark für „krank“ sprechen. σ ist die Sigmoid-Funktion.
Interaktiv: die Sigmoid an einem Feature
Vereinfachen wir auf ein Feature: den Anteil brauner Pixel im Blatt-Foto. Die Steilheit entspricht dem Gewicht, die Schwelle dem (umgerechneten) Bias:
12
0.40
Links von der Entscheidungsgrenze sagt das Modell „gesund“, rechts „krank“. Die Steilheit bestimmt, wie sicher sich das Modell nahe der Grenze ist — die Grenze selbst bleibt eine harte Linie.
Warum „Regression“, wenn es klassifiziert?
Historisch gewachsen: Das Verfahren regrediert die Log-Odds (das Verhältnis von p zu 1−p, logarithmiert) linear auf die Features. Erst die Sigmoid macht daraus eine Wahrscheinlichkeit, erst der Schwellwert eine Klasse. Der Name beschreibt die Mechanik, nicht den Einsatzzweck.
🤔Warum eigentlich? — Warum überhaupt eine S-Kurve?›
Eine rohe gewichtete Summe kann −500 oder +3000 ergeben — als Wahrscheinlichkeit unbrauchbar. Die Sigmoid σ(z) = 1/(1+e^(−z)) quetscht jeden Wert in (0, 1), ist monoton (mehr Indiz → mehr Wahrscheinlichkeit) und differenzierbar (wichtig fürs Training). Und sie hat eine saubere Interpretation: Ihr Input z ist genau der Log-Odds-Wert. Sie ist nicht irgendeine S-Kurve, sondern die mathematisch passende.
⚠️Häufiger Denkfehler — Linear heißt nicht primitiv›
„Logistic Regression kann nur Linien“ stimmt — aber im Feature-Raum, nicht im Bild. Unsere 512 Histogramm-Dimensionen spannen einen Raum auf, in dem eine Hyperebene erstaunlich viel trennen kann. Und wer Features quadriert oder kombiniert (Polynomial Features), bekommt gekrümmte Grenzen im Originalraum — mit demselben linearen Verfahren. Die Grenze des Modells ist oft eher die Grenze der Features.
🔬Tiefer rein — Von 2 auf 38 Klassen: Softmax›
PlantVillage hat 38 Klassen, nicht 2. Die Verallgemeinerung: pro Klasse ein eigener Gewichtsvektor, also 38 Scores pro Bild — und statt der Sigmoid normiert die Softmax alle 38 Scores zu einer Wahrscheinlichkeitsverteilung, die sich zu 1 summiert. Vorhersage = Klasse mit dem höchsten Wert. scikit-learn macht das automatisch, sobald y mehr als zwei Werte hat. Details in der Mathe-Lektion.
🔗Hängt zusammen mit… — Hängt zusammen mit…›
Der Mathe-Lektion (wie die Gewichte gelernt werden), der SVM (auch linear, aber anderes Optimierungsziel — der Vergleich ist lehrreich) und dem CNN: dessen letzte Schicht ist exakt eine Logistic Regression auf gelernten Features.