Warum CNNs Bilder gewinnen

Die drei klassischen Verfahren teilen eine Schwäche: Sie sehen nur, was wir ihnen als Feature vorkauen. Das Convolutional Neural Network dreht den Spieß um — es bekommt die rohen Pixel und lernt die Features selbst, als Teil des Trainings.

Der Paradigmenwechsel: Feature-Engineering wird durch Feature-Learning ersetzt. Das Histogramm haben wir entworfen; die CNN-Filter werden gelernt.

Wo handgebaute Features an die Wand laufen

Ortsblindheit — Das Histogramm weiß, dass 15 % der Pixel braun sind. Ob sie ein kreisrundes Pilz-Muster bilden oder zufällig verstreut sind: gleicher Feature-Vektor.
Form und Struktur — Konzentrische Ringe (typisch für Alternaria) oder geäderte Flecken (Late Blight) sind räumliche Muster. In 512 Farb-Bins existieren sie schlicht nicht.
Die Decke ist erreicht — Ab einem Punkt hilft kein Tuning mehr: Die Information ist in den Features bereits verloren, kein Modell dahinter kann sie zurückholen.

Die Convolution-Idee in drei Annahmen

Ein CNN ist kein magischer Kasten, sondern ein normales neuronales Netz mit drei eingebauten Annahmen über Bilder:

Lokalität

Ein Pixel hängt vor allem mit seinen Nachbarn zusammen. Also schaut jedes Neuron nur auf einen kleinen Ausschnitt (z.B. 3×3), nicht aufs ganze Bild.

Translations-Invarianz

Ein brauner Fleck ist ein brauner Fleck — egal ob links oben oder rechts unten. Also wird derselbe Filter über das ganze Bild geschoben (Weight Sharing).

Hierarchie

Kanten setzen sich zu Texturen zusammen, Texturen zu Mustern, Muster zu Objekten. Also stapelt man Convolution-Schichten — jede sieht die Ausgabe der vorherigen.

Diese Annahmen sparen brutal Parameter: Eine voll vernetzte Schicht von 128×128×3 Pixeln auf 1.000 Neuronen hätte ~49 Millionen Gewichte. Eine Convolution-Schicht mit 32 Filtern à 3×3×3: 896. Weniger Parameter heißt weniger Overfitting und weniger Datenhunger — deshalb funktionieren CNNs auf Bildern, wo normale dichte Netze ertrinken.

Warum eigentlich? — Warum hat das CNN erst 2012 gewonnen und nicht 1998?

LeNet funktionierte 1998 — auf 32×32-Ziffern. Für echte Fotos fehlten drei Dinge, die erst um 2012 zusammenkamen: Daten (ImageNet: 1,2 Mio. gelabelte Bilder), Rechenleistung (GPUs machten das Training ~50× schneller) und ein paar Trainings-Tricks (ReLU gegen sterbende Gradienten, Dropout gegen Overfitting). Der Algorithmus war nie das Problem — die Infrastruktur war es. Eine nützliche Lehre: Verfahren sind nicht gut oder schlecht an sich, sondern relativ zu Daten und Hardware ihrer Zeit.

Häufiger Denkfehler — CNN als Pflichtsieg verbuchen

Auf PlantVillage gewinnt das CNN — aber knapper als die Theorie vermuten lässt: Labor-Fotos mit dominanten Farbunterschieden sind Histogramm-freundlich. Den echten Abstand zeigt erst ein härteres Test-Szenario (Feldfotos, andere Kameras). Wer in der Projektarbeit nur die eine PlantVillage-Zahl vergleicht, unterschätzt klassische Verfahren und überschätzt zugleich die Übertragbarkeit des CNN — die Transfer-Lektion zeigt diese Falle im Detail.

Tiefer rein — Was die Filter wirklich lernen

Visualisiert man trainierte CNNs, zeigt sich verblüffend konsistent dieselbe Hierarchie: Schicht 1 lernt Kanten- und Farbdetektoren (oft fast identisch mit den handgebauten Gabor-Filtern der klassischen Bildverarbeitung), mittlere Schichten Texturen und einfache Formen, späte Schichten klassen-spezifische Teile wie Blattadern oder Fleckenränder. Das CNN erfindet also das klassische Feature-Engineering nach — nur eben optimiert auf genau die Aufgabe statt auf menschliche Plausibilität. Werkzeuge zum Selberschauen: Aktivierungs-Maps und Grad-CAM.

← Tuning: n_estimators & Co.Bausteine: Conv, Pooling, ReLU →