Warum CNNs Bilder gewinnen
Die drei klassischen Verfahren teilen eine Schwäche: Sie sehen nur, was wir ihnen als Feature vorkauen. Das Convolutional Neural Network dreht den Spieß um — es bekommt die rohen Pixel und lernt die Features selbst, als Teil des Trainings.
Der Paradigmenwechsel: Feature-Engineering wird durch Feature-Learning ersetzt. Das Histogramm haben wir entworfen; die CNN-Filter werden gelernt.
Wo handgebaute Features an die Wand laufen
- Ortsblindheit — Das Histogramm weiß, dass 15 % der Pixel braun sind. Ob sie ein kreisrundes Pilz-Muster bilden oder zufällig verstreut sind: gleicher Feature-Vektor.
- Form und Struktur — Konzentrische Ringe (typisch für Alternaria) oder geäderte Flecken (Late Blight) sind räumliche Muster. In 512 Farb-Bins existieren sie schlicht nicht.
- Die Decke ist erreicht — Ab einem Punkt hilft kein Tuning mehr: Die Information ist in den Features bereits verloren, kein Modell dahinter kann sie zurückholen.
Die Convolution-Idee in drei Annahmen
Ein CNN ist kein magischer Kasten, sondern ein normales neuronales Netz mit drei eingebauten Annahmen über Bilder:
1
Lokalität
Ein Pixel hängt vor allem mit seinen Nachbarn zusammen. Also schaut jedes Neuron nur auf einen kleinen Ausschnitt (z.B. 3×3), nicht aufs ganze Bild.
2
Translations-Invarianz
Ein brauner Fleck ist ein brauner Fleck — egal ob links oben oder rechts unten. Also wird derselbe Filter über das ganze Bild geschoben (Weight Sharing).
3
Hierarchie
Kanten setzen sich zu Texturen zusammen, Texturen zu Mustern, Muster zu Objekten. Also stapelt man Convolution-Schichten — jede sieht die Ausgabe der vorherigen.
Diese Annahmen sparen brutal Parameter: Eine voll vernetzte Schicht von 128×128×3 Pixeln auf 1.000 Neuronen hätte ~49 Millionen Gewichte. Eine Convolution-Schicht mit 32 Filtern à 3×3×3: 896. Weniger Parameter heißt weniger Overfitting und weniger Datenhunger — deshalb funktionieren CNNs auf Bildern, wo normale dichte Netze ertrinken.
Warum eigentlich? — Warum hat das CNN erst 2012 gewonnen und nicht 1998?
LeNet funktionierte 1998 — auf 32×32-Ziffern. Für echte Fotos fehlten drei Dinge, die erst um 2012 zusammenkamen: Daten (ImageNet: 1,2 Mio. gelabelte Bilder), Rechenleistung (GPUs machten das Training ~50× schneller) und ein paar Trainings-Tricks (ReLU gegen sterbende Gradienten, Dropout gegen Overfitting). Der Algorithmus war nie das Problem — die Infrastruktur war es. Eine nützliche Lehre: Verfahren sind nicht gut oder schlecht an sich, sondern relativ zu Daten und Hardware ihrer Zeit.
Häufiger Denkfehler — CNN als Pflichtsieg verbuchen
Auf PlantVillage gewinnt das CNN — aber knapper als die Theorie vermuten lässt: Labor-Fotos mit dominanten Farbunterschieden sind Histogramm-freundlich. Den echten Abstand zeigt erst ein härteres Test-Szenario (Feldfotos, andere Kameras). Wer in der Projektarbeit nur die eine PlantVillage-Zahl vergleicht, unterschätzt klassische Verfahren und überschätzt zugleich die Übertragbarkeit des CNN — die Transfer-Lektion zeigt diese Falle im Detail.
Tiefer rein — Was die Filter wirklich lernen
Visualisiert man trainierte CNNs, zeigt sich verblüffend konsistent dieselbe Hierarchie: Schicht 1 lernt Kanten- und Farbdetektoren (oft fast identisch mit den handgebauten Gabor-Filtern der klassischen Bildverarbeitung), mittlere Schichten Texturen und einfache Formen, späte Schichten klassen-spezifische Teile wie Blattadern oder Fleckenränder. Das CNN erfindet also das klassische Feature-Engineering nach — nur eben optimiert auf genau die Aufgabe statt auf menschliche Plausibilität. Werkzeuge zum Selberschauen: Aktivierungs-Maps und Grad-CAM.