Der große Vergleich

Vier Verfahren, ein Dataset — jetzt nebeneinander. Diese Lektion gibt dir das Werkzeug, um in der Verteidigung die Frage zu beantworten, die garantiert kommt: Warum dieses Verfahren und nicht ein anderes?

Es gibt kein bestes Verfahren — nur das passendste für eine gegebene Kombination aus Daten, Hardware, Erklärbarkeits-Anforderung und Zeitbudget.

Die Vergleichstabelle

KriteriumLogistic RegressionSVMRandom ForestCNN
Inputhandgebaute Features (Histogramm/Textur)rohe Pixel
Entscheidungsgrenzelinearlinear / Kernelachsenparallele Stufenbeliebig (gelernt)
Skalierung nötig?jaja (Pflicht)neinja (0–1 oder −1…1)
Trainingszeit (54k Bilder)Sekunden–MinutenMinuten (linear) bis Stunden (RBF)MinutenMinuten (Transfer) bis Stunden
HardwareCPUCPUCPU (parallel)GPU empfohlen
Erklärbarkeithoch (Gewichte)mittel (Support-Vektoren)mittel (Importance)niedrig (Grad-CAM nötig)
Typ. Accuracy*~70–90 %~75–90 %~80–92 %97 %+
HauptknopfCC & gammamax_featuresArchitektur & Lernrate

*Grobe Größenordnungen auf PlantVillage-Histogrammen bzw. Rohbildern — stark abhängig von Feature-Wahl, Bildgröße und Tuning. Nicht als Benchmark zitieren, sondern als Verhältnis lesen.

Entscheidungshilfe

  1. Erklärbarkeit ist Pflicht (Behörde, Medizin, Audit) → Logistic Regression, notfalls Random Forest. Niemals mit „das CNN sagt krank“ vor Gericht.
  2. Tabellen-/Feature-Daten, schnelle solide Baseline → Random Forest. Pflegeleicht, kein Scaler, gute Defaults.
  3. Wenig Beispiele, viele Dimensionen → SVM (linear). Glänzt genau dort, wo CNNs verhungern.
  4. Rohe Bilder, genug Daten, Genauigkeit zählt → CNN, am besten via Transfer Learning.
  5. Im Zweifel → erst die einfachste Baseline (LogReg), dann nach oben arbeiten. Komplexität muss sich ihren Platz verdienen.
Warum eigentlich?Warum nicht immer das CNN, wenn es gewinnt?
Weil die Accuracy-Spalte nur eine von acht Zeilen ist. Ein CNN, das 2 Punkte mehr liefert, aber GPU braucht, nicht erklärbar ist, im Feld auf 31 % einbricht (Domain Shift!) und Tage Tuning kostet, ist für viele reale Projekte die schlechtere Wahl. Reife im ML zeigt sich nicht darin, das stärkste Verfahren zu kennen, sondern die ganze Tabelle gegen die konkreten Projekt­ziele abzuwägen.
Tiefer reinWas es in der Tabelle nicht gibt: Ensembles über Verfahren
In der Praxis muss man sich nicht entscheiden. Ein Stacking-Ensemble kombiniert die Vorhersagen mehrerer Verfahren (z.B. CNN-Wahrscheinlichkeiten + RF auf Histogrammen) über ein Meta-Modell — oft besser als jedes Einzelne, weil die Fehler unterschiedlich gelagert sind. In sklearn: StackingClassifier. Für eure vier Projekte ein spannendes gemeinsames Finale: Schlägt das Team-Ensemble jedes Einzelmodell?
Aufgabe

Verfahrenswahl begründen

●●○45 min

Schreibe für dein in der Projektarbeit gebautes Verfahren eine einseitige Begründung, die ein Prüfer als Verteidigung akzeptieren würde. Stütze dich auf die Vergleichstabelle, bleib aber konkret bei PlantVillage.

  • Benenne die Entscheidungsgrenze deines Verfahrens und was das für trennbare vs. überlappende Klassen bedeutet.
  • Erkläre, welche Vorverarbeitung dein Verfahren zwingend braucht (Scaler? Features? Rescaling?) — und was passiert, wenn man sie weglässt.
  • Nenne den/die wichtigsten Hyperparameter und in welche Richtung du sie bei Over- bzw. Underfitting drehst.
  • Gib die für PlantVillage passende Metrik an (nicht nur Accuracy!) und begründe die Wahl mit der Klassen-Unbalance.
  • Diskutiere ehrlich eine Schwäche: Wo würde dein Verfahren gegen die anderen drei verlieren?
KI-Review starten

Kopiere den Prompt, öffne eine KI-deiner-Wahl (Claude, ChatGPT, Gemini, etc.), füge den Prompt ein und hänge dein Bild dran. Du bekommst eine strukturierte Rückmeldung zu den genannten Kriterien.