Der große Vergleich
Vier Verfahren, ein Dataset — jetzt nebeneinander. Diese Lektion gibt dir das Werkzeug, um in der Verteidigung die Frage zu beantworten, die garantiert kommt: Warum dieses Verfahren und nicht ein anderes?
Die Vergleichstabelle
| Kriterium | Logistic Regression | SVM | Random Forest | CNN |
|---|---|---|---|---|
| Input | handgebaute Features (Histogramm/Textur) | rohe Pixel | ||
| Entscheidungsgrenze | linear | linear / Kernel | achsenparallele Stufen | beliebig (gelernt) |
| Skalierung nötig? | ja | ja (Pflicht) | nein | ja (0–1 oder −1…1) |
| Trainingszeit (54k Bilder) | Sekunden–Minuten | Minuten (linear) bis Stunden (RBF) | Minuten | Minuten (Transfer) bis Stunden |
| Hardware | CPU | CPU | CPU (parallel) | GPU empfohlen |
| Erklärbarkeit | hoch (Gewichte) | mittel (Support-Vektoren) | mittel (Importance) | niedrig (Grad-CAM nötig) |
| Typ. Accuracy* | ~70–90 % | ~75–90 % | ~80–92 % | 97 %+ |
| Hauptknopf | C | C & gamma | max_features | Architektur & Lernrate |
*Grobe Größenordnungen auf PlantVillage-Histogrammen bzw. Rohbildern — stark abhängig von Feature-Wahl, Bildgröße und Tuning. Nicht als Benchmark zitieren, sondern als Verhältnis lesen.
Entscheidungshilfe
- Erklärbarkeit ist Pflicht (Behörde, Medizin, Audit) → Logistic Regression, notfalls Random Forest. Niemals mit „das CNN sagt krank“ vor Gericht.
- Tabellen-/Feature-Daten, schnelle solide Baseline → Random Forest. Pflegeleicht, kein Scaler, gute Defaults.
- Wenig Beispiele, viele Dimensionen → SVM (linear). Glänzt genau dort, wo CNNs verhungern.
- Rohe Bilder, genug Daten, Genauigkeit zählt → CNN, am besten via Transfer Learning.
- Im Zweifel → erst die einfachste Baseline (LogReg), dann nach oben arbeiten. Komplexität muss sich ihren Platz verdienen.
Warum eigentlich? — Warum nicht immer das CNN, wenn es gewinnt?
Tiefer rein — Was es in der Tabelle nicht gibt: Ensembles über Verfahren
StackingClassifier. Für eure vier Projekte ein spannendes gemeinsames Finale: Schlägt das Team-Ensemble jedes Einzelmodell?Verfahrenswahl begründen
●●○⏱ 45 minSchreibe für dein in der Projektarbeit gebautes Verfahren eine einseitige Begründung, die ein Prüfer als Verteidigung akzeptieren würde. Stütze dich auf die Vergleichstabelle, bleib aber konkret bei PlantVillage.
- Benenne die Entscheidungsgrenze deines Verfahrens und was das für trennbare vs. überlappende Klassen bedeutet.
- Erkläre, welche Vorverarbeitung dein Verfahren zwingend braucht (Scaler? Features? Rescaling?) — und was passiert, wenn man sie weglässt.
- Nenne den/die wichtigsten Hyperparameter und in welche Richtung du sie bei Over- bzw. Underfitting drehst.
- Gib die für PlantVillage passende Metrik an (nicht nur Accuracy!) und begründe die Wahl mit der Klassen-Unbalance.
- Diskutiere ehrlich eine Schwäche: Wo würde dein Verfahren gegen die anderen drei verlieren?
Kopiere den Prompt, öffne eine KI-deiner-Wahl (Claude, ChatGPT, Gemini, etc.), füge den Prompt ein und hänge dein Bild dran. Du bekommst eine strukturierte Rückmeldung zu den genannten Kriterien.