LLM as a Judge

Ansatz	Wann einsetzen	Stärke	Darauf achten
Direkte Bewertung	Laufendes Qualitätsmonitoring, Trends über die Zeit	Einfach zu tracken, funktioniert mit Einzel-Outputs	Kalibrierung schwankt je Modell
Paarweiser Vergleich	A/B-Tests, Prompt- und Modellvarianten ranken	Zuverlässigere Rangfolge als absolute Scores	Doppelte Kosten, kein absolutes Niveau
Referenzbasiert	Faktisches Q&A, strukturierte Outputs mit Ground Truth	Klare Referenz macht das Urteil geradlinig	Braucht gelabelte Daten, bestraft Alternativformulierungen
Binäre Klassifikation	Safety-, Halluzinations- und Compliance-Checks	Wenig Ambiguität, Alarme leicht zu automatisieren	Verliert Grenzfälle

¶ Das Problem