Quote from: UmstrittenerNutzer on Yesterday at 12:05:26QuoteBeim SimpleQA-Benchmark verzichtete ein Modell in über 50 Prozent der Fälle auf eine Antwort, lag aber nur bei 26 Prozent der gegebenen Antworten falsch. Ein anderes Modell beantwortete fast jede Frage – und halluzinierte dabei in drei Vierteln aller Fälle. Das zeigt deutlich, dass transparente Unsicherheit verlässlicher ist als blindes Raten mit scheinbarer Präzision.
Ich war nie top in Mathe, aber drei Viertel sind 75 %.
50% + 26% sind dagegen 76%.
Wieso 1% mehr Fehlerquote deutlich verlässlicher ist, müsste bitte noch mal erklärt werden.
Naja, Mathe gut oder schlecht sei dahingestellt, aber am Leseverständnis muss man noch üben.
Model A hat bei 26% der gegebenen Antworten falsch gelegen.
Also wenn es 100 Fragen waren, 50 beantwortet wurden, waren von den 50 26%, also 13 falsch.
Das andere Model hat 75% aller Fragen falsch beantwortet.
Also Model A hat, obwohl es nur 50 Fragen beantwortet hat, insgesamt sogar mehr richtige Antworten gegeben (50-13 = 37 Antworten) als Model B, das nur 25 richtige Antworten geben hat.