News:

Willkommen im Notebookcheck.com Forum! Hier können sie über alle unsere Artikel und allgemein über Notebook relevante Dinge disuktieren. Viel Spass!

Main Menu

Post reply

Other options
Verification:
Please leave this box empty:

Shortcuts: ALT+S post or ALT+P preview

Topic summary

Posted by A.B.
 - Yesterday at 13:03:10
Quote from: UmstrittenerNutzer on Yesterday at 12:05:26
QuoteBeim SimpleQA-Benchmark verzichtete ein Modell in über 50 Prozent der Fälle auf eine Antwort, lag aber nur bei 26 Prozent der gegebenen Antworten falsch. Ein anderes Modell beantwortete fast jede Frage – und halluzinierte dabei in drei Vierteln aller Fälle. Das zeigt deutlich, dass transparente Unsicherheit verlässlicher ist als blindes Raten mit scheinbarer Präzision.

Ich war nie top in Mathe, aber drei Viertel sind 75 %.
50% + 26% sind dagegen 76%.

Wieso 1% mehr Fehlerquote deutlich verlässlicher ist, müsste bitte noch mal erklärt werden.

Naja, Mathe gut oder schlecht sei dahingestellt, aber am Leseverständnis muss man noch üben.
Model A hat bei 26% der gegebenen Antworten falsch gelegen.
Also wenn es 100 Fragen waren, 50 beantwortet wurden, waren von den 50 26%, also 13 falsch.
Das andere Model hat 75% aller Fragen falsch beantwortet.
Also Model A hat, obwohl es nur 50 Fragen beantwortet hat, insgesamt sogar mehr richtige Antworten gegeben (50-13 = 37 Antworten) als Model B, das nur 25 richtige Antworten geben hat.
Posted by UmstrittenerNutzer
 - Yesterday at 12:05:26
QuoteBeim SimpleQA-Benchmark verzichtete ein Modell in über 50 Prozent der Fälle auf eine Antwort, lag aber nur bei 26 Prozent der gegebenen Antworten falsch. Ein anderes Modell beantwortete fast jede Frage – und halluzinierte dabei in drei Vierteln aller Fälle. Das zeigt deutlich, dass transparente Unsicherheit verlässlicher ist als blindes Raten mit scheinbarer Präzision.

Ich war nie top in Mathe, aber drei Viertel sind 75 %.
50% + 26% sind dagegen 76%.

Wieso 1% mehr Fehlerquote deutlich verlässlicher ist, müsste bitte noch mal erklärt werden.
Posted by RobertJasiek
 - Yesterday at 11:49:52
Entscheidungen von mehreren Parametern abhängig zu machen ist in der KI nicht neu. Beispielsweise kombiniert die Deep-Learning-Software Katago beim Spiel Go seit Jahren die beiden Parameter "empirische Gewinnwahrscheinlichkeit" und "erwarteter, gemittelter Score", was deutlich erfolgreicher ist als von zuvor praktisch allen Go-KIs nur Ersterer.
Posted by Redaktion
 - Yesterday at 11:23:44
Wer KI zur Informationsbeschaffung nutzt, sollte stets damit rechnen, dass die Informationen halluziniert – also ausgedacht – sind. OpenAI-Forscher wollen nun nicht nur die Ursache, sondern auch eine Lösung für dieses Problem gefunden haben.

https://www.notebookcheck.com/KI-Halluzinationen-Forscher-haben-den-Grund-gefunden-und-eine-Loesung.1108535.0.html