News:

Willkommen im Notebookcheck.com Forum! Hier können sie über alle unsere Artikel und allgemein über Notebook relevante Dinge disuktieren. Viel Spass!

Main Menu

KI-Überlegenheit gegenüber Menschen: OpenAI Studie testet reale Arbeitsaufgaben auf Expertenniveau

Started by Redaktion, October 02, 2025, 14:51:47

Previous topic - Next topic

Redaktion

KI-Überlegenheit gegenüber Menschen: Mit der neuen GDPval-Evaluation zeigt OpenAI, dass moderne Modelle bei praxisnahen Arbeitsaufgaben zunehmend mit Expertinnen und Experten gleichziehen oder diese sogar übertreffen.

https://www.notebookcheck.com/KI-UEberlegenheit-gegenueber-Menschen-OpenAI-Studie-testet-reale-Arbeitsaufgaben-auf-Expertenniveau.1129820.0.html

UmstrittenerNutzer

Quotedass moderne Modelle in vielen Fällen auf Augenhöhe mit menschlichen Profis liegen. So wird berichtet, dass einzelne Modelle in nahezu der Hälfte der Fälle Ergebnisse liefern, die als gleichwertig oder besser eingestuft wurden

Also einzelne Modelle sind halb so gut wie die Menschen.

QuoteEinige zeichnen sich durch bessere ästhetische Gestaltung und Formatierung aus, andere punkten durch höhere Genauigkeit in fachlichen Detailfragen.

Oh, also doch nicht halb so gut, weil die Modelle lieber auf Gestaltung wert legen als auf wenigstens halb so richtige Genauigkeit.

QuoteNeben der inhaltlichen Qualität hebt OpenAI hervor, dass die bearbeiteten Aufgaben deutlich effizienter erledigt werden können

Also Volkswagen wäre verärgert, wenn sie die Hälfte der produzierten Autos wegschmeissen müssten, weil ,,KIs" eben in wenigstens 50% der Fälle nicht den Ansprüchen genügten.
Oder Mediziner oder Handwerker oder Juristen...

QuoteKI-Überlegenheit gegenüber Menschen: OpenAI Studie testet reale Arbeitsaufgaben auf Expertenniveau

Welche Überlegenheit, wenn nicht mal die Hälfte der Ergebnisse irgendwie richtig sind?!

Quotemoderne Modelle bei praxisnahen Arbeitsaufgaben zunehmend mit Expertinnen und Experten gleichziehen oder diese sogar übertreffen.

Das ist eine Lüge! Mal wieder bei Notebookcheck.
Wenn weniger als fünfzig Prozent der Ergebnisse gleichwertig sind, dann kann nach deutschen Regeln weder das Wort ,,zunehmend" noch ,,gleichziehen" oder ,,übertreffen" verwendet werden.
Das sind keine Interpretationen mehr, das sind Falschaussagen.

Quotehängt weniger von einzelnen Testergebnissen ab als von der Art, wie Unternehmen die Modelle in ihre Abläufe einbinden.

Also Notebookcheck könnte inzwischen die Hälfte seiner Autoren durch KI ersetzen und es würde keiner merken. Verhältnis Fakten/Fakes ist inzwischen ungefähr auf KI-Niveau.

Existiert Ulrich Mathey Überhaupt?
Ein Profilbild, welches mögliche KI-Fehler gut kaschieren kann und mit einem aber verdächtigen Spiegelbild + überraschend viele falsch zusammengefasste bzw falsch wiedergegebene Informationen aus anderen Artikeln. Eben typischer KI-Slop-Quark.

Quick Reply

Name:
Email:
Verification:
Please leave this box empty:

Shortcuts: ALT+S post or ALT+P preview