1435 / 1667

Kannst du KI-Text von echtem Menschentext unterscheiden? Dieses Tool testet dich

TL;DR

Ein Entwickler hat eine crowdgesourcte Benchmark gebaut, die testet, ob Menschen KI-Texte von echten Beiträgen unterscheiden können — drei Fehler und das Spiel ist vorbei. Der Datensatz umfasst 16.000 menschliche Posts von Reddit, Hacker News und Yelp (alle vor 2022), jeweils gepaart mit Generierungen von 6 Modellen aus zwei Providern (Anthropic und OpenAI) in drei Leistungsstufen.

Nauti's Take

Das Projekt ist methodisch solide: Pre-2022-Daten, kein adversariales Coaching, length-matched, echte Plattformkontexte. Das ist mehr wissenschaftlicher Anspruch als bei den meisten kommerziellen Detektionstools.

Spannend ist die Implikation: Wenn selbst tech-affine HN-Nutzer KI-Texte kaum erkennen, dann ist 'einfach Menschen fragen' keine Lösung mehr. Ob das Paper mit genug Crowddaten zustande kommt, bleibt offen — aber der Datensatz allein dürfte für Forscher wertvoll sein.

Einordnunganzeigen

Die meisten KI-Detektionstools arbeiten mit Klassifikatoren, die leicht zu täuschen sind und kaum erklären, warum ein Text als KI gilt. Dieser Ansatz dreht das um: echtes menschliches Urteilsvermögen als Grundlage für eine Benchmark. Dass HN-Posts schwerer zu erkennen sind als Reddit, deutet darauf hin, dass KI in formelleren, sachlichen Kontexten bereits sehr glaubwürdig wirkt — genau dort, wo es für Desinformation oder Manipulation am kritischsten wäre.

Quellen