Thema: reasoning

24.7.26

Claude Opus 5 startet auf AWS und zielt auf produktive AI-Agenten

Anthropic bringt Claude Opus 5 als neues Spitzenmodell auf Amazon Bedrock. AWS hebt Verbesserungen für agentische Systeme und Produktions-Workloads hervor, darunter leistungsfähigere Inferenz und eine engere Ausrichtung auf den Betrieb in realen Anwendungen. Für AI-Teams wird damit entscheidend, wie sich das Modell bei langen Aufgabenketten, Tool-Aufrufen und stabiler Skalierung im eigenen Setup schlägt.

23.7.26

OpenAI macht große Versprechen beim breiten Rollout von ChatGPT Health

OpenAI rollt ChatGPT Health am Donnerstag für alle Nutzer in den USA aus – damit kannst du deine Krankenakten und Gesundheitsdaten mit dem Chatbot verknüpfen. Laut Health-Produktchefin Ashley Alexander sind OpenAIs Modelle „inzwischen in der Lage, auf einem Niveau zu argumentieren, das besser ist als das von Ärzten“.

22.7.26

Gemini 3.6 Flash spart bei Coding-Aufgaben Tokens und setzt auf Effizienz statt großer Neuerungen

Google DeepMind hat Gemini 3.6 Flash vorgestellt und den Fokus dabei auf Tempo, Token-Effizienz sowie Verbesserungen bei langen Kontextfenstern und Chart-Verständnis gelegt. Laut der vorliegenden Berichterstattung soll das Modell bei Coding-Aufgaben sparsamer mit Tokens umgehen, während die übrigen Änderungen eher inkrementell wirken.

21.7.26

Günstiges Coding-Modell aus China stellt teure AI-Routinen infrage

ai hat mit GLM 5.2 ein Open-Weights-Modell veröffentlicht, das bei Coding-Aufgaben deutlich günstiger sein soll als Spitzenmodelle wie Anthropic Opus 4.8. Laut IEEE Spectrum nutzt der Together-AI-Ingenieur Zain Hasan solche Modelle gezielt für einfachere Aufgaben und reserviert teurere Frontier-Modelle nur für komplexes Reasoning. Der API-Preis von 4,40 Dollar pro Million Output-Token verschiebt damit die Kostenlogik vieler AI-Workflows.

18.7.26

Moonshot stellt Kimi K3 vor und greift ChatGPT 5.6 sowie Fable 5 frontal an

Moonshot AI hat mit Kimi K3 ein neues Modell vorgestellt, das laut Geeky Gadgets bei mehreren Benchmarks vor Fable 5 und GPT-5.6 liegen soll. Genannt werden 2,88 Billionen Parameter, ein Kontextfenster von 1 Million Token und eine neue Delta-Attention-Architektur für schnellere Verarbeitung.

16.7.26

Leak um Kimi K3: Moonshot-Modell soll GPT 5.6 Sol in ersten Tests überholen

Rund um Moonshot AI kursiert ein Leak zu einem neuen Modell namens Kimi K3, intern offenbar unter dem Codenamen Keyine. Laut einem Bericht von Geeky Gadgets, der sich auf Universe of AI stützt, soll das Modell in frühen Benchmarks besonders bei räumlichem Denken und 3D-Generierung vor GPT 5.6 Sol und Fable 5 liegen. Bestätigte Unterlagen oder unabhängige Messungen fehlen bisher.

13.7.26

DeepSeek V4.1 soll kurz vor Start stehen und native Vision direkt mitbringen

Laut Geeky Gadgets steht DeepSeek V4.1 kurz vor dem Start und soll bessere Reasoning-Fähigkeiten sowie native Vision in einem Modell bündeln. In frühen Einschätzungen wird das Modell als starker Kandidat unterhalb der 300-Milliarden-Parameter-Klasse beschrieben und teils vor Wettbewerbern wie HY3 eingeordnet. Die Quellenlage ist bisher dünn und stützt sich vor allem auf einen einzelnen Bericht.

13.7.26

X Square Robot setzt bei General-Purpose-Robotern auf einen integrierten Foundation-Stack

X Square Robot skizziert einen eigenen Bauplan für General-Purpose-Roboter: ein durchgängiger Stack aus Trainingsdaten, World Model und Action Model. Laut IEEE Spectrum reagiert das Unternehmen damit auf ein Grundproblem der Robotik, denn viele Systeme bestehen weiter aus getrennten Modulen für Wahrnehmung, Planung und Steuerung.

8.7.26

Reasoning-Modelle können in teure Denkschleifen geraten

Forschende der Zhejiang University und von Alibaba zeigen in einer bei ICML 2026 vorgestellten Arbeit, dass logisch widersprüchliche Prompts Reasoning-Modelle zu extrem langen Ausgaben treiben können. Ihr evolutionärer Prompt-Angriff verändert Prämissen und Fragen aus Matheaufgaben, bis Modelle in nutzlosen Denkschleifen landen.

7.7.26

NVIDIA Vera soll CPU-Wartezeiten in agentischen AI-Workflows drücken

NVIDIA positioniert Vera als CPU-Kategorie für agentische AI-Systeme, bei denen hohe Single-Thread-Leistung auch unter voller Core-Auslastung zählt. Zwischen Modellaufrufen warten Agenten oft auf Tool Calls, Code-Ausführung, Datenverarbeitung, KV-Cache-Arbeit oder Ergebnisprüfungen. Vera nutzt den Olympus-Core mit laut NVIDIA 50 Prozent mehr IPC als Grace, 88 Cores und hoher Speicherbandbreite.

7.7.26

Anthropic findet versteckten Denkraum in Claude

Anthropic beschreibt bei Claude einen kleinen internen Arbeitsbereich, der Konzepte halten und verändern kann, ohne sie direkt in Text auszugeben. Das Unternehmen nennt ihn J-Space, nach der Jacobian-Methode, mit der diese Aktivierungen entdeckt worden sein sollen. Laut Anthropic können dort Begriffe wie Golden Gate Bridge und California aktiv bleiben, obwohl die sichtbare Aufgabe nur Kopieren verlangt.

29.6.26

AWS kombiniert Nova 2 Lite und Claude für günstigere Dokumentenverarbeitung

- AWS beschreibt eine Bedrock-Pipeline für gescannte Jahrbuchseiten: Amazon Nova 2 Lite erkennt Fotos, extrahiert sichtbare Namen samt Koordinaten und liefert Seitenmetadaten in einem einzigen multimodalen Aufruf. - Claude Sonnet 4.6 übernimmt anschließend das räumliche Matching und ordnet anhand von Nova-JSON, Bilddaten und Seitenlayout die erkannten Namen den passenden Gesichtern zu.

22.6.26

ChatGPT 5.6 Pro: Leak verspricht mehr Reasoning-Power, Beweise fehlen noch

- Geeky Gadgets berichtet über einen Leak zu ChatGPT 5.6 Pro mit angeblichem Release am 25. Juni 2026; eine offizielle OpenAI-Bestätigung liegt im Artikel nicht vor. - Der zentrale Claim: Das Reasoning-Effort-Budget soll von 768 auf 960 steigen, damit der Pro-Modus längere Planung, komplexere Aufgaben und agentische Workflows besser schafft.

20.6.26

ChatGPT 5.6 Pro: Stealth-Tests zeigen angeblich mehr Logik, Code und 3D-Power

Geeky Gadgets berichtet unter Berufung auf Universe of AI, dass OpenAI GPT-5.6 Pro angeblich verdeckt unter dem Label GPT-5.5 Pro getestet hat; ein Release steht laut Bericht für den 25. Juni 2026 im Raum. Die Stärken sollen bei Reasoning, Logik, 3D-Design, SVG, Three. js und Backend-Code liegen, mit Demos wie BMW-Prototypen und verschneiten Stadtszenen.

19.6.26

IEEE macht LLM-Kompetenz zum Ingenieurspflichtfach

- IEEE bietet mit Large Language Models Demystified ein virtuelles Fünf-Kurse-Programm im IEEE Learning Network an, entwickelt mit IEEE Educational Activities und der IEEE Computer Society. - Der Kurs zielt nicht auf Prompting-Basics, sondern auf technische Grundlagen: Transformer, Self-Attention, positional encoding, Modellbau, Training, Optimierung und Deployment.

15.6.26

Google DeepMinds Gemma 4 landet als Managed-Service in Amazon Bedrock

Amazon Bedrock nimmt Googles Gemma-4-Familie in sein Modellangebot auf. Die Open-Weight-Modelle unter Apache-2.0-Lizenz kommen als vollständig verwalteter AWS-Service mit den Varianten Gemma 4 31B, Gemma 4 26B-A4B und Gemma 4 E2B. Sie unterstützen Text- und Bildeingaben, Reasoning-Modi und natives Function Calling.

11.6.26

Gemini 3.5 Pro-Leak zeigt Googles Rückstand bei Reasoning, Coding und Langzeitaufgaben

Ein unerwarteter Leak zu Gemini 3.5 Pro zeichnet ein gemischtes Bild von Googles neuem KI-Modell. Dem Bericht zufolge zeigt das Modell Stärken, fällt aber bei fortgeschrittenem Reasoning, Coding und längerer Aufgabensteuerung hinter Rivalen wie Anthropic und OpenAI zurück. Besonders heikel ist das, weil genau diese Fähigkeiten über produktive Agenten, Entwickler-Workflows und Enterprise-Einsatz entscheiden.

10.6.26

Anthropics Fable 5 zeigt, warum kostenlose KI-Dienste auslaufen

Anthropic hat mit Fable 5 ein neues KI-Modell vorgestellt, das stärkeres Reasoning, mehr Sicherheitskontrollen und autonome Workflow-Steuerung kombiniert. Laut Geeky Gadgets soll es vor allem in anspruchsvollen Feldern wie Softwareentwicklung und Genomforschung nützlich sein. Der Haken: Solche Fähigkeiten kosten Rechenleistung, Monitoring und Haftungsarbeit.

3.6.26

Microsoft und OpenAI sind getrennt – jetzt geht der Kampf los

Auf seiner Build-Konferenz hat Microsoft eine ganze Reihe neuer AI-Initiativen angekündigt: eine Super-App, eigene Reasoning-Modelle, ein Security-Tool und autonome AI-Agenten. Die Botschaft ist klar – Microsoft will einer der größten AI-Player sein und handelt endlich danach.

2.6.26

Microsofts erstes fortgeschrittenes Reasoning-Modell ist da

Microsoft hat auf der Build 2026 gleich mehrere eigene AI-Modelle vorgestellt – darunter das neue Flaggschiff MAI-Thinking-1. Das mittelgroße Reasoning-Modell soll laut Microsoft führende Modelle bei zentralen Software-Engineering-Benchmarks erreichen und wurde komplett ohne Distillation aus fremden Modellen auf sauberen Daten trainiert. Damit löst sich Microsoft weiter aus der Abhängigkeit von OpenAI, deren Deal beide Firmen kürzlich neu verhandelt haben.

2.6.26

Warum messen wir nicht, wie AI uns Menschen verändert?

Je leistungsfähiger AI-Systeme werden, desto mehr Aufwand fließt in die Messung ihrer Fähigkeiten – Benchmarks, Reasoning-Tests, Durchsatz. Eine zentrale Frage bleibt dabei meist außen vor: Was macht AI eigentlich mit uns Menschen?

2.6.26

Open Source MiniMax M3 schlägt Opus 4.7 zum Bruchteil der Kosten

MiniMax M3 sorgt in der AI-Community für Aufsehen: Das Open-Source-Modell verbindet starke Fähigkeiten mit niedrigen Kosten. Es verarbeitet Text und Bilder über multimodales Reasoning und eignet sich damit für Aufgaben wie Bildbeschreibung oder die Generierung von Multimedia-Inhalten.

1.6.26

Microsoft zeigt auf der Build neue AI-Modelle und Windows-Updates

Microsoft will auf seiner Build-Konferenz in San Francisco die Entwickler zurückgewinnen — in einem kleineren, intimeren Rahmen als sonst. Laut Branchenberichten gibt es neue AI-Modelle in Windows, ein neues Reasoning-Modell von Microsoft AI und eine Copilot-„Super-App“ zu sehen. Das Vertrauen in Windows und GitHub gilt als angeschlagen, und Microsoft nutzt die Bühne, um die eigene AI-Zukunft zu skizzieren.

1.6.26

Gemini 3.5 Flash verändert App-Entwicklung per Vibe Coding

Googles jüngstes Upgrade Gemini 3.5 Flash bringt neue Fähigkeiten für produktiveres Arbeiten und komplexe Workflows. Dazu zählen multimodale Bildanalyse, natives Video-Verständnis mit Zeitstempeln und deutlich größere Token-Limits für umfangreiche Datensätze. Laut AI Master adressieren die Updates auch praktische Probleme wie zu ausschweifende Antworten bei reasoning-lastigen Aufgaben.

29.5.26

Complete Breakdown of the Gemini 3.5 Pro, Claude Lab, and Xiaomi MiMO 2.5 Updates

Google Gemini 3.5 Pro und Xiaomis MiMO 2.5 bringen spürbare Fortschritte bei Leistung und Zugänglichkeit. Gemini 3.5 Pro führt die Reasoning-Variante „X-High" ein, die komplexe, mehrstufige Aufgaben mit besserem Kontextverständnis löst. Xiaomis MiMO 2.5 setzt unterdessen auf ein eigenes Upgrade.

29.5.26

Warum Anthropic Claude Opus 4.8 schon 40 Tage nach dem letzten Update ausrollt

Claude Opus 4.8 bringt gezielte Verbesserungen für Entwickler-Workflows, statt nur Benchmarks zu jagen. Neu sind dynamische Workflows mit parallelen Sub-Agents – nützlich für Code-Migrationen und Bug-Detection. Außerdem kehrt die manuelle Effort-Steuerung zurück, mit der du Rechenleistung gezielt auf komplexe Aufgaben verteilen kannst.

26.5.26

High-Performance-AI-Systeme bauen mit Strands Agents, NVIDIA NIM und AgentCore

Der Beitrag zeigt Schritt für Schritt, wie sich ein Multi-Agenten-System für Kampagnen-Reviews aufsetzen lässt: NVIDIA NIM liefert GPU-beschleunigte Inferenz, Amazon Bedrock AgentCore bringt Runtime, Shared Memory und Observability, Strands Agents übernehmen die serverless Orchestrierung. Dieselbe Architektur lässt sich auf digitale Assistenten, Review-Automatisierung und RAG-Pipelines übertragen.

26.5.26

Selbstlernendes KI-System mit gratis 1-Millionen-Token-Kontextfenster

Die Kombination aus DeepSeek V4 und dem Hermes Agent erweitert die Möglichkeiten quelloffener KI deutlich. Ein dauerhaftes, selbstverbesserndes Framework trifft auf starke Reasoning-Fähigkeiten – eine flexible Lösung für komplexe Aufgaben. Besonders auffällig ist das riesige Kontextfenster von einer Million Token, das vielschichtige Inhalte am Stück verarbeitet.

24.5.26

DeepSeek AI: 90% weniger Tokens als die Milliarden-Modelle

DeepSeek AI zeigt einen neuen Ansatz fürs visuelle Reasoning: Statt ausführlicher Textbeschreibungen nutzt das Modell einen Pointing-Mechanismus, der seine Reasoning-Schritte direkt auf Bildobjekten markiert. Das senkt den Rechenaufwand drastisch und kommt menschlicher Wahrnehmung näher. Laut Geeky Gadgets reicht DeepSeek damit an die Leistung von Milliarden-Dollar-Modellen heran – mit rund 90% weniger Tokens.

23.5.26

Big Tech setzt sich durch: Trump kassiert AI-Safety-Review per Executive Order

Wenige Stunden vor der Unterzeichnung zog Trump seine geplante Executive Order zurück, die einen staatlichen Safety-Review für neue AI-Modelle vor der Veröffentlichung verlangt hätte. Als Begründung nannte er US-Dominanz und Wettbewerb mit China im AI-Rennen. Experten warnen vor wachsenden Sicherheitsrisiken neuer Modelle und der öffentliche Druck steigt – durchgesetzt hat sich aber die Tech-Lobby.

21.5.26

Wie OpenAI ein 80 Jahre altes Mathe-Rätsel gelöst hat

OpenAI hat das sogenannte Unit-Distance-Problem geknackt – eine Vermutung aus der Kombinatorik, die seit über 80 Jahren offen war und auf Paul Erdős zurückgeht. Es geht um die maximale Anzahl gleicher Einheitsabstände zwischen Punkten in der Ebene. Mit Methoden der algebraischen Zahlentheorie und AI-gestützten Beweisstrategien gelang der Durchbruch.

21.5.26

Zwei Stunden, die AI verändert haben

Am Mittwochnachmittag produzierte die AI-Branche in zwei Stunden eine außergewöhnliche Schlagzeilen-Welle, die die volle Ambition der Industrie sichtbar machte. Smartere Systeme, explodierende Umsätze, donnernde Märkte und enormer Infrastruktur-Hunger treffen auf eine US-Regierung, die nachziehen muss.

13.5.26

Können AI-Chatbots wie Ärzte diagnostizieren?

Eine in Science veröffentlichte Studie zeigt: Ein OpenAI-LLM hat Ärzte bei klinischen Reasoning-Aufgaben mit echten Notaufnahme-Daten in mehreren Tests übertroffen. Gleichzeitig warnen andere Studien vor erfundenen Quellen, fehlerhaften Empfehlungen und unklaren Entscheidungswegen. Klinisches Reasoning per AI rückt näher an den Praxisalltag — aber nur mit harten Sicherheitschecks.

12.5.26

Wie Gemini Remy mit 3.2 Flash Thinking KI-Reasoning neu definiert

Googles Gemini Remy nutzt die 3.2 Flash Thinking Modelle für einen neuen Workflow-Ansatz – inklusive experimentellem 'Agentic Mode', der Tasks autonom managt. Laut Universe of AI ist das vor allem für komplexe Entwicklungsprozesse interessant, in denen Speed und Präzision zählen. Geeky Gadgets ordnet die Demo ein.

8.5.26

OpenAIs GPT Realtime 2: Grosser Sprung für Voice AI

OpenAI legt mit GPT Realtime 2 ein Voice-AI-Modell vor, das auf der Reasoning-Power von GPT-5 aufbaut und natürliche, kontextbewusste Gespräche ermöglicht. Es kann komplexe Aufgaben wie technisches Troubleshooting oder Terminplanung übernehmen, ohne den Gesprächsfluss zu verlieren. Laut Universe of AI passt sich das Modell dynamisch an, was Antworten präziser und situativ angemessener macht.

7.5.26

GRPO und verifizierbare Rewards: bessere RL-Trainings auf SageMaker AI

AWS demonstriert Reinforcement Learning mit verifizierbaren Rewards (RLVR) auf SageMaker AI, damit Reward-Signale prüf- und transparent werden. Der Ansatz spielt seine Stärken aus, wenn Outputs objektiv verifizierbar sind — Mathe, Code oder symbolische Aufgaben. Mit Group Relative Policy Optimization (GRPO) und Few-Shot-Beispielen lassen sich Resultate auf dem GSM8K-Datensatz weiter verbessern.

4.5.26

Perfekte AI-Ausrichtung an menschlichen Werten ist mathematisch unmöglich

Eines der härtesten Probleme der AI-Forschung ist Alignment — also sicherzustellen, dass AI-Ziele unseren entsprechen. Britische und internationale Forscher zeigen jetzt im Journal PNAS Nexus: Perfekte Übereinstimmung zwischen AI-Systemen und menschlichen Interessen ist mathematisch unmöglich.

3.5.26

Googles neue DeepMind Medical AI: So könnte sie das Gesundheitswesen für immer verändern

Googles DeepMind hat mit dem AI Co-clinician ein System vorgestellt, das medizinische Konsultationen grundlegend verändern soll. Es kombiniert fortgeschrittenes diagnostisches Reasoning mit Echtzeit-Videoanalyse und arbeitet direkt an der Seite von Ärztinnen und Ärzten. Bei einer videobasierten Untersuchung kann die AI den Arzt durch den Ablauf führen, Auffälligkeiten markieren und Diagnose-Hypothesen vorschlagen.

26.4.26

Wie ChatGPT Image 2 Kreativteams leise umbaut

OpenAIs ChatGPT Image 2 verschiebt die Grenzen der KI-Bildgenerierung und bringt Features mit, die Teamdynamiken und Workflows spürbar verändern können. Nate Jones zeigt, wie reasoning-basierte Outputs und Multi-Frame-Konsistenz Rollen quer durch Branchen umkrempeln. Kulturell zugeschnittene Ad-Kampagnen lassen sich direkt aus dem Modell heraus generieren — Designer, Strategen und Producer spüren das gleichzeitig.

24.4.26

DeepSeek verspricht weltklasse Reasoning mit neuem KI-Modell

DeepSeek hat seine neuesten KI-Modelle vorgestellt – V4 Pro und Flash. V4 Pro punktet mit agentischen Fähigkeiten und soll laut Eigeneinschätzung mit führenden Closed-Source-Modellen mithalten, bei World Knowledge nur hinter Gemini 3.1 Pro. Beide Versionen bleiben Open-Source und unterstützen ein Kontextfenster von einer Million Tokens.

21.4.26

ChatGPT bekommt neue Bild-Engine mit Thinking-Modus

OpenAI hat ChatGPT Images 2.0 vorgestellt – eine neue Bild-Engine, die Texte besser rendert und komplexere Anfragen verarbeitet. Das Modell unterstützt verschiedene Seitenverhältnisse und bietet neben dem Standardmodus auch einen leistungsstärkeren Thinking-Modus. Starke neue Bildmodelle sorgen regelmäßig für virale Momente und treiben die App-Downloads in die Höhe.

21.4.26

ChatGPT Images 2.0: OpenAIs Bildgenerator durchsucht jetzt das Web

OpenAI hat ChatGPT Images 2.0 gestartet, das mit neuen Thinking-Fähigkeiten und Web-Zugriff ausgestattet ist. Der Generator kann jetzt online nach Informationen suchen, um aus einem einzigen Prompt mehrere, präzisere Bilder zu erstellen. Textumsetzung, Instruktionsfolge und Stilkonsistenz wurden dabei deutlich verbessert.

17.4.26

Warum Google DeepMind Single-Score-AI-Tests aufgegeben hat

Google DeepMind hat ein neues Framework zur Bewertung von Artificial General Intelligence (AGI) vorgestellt – und verabschiedet sich damit von klassischen Einzel-Benchmarks. Stattdessen werden KI-Systeme über zehn kognitive Dimensionen analysiert: von Wahrnehmung und Reasoning bis hin zu sozialer Kognition. Das Ergebnis ist ein detailliertes Fähigkeitsprofil, das zeigt, wo ein Modell stark ist und wo es Grenzen hat.

16.4.26

Automated Reasoning in Amazon Bedrock für sichere AI-Compliance

Amazon Bedrock bietet mit Automated Reasoning Checks formale Verifikationsmethoden, die mathematisch bewiesene Ergebnisse liefern – weit über probabilistische AI-Validierung hinaus. Sechs Branchen nutzen diese Technologie bereits, um formal verifizierbare und prüfbare KI-Outputs zu erzeugen, die regulatorischen Anforderungen standhalten.

16.4.26

Enterprise AI als Betriebsschicht: Wer die Infrastruktur kontrolliert, gewinnt

In der Enterprise-KI-Debatte geht es längst nicht mehr nur um Modell-Benchmarks wie GPT vs. Gemini – der eigentliche Wettbewerb findet auf der Betriebsschicht statt, wo KI-Intelligenz angewendet und gesteuert wird. Wer diesen Operating Layer kontrolliert, hat den nachhaltigsten strukturellen Vorteil, egal welches Grundlagenmodell gerade führt.

15.4.26

Noch eine Studie: AI schadet nachweislich unserem Gehirn

Forscher aus den USA und Großbritannien haben untersucht, was AI mit unserem Gehirn macht – die Ergebnisse sind besorgniserregend. Die Studie 'AI assistance reduces persistence and hurts independent performance' zeigt: AI-Unterstützung verbessert die kurzfristige Leistung, schadet aber der Ausdauer und dem eigenständigen Problemlösen.

15.4.26

Wie der Gemma 4 Vision Agent mit seinem Agentic Loop komplexes Visual Reasoning löst

Der Gemma 4 Vision Agent kombiniert das Gemma 4 Vision Language Model mit dem Falcon Perception Model, um anspruchsvolle Aufgaben in Computer Vision und multimodalem Reasoning zu meistern. Durch einen iterativen Agentic Loop verfeinert das System seine Ausgaben schrittweise und verbessert so die Genauigkeit bei Objekterkennung, Segmentierung und Szenenanalyse.

14.4.26

Boston Dynamics und Google DeepMind bringen Spot das Denken bei

Boston Dynamics und Google DeepMind arbeiten gemeinsam daran, dem Roboter Spot echtes Reasoning beizubringen. Bisher mussten Roboter explizit programmiert werden – jetzt sollen sie über KI-gestützte Sprachmodelle natürliche Befehle verstehen und eigenständig handeln. Spot kann zunehmend komplexe Situationen einschätzen und flexibel reagieren, was einen großen Schritt in der Mensch-Roboter-Interaktion darstellt.

13.4.26

Warum Chinas KI-Modelle heimlich mit komplexem Reasoning kämpfen

Trotz aller medialen Aufmerksamkeit hat Chinas KI-Entwicklung laut aktuellen Evaluierungen erhebliche Schwächen bei komplexem Reasoning. Im ARC AGI 2 Test – einem Benchmark für neuartiges Schlussfolgern – liegen chinesische Modelle rund acht Monate hinter dem State of the Art zurück. Das zeigt, dass die Geschwindigkeit bei der Entwicklung neuer Modelle nicht automatisch für die Tiefe der Fähigkeiten steht.

8.4.26

Meta Muse Spark bringt Reasoning-Fähigkeiten in die Meta AI App

Nach dem verhaltenen Empfang von Llama 4 veröffentlicht Meta mit Muse Spark das erste Modell seines neu gegründeten Superintelligence-Teams. Muse Spark bringt Reasoning-Fähigkeiten in die Meta AI App und markiert den Start der neuen Muse-Modellfamilie.

31.3.26

Dewey: Dokumente semantisch durchsuchen, AI-Antworten mit Zitaten

- Dewey ist ein RAG-Framework, das Dokumente nicht als flache Absatz-Sammlung behandelt, sondern Dokumente, Abschnitte und Chunks als eigenständige API-Primitive modelliert. - Ein 'Section Manifest' liefert die vollständige Überschriften-Hierarchie mit Byte-Offsets – Agents können so günstig die Struktur scannen, bevor sie teure Chunk-Abrufe starten.

31.3.26

Warum AI-Modell-Customization zur Architektur-Pflicht wird

- Die Ära der 10x-Sprünge bei allgemeinen LLMs ist vorbei – Verbesserungen werden inkrementell, nicht mehr revolutionär. - Domänenspezifische KI-Modelle bilden die Ausnahme: Hier sind echte Leistungssprünge noch möglich, wenn Modelle mit Unternehmensdaten fusioniert werden. - Modell-Customization wird zur Architektur-Pflicht – wer auf Basis-Modelle setzt, verliert gegenüber spezialisierten Wettbewerbern an Boden.

28.3.26

Claude Mythos 5 mit 10 Billionen Parametern? Warum du skeptisch sein solltest

- Laut einem Bericht von Geeky Gadgets soll Anthropic ein neues Modell namens 'Claude Mythos 5' mit angeblich 10 Billionen Parametern vorgestellt haben. - Das Modell soll laut dem Artikel besonders in Cybersecurity, Coding und akademischem Reasoning stark sein. - Unabhängige Bestätigungen durch Anthropic, offizielle Pressemitteilungen oder technische Dokumentation fehlen bislang vollständig.

27.3.26

Anthropic leakt neues Modell mit "beispiellosen Cybersecurity-Risiken"

- Anthropic hat versehentlich ein noch nicht angekündigtes Modell namens 'Claude Mythos' geleakt – ausgerechnet das Unternehmen, das sonst penibel auf sichere KI-Kommunikation achtet. - Laut durchgesickerten Informationen soll das Modell so leistungsfähig sein, dass Anthropic es intern als Sicherheitsrisiko im Bereich Cybersecurity einstuft.

23.3.26

NVIDIA OpenShell: Wie autonome KI-Agenten von Anfang an sicher werden sollen

- NVIDIA stellt OpenShell vor, ein Framework das autonome KI-Agenten 'Secure by Design' machen soll – also Sicherheit von Grund auf einbaut statt nachträglich flickt. - Agenten können heute Dateien lesen, Code schreiben und ausführen, Tools nutzen und komplexe Workflows über Unternehmenssysteme hinweg steuern.

11.3.26

NVIDIA Nemotron 3 Super: 5x mehr Durchsatz für Agentic AI

- NVIDIA hat Nemotron 3 Super veröffentlicht – ein Open-Modell mit 120 Milliarden Parametern gesamt, davon nur 12 Milliarden aktiv (MoE-Architektur). - Der Hersteller verspricht fünffach höheren Durchsatz gegenüber vergleichbaren Dense-Modellen – speziell für agentic AI ausgelegt. - Perplexity integriert das Modell direkt und bietet Nutzern bereits Zugang zu Nemotron 3 Super.

11.3.26

ChatGPT 5.4 Pro steuert deinen Desktop direkt – in Echtzeit

- ChatGPT 5.4 Pro von OpenAI beherrscht jetzt native Desktop-Steuerung und kann direkt in laufende Workflows auf dem Rechner eingreifen. - Auf professionellen Task-Benchmarks erreicht das Modell laut AI Grid eine Erfolgsrate von 52 % bei komplexen Aufgaben – etwa in Finanz- und Gesundheitsbranche.

5.3.26

GPT-5.4 bringt OpenAI-Agenten erstmals auf den Desktop

- OpenAI hat GPT-5.4 veröffentlicht – ein Modell, das Reasoning, Coding und Arbeit mit Dokumenten, Tabellen und Präsentationen kombiniert. - Erstmals bringt OpenAI native Computer-Use-Fähigkeiten in ein eigenes Modell: GPT-5.4 kann selbstständig einen Computer bedienen und Aufgaben app-übergreifend erledigen.

5.3.26

OpenAI macht KI-Reasoner mit CoT-Control überwachbar

- OpenAI-Forscher haben CoT-Control entwickelt – eine Technik, um die Gedankenketten von Reasoning-Modellen aktiv zu steuern und zu überwachen. - Tests mit mehreren großen Sprachmodellen zeigen: Manche Modelle konnten ihre interne Konsistenz durch CoT-Control verbessern, andere nicht.

26.2.26

Nano Banana 2 setzt KI-Bildtempo in Gemini und Google Image

- Google hat Nano Banana 2 als neues Standard-Bildgenerierungsmodell in der Gemini-App und im KI-Modus von Google Image eingeführt. - Das Modell ist laut Google 30 % schneller als sein Vorgänger Nano Banana – ohne Angaben zur Bildqualität im Vergleich. - Nano Banana 2 soll Bilder schnell und effizient erzeugen und die Nutzererfahrung in Googles KI-Diensten verbessern.

5.2.26

GPT-5.3 Codex Systemkarte

OpenAI hat die System Card für GPT-5.3-Codex veröffentlicht – laut Unternehmen das bisher leistungsfähigste agentische Coding-Modell. - Das Modell kombiniert die Code-Performance von GPT-5.2-Codex mit den Reasoning- und Wissensfähigkeiten von GPT-5.2 - Es ist speziell für agentische Workflows optimiert und kann eigenständig komplexe, mehrstufige Programmieraufgaben lösen - Die System Card dokumentiert Sicherheitsevaluierungen, Red-Teaming-Ergebnisse und…

4.2.26

Ein neuer AI Math-Startup hat gerade 4 zuvor ungelöste Probleme geknackt

Das KI-Startup Axiom hat vier bisher ungelöste mathematische Probleme geknackt – ein Zeichen für die stetig wachsenden Reasoning-Fähigkeiten von KI. - Die gelösten Aufgaben stammen von einer Liste mit 109 Problemen, die selbst Spitzenmathematiker für unlösbar hielten – die Erfolgsquote liegt bei rund 3,7% - Axiom nutzt spezialisierte Reasoning-Modelle, die mathematische Beweise schrittweise und logisch aufbauen - Der Durchbruch markiert einen wichtigen…

Thema: #reasoning