DeepSeek V4 Pro liegt im Regierungs-Benchmark hinter US-KI-Modellen zurück
Eine CAISI-Bewertung sagt, dass DeepSeek V4 Pro Chinas stärkstes Modell ist, aber dennoch hinter führenden US-Frontier-KI-Systemen zurückbleibt.
Eine CAISI-Bewertung sagt, dass DeepSeek V4 Pro Chinas stärkstes Modell ist, aber dennoch hinter führenden US-Frontier-KI-Systemen zurückbleibt.
Ein strenger neuer Benchmark testete führende KI-Modelle bei Aufgaben im Investmentbanking; keine Ausgabe wurde als kundenreif eingestuft, obwohl die Hälfte der Banker darin einen brauchbaren Ausgangspunkt sah.
Ein neuer Benchmark zeigt, dass selbst die besten KI-Modelle bei der Analyse komplizierter Diagramme etwa 50 % an Genauigkeit verlieren und damit eine zentrale Grenze des visuellen Denkens offenlegen.
Das verbesserte Modell Google Gemini 3 Deep Think zeigt in den neuesten Benchmark-Tests eine bessere Leistung als GPT-5.2 von OpenAI und Claude Opus 4.6 von Anthropic.
Claude Opus 4.6 erzielt Durchbruchsergebnisse mit 65.4% bei Terminal-Bench und 72.7% bei OSWorld und übertrifft damit den Gemini 3 Flash in realen Arbeitsanwendungen.