CovaSyn

← Vertrauen & Compliance

ICLR 2026 Benchmark

Auf dem peer-reviewed MolecularIQ-Benchmark scoren Frontier-LLMs 21–41 % bei chemischer Strukturanalyse. Mit CovaSyn-MCP-Tools: 85–92 %. Hier sind die Zahlen, und was sie nicht zeigen.

Baseline vs +CovaSyn MCP über drei Frontier-LLMs (ICLR-2026-Stil)
Fig. 1. Score per Modell × Konfiguration auf 3.540 verifizierten Chemie-Fragen.

Top-Line-Zahlen

ModellBaseline+ CovaSyn MCPΔLift
Claude Haiku 4.521,18 %85,38 %+64,20 pp4,03×
Claude Opus 4.740,75 %91,51 %+50,76 pp2,25×
OpenAI GPT-5.522,29 %89,92 %+67,63 pp4,03×

Was das in Kosten bedeutet

Frontier-Modelle sind teuer. Mit CovaSyn lässt sich oft das günstigere Modell verwenden, ohne Genauigkeit aufzugeben.

KonfigurationGenauigkeit$/FrageLatenz
Opus 4.7 baseline40,75 %0,02529 $5,1 s
Opus 4.7 + CovaSyn MCP91,51 %0,12536 $7,4 s
Haiku 4.5 + CovaSyn MCP85,38 %0,00781 $5,8 s
Haiku 4.5 baseline21,18 %0,00069 $2,1 s
GPT-5.5 + CovaSyn MCP89,92 %0,03005 $9,4 s

Die scharfe Aussage:

Haiku 4.5 + CovaSyn liefert 2,1× die Genauigkeit von Opus 4.7 baseline bei 32 % der Kosten, und bleibt 16× günstiger als Opus 4.7 + CovaSyn bei nur 6 pp weniger Genauigkeit.

Pareto-Frontier: Genauigkeit (y-Achse) versus Kosten pro Frage (x-Achse). Haiku 4.5 mit CovaSyn liegt oben links, hohe Genauigkeit bei niedrigen Kosten.
Fig. 2. Cost-Accuracy-Pareto. Haiku mit CovaSyn liegt oben links, also hohe Genauigkeit bei niedrigen Kosten pro Frage.

Wo CovaSyn am stärksten hebelt

Mean-Accuracy-Lift über 8 Frage-Kategorien (Durchschnitt über alle drei Modelle):

KategorieBaseline+ CovaSyn MCPΔ
Scaffold & Fragments18,0 %86,5 %+68,4 pp
Rings & Topology29,4 %93,2 %+63,8 pp
Bonds & Chains17,6 %80,9 %+63,3 pp
Multi-Feature Questions27,3 %88,4 %+61,1 pp
Atom & Formula Counts38,7 %98,3 %+59,7 pp
Stereochemistry28,7 %86,0 %+57,4 pp
Electronics & H-Bonds31,2 %81,5 %+50,3 pp
Per-Kategorie-Lift über alle Modelle, gruppiert nach Fragetyp.
Fig. 3. Lift pro Kategorie. Stärkster Hebel: Scaffold & Fragments (+68,4 pp).
Zusammenfassung: Genauigkeit aller sechs Konfigurationen über alle Komplexitätsstufen.
Fig. 4. Gesamt-Summary. Drei Modelle, zwei Konfigurationen, drei Komplexitäts-Bins.

Methodik

Benchmark

MolecularIQ von Bartmann et al., ICLR 2026 (arXiv:2601.15279). 3.540 Aufgaben, 65 Merkmale, drei Komplexitätsstufen. Dataset öffentlich auf HuggingFace.

Modelle

Claude Haiku 4.5, Claude Opus 4.7 und GPT-5.5. Jeweils mit und ohne CovaSyn-MCP-Anbindung.

Verifikation

Symbolisch, ohne LLM-Richter. Score nur bei voller Übereinstimmung mit der Ground Truth.

Tools

Fünf Chemie-Primitive aus der CovaBasicChem-Suite. Cheminformatik-Operationen, deterministisch, validiert.

Volumen

10.720 Modell-Antworten insgesamt. Haiku auf dem vollen Set, Opus und GPT-5.5 auf einer stratifizierten Stichprobe.

Wo wir noch besser werden

Keine 100 % Trefferquote, und genau das wollen wir auch nicht verheimlichen. Hier sehen Sie, wie sich die verbleibenden Fehler verteilen und an welchen Stellen Sie für Ihre eigene Validierung genauer hinschauen sollten.

KategorieHaiku + MCPOpus + MCPGPT-5.5 + MCP
Korrekt73,2 %83,0 %83,6 %
Tool-Ergebnis verworfen21,6 %14,5 %10,9 %
Tool-Wert nicht passend4,8 %2,2 %1,4 %
Formatfehler0,2 %0,2 %4,1 %

Der Großteil der verbleibenden Lücke entsteht zwischen Tool und Modell, nicht im Tool selbst. Wir adressieren das laufend.

Quellenangabe

Bartmann C., Schimunek J., Ielanskyi M., Seidl P., Klambauer G., Luukkonen S. (2026). MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs. ICLR 2026 (Poster, Pavilion 4 · P4-#5202, 24 Apr 2026), arXiv:2601.15279. Code: github.com/ml-jku/moleculariq. Dataset: huggingface.co/datasets/ml-jku/moleculariq-v0.0. Daten-Snapshot: 2026-05-17.

Tiefer einsteigen

Ausführliche Analyse mit Methodik, Implikationen und FAQ

Etwa 12 Minuten Lesezeit. Hintergrund zur Modell-Auswahl, Cost-Pareto im Detail, GxP-Implikationen, häufige Fragen.

Selbst testen

Die Tools, die diesen Lift produzieren, stehen in jedem CovaSyn-Account zur Verfügung. Auch im Free-Tier mit 100 Credits pro Woche.

ICLR 2026 Benchmark. CovaSyn auf MolecularIQ - CovaSyn