AI-Scientist trifft MCP: Was die drei Nature-Paper vom 19. Mai 2026 für deterministische Chemie-Tools bedeuten
FutureHouse (Robin), Google DeepMind (Co-Scientist) und DeepMind (ERA) haben am 19. Mai 2026 zeitgleich in Nature gezeigt, dass AI-Systeme Hypothesen generieren, Experimente designen und Software-Methoden optimieren können. Was die Paper unterschlagen: ohne deterministische, validierte Rechenwerkzeuge bleibt der Zyklus an menschlicher Validierung hängen. Hier setzt MCP an. Ein Lese-Rahmen.
Oliver Kraft
CovaSyn

Worum es geht
Am 19. Mai 2026 sind in Nature drei Paper zeitgleich erschienen, die in der Summe einen Trendwechsel markieren: AI-Systeme arbeiten in der wissenschaftlichen Entdeckung jetzt durchgehend, nicht nur assistierend. Hypothesen, Experimentdesign, Code-Optimierung — alles automatisierbar. Drei Architekturen, drei Bereiche, ein gemeinsames Muster.
Was diesem Muster fehlt, ist eine deterministische Schicht, die unten arbeitet. Ohne sie bleibt jeder dieser Agenten an menschlicher Kontrolle hängen, sobald es um regulatorisch relevante Berechnung geht. Genau dafür gibt es das Model Context Protocol — und genau dort positionieren wir CovaSyn.
Die drei Paper im Schnelldurchlauf
Robin (FutureHouse).
Ein Multi-Agent-System, das aus dem reinen Eingang „dry age-related macular degeneration" eine Therapie-Hypothese formuliert (Verstärkung der RPE-Phagozytose), in 30 Minuten 551 Paper durchschnittlich auswertet, einen bekannten Glaukom-Wirkstoff (Ripasudil) als Kandidaten benennt und im RNA-seq-Follow-up ABCA1 als möglichen neuen mechanistischen Treiber identifiziert. Berichtete Effektgröße: 1.89-fache Steigerung der Phagozytose in primären humanen RPE-Stammzellen. DOI: [10.1038/s41586-026-10652-y](https://doi.org/10.1038/s41586-026-10652-y).
Co-Scientist (Google DeepMind).
Gemini-basiertes Multi-Agent-System mit Self-Play-Turnier zur Hypothesen-Generation und -Bewertung. Drei biomedizinische Validierungen in Nature: KIRA6 als AML-Kandidat mit 18-facher Selektivitäts-Fenster (primitive AML-Zellen vs Lymphoblastoid-Kontrollen), Vorinostat als anti-fibrotisch im humanen Leberorganoid, und unabhängige Re-Entdeckung eines unpublizierten Befunds zu bakteriellem Gentransfer bei AMR — in zwei Tagen Compute. DOI: [10.1038/s41586-026-10644-y](https://doi.org/10.1038/s41586-026-10644-y).
ERA (Google DeepMind).
LLM-getriebene Tree-Search, die wissenschaftliche Software iterativ gegen eine Qualitätsmetrik umschreibt. Ergebnisse: 40 Methoden, die den bisherigen State-of-the-Art bei scRNA-seq-Batch-Integration auf dem OpenProblems-Benchmark schlagen; 14 Modelle, die die CDC-CovidHub-Ensembles für COVID-19-Hospitalisierung in der Saison 2024 / 25 quer durch 52 US-Jurisdiktionen schlagen; Expert-Level-Performance in Geo-Segmentation und neuraler Aktivitäts-Prognose. DOI: [10.1038/s41586-026-10658-6](https://doi.org/10.1038/s41586-026-10658-6).
Die drei Studien teilen eine offene Stelle, die in jedem der Paper unter „Limitations" oder „Discussion" landet: Die nasse Laborarbeit, die Validierung, die finale regulatorische Bewertung — bleibt beim Menschen. Robin's Performance bei unbeaufsichtigten Bioinformatik-Aufgaben fällt laut Paper auf 15 Prozent. Co-Scientist braucht menschliche Experten bei der Kandidaten-Auswahl. Alle drei sind explizit als „alongside human scientists" konzipiert.
> **Wo es im Markt klemmt:** Im Benchling Biotech AI Report 2026 (n=100 AI-Leader) nennen 55 Prozent „schlechte Datenqualität" als Hauptgrund, warum AI-Pilots nicht in Produktion gehen. Die Nature-Paper zeigen den oberen Layer (Hypothesen, Design); der Benchling-Report zeigt, dass es unten klemmt. Genau in dieser Lücke sitzt die deterministische Tool-Schicht.
Warum das die MCP-Frage stellt
Schaut man auf die Architekturen, sind alle drei Systeme im Kern LLM-Agenten mit Werkzeugen. Robin hat eine Literaturrecherche-Pipeline; Co-Scientist hat Hypothesen-Critic-Loops; ERA hat einen Code-Editor mit Benchmark-Eval. Sobald aber eine chemische, spektroskopische oder regulatorisch relevante Frage kommt, gehen die Antworten an einen Menschen oder an ein ad-hoc-Skript.
Genau diese Bruchstelle ist 2025 unter dem Namen [Model Context Protocol](/de/mcp) standardisiert worden. Ein MCP-Server bietet einem AI-Agenten validierte Tool-Calls über eine einheitliche Schnittstelle. Statt der Agent ruft `def predict_logp(smiles)` aus einem Skript ohne Spezifikation auf, ruft er das MCP-Tool `covabasic_druglikeness` auf — versioniert, mit Audit-Trail, mit definierter Eingabe-Ausgabe-Vertrag.
Für die drei Nature-Architekturen heißt das: Wenn Robin im nächsten Iteration nicht nur Ripasudil benennen, sondern auch dessen ICH-M7-Profil checken soll, ist das ein MCP-Tool-Call. Wenn Co-Scientist KIRA6 als AML-Kandidat vorschlägt, ist die Selektivitäts-Berechnung gegen Off-Targets ein MCP-Tool-Call. Wenn ERA eine Methode für Batch-Integration optimiert, ist die Validierung gegen einen Ground-Truth-Spektrendatensatz ein MCP-Tool-Call. In allen drei Fällen ist die Tool-Antwort deterministisch, reproduzierbar und auditierbar — also genau das, was eine LLM-Hypothese braucht, um über den Status „interessant" hinauszukommen.
Wie CovaSyn in diesen Stack passt
CovaSyn liefert für die Pharma- / Biotech- / Chemie-Domäne eine MCP-Schicht mit 130 Tools über 8 Familien (Cheminformatik, Toxikologie, Massenspektrometrie, NMR, Stabilität, Bio, DoE, Optimization). Drei konkrete Andock-Punkte für AI-Scientist-Systeme:
- **Hypothesen-Validierung.** Wenn der Agent „Wirkstoff X für Indikation Y" vorschlägt, gibt ein einziger CovaSyn-Tool-Call (`covatox_assess_ichm7_batch`) eine deterministische mutagene-Verunreinigungs-Triage zurück — derselbe Output, den ein menschlicher Bewerter generieren würde, aber in Sekunden statt Stunden. - **Experiment-Design-Constraint.** Stabilitätsstudien folgen ICH Q1A / Q1E. Ein Co-Scientist-Loop, der `covastab_design_study` aufruft, bekommt ein protokollkonformes Stress-Schema zurück, statt ein generisches Schema halluzinieren zu müssen. - **Reproduzierbarkeit für regulatorische Submissions.** Die Tools sind version-gepinnt, Audit-Logs greifbar; das ist genau das, was eine FDA- oder EMA-Submission braucht und was eine generische Python-Funktion in einem Notebook nicht liefert.
Wir haben das im Vorfeld auf MolecularIQ gemessen ([ICLR-Benchmark-Post](/de/blog/iclr-2026-molecular-iq-benchmark)): drei Frontier-LLMs (Haiku 4.5, Opus 4.7, GPT-5.5) gehen ohne Tools von 21–41 % auf 85–92 % Genauigkeit, sobald CovaSyn-MCP eingebunden ist. Die Hebelwirkung ist nicht modellspezifisch, sondern strukturell: deterministische Tools schließen die Lücke, die LLM-Halluzination offen lässt.
Was sich aus den Paper für die Praxis ergibt
Wer heute einen AI-Scientist-Agent für Pharma R&D aufbaut, kann sich an dem orientieren, was die Paper offen lassen:
1. **Trenne Hypothesengeneration von Validierung.** Die LLM-Schicht generiert Kandidaten; die deterministische Schicht qualifiziert sie. Robin / Co-Scientist machen genau das, nur dass die deterministische Schicht bei beiden ad-hoc gebaut wurde. 2. **Mach die Validierungs-Schicht aus Standardbausteinen.** Selbst gebaute Wrapper sind keine Hilfe, wenn der Agent in sechs Monaten den nächsten Toolcall braucht. MCP ist der Standard, an den Anthropic, OpenAI und große Open-Source-Projekte 2025 angedockt haben. 3. **Plan den Audit-Trail von Anfang an mit.** Wenn der Agent jemals in eine GxP-Pipeline einlaufen soll, muss jede Tool-Antwort version-pinned und reproduzierbar sein. CovaSyn macht das per Default; wer es selbst baut, muss es sich selbst draufschreiben.
Was wir konkret anbieten
Wenn du an einem solchen Stack arbeitest — egal ob inhouse, akademisch oder im CDMO-Kontext — gibt es drei sinnvolle Berührungspunkte mit CovaSyn:
- **Free-Tier** zum Ausprobieren: 100 Credits pro Woche, alle 130 Tools, MCP-Endpoint direkt anbindbar an Claude Desktop, Cursor, VS Code oder deinen eigenen Agenten. Anlegen auf [workspace.covasyn.com](https://workspace.covasyn.com). - **Benchmark-Story zum Vergleich** auf [/de/benchmark](/de/benchmark) — wenn du den Lift in deinem Stack reproduzieren willst, ist die Methodik dokumentiert. - **Self-Hosted-Variante** für regulierte Umgebungen, in denen externes Cloud-Hosting nicht in Frage kommt — Details zur [MCP-Lösung für Drug Discovery](/de/mcp).
Quellen
- Robin: A multi-agent system for automating scientific discovery — FutureHouse / Edison Scientific. *Nature*, 19. Mai 2026. DOI: [10.1038/s41586-026-10652-y](https://doi.org/10.1038/s41586-026-10652-y). - Co-Scientist — Google DeepMind. *Nature*, 19. Mai 2026. DOI: [10.1038/s41586-026-10644-y](https://doi.org/10.1038/s41586-026-10644-y). - ERA — Google DeepMind. *Nature*, 19. Mai 2026. DOI: [10.1038/s41586-026-10658-6](https://doi.org/10.1038/s41586-026-10658-6). - Vergleichende Zusammenfassung der drei Paper: [LinkedIn-Post von Suk H.](https://www.linkedin.com/posts/suk-h-980979163_aiscientist-activity-7462593512644116480-CdlP), 19. Mai 2026. - Benchling Biotech AI Report 2026 (n=100): [LinkedIn-Announcement](https://www.linkedin.com/posts/the-data-is-in-and-the-biotech-ai-report-share-7414778568825733120-mI1j). - CovaSyn-Benchmark auf MolecularIQ (ICLR 2026): [/de/blog/iclr-2026-molecular-iq-benchmark](/de/blog/iclr-2026-molecular-iq-benchmark).
CovaSyn MCP
Wissenschaftliche Tools in deinem AI-Workflow.
130+ Funktionen für Pharma, Biotech und Chemie. Free-Tier sofort aktiv.
