Welches KI-Modell passt zu Ihrem Schweizer Anwendungsfall?

10 Modelle. 6 Dimensionen. 3 Sprachen. 395 Szenarien. Vierteljährlich aktualisiert.

Letzte Aktualisierung: Q1 2026 · Swiss-Bench v2.0

Gesamtranking der Modelle

#ModellHAAS
Swiss-Bench KI-Modell-Rankings, Q1 2026 (10 Modelle)
Rang Modell Typ HAAS Status Stärke Aktualisiert
1 Gemini 2.5 Flash Closed Source 60.1 Bereit Documentation Q1 2026
2 Qwen 3.5 Plus Open Source 59.4 Bereit Safety Q1 2026
3 Claude Sonnet 4 Closed Source 58.3 Bereit Compliance Q1 2026
4 GLM 5 Open Source 55.5 Prüfen Documentation Q1 2026
5 MiniMax M2.5 Open Source 50.2 Prüfen Swiss Languages Q1 2026
6 GPT-oss 120B Open Source 49.6 Prüfen Compliance Q1 2026
7 MiMo-V2-Flash Open Source 48.7 Prüfen Performance Q1 2026
8 DeepSeek V3 Open Source 48.4 Risiko Compliance Q1 2026
9 GPT-4o Closed Source 48.2 Risiko Robustness Q1 2026
10 Mistral Large 3 Open Source 47.4 Risiko Swiss Languages Q1 2026

HAAS-Dimensionen: D1 Performance (25%) · D2 Robustheit (20%) · D3 Sicherheit (15%) · D4 Compliance (20%) · D5 Schweizer Sprachen (10%) · D6 Dokumentation (10%)

Jedes Modell wird nach HAAS-Score gerankt und per Perzentil klassifiziert: obere 30% = Bereit, mittlere 40% = Prüfen, untere 30% = Risiko.

Swiss-Bench v2.0: 395 Szenarien in den Bereichen Schweizer Recht, FINMA-Regulierung und EFK-Audit. Perzentilbasierte Klassifizierung über 10 Modelle. Methodik →

Highlights Q1 2026

Am besten vorbereitet
Gemini 2.5 Flash
Höchster HAAS-Score (60.1) über alle 6 Dimensionen. Stärke: Documentation.
Bestes Open Source
Qwen 3.5 Plus
Top Open-Weight-Modell (HAAS 59.4). Geeignet für On-Premise-Einsatz mit voller Datensouveränität.
Stärkste Compliance
Claude Sonnet 4
Höchster D4-Compliance-Score (80.1). Ideal für regulierte Umgebungen mit Audit-Trail-Anforderungen.

Basierend auf Swiss-Bench v2.0 (Q1 2026). 395 Szenarien, 3-Juroren-Panel, strukturierte Bewertung. Vierteljährlich aktualisiert.

Dimensions-, Sprach- & Domänenvergleiche

HAAS-Dimensionsaufschlüsselung

ModellD1 Perf.D2 Robust.D3 Sicherh.D4 Compl.D5 Sprach.D6 Dok.
Gemini 2.5 Flash 53.3 72.1 20.6 70.8 100 51.5
Qwen 3.5 Plus 51.5 77.1 33.3 55 100 51.1
Claude Sonnet 4 41.2 88.4 9.5 80.1 93.6 35.2
GLM 5 44.2 76.5 13.5 68.1 92.2 42.5
MiniMax M2.5 37.4 71.7 6.3 67.9 94.4 25.4
GPT-oss 120B 31.5 78.9 2.4 72.8 93.1 16.8
MiMo-V2-Flash 38.8 67.8 3.2 68.8 89.3 22.3
DeepSeek V3 35.9 67.8 2.4 69.4 89 27.5
GPT-4o 19.2 91.9 11.1 63.8 74.9 31.3
Mistral Large 3 17.9 77.3 7.9 70.1 100 22.3

Visuelle Darstellung

Gemini 2.5 Flash
D1
D2
D3
D4
D5
D6
Qwen 3.5 Plus
D1
D2
D3
D4
D5
D6
Claude Sonnet 4
D1
D2
D3
D4
D5
D6
GLM 5
D1
D2
D3
D4
D5
D6
MiniMax M2.5
D1
D2
D3
D4
D5
D6
GPT-oss 120B
D1
D2
D3
D4
D5
D6
MiMo-V2-Flash
D1
D2
D3
D4
D5
D6
DeepSeek V3
D1
D2
D3
D4
D5
D6
GPT-4o
D1
D2
D3
D4
D5
D6
Mistral Large 3
D1
D2
D3
D4
D5
D6

Sprachvergleich

ModellDeutsch (DE)Französisch (FR)Italienisch (IT)
Gemini 2.5 Flash 39.7% 41.9% 52.6%
Qwen 3.5 Plus 45.3% 41.6% 51.5%
Claude Sonnet 4 27.3% 33.4% 42.8%
GLM 5 34.3% 33.1% 42.8%
MiniMax M2.5 26% 24.7% 34.5%
GPT-oss 120B 16% 19.6% 28.9%
MiMo-V2-Flash 20% 24.7% 29.4%
DeepSeek V3 18% 25.7% 39.2%
GPT-4o 16% 25% 33.5%
Mistral Large 3 14.7% 19.6% 27.3%

Domänenvergleich

ModellSchweizer RechtFINMAEFK Audit
Gemini 2.5 Flash 71.0% 24.2% 19.8%
Qwen 3.5 Plus 70.7% 29.2% 16.7%
Claude Sonnet 4 60.4% 12.9% 14.6%
GLM 5 62.1% 16.9% 14.6%
MiniMax M2.5 50.6% 9.0% 15.6%
GPT-oss 120B 42.6% 4.8% 1.0%
MiMo-V2-Flash 48.2% 6.2% 5.2%
DeepSeek V3 50.0% 9.0% 5.2%
GPT-4o 44.7% 8.7% 5.2%
Mistral Large 3 34.6% 9.3% 5.2%

Vollständige Swiss-Bench Ergebnisse freischalten

HAAS-Dimensionen, Sprach- und Domänenvergleiche mit Ampelklassifizierungen für alle 10 Modelle.

Kein Spam. Wir verwenden Ihre E-Mail nur für vierteljährliche Updates. Jederzeit abbestellbar.
Swiss-Bench Methodik und Bewertungskriterien sind auf unserer Methodik-Seite → dokumentiert.

Unsere Methodik und das statistische Framework sind in unserem ArXiv-Paper beschrieben (Uenal, 2026).

Brauchen Sie Scores für IHRE Domäne? Unsere KI-Modell-Evaluation (ab CHF 8'000) führt Swiss-Bench gegen Ihren spezifischen Anwendungsfall aus. 5-Modell-Vergleich, domänenspezifische Szenarien, umsetzbare Empfehlung.

Bereit für eine unabhängige Evaluation?

Starten Sie mit einer KI-Modell-Evaluation oder einem vollständigen SOTA Model Sweep. Innerhalb von zwei Wochen wissen Sie, welches Modell für Ihren Schweizer Anwendungsfall am besten funktioniert.

Evaluation ab CHF 8'000 · SOTA Sweep ab CHF 20'000
contact@ai-helvetic.ch