Swiss-Bench
Welches KI-Modell passt zu Ihrem Schweizer Anwendungsfall?
10 Modelle. 6 Dimensionen. 3 Sprachen. 395 Szenarien. Vierteljährlich aktualisiert.
Letzte Aktualisierung: Q1 2026 · Swiss-Bench v2.0
Bestenliste
Gesamtranking der Modelle
#ModellHAAS
| Rang | Modell | Typ | HAAS | Status | Stärke | Aktualisiert |
|---|---|---|---|---|---|---|
| 1 | Gemini 2.5 Flash | Closed Source | 60.1 | Bereit | Documentation | Q1 2026 |
| 2 | Qwen 3.5 Plus | Open Source | 59.4 | Bereit | Safety | Q1 2026 |
| 3 | Claude Sonnet 4 | Closed Source | 58.3 | Bereit | Compliance | Q1 2026 |
| 4 | GLM 5 | Open Source | 55.5 | Prüfen | Documentation | Q1 2026 |
| 5 | MiniMax M2.5 | Open Source | 50.2 | Prüfen | Swiss Languages | Q1 2026 |
| 6 | GPT-oss 120B | Open Source | 49.6 | Prüfen | Compliance | Q1 2026 |
| 7 | MiMo-V2-Flash | Open Source | 48.7 | Prüfen | Performance | Q1 2026 |
| 8 | DeepSeek V3 | Open Source | 48.4 | Risiko | Compliance | Q1 2026 |
| 9 | GPT-4o | Closed Source | 48.2 | Risiko | Robustness | Q1 2026 |
| 10 | Mistral Large 3 | Open Source | 47.4 | Risiko | Swiss Languages | Q1 2026 |
Swiss-Bench v2.0: 395 Szenarien in den Bereichen Schweizer Recht, FINMA-Regulierung und EFK-Audit. Perzentilbasierte Klassifizierung über 10 Modelle. Methodik →
Kernbefunde
Highlights Q1 2026
Am besten vorbereitet
Gemini 2.5 Flash
Höchster HAAS-Score (60.1) über alle 6 Dimensionen. Stärke: Documentation.
Bestes Open Source
Qwen 3.5 Plus
Top Open-Weight-Modell (HAAS 59.4). Geeignet für On-Premise-Einsatz mit voller Datensouveränität.
Stärkste Compliance
Claude Sonnet 4
Höchster D4-Compliance-Score (80.1). Ideal für regulierte Umgebungen mit Audit-Trail-Anforderungen.
Basierend auf Swiss-Bench v2.0 (Q1 2026). 395 Szenarien, 3-Juroren-Panel, strukturierte Bewertung. Vierteljährlich aktualisiert.
Detailergebnisse
Dimensions-, Sprach- & Domänenvergleiche
HAAS-Dimensionsaufschlüsselung
| Modell | D1 Perf. | D2 Robust. | D3 Sicherh. | D4 Compl. | D5 Sprach. | D6 Dok. |
|---|---|---|---|---|---|---|
| Gemini 2.5 Flash | 53.3 | 72.1 | 20.6 | 70.8 | 100 | 51.5 |
| Qwen 3.5 Plus | 51.5 | 77.1 | 33.3 | 55 | 100 | 51.1 |
| Claude Sonnet 4 | 41.2 | 88.4 | 9.5 | 80.1 | 93.6 | 35.2 |
| GLM 5 | 44.2 | 76.5 | 13.5 | 68.1 | 92.2 | 42.5 |
| MiniMax M2.5 | 37.4 | 71.7 | 6.3 | 67.9 | 94.4 | 25.4 |
| GPT-oss 120B | 31.5 | 78.9 | 2.4 | 72.8 | 93.1 | 16.8 |
| MiMo-V2-Flash | 38.8 | 67.8 | 3.2 | 68.8 | 89.3 | 22.3 |
| DeepSeek V3 | 35.9 | 67.8 | 2.4 | 69.4 | 89 | 27.5 |
| GPT-4o | 19.2 | 91.9 | 11.1 | 63.8 | 74.9 | 31.3 |
| Mistral Large 3 | 17.9 | 77.3 | 7.9 | 70.1 | 100 | 22.3 |
Visuelle Darstellung
Gemini 2.5 Flash
Qwen 3.5 Plus
Claude Sonnet 4
GLM 5
MiniMax M2.5
GPT-oss 120B
MiMo-V2-Flash
DeepSeek V3
GPT-4o
Mistral Large 3
Sprachvergleich
| Modell | Deutsch (DE) | Französisch (FR) | Italienisch (IT) |
|---|---|---|---|
| Gemini 2.5 Flash | 39.7% | 41.9% | 52.6% |
| Qwen 3.5 Plus | 45.3% | 41.6% | 51.5% |
| Claude Sonnet 4 | 27.3% | 33.4% | 42.8% |
| GLM 5 | 34.3% | 33.1% | 42.8% |
| MiniMax M2.5 | 26% | 24.7% | 34.5% |
| GPT-oss 120B | 16% | 19.6% | 28.9% |
| MiMo-V2-Flash | 20% | 24.7% | 29.4% |
| DeepSeek V3 | 18% | 25.7% | 39.2% |
| GPT-4o | 16% | 25% | 33.5% |
| Mistral Large 3 | 14.7% | 19.6% | 27.3% |
Domänenvergleich
| Modell | Schweizer Recht | FINMA | EFK Audit |
|---|---|---|---|
| Gemini 2.5 Flash | 71.0% | 24.2% | 19.8% |
| Qwen 3.5 Plus | 70.7% | 29.2% | 16.7% |
| Claude Sonnet 4 | 60.4% | 12.9% | 14.6% |
| GLM 5 | 62.1% | 16.9% | 14.6% |
| MiniMax M2.5 | 50.6% | 9.0% | 15.6% |
| GPT-oss 120B | 42.6% | 4.8% | 1.0% |
| MiMo-V2-Flash | 48.2% | 6.2% | 5.2% |
| DeepSeek V3 | 50.0% | 9.0% | 5.2% |
| GPT-4o | 44.7% | 8.7% | 5.2% |
| Mistral Large 3 | 34.6% | 9.3% | 5.2% |
Swiss-Bench Methodik und Bewertungskriterien sind auf unserer Methodik-Seite → dokumentiert.
Unsere Methodik und das statistische Framework sind in unserem ArXiv-Paper beschrieben (Uenal, 2026).
Brauchen Sie Scores für IHRE Domäne? Unsere KI-Modell-Evaluation (ab CHF 8'000) führt Swiss-Bench gegen Ihren spezifischen Anwendungsfall aus. 5-Modell-Vergleich, domänenspezifische Szenarien, umsetzbare Empfehlung.
Kontakt
contact@ai-helvetic.ch
Bereit für eine unabhängige Evaluation?
Starten Sie mit einer KI-Modell-Evaluation oder einem vollständigen SOTA Model Sweep. Innerhalb von zwei Wochen wissen Sie, welches Modell für Ihren Schweizer Anwendungsfall am besten funktioniert.