Welches KI-Modell passt zu Ihrem Schweizer Anwendungsfall?

10 Modelle. 8 Dimensionen. 3 Sprachen. 800 Szenarien. Vierteljährlich aktualisiert.

Letzte Aktualisierung: Q2 2026 · Swiss-Bench v3.0

Gesamtranking der Modelle

#ModellHAAS
Swiss-Bench KI-Modell-Rankings, Q2 2026 (10 Modelle)
Rang Modell Typ HAAS Status Stärke Aktualisiert
1 Qwen 3.5 Plus Open Source 64.5 Bereit Safety Q2 2026
2 Claude Sonnet 4 Closed Source 61.2 Bereit Compliance Q2 2026
3 GLM 5 Open Source 60.4 Bereit Reliability Q2 2026
4 GPT-oss 120B Open Source 58.5 Prüfen Security Q2 2026
5 Gemini 2.5 Flash Closed Source 58 Prüfen Documentation Q2 2026
6 GPT-4o Closed Source 57.3 Prüfen Robustness Q2 2026
7 MiniMax M2.5 Open Source 54.8 Prüfen Security Q2 2026
8 MiMo-V2-Flash Open Source 54 Risiko Performance Q2 2026
9 Mistral Large 3 Open Source 50.5 Risiko Swiss Languages Q2 2026
10 DeepSeek V3 Open Source 50.3 Risiko Compliance Q2 2026

HAAS-Dimensionen: D1 Performance (15%) · D2 Robustheit (12%) · D3 Sicherheit (10%) · D4 Compliance (15%) · D5 Schweizer Sprachen (8%) · D6 Dokumentation (2.5%) · D7 Produktionszuverlässigkeit* (17.5%) · D8 Adversariale Sicherheit (20%)

*D7-Werte sind selbstbewertete Zuverlässigkeits-Proxys; vollständige Benchmark-Bewertung im SBP-003-Paper.

Jedes Modell wird nach HAAS-Score gerankt und per Perzentil klassifiziert: obere 30% = Bereit, mittlere 40% = Prüfen, untere 30% = Risiko.

Swiss-Bench v3.0: 800 Szenarien in den Bereichen Schweizer Recht, FINMA-Regulierung und EFK-Audit. Perzentilbasierte Klassifizierung über 10 Modelle. Methodik →

Highlights Q2 2026

Am besten vorbereitet
Qwen 3.5 Plus
Höchster HAAS-Score (64.5) über alle 8 Dimensionen. Stärke: Safety.
Bestes Open Source
Qwen 3.5 Plus
Top Open-Weight-Modell (HAAS 64.5). Geeignet für On-Premise-Einsatz mit voller Datensouveränität.
Stärkste Compliance
Claude Sonnet 4
Höchster D4-Compliance-Score (80.1). Ideal für regulierte Umgebungen mit Audit-Trail-Anforderungen.

Basierend auf Swiss-Bench v3.0 (Q2 2026). 800 Szenarien, 3-Juroren-Panel, strukturierte Bewertung. Vierteljährlich aktualisiert.

Dimensions-, Sprach- & Domänenvergleiche

HAAS-Dimensionsaufschlüsselung

ModellD1 Perf.D2 Robust.D3 Sicherh.D4 Compl.D5 Sprach.D6 Dok.D7 Zuverl.*D8 Sicherh.
Qwen 3.5 Plus 51.5 77.1 33.3 55 100 51.1 94.4 50.6
Claude Sonnet 4 41.2 88.4 9.5 80.1 93.6 35.2 81.6 44.2
GLM 5 44.2 76.5 13.5 68.1 92.2 42.5 90.9 43.2
GPT-oss 120B 31.5 78.9 2.4 72.8 93.1 16.8 75.3 60.7
Gemini 2.5 Flash 53.3 72.1 20.6 70.8 100 51.5 79 27.9
GPT-4o 19.2 91.9 11.1 63.8 74.9 31.3 85.5 55.1
MiniMax M2.5 37.4 71.7 6.3 67.9 94.4 25.4 73.1 44
MiMo-V2-Flash 38.8 67.8 3.2 68.8 89.3 22.3 81 37.4
Mistral Large 3 17.9 77.3 7.9 70.1 100 22.3 80.2 23
DeepSeek V3 35.9 67.8 2.4 69.4 89 27.5 82 20.1

Visuelle Darstellung

Qwen 3.5 Plus
D1
D2
D3
D4
D5
D6
D7
D8
Claude Sonnet 4
D1
D2
D3
D4
D5
D6
D7
D8
GLM 5
D1
D2
D3
D4
D5
D6
D7
D8
GPT-oss 120B
D1
D2
D3
D4
D5
D6
D7
D8
Gemini 2.5 Flash
D1
D2
D3
D4
D5
D6
D7
D8
GPT-4o
D1
D2
D3
D4
D5
D6
D7
D8
MiniMax M2.5
D1
D2
D3
D4
D5
D6
D7
D8
MiMo-V2-Flash
D1
D2
D3
D4
D5
D6
D7
D8
Mistral Large 3
D1
D2
D3
D4
D5
D6
D7
D8
DeepSeek V3
D1
D2
D3
D4
D5
D6
D7
D8

Sprachvergleich

ModellDeutsch (DE)Französisch (FR)Italienisch (IT)
Qwen 3.5 Plus 45.3% 41.6% 51.5%
Claude Sonnet 4 27.3% 33.4% 42.8%
GLM 5 34.3% 33.1% 42.8%
GPT-oss 120B 16% 19.6% 28.9%
Gemini 2.5 Flash 39.7% 41.9% 52.6%
GPT-4o 16% 25% 33.5%
MiniMax M2.5 26% 24.7% 34.5%
MiMo-V2-Flash 20% 24.7% 29.4%
Mistral Large 3 14.7% 19.6% 27.3%
DeepSeek V3 18% 25.7% 39.2%

Domänenvergleich

ModellSchweizer RechtFINMAEFK Audit
Qwen 3.5 Plus 70.7% 29.2% 16.7%
Claude Sonnet 4 60.4% 12.9% 14.6%
GLM 5 62.1% 16.9% 14.6%
GPT-oss 120B 42.6% 4.8% 1.0%
Gemini 2.5 Flash 71.0% 24.2% 19.8%
GPT-4o 44.7% 8.7% 5.2%
MiniMax M2.5 50.6% 9.0% 15.6%
MiMo-V2-Flash 48.2% 6.2% 5.2%
Mistral Large 3 34.6% 9.3% 5.2%
DeepSeek V3 50.0% 9.0% 5.2%

Vollständige Swiss-Bench Ergebnisse freischalten

HAAS-Dimensionen, Sprach- und Domänenvergleiche mit Ampelklassifizierungen für alle 10 Modelle.

Kein Spam. Wir verwenden Ihre E-Mail nur für vierteljährliche Updates. Jederzeit abbestellbar.
Swiss-Bench Methodik und Bewertungskriterien sind auf unserer Methodik-Seite → dokumentiert.

Unsere Methodik und das statistische Framework sind in unseren wissenschaftlichen Veröffentlichungen beschrieben (Uenal, 2026a & Uenal, 2026b).

Brauchen Sie Scores für IHRE Domäne? Unsere KI-Modell-Evaluation (ab CHF 8'000) führt Swiss-Bench gegen Ihren spezifischen Anwendungsfall aus. 5-Modell-Vergleich, domänenspezifische Szenarien, umsetzbare Empfehlung.

Bereit für eine unabhängige Evaluation?

Starten Sie mit einer KI-Modell-Evaluation oder einem vollständigen SOTA Model Sweep. Innerhalb von zwei Wochen wissen Sie, welches Modell für Ihren Schweizer Anwendungsfall am besten funktioniert.

Evaluation ab CHF 8'000 · SOTA Sweep ab CHF 20'000