Swiss-Bench

Welches KI-Modell passt zu Ihrem Schweizer Anwendungsfall?

10 Modelle. 6 Dimensionen. 3 Sprachen. 395 Szenarien. Vierteljährlich aktualisiert.

Letzte Aktualisierung: Q1 2026 · Swiss-Bench v2.0

Bestenliste

Gesamtranking der Modelle

Swiss-Bench KI-Modell-Rankings, Q1 2026 (10 Modelle)
Rang	Modell	Typ	HAAS	Status	Stärke	Aktualisiert
1	Gemini 2.5 Flash	Closed Source	60.1	Bereit	Documentation	Q1 2026
2	Qwen 3.5 Plus	Open Source	59.4	Bereit	Safety	Q1 2026
3	Claude Sonnet 4	Closed Source	58.3	Bereit	Compliance	Q1 2026
4	GLM 5	Open Source	55.5	Prüfen	Documentation	Q1 2026
5	MiniMax M2.5	Open Source	50.2	Prüfen	Swiss Languages	Q1 2026
6	GPT-oss 120B	Open Source	49.6	Prüfen	Compliance	Q1 2026
7	MiMo-V2-Flash	Open Source	48.7	Prüfen	Performance	Q1 2026
8	DeepSeek V3	Open Source	48.4	Risiko	Compliance	Q1 2026
9	GPT-4o	Closed Source	48.2	Risiko	Robustness	Q1 2026
10	Mistral Large 3	Open Source	47.4	Risiko	Swiss Languages	Q1 2026

HAAS-Dimensionen: D1 Performance (25%) · D2 Robustheit (20%) · D3 Sicherheit (15%) · D4 Compliance (20%) · D5 Schweizer Sprachen (10%) · D6 Dokumentation (10%)

Jedes Modell wird nach HAAS-Score gerankt und per Perzentil klassifiziert: obere 30% = Bereit, mittlere 40% = Prüfen, untere 30% = Risiko.

Swiss-Bench v2.0: 395 Szenarien in den Bereichen Schweizer Recht, FINMA-Regulierung und EFK-Audit. Perzentilbasierte Klassifizierung über 10 Modelle. Methodik →

Kernbefunde

Highlights Q1 2026

Am besten vorbereitet

Gemini 2.5 Flash

Höchster HAAS-Score (60.1) über alle 6 Dimensionen. Stärke: Documentation.

Bestes Open Source

Qwen 3.5 Plus

Top Open-Weight-Modell (HAAS 59.4). Geeignet für On-Premise-Einsatz mit voller Datensouveränität.

Stärkste Compliance

Claude Sonnet 4

Höchster D4-Compliance-Score (80.1). Ideal für regulierte Umgebungen mit Audit-Trail-Anforderungen.

Basierend auf Swiss-Bench v2.0 (Q1 2026). 395 Szenarien, 3-Juroren-Panel, strukturierte Bewertung. Vierteljährlich aktualisiert.

Detailergebnisse

Dimensions-, Sprach- & Domänenvergleiche

HAAS-Dimensionsaufschlüsselung

Modell	D1 Perf.	D2 Robust.	D3 Sicherh.	D4 Compl.	D5 Sprach.	D6 Dok.
Gemini 2.5 Flash	53.3	72.1	20.6	70.8	100	51.5
Qwen 3.5 Plus	51.5	77.1	33.3	55	100	51.1
Claude Sonnet 4	41.2	88.4	9.5	80.1	93.6	35.2
GLM 5	44.2	76.5	13.5	68.1	92.2	42.5
MiniMax M2.5	37.4	71.7	6.3	67.9	94.4	25.4
GPT-oss 120B	31.5	78.9	2.4	72.8	93.1	16.8
MiMo-V2-Flash	38.8	67.8	3.2	68.8	89.3	22.3
DeepSeek V3	35.9	67.8	2.4	69.4	89	27.5
GPT-4o	19.2	91.9	11.1	63.8	74.9	31.3
Mistral Large 3	17.9	77.3	7.9	70.1	100	22.3

Visuelle Darstellung

Gemini 2.5 Flash

D1

D2

D3

D4

D5

D6

Qwen 3.5 Plus

D1

D2

D3

D4

D5

D6

Claude Sonnet 4

D1

D2

D3

D4

D5

D6

GLM 5

D1

D2

D3

D4

D5

D6

MiniMax M2.5

D1

D2

D3

D4

D5

D6

GPT-oss 120B

D1

D2

D3

D4

D5

D6

MiMo-V2-Flash

D1

D2

D3

D4

D5

D6

DeepSeek V3

D1

D2

D3

D4

D5

D6

GPT-4o

D1

D2

D3

D4

D5

D6

Mistral Large 3

D1

D2

D3

D4

D5

D6

Sprachvergleich

Modell	Deutsch (DE)	Französisch (FR)	Italienisch (IT)
Gemini 2.5 Flash	39.7%	41.9%	52.6%
Qwen 3.5 Plus	45.3%	41.6%	51.5%
Claude Sonnet 4	27.3%	33.4%	42.8%
GLM 5	34.3%	33.1%	42.8%
MiniMax M2.5	26%	24.7%	34.5%
GPT-oss 120B	16%	19.6%	28.9%
MiMo-V2-Flash	20%	24.7%	29.4%
DeepSeek V3	18%	25.7%	39.2%
GPT-4o	16%	25%	33.5%
Mistral Large 3	14.7%	19.6%	27.3%

Domänenvergleich

Modell	Schweizer Recht	FINMA	EFK Audit
Gemini 2.5 Flash	71.0%	24.2%	19.8%
Qwen 3.5 Plus	70.7%	29.2%	16.7%
Claude Sonnet 4	60.4%	12.9%	14.6%
GLM 5	62.1%	16.9%	14.6%
MiniMax M2.5	50.6%	9.0%	15.6%
GPT-oss 120B	42.6%	4.8%	1.0%
MiMo-V2-Flash	48.2%	6.2%	5.2%
DeepSeek V3	50.0%	9.0%	5.2%
GPT-4o	44.7%	8.7%	5.2%
Mistral Large 3	34.6%	9.3%	5.2%

Vollständige Swiss-Bench Ergebnisse freischalten

HAAS-Dimensionen, Sprach- und Domänenvergleiche mit Ampelklassifizierungen für alle 10 Modelle.

Kein Spam. Wir verwenden Ihre E-Mail nur für vierteljährliche Updates. Jederzeit abbestellbar.

Swiss-Bench Methodik und Bewertungskriterien sind auf unserer Methodik-Seite → dokumentiert.

Unsere Methodik und das statistische Framework sind in unserem ArXiv-Paper beschrieben (Uenal, 2026).

Brauchen Sie Scores für IHRE Domäne? Unsere KI-Modell-Evaluation (ab CHF 8'000) führt Swiss-Bench gegen Ihren spezifischen Anwendungsfall aus. 5-Modell-Vergleich, domänenspezifische Szenarien, umsetzbare Empfehlung.

Kontakt

Bereit für eine unabhängige Evaluation?

Starten Sie mit einer KI-Modell-Evaluation oder einem vollständigen SOTA Model Sweep. Innerhalb von zwei Wochen wissen Sie, welches Modell für Ihren Schweizer Anwendungsfall am besten funktioniert.

Evaluation ab CHF 8'000 · SOTA Sweep ab CHF 20'000

contact@ai-helvetic.ch