Swiss-Bench

Welches KI-Modell passt zu Ihrem Schweizer Anwendungsfall?

10 Modelle. 8 Dimensionen. 3 Sprachen. 800 Szenarien. Vierteljährlich aktualisiert.

Letzte Aktualisierung: Q2 2026 · Swiss-Bench v3.0

Bestenliste

Gesamtranking der Modelle

Swiss-Bench KI-Modell-Rankings, Q2 2026 (10 Modelle)
Rang	Modell	Typ	HAAS	Status	Stärke	Aktualisiert
1	Qwen 3.5 Plus	Open Source	64.5	Bereit	Safety	Q2 2026
2	Claude Sonnet 4	Closed Source	61.2	Bereit	Compliance	Q2 2026
3	GLM 5	Open Source	60.4	Bereit	Reliability	Q2 2026
4	GPT-oss 120B	Open Source	58.5	Prüfen	Security	Q2 2026
5	Gemini 2.5 Flash	Closed Source	58	Prüfen	Documentation	Q2 2026
6	GPT-4o	Closed Source	57.3	Prüfen	Robustness	Q2 2026
7	MiniMax M2.5	Open Source	54.8	Prüfen	Security	Q2 2026
8	MiMo-V2-Flash	Open Source	54	Risiko	Performance	Q2 2026
9	Mistral Large 3	Open Source	50.5	Risiko	Swiss Languages	Q2 2026
10	DeepSeek V3	Open Source	50.3	Risiko	Compliance	Q2 2026

HAAS-Dimensionen: D1 Performance (15%) · D2 Robustheit (12%) · D3 Sicherheit (10%) · D4 Compliance (15%) · D5 Schweizer Sprachen (8%) · D6 Dokumentation (2.5%) · D7 Produktionszuverlässigkeit* (17.5%) · D8 Adversariale Sicherheit (20%)

*D7-Werte sind selbstbewertete Zuverlässigkeits-Proxys; vollständige Benchmark-Bewertung im SBP-003-Paper.

Jedes Modell wird nach HAAS-Score gerankt und per Perzentil klassifiziert: obere 30% = Bereit, mittlere 40% = Prüfen, untere 30% = Risiko.

Swiss-Bench v3.0: 800 Szenarien in den Bereichen Schweizer Recht, FINMA-Regulierung und EFK-Audit. Perzentilbasierte Klassifizierung über 10 Modelle. Methodik →

Kernbefunde

Highlights Q2 2026

Am besten vorbereitet

Qwen 3.5 Plus

Höchster HAAS-Score (64.5) über alle 8 Dimensionen. Stärke: Safety.

Bestes Open Source

Qwen 3.5 Plus

Top Open-Weight-Modell (HAAS 64.5). Geeignet für On-Premise-Einsatz mit voller Datensouveränität.

Stärkste Compliance

Claude Sonnet 4

Höchster D4-Compliance-Score (80.1). Ideal für regulierte Umgebungen mit Audit-Trail-Anforderungen.

Basierend auf Swiss-Bench v3.0 (Q2 2026). 800 Szenarien, 3-Juroren-Panel, strukturierte Bewertung. Vierteljährlich aktualisiert.

Detailergebnisse

Dimensions-, Sprach- & Domänenvergleiche

HAAS-Dimensionsaufschlüsselung

Modell	D1 Perf.	D2 Robust.	D3 Sicherh.	D4 Compl.	D5 Sprach.	D6 Dok.	D7 Zuverl.*	D8 Sicherh.
Qwen 3.5 Plus	51.5	77.1	33.3	55	100	51.1	94.4	50.6
Claude Sonnet 4	41.2	88.4	9.5	80.1	93.6	35.2	81.6	44.2
GLM 5	44.2	76.5	13.5	68.1	92.2	42.5	90.9	43.2
GPT-oss 120B	31.5	78.9	2.4	72.8	93.1	16.8	75.3	60.7
Gemini 2.5 Flash	53.3	72.1	20.6	70.8	100	51.5	79	27.9
GPT-4o	19.2	91.9	11.1	63.8	74.9	31.3	85.5	55.1
MiniMax M2.5	37.4	71.7	6.3	67.9	94.4	25.4	73.1	44
MiMo-V2-Flash	38.8	67.8	3.2	68.8	89.3	22.3	81	37.4
Mistral Large 3	17.9	77.3	7.9	70.1	100	22.3	80.2	23
DeepSeek V3	35.9	67.8	2.4	69.4	89	27.5	82	20.1

Visuelle Darstellung

Qwen 3.5 Plus

D1

D2

D3

D4

D5

D6

D7

D8

Claude Sonnet 4

D1

D2

D3

D4

D5

D6

D7

D8

GLM 5

D1

D2

D3

D4

D5

D6

D7

D8

GPT-oss 120B

D1

D2

D3

D4

D5

D6

D7

D8

Gemini 2.5 Flash

D1

D2

D3

D4

D5

D6

D7

D8

GPT-4o

D1

D2

D3

D4

D5

D6

D7

D8

MiniMax M2.5

D1

D2

D3

D4

D5

D6

D7

D8

MiMo-V2-Flash

D1

D2

D3

D4

D5

D6

D7

D8

Mistral Large 3

D1

D2

D3

D4

D5

D6

D7

D8

DeepSeek V3

D1

D2

D3

D4

D5

D6

D7

D8

Sprachvergleich

Modell	Deutsch (DE)	Französisch (FR)	Italienisch (IT)
Qwen 3.5 Plus	45.3%	41.6%	51.5%
Claude Sonnet 4	27.3%	33.4%	42.8%
GLM 5	34.3%	33.1%	42.8%
GPT-oss 120B	16%	19.6%	28.9%
Gemini 2.5 Flash	39.7%	41.9%	52.6%
GPT-4o	16%	25%	33.5%
MiniMax M2.5	26%	24.7%	34.5%
MiMo-V2-Flash	20%	24.7%	29.4%
Mistral Large 3	14.7%	19.6%	27.3%
DeepSeek V3	18%	25.7%	39.2%

Domänenvergleich

Modell	Schweizer Recht	FINMA	EFK Audit
Qwen 3.5 Plus	70.7%	29.2%	16.7%
Claude Sonnet 4	60.4%	12.9%	14.6%
GLM 5	62.1%	16.9%	14.6%
GPT-oss 120B	42.6%	4.8%	1.0%
Gemini 2.5 Flash	71.0%	24.2%	19.8%
GPT-4o	44.7%	8.7%	5.2%
MiniMax M2.5	50.6%	9.0%	15.6%
MiMo-V2-Flash	48.2%	6.2%	5.2%
Mistral Large 3	34.6%	9.3%	5.2%
DeepSeek V3	50.0%	9.0%	5.2%

Vollständige Swiss-Bench Ergebnisse freischalten

HAAS-Dimensionen, Sprach- und Domänenvergleiche mit Ampelklassifizierungen für alle 10 Modelle.

Kein Spam. Wir verwenden Ihre E-Mail nur für vierteljährliche Updates. Jederzeit abbestellbar.

Swiss-Bench Methodik und Bewertungskriterien sind auf unserer Methodik-Seite → dokumentiert.

Unsere Methodik und das statistische Framework sind in unseren wissenschaftlichen Veröffentlichungen beschrieben (Uenal, 2026a & Uenal, 2026b).

Brauchen Sie Scores für IHRE Domäne? Unsere KI-Modell-Evaluation (ab CHF 8'000) führt Swiss-Bench gegen Ihren spezifischen Anwendungsfall aus. 5-Modell-Vergleich, domänenspezifische Szenarien, umsetzbare Empfehlung.

Kontakt

Bereit für eine unabhängige Evaluation?

Starten Sie mit einer KI-Modell-Evaluation oder einem vollständigen SOTA Model Sweep. Innerhalb von zwei Wochen wissen Sie, welches Modell für Ihren Schweizer Anwendungsfall am besten funktioniert.

Evaluation ab CHF 8'000 · SOTA Sweep ab CHF 20'000