Swiss-Bench

Quel modèle d'IA convient à votre cas d'utilisation suisse?

10 modèles. 6 dimensions. 3 langues. 395 scénarios. Mise à jour trimestrielle.

Dernière mise à jour: Q1 2026 · Swiss-Bench v2.0

Classement

Classement global des modèles

Swiss-Bench classement IA, Q1 2026 (10 modèles)
#	Modèle	Type	HAAS	Statut	Point fort	Mis à jour
1	Gemini 2.5 Flash	Closed Source	60.1	Prêt	Documentation	Q1 2026
2	Qwen 3.5 Plus	Open Source	59.4	Prêt	Safety	Q1 2026
3	Claude Sonnet 4	Closed Source	58.3	Prêt	Compliance	Q1 2026
4	GLM 5	Open Source	55.5	À évaluer	Documentation	Q1 2026
5	MiniMax M2.5	Open Source	50.2	À évaluer	Swiss Languages	Q1 2026
6	GPT-oss 120B	Open Source	49.6	À évaluer	Compliance	Q1 2026
7	MiMo-V2-Flash	Open Source	48.7	À évaluer	Performance	Q1 2026
8	DeepSeek V3	Open Source	48.4	Risque	Compliance	Q1 2026
9	GPT-4o	Closed Source	48.2	Risque	Robustness	Q1 2026
10	Mistral Large 3	Open Source	47.4	Risque	Swiss Languages	Q1 2026

Dimensions HAAS: D1 Performance (25%) · D2 Robustesse (20%) · D3 Sécurité (15%) · D4 Conformité (20%) · D5 Langues suisses (10%) · D6 Documentation (10%)

Chaque modèle est classé par score HAAS et classifié par percentiles: top 30% = Prêt, milieu 40% = À évaluer, bas 30% = Risque.

Swiss-Bench v2.0: 395 scénarios. Classification par percentiles de 10 modèles. Méthodologie →

Résultats clés

Points forts Q1 2026

Le plus prêt

Gemini 2.5 Flash

Score HAAS le plus élevé (60.1) sur les 6 dimensions. Point fort: Documentation.

Meilleur Open Source

Qwen 3.5 Plus

Meilleur modèle open-weight (HAAS 59.4). Viable pour déploiement on-premise.

Conformité la plus forte

Claude Sonnet 4

Score D4 Conformité le plus élevé (80.1). Idéal pour environnements réglementés.

Swiss-Bench v2.0 (Q1 2026). 395 scénarios, panel de 3 juges. Mise à jour trimestrielle.

Résultats détaillés

Comparaisons par dimension, langue & domaine

Décomposition des dimensions HAAS

Modèle	D1 Perf.	D2 Robust.	D3 Séc.	D4 Conf.	D5 Lang.	D6 Doc.
Gemini 2.5 Flash	53.3	72.1	20.6	70.8	100	51.5
Qwen 3.5 Plus	51.5	77.1	33.3	55	100	51.1
Claude Sonnet 4	41.2	88.4	9.5	80.1	93.6	35.2
GLM 5	44.2	76.5	13.5	68.1	92.2	42.5
MiniMax M2.5	37.4	71.7	6.3	67.9	94.4	25.4
GPT-oss 120B	31.5	78.9	2.4	72.8	93.1	16.8
MiMo-V2-Flash	38.8	67.8	3.2	68.8	89.3	22.3
DeepSeek V3	35.9	67.8	2.4	69.4	89	27.5
GPT-4o	19.2	91.9	11.1	63.8	74.9	31.3
Mistral Large 3	17.9	77.3	7.9	70.1	100	22.3

Comparaison visuelle

Gemini 2.5 Flash

D1

D2

D3

D4

D5

D6

Qwen 3.5 Plus

D1

D2

D3

D4

D5

D6

Claude Sonnet 4

D1

D2

D3

D4

D5

D6

GLM 5

D1

D2

D3

D4

D5

D6

MiniMax M2.5

D1

D2

D3

D4

D5

D6

GPT-oss 120B

D1

D2

D3

D4

D5

D6

MiMo-V2-Flash

D1

D2

D3

D4

D5

D6

DeepSeek V3

D1

D2

D3

D4

D5

D6

GPT-4o

D1

D2

D3

D4

D5

D6

Mistral Large 3

D1

D2

D3

D4

D5

D6

Comparaison par langue

Modèle	Allemand (DE)	Français (FR)	Italien (IT)
Gemini 2.5 Flash	39.7%	41.9%	52.6%
Qwen 3.5 Plus	45.3%	41.6%	51.5%
Claude Sonnet 4	27.3%	33.4%	42.8%
GLM 5	34.3%	33.1%	42.8%
MiniMax M2.5	26%	24.7%	34.5%
GPT-oss 120B	16%	19.6%	28.9%
MiMo-V2-Flash	20%	24.7%	29.4%
DeepSeek V3	18%	25.7%	39.2%
GPT-4o	16%	25%	33.5%
Mistral Large 3	14.7%	19.6%	27.3%

Comparaison par domaine

Modèle	Droit suisse	FINMA	CDF Audit
Gemini 2.5 Flash	71.0%	24.2%	19.8%
Qwen 3.5 Plus	70.7%	29.2%	16.7%
Claude Sonnet 4	60.4%	12.9%	14.6%
GLM 5	62.1%	16.9%	14.6%
MiniMax M2.5	50.6%	9.0%	15.6%
GPT-oss 120B	42.6%	4.8%	1.0%
MiMo-V2-Flash	48.2%	6.2%	5.2%
DeepSeek V3	50.0%	9.0%	5.2%
GPT-4o	44.7%	8.7%	5.2%
Mistral Large 3	34.6%	9.3%	5.2%

Débloquer les résultats complets

Dimensions HAAS, comparaisons par langue et domaine avec feux tricolores pour les 10 modèles.

Pas de spam. Mises à jour trimestrielles uniquement. Désabonnement à tout moment.

Méthodologie et critères de notation sur notre page Méthodologie →

Notre méthodologie est décrite dans notre article ArXiv (Uenal, 2026).

Besoin de scores pour VOTRE domaine? Notre Évaluation de modèles IA applique Swiss-Bench à votre cas d'utilisation spécifique.

Contact

Prêt pour une évaluation indépendante?

Commencez par une évaluation de modèles IA ou un SOTA Model Sweep complet.

Évaluation dès CHF 8'000 · SOTA Sweep dès CHF 20'000

contact@ai-helvetic.ch