Quel modèle d'IA convient à votre cas d'utilisation suisse?

10 modèles. 6 dimensions. 3 langues. 395 scénarios. Mise à jour trimestrielle.

Dernière mise à jour: Q1 2026 · Swiss-Bench v2.0

Classement global des modèles

#ModèleHAAS
Swiss-Bench classement IA, Q1 2026 (10 modèles)
#ModèleTypeHAASStatutPoint fortMis à jour
1 Gemini 2.5 Flash Closed Source 60.1 Prêt Documentation Q1 2026
2 Qwen 3.5 Plus Open Source 59.4 Prêt Safety Q1 2026
3 Claude Sonnet 4 Closed Source 58.3 Prêt Compliance Q1 2026
4 GLM 5 Open Source 55.5 À évaluer Documentation Q1 2026
5 MiniMax M2.5 Open Source 50.2 À évaluer Swiss Languages Q1 2026
6 GPT-oss 120B Open Source 49.6 À évaluer Compliance Q1 2026
7 MiMo-V2-Flash Open Source 48.7 À évaluer Performance Q1 2026
8 DeepSeek V3 Open Source 48.4 Risque Compliance Q1 2026
9 GPT-4o Closed Source 48.2 Risque Robustness Q1 2026
10 Mistral Large 3 Open Source 47.4 Risque Swiss Languages Q1 2026

Dimensions HAAS: D1 Performance (25%) · D2 Robustesse (20%) · D3 Sécurité (15%) · D4 Conformité (20%) · D5 Langues suisses (10%) · D6 Documentation (10%)

Chaque modèle est classé par score HAAS et classifié par percentiles: top 30% = Prêt, milieu 40% = À évaluer, bas 30% = Risque.

Swiss-Bench v2.0: 395 scénarios. Classification par percentiles de 10 modèles. Méthodologie →

Points forts Q1 2026

Le plus prêt
Gemini 2.5 Flash
Score HAAS le plus élevé (60.1) sur les 6 dimensions. Point fort: Documentation.
Meilleur Open Source
Qwen 3.5 Plus
Meilleur modèle open-weight (HAAS 59.4). Viable pour déploiement on-premise.
Conformité la plus forte
Claude Sonnet 4
Score D4 Conformité le plus élevé (80.1). Idéal pour environnements réglementés.

Swiss-Bench v2.0 (Q1 2026). 395 scénarios, panel de 3 juges. Mise à jour trimestrielle.

Comparaisons par dimension, langue & domaine

Décomposition des dimensions HAAS

ModèleD1 Perf.D2 Robust.D3 Séc.D4 Conf.D5 Lang.D6 Doc.
Gemini 2.5 Flash53.372.120.670.810051.5
Qwen 3.5 Plus51.577.133.35510051.1
Claude Sonnet 441.288.49.580.193.635.2
GLM 544.276.513.568.192.242.5
MiniMax M2.537.471.76.367.994.425.4
GPT-oss 120B31.578.92.472.893.116.8
MiMo-V2-Flash38.867.83.268.889.322.3
DeepSeek V335.967.82.469.48927.5
GPT-4o19.291.911.163.874.931.3
Mistral Large 317.977.37.970.110022.3

Comparaison visuelle

Gemini 2.5 Flash
D1
D2
D3
D4
D5
D6
Qwen 3.5 Plus
D1
D2
D3
D4
D5
D6
Claude Sonnet 4
D1
D2
D3
D4
D5
D6
GLM 5
D1
D2
D3
D4
D5
D6
MiniMax M2.5
D1
D2
D3
D4
D5
D6
GPT-oss 120B
D1
D2
D3
D4
D5
D6
MiMo-V2-Flash
D1
D2
D3
D4
D5
D6
DeepSeek V3
D1
D2
D3
D4
D5
D6
GPT-4o
D1
D2
D3
D4
D5
D6
Mistral Large 3
D1
D2
D3
D4
D5
D6

Comparaison par langue

ModèleAllemand (DE)Français (FR)Italien (IT)
Gemini 2.5 Flash39.7%41.9%52.6%
Qwen 3.5 Plus45.3%41.6%51.5%
Claude Sonnet 427.3%33.4%42.8%
GLM 534.3%33.1%42.8%
MiniMax M2.526%24.7%34.5%
GPT-oss 120B16%19.6%28.9%
MiMo-V2-Flash20%24.7%29.4%
DeepSeek V318%25.7%39.2%
GPT-4o16%25%33.5%
Mistral Large 314.7%19.6%27.3%

Comparaison par domaine

ModèleDroit suisseFINMACDF Audit
Gemini 2.5 Flash71.0%24.2%19.8%
Qwen 3.5 Plus70.7%29.2%16.7%
Claude Sonnet 460.4%12.9%14.6%
GLM 562.1%16.9%14.6%
MiniMax M2.550.6%9.0%15.6%
GPT-oss 120B42.6%4.8%1.0%
MiMo-V2-Flash48.2%6.2%5.2%
DeepSeek V350.0%9.0%5.2%
GPT-4o44.7%8.7%5.2%
Mistral Large 334.6%9.3%5.2%

Débloquer les résultats complets

Dimensions HAAS, comparaisons par langue et domaine avec feux tricolores pour les 10 modèles.

Pas de spam. Mises à jour trimestrielles uniquement. Désabonnement à tout moment.
Méthodologie et critères de notation sur notre page Méthodologie →

Notre méthodologie est décrite dans notre article ArXiv (Uenal, 2026).

Besoin de scores pour VOTRE domaine? Notre Évaluation de modèles IA applique Swiss-Bench à votre cas d'utilisation spécifique.

Prêt pour une évaluation indépendante?

Commencez par une évaluation de modèles IA ou un SOTA Model Sweep complet.

Évaluation dès CHF 8'000 · SOTA Sweep dès CHF 20'000
contact@ai-helvetic.ch