Swiss-Bench
Quel modèle d'IA convient à votre cas d'utilisation suisse?
10 modèles. 6 dimensions. 3 langues. 395 scénarios. Mise à jour trimestrielle.
Dernière mise à jour: Q1 2026 · Swiss-Bench v2.0
Classement
Classement global des modèles
#ModèleHAAS
| # | Modèle | Type | HAAS | Statut | Point fort | Mis à jour |
|---|---|---|---|---|---|---|
| 1 | Gemini 2.5 Flash | Closed Source | 60.1 | Prêt | Documentation | Q1 2026 |
| 2 | Qwen 3.5 Plus | Open Source | 59.4 | Prêt | Safety | Q1 2026 |
| 3 | Claude Sonnet 4 | Closed Source | 58.3 | Prêt | Compliance | Q1 2026 |
| 4 | GLM 5 | Open Source | 55.5 | À évaluer | Documentation | Q1 2026 |
| 5 | MiniMax M2.5 | Open Source | 50.2 | À évaluer | Swiss Languages | Q1 2026 |
| 6 | GPT-oss 120B | Open Source | 49.6 | À évaluer | Compliance | Q1 2026 |
| 7 | MiMo-V2-Flash | Open Source | 48.7 | À évaluer | Performance | Q1 2026 |
| 8 | DeepSeek V3 | Open Source | 48.4 | Risque | Compliance | Q1 2026 |
| 9 | GPT-4o | Closed Source | 48.2 | Risque | Robustness | Q1 2026 |
| 10 | Mistral Large 3 | Open Source | 47.4 | Risque | Swiss Languages | Q1 2026 |
Swiss-Bench v2.0: 395 scénarios. Classification par percentiles de 10 modèles. Méthodologie →
Résultats clés
Points forts Q1 2026
Le plus prêt
Gemini 2.5 Flash
Score HAAS le plus élevé (60.1) sur les 6 dimensions. Point fort: Documentation.
Meilleur Open Source
Qwen 3.5 Plus
Meilleur modèle open-weight (HAAS 59.4). Viable pour déploiement on-premise.
Conformité la plus forte
Claude Sonnet 4
Score D4 Conformité le plus élevé (80.1). Idéal pour environnements réglementés.
Swiss-Bench v2.0 (Q1 2026). 395 scénarios, panel de 3 juges. Mise à jour trimestrielle.
Résultats détaillés
Comparaisons par dimension, langue & domaine
Décomposition des dimensions HAAS
| Modèle | D1 Perf. | D2 Robust. | D3 Séc. | D4 Conf. | D5 Lang. | D6 Doc. |
|---|---|---|---|---|---|---|
| Gemini 2.5 Flash | 53.3 | 72.1 | 20.6 | 70.8 | 100 | 51.5 |
| Qwen 3.5 Plus | 51.5 | 77.1 | 33.3 | 55 | 100 | 51.1 |
| Claude Sonnet 4 | 41.2 | 88.4 | 9.5 | 80.1 | 93.6 | 35.2 |
| GLM 5 | 44.2 | 76.5 | 13.5 | 68.1 | 92.2 | 42.5 |
| MiniMax M2.5 | 37.4 | 71.7 | 6.3 | 67.9 | 94.4 | 25.4 |
| GPT-oss 120B | 31.5 | 78.9 | 2.4 | 72.8 | 93.1 | 16.8 |
| MiMo-V2-Flash | 38.8 | 67.8 | 3.2 | 68.8 | 89.3 | 22.3 |
| DeepSeek V3 | 35.9 | 67.8 | 2.4 | 69.4 | 89 | 27.5 |
| GPT-4o | 19.2 | 91.9 | 11.1 | 63.8 | 74.9 | 31.3 |
| Mistral Large 3 | 17.9 | 77.3 | 7.9 | 70.1 | 100 | 22.3 |
Comparaison visuelle
Gemini 2.5 Flash
Qwen 3.5 Plus
Claude Sonnet 4
GLM 5
MiniMax M2.5
GPT-oss 120B
MiMo-V2-Flash
DeepSeek V3
GPT-4o
Mistral Large 3
Comparaison par langue
| Modèle | Allemand (DE) | Français (FR) | Italien (IT) |
|---|---|---|---|
| Gemini 2.5 Flash | 39.7% | 41.9% | 52.6% |
| Qwen 3.5 Plus | 45.3% | 41.6% | 51.5% |
| Claude Sonnet 4 | 27.3% | 33.4% | 42.8% |
| GLM 5 | 34.3% | 33.1% | 42.8% |
| MiniMax M2.5 | 26% | 24.7% | 34.5% |
| GPT-oss 120B | 16% | 19.6% | 28.9% |
| MiMo-V2-Flash | 20% | 24.7% | 29.4% |
| DeepSeek V3 | 18% | 25.7% | 39.2% |
| GPT-4o | 16% | 25% | 33.5% |
| Mistral Large 3 | 14.7% | 19.6% | 27.3% |
Comparaison par domaine
| Modèle | Droit suisse | FINMA | CDF Audit |
|---|---|---|---|
| Gemini 2.5 Flash | 71.0% | 24.2% | 19.8% |
| Qwen 3.5 Plus | 70.7% | 29.2% | 16.7% |
| Claude Sonnet 4 | 60.4% | 12.9% | 14.6% |
| GLM 5 | 62.1% | 16.9% | 14.6% |
| MiniMax M2.5 | 50.6% | 9.0% | 15.6% |
| GPT-oss 120B | 42.6% | 4.8% | 1.0% |
| MiMo-V2-Flash | 48.2% | 6.2% | 5.2% |
| DeepSeek V3 | 50.0% | 9.0% | 5.2% |
| GPT-4o | 44.7% | 8.7% | 5.2% |
| Mistral Large 3 | 34.6% | 9.3% | 5.2% |
Méthodologie et critères de notation sur notre page Méthodologie →
Notre méthodologie est décrite dans notre article ArXiv (Uenal, 2026).
Besoin de scores pour VOTRE domaine? Notre Évaluation de modèles IA applique Swiss-Bench à votre cas d'utilisation spécifique.
Contact
contact@ai-helvetic.ch
Prêt pour une évaluation indépendante?
Commencez par une évaluation de modèles IA ou un SOTA Model Sweep complet.