Swiss-Bench
Quale modello di IA si adatta al vostro caso d'uso svizzero?
10 modelli. 6 dimensioni. 3 lingue. 395 scenari. Aggiornamento trimestrale.
Ultimo aggiornamento: Q1 2026 · Swiss-Bench v2.0
Classifica
Classifica globale dei modelli
#ModelloHAAS
| # | Modello | Tipo | HAAS | Stato | Punto forte | Aggiornato |
|---|---|---|---|---|---|---|
| 1 | Gemini 2.5 Flash | Closed Source | 60.1 | Pronto | Documentation | Q1 2026 |
| 2 | Qwen 3.5 Plus | Open Source | 59.4 | Pronto | Safety | Q1 2026 |
| 3 | Claude Sonnet 4 | Closed Source | 58.3 | Pronto | Compliance | Q1 2026 |
| 4 | GLM 5 | Open Source | 55.5 | Da valutare | Documentation | Q1 2026 |
| 5 | MiniMax M2.5 | Open Source | 50.2 | Da valutare | Swiss Languages | Q1 2026 |
| 6 | GPT-oss 120B | Open Source | 49.6 | Da valutare | Compliance | Q1 2026 |
| 7 | MiMo-V2-Flash | Open Source | 48.7 | Da valutare | Performance | Q1 2026 |
| 8 | DeepSeek V3 | Open Source | 48.4 | Rischio | Compliance | Q1 2026 |
| 9 | GPT-4o | Closed Source | 48.2 | Rischio | Robustness | Q1 2026 |
| 10 | Mistral Large 3 | Open Source | 47.4 | Rischio | Swiss Languages | Q1 2026 |
Swiss-Bench v2.0: 395 scenari. Classificazione per percentili di 10 modelli. Metodologia →
Risultati chiave
Punti salienti Q1 2026
Il più pronto
Gemini 2.5 Flash
Punteggio HAAS più alto (60.1) su tutte le 6 dimensioni. Punto di forza: Documentation.
Miglior Open Source
Qwen 3.5 Plus
Miglior modello open-weight (HAAS 59.4). Utilizzabile per distribuzione on-premise.
Conformità più forte
Claude Sonnet 4
Punteggio D4 Conformità più alto (80.1). Ideale per ambienti regolamentati.
Swiss-Bench v2.0 (Q1 2026). 395 scenari, pannello di 3 giudici. Aggiornamento trimestrale.
Risultati dettagliati
Confronti per dimensione, lingua & dominio
Ripartizione dimensioni HAAS
| Modello | D1 Perf. | D2 Robust. | D3 Sicur. | D4 Conf. | D5 Ling. | D6 Doc. |
|---|---|---|---|---|---|---|
| Gemini 2.5 Flash | 53.3 | 72.1 | 20.6 | 70.8 | 100 | 51.5 |
| Qwen 3.5 Plus | 51.5 | 77.1 | 33.3 | 55 | 100 | 51.1 |
| Claude Sonnet 4 | 41.2 | 88.4 | 9.5 | 80.1 | 93.6 | 35.2 |
| GLM 5 | 44.2 | 76.5 | 13.5 | 68.1 | 92.2 | 42.5 |
| MiniMax M2.5 | 37.4 | 71.7 | 6.3 | 67.9 | 94.4 | 25.4 |
| GPT-oss 120B | 31.5 | 78.9 | 2.4 | 72.8 | 93.1 | 16.8 |
| MiMo-V2-Flash | 38.8 | 67.8 | 3.2 | 68.8 | 89.3 | 22.3 |
| DeepSeek V3 | 35.9 | 67.8 | 2.4 | 69.4 | 89 | 27.5 |
| GPT-4o | 19.2 | 91.9 | 11.1 | 63.8 | 74.9 | 31.3 |
| Mistral Large 3 | 17.9 | 77.3 | 7.9 | 70.1 | 100 | 22.3 |
Confronto visuale
Gemini 2.5 Flash
Qwen 3.5 Plus
Claude Sonnet 4
GLM 5
MiniMax M2.5
GPT-oss 120B
MiMo-V2-Flash
DeepSeek V3
GPT-4o
Mistral Large 3
Confronto per lingua
| Modello | Tedesco (DE) | Francese (FR) | Italiano (IT) |
|---|---|---|---|
| Gemini 2.5 Flash | 39.7% | 41.9% | 52.6% |
| Qwen 3.5 Plus | 45.3% | 41.6% | 51.5% |
| Claude Sonnet 4 | 27.3% | 33.4% | 42.8% |
| GLM 5 | 34.3% | 33.1% | 42.8% |
| MiniMax M2.5 | 26% | 24.7% | 34.5% |
| GPT-oss 120B | 16% | 19.6% | 28.9% |
| MiMo-V2-Flash | 20% | 24.7% | 29.4% |
| DeepSeek V3 | 18% | 25.7% | 39.2% |
| GPT-4o | 16% | 25% | 33.5% |
| Mistral Large 3 | 14.7% | 19.6% | 27.3% |
Confronto per dominio
| Modello | Diritto svizzero | FINMA | CDF Audit |
|---|---|---|---|
| Gemini 2.5 Flash | 71.0% | 24.2% | 19.8% |
| Qwen 3.5 Plus | 70.7% | 29.2% | 16.7% |
| Claude Sonnet 4 | 60.4% | 12.9% | 14.6% |
| GLM 5 | 62.1% | 16.9% | 14.6% |
| MiniMax M2.5 | 50.6% | 9.0% | 15.6% |
| GPT-oss 120B | 42.6% | 4.8% | 1.0% |
| MiMo-V2-Flash | 48.2% | 6.2% | 5.2% |
| DeepSeek V3 | 50.0% | 9.0% | 5.2% |
| GPT-4o | 44.7% | 8.7% | 5.2% |
| Mistral Large 3 | 34.6% | 9.3% | 5.2% |
Metodologia e criteri di valutazione nella nostra pagina Metodologia →
Metodologia e framework statistico nel nostro articolo ArXiv (Uenal, 2026).
Servono punteggi per IL VOSTRO dominio? La nostra Valutazione Modelli IA applica Swiss-Bench al vostro caso d'uso specifico.
Contatto
contact@ai-helvetic.ch
Pronti per una valutazione indipendente?
Iniziate con una valutazione di modelli IA o un SOTA Model Sweep completo.