Quale modello di IA si adatta al vostro caso d'uso svizzero?

10 modelli. 6 dimensioni. 3 lingue. 395 scenari. Aggiornamento trimestrale.

Ultimo aggiornamento: Q1 2026 · Swiss-Bench v2.0

Classifica globale dei modelli

#ModelloHAAS
Swiss-Bench classifica IA, Q1 2026 (10 modelli)
#ModelloTipoHAASStatoPunto forteAggiornato
1 Gemini 2.5 Flash Closed Source 60.1 Pronto Documentation Q1 2026
2 Qwen 3.5 Plus Open Source 59.4 Pronto Safety Q1 2026
3 Claude Sonnet 4 Closed Source 58.3 Pronto Compliance Q1 2026
4 GLM 5 Open Source 55.5 Da valutare Documentation Q1 2026
5 MiniMax M2.5 Open Source 50.2 Da valutare Swiss Languages Q1 2026
6 GPT-oss 120B Open Source 49.6 Da valutare Compliance Q1 2026
7 MiMo-V2-Flash Open Source 48.7 Da valutare Performance Q1 2026
8 DeepSeek V3 Open Source 48.4 Rischio Compliance Q1 2026
9 GPT-4o Closed Source 48.2 Rischio Robustness Q1 2026
10 Mistral Large 3 Open Source 47.4 Rischio Swiss Languages Q1 2026

Dimensioni HAAS: D1 Performance (25%) · D2 Robustezza (20%) · D3 Sicurezza (15%) · D4 Conformità (20%) · D5 Lingue svizzere (10%) · D6 Documentazione (10%)

Ogni modello è classificato per punteggio HAAS e per percentili: top 30% = Pronto, medio 40% = Da valutare, basso 30% = Rischio.

Swiss-Bench v2.0: 395 scenari. Classificazione per percentili di 10 modelli. Metodologia →

Punti salienti Q1 2026

Il più pronto
Gemini 2.5 Flash
Punteggio HAAS più alto (60.1) su tutte le 6 dimensioni. Punto di forza: Documentation.
Miglior Open Source
Qwen 3.5 Plus
Miglior modello open-weight (HAAS 59.4). Utilizzabile per distribuzione on-premise.
Conformità più forte
Claude Sonnet 4
Punteggio D4 Conformità più alto (80.1). Ideale per ambienti regolamentati.

Swiss-Bench v2.0 (Q1 2026). 395 scenari, pannello di 3 giudici. Aggiornamento trimestrale.

Confronti per dimensione, lingua & dominio

Ripartizione dimensioni HAAS

ModelloD1 Perf.D2 Robust.D3 Sicur.D4 Conf.D5 Ling.D6 Doc.
Gemini 2.5 Flash53.372.120.670.810051.5
Qwen 3.5 Plus51.577.133.35510051.1
Claude Sonnet 441.288.49.580.193.635.2
GLM 544.276.513.568.192.242.5
MiniMax M2.537.471.76.367.994.425.4
GPT-oss 120B31.578.92.472.893.116.8
MiMo-V2-Flash38.867.83.268.889.322.3
DeepSeek V335.967.82.469.48927.5
GPT-4o19.291.911.163.874.931.3
Mistral Large 317.977.37.970.110022.3

Confronto visuale

Gemini 2.5 Flash
D1
D2
D3
D4
D5
D6
Qwen 3.5 Plus
D1
D2
D3
D4
D5
D6
Claude Sonnet 4
D1
D2
D3
D4
D5
D6
GLM 5
D1
D2
D3
D4
D5
D6
MiniMax M2.5
D1
D2
D3
D4
D5
D6
GPT-oss 120B
D1
D2
D3
D4
D5
D6
MiMo-V2-Flash
D1
D2
D3
D4
D5
D6
DeepSeek V3
D1
D2
D3
D4
D5
D6
GPT-4o
D1
D2
D3
D4
D5
D6
Mistral Large 3
D1
D2
D3
D4
D5
D6

Confronto per lingua

ModelloTedesco (DE)Francese (FR)Italiano (IT)
Gemini 2.5 Flash39.7%41.9%52.6%
Qwen 3.5 Plus45.3%41.6%51.5%
Claude Sonnet 427.3%33.4%42.8%
GLM 534.3%33.1%42.8%
MiniMax M2.526%24.7%34.5%
GPT-oss 120B16%19.6%28.9%
MiMo-V2-Flash20%24.7%29.4%
DeepSeek V318%25.7%39.2%
GPT-4o16%25%33.5%
Mistral Large 314.7%19.6%27.3%

Confronto per dominio

ModelloDiritto svizzeroFINMACDF Audit
Gemini 2.5 Flash71.0%24.2%19.8%
Qwen 3.5 Plus70.7%29.2%16.7%
Claude Sonnet 460.4%12.9%14.6%
GLM 562.1%16.9%14.6%
MiniMax M2.550.6%9.0%15.6%
GPT-oss 120B42.6%4.8%1.0%
MiMo-V2-Flash48.2%6.2%5.2%
DeepSeek V350.0%9.0%5.2%
GPT-4o44.7%8.7%5.2%
Mistral Large 334.6%9.3%5.2%

Sbloccare i risultati completi

Dimensioni HAAS, confronti per lingua e dominio con semafori per tutti i 10 modelli.

Nessuno spam. Aggiornamenti trimestrali. Cancellazione in qualsiasi momento.
Metodologia e criteri di valutazione nella nostra pagina Metodologia →

Metodologia e framework statistico nel nostro articolo ArXiv (Uenal, 2026).

Servono punteggi per IL VOSTRO dominio? La nostra Valutazione Modelli IA applica Swiss-Bench al vostro caso d'uso specifico.

Pronti per una valutazione indipendente?

Iniziate con una valutazione di modelli IA o un SOTA Model Sweep completo.

Valutazione da CHF 8'000 · SOTA Sweep da CHF 20'000
contact@ai-helvetic.ch