Swiss-Bench

Quale modello di IA si adatta al vostro caso d'uso svizzero?

10 modelli. 6 dimensioni. 3 lingue. 395 scenari. Aggiornamento trimestrale.

Ultimo aggiornamento: Q1 2026 · Swiss-Bench v2.0

Classifica

Classifica globale dei modelli

Swiss-Bench classifica IA, Q1 2026 (10 modelli)
#	Modello	Tipo	HAAS	Stato	Punto forte	Aggiornato
1	Gemini 2.5 Flash	Closed Source	60.1	Pronto	Documentation	Q1 2026
2	Qwen 3.5 Plus	Open Source	59.4	Pronto	Safety	Q1 2026
3	Claude Sonnet 4	Closed Source	58.3	Pronto	Compliance	Q1 2026
4	GLM 5	Open Source	55.5	Da valutare	Documentation	Q1 2026
5	MiniMax M2.5	Open Source	50.2	Da valutare	Swiss Languages	Q1 2026
6	GPT-oss 120B	Open Source	49.6	Da valutare	Compliance	Q1 2026
7	MiMo-V2-Flash	Open Source	48.7	Da valutare	Performance	Q1 2026
8	DeepSeek V3	Open Source	48.4	Rischio	Compliance	Q1 2026
9	GPT-4o	Closed Source	48.2	Rischio	Robustness	Q1 2026
10	Mistral Large 3	Open Source	47.4	Rischio	Swiss Languages	Q1 2026

Dimensioni HAAS: D1 Performance (25%) · D2 Robustezza (20%) · D3 Sicurezza (15%) · D4 Conformità (20%) · D5 Lingue svizzere (10%) · D6 Documentazione (10%)

Ogni modello è classificato per punteggio HAAS e per percentili: top 30% = Pronto, medio 40% = Da valutare, basso 30% = Rischio.

Swiss-Bench v2.0: 395 scenari. Classificazione per percentili di 10 modelli. Metodologia →

Risultati chiave

Punti salienti Q1 2026

Il più pronto

Gemini 2.5 Flash

Punteggio HAAS più alto (60.1) su tutte le 6 dimensioni. Punto di forza: Documentation.

Miglior Open Source

Qwen 3.5 Plus

Miglior modello open-weight (HAAS 59.4). Utilizzabile per distribuzione on-premise.

Conformità più forte

Claude Sonnet 4

Punteggio D4 Conformità più alto (80.1). Ideale per ambienti regolamentati.

Swiss-Bench v2.0 (Q1 2026). 395 scenari, pannello di 3 giudici. Aggiornamento trimestrale.

Risultati dettagliati

Confronti per dimensione, lingua & dominio

Ripartizione dimensioni HAAS

Modello	D1 Perf.	D2 Robust.	D3 Sicur.	D4 Conf.	D5 Ling.	D6 Doc.
Gemini 2.5 Flash	53.3	72.1	20.6	70.8	100	51.5
Qwen 3.5 Plus	51.5	77.1	33.3	55	100	51.1
Claude Sonnet 4	41.2	88.4	9.5	80.1	93.6	35.2
GLM 5	44.2	76.5	13.5	68.1	92.2	42.5
MiniMax M2.5	37.4	71.7	6.3	67.9	94.4	25.4
GPT-oss 120B	31.5	78.9	2.4	72.8	93.1	16.8
MiMo-V2-Flash	38.8	67.8	3.2	68.8	89.3	22.3
DeepSeek V3	35.9	67.8	2.4	69.4	89	27.5
GPT-4o	19.2	91.9	11.1	63.8	74.9	31.3
Mistral Large 3	17.9	77.3	7.9	70.1	100	22.3

Confronto visuale

Gemini 2.5 Flash

D1

D2

D3

D4

D5

D6

Qwen 3.5 Plus

D1

D2

D3

D4

D5

D6

Claude Sonnet 4

D1

D2

D3

D4

D5

D6

GLM 5

D1

D2

D3

D4

D5

D6

MiniMax M2.5

D1

D2

D3

D4

D5

D6

GPT-oss 120B

D1

D2

D3

D4

D5

D6

MiMo-V2-Flash

D1

D2

D3

D4

D5

D6

DeepSeek V3

D1

D2

D3

D4

D5

D6

GPT-4o

D1

D2

D3

D4

D5

D6

Mistral Large 3

D1

D2

D3

D4

D5

D6

Confronto per lingua

Modello	Tedesco (DE)	Francese (FR)	Italiano (IT)
Gemini 2.5 Flash	39.7%	41.9%	52.6%
Qwen 3.5 Plus	45.3%	41.6%	51.5%
Claude Sonnet 4	27.3%	33.4%	42.8%
GLM 5	34.3%	33.1%	42.8%
MiniMax M2.5	26%	24.7%	34.5%
GPT-oss 120B	16%	19.6%	28.9%
MiMo-V2-Flash	20%	24.7%	29.4%
DeepSeek V3	18%	25.7%	39.2%
GPT-4o	16%	25%	33.5%
Mistral Large 3	14.7%	19.6%	27.3%

Confronto per dominio

Modello	Diritto svizzero	FINMA	CDF Audit
Gemini 2.5 Flash	71.0%	24.2%	19.8%
Qwen 3.5 Plus	70.7%	29.2%	16.7%
Claude Sonnet 4	60.4%	12.9%	14.6%
GLM 5	62.1%	16.9%	14.6%
MiniMax M2.5	50.6%	9.0%	15.6%
GPT-oss 120B	42.6%	4.8%	1.0%
MiMo-V2-Flash	48.2%	6.2%	5.2%
DeepSeek V3	50.0%	9.0%	5.2%
GPT-4o	44.7%	8.7%	5.2%
Mistral Large 3	34.6%	9.3%	5.2%

Sbloccare i risultati completi

Dimensioni HAAS, confronti per lingua e dominio con semafori per tutti i 10 modelli.

Nessuno spam. Aggiornamenti trimestrali. Cancellazione in qualsiasi momento.

Metodologia e criteri di valutazione nella nostra pagina Metodologia →

Metodologia e framework statistico nel nostro articolo ArXiv (Uenal, 2026).

Servono punteggi per IL VOSTRO dominio? La nostra Valutazione Modelli IA applica Swiss-Bench al vostro caso d'uso specifico.

Contatto

Pronti per una valutazione indipendente?

Iniziate con una valutazione di modelli IA o un SOTA Model Sweep completo.

Valutazione da CHF 8'000 · SOTA Sweep da CHF 20'000

contact@ai-helvetic.ch