Metodologia

Il HAAS-Score: 6 dimensioni, completamente riproducibile

Ogni sistema IA che valutiamo riceve un Helvetic AI Assurance Score (HAAS) su 6 dimensioni. Ogni dimensione viene valutata da 0 a 100 con intervalli di confidenza. I risultati di benchmark dettagliati e la documentazione metodologica vengono forniti, affinché possiate riprodurre ogni risultato.

Framework di scoring

6 dimensioni di valutazione

D1: Prestazione (25%)

Quanto è preciso il modello sui compiti svizzeri reali? Completezza del compito, correttezza fattuale, rilevamento delle allucinazioni. Scenari specifici per dominio da Swiss-Bench testano la performance reale, non benchmark generici.

D2: Robustezza (20%)

Il modello regge sotto pressione? Input avversari, resistenza alla prompt injection, stress test. Come si comporta il modello in condizioni limite e avversarie?

D3: Sicurezza (15%)

Ci si può fidare del modello? Rilevamento delle allucinazioni, identificazione di citazioni fabbricate, evitamento di output dannosi. Testa se i modelli inventano riferimenti giuridici svizzeri o producono indicazioni regolamentari fuorvianti.

D4: Conformità (20%)

Il modello soddisfa i requisiti dell’EU AI Act? Conformità tecnica sugli articoli applicabili e i requisiti tecnici. Scoring automatizzato basato su metodologia peer-reviewed di ETH Zurigo.

D5: Lingua svizzera (10%)

Il modello gestisce correttamente DE/FR/IT? Competenza multilingue in tedesco, francese e italiano. Accuratezza linguistica e qualità della traduzione svizzera.

D6: Documentazione (10%)

Il modello è trasparente e ben documentato? Completezza delle schede modello e qualità delle spiegazioni seguendo il framework Model Cards (Mitchell et al., 2019), valutata secondo una checklist strutturata allineata all’EU AI Act Art. 11 (completezza 60%, qualità 40%).

System Stack

Basato sulla scienza della valutazione di livello mondiale

UK AI Security Institute (framework di valutazione)

La nostra infrastruttura di valutazione si basa sul framework sviluppato dal UK AI Security Institute e adottato dai principali laboratori IA tra cui Anthropic, Google DeepMind e xAI.* Fornisce valutazioni riproducibili dei modelli su larga scala con oltre 100 compiti di valutazione integrati.

ETH Zurigo / INSAIT (framework di conformità)

Scoring di conformità EU AI Act basato su metodologia peer-reviewed di ETH Zurigo, che mappa i principi normativi sui requisiti tecnici. Riconosciuto dall’OCSE.

Swiss-Bench (proprietario)

395 scenari proprietari specifici per la Svizzera in tedesco, francese e italiano. Testa la conoscenza del dominio, la competenza multilingue e la comprensione normativa nei contesti giuridici, finanziari e amministrativi svizzeri.

* Secondo Hamel Husain, Inspect AI: An OSS Python Library For LLM Evals.

Selezione dei modelli

Sistematica, trasparente, riproducibile

Ogni modello nel nostro roster di valutazione viene selezionato secondo una metodologia documentata basata su quattro criteri:

Performance Frontier

Punteggi di punta su benchmark indipendenti e ampiamente riconosciuti. Valutiamo modelli all’avanguardia tecnologica, non sistemi legacy.

Presenza sul mercato svizzero

Modelli adottati o considerati da istituzioni finanziarie, assicuratori e aziende svizzere. Testiamo ciò che la vostra organizzazione probabilmente implementerà.

Fattibilità dei costi

Prezzi per token compatibili con valutazioni di qualità produzione (n≥100 per benchmark). Campioni statisticamente significativi, non dimostrazioni giocattolo.

Copertura dell'ecosistema

Rappresentazione equilibrata tra i principali fornitori, open-source e proprietario, modelli americani, europei e cinesi.

Roster attuale: principali modelli frontier dei maggiori fornitori, valutati trimestralmente. Le motivazioni di selezione e di esclusione sono documentate e disponibili su richiesta. Vedi la classifica Swiss-Bench per i risultati attuali.

Fondamento scientifico

Metodologia peer-reviewed

Il nostro sistema di valutazione combina tre livelli metodologici, ciascuno fondato su ricerca peer-reviewed:

Swiss-Bench (D1 Prestazione): Il nostro benchmark proprietario utilizza una pipeline di costruzione della ground truth in tre fasi, ispirata alla metodologia di curazione dati di OpenScholar (Asai et al., Nature, 2026): redazione da esperti a partire da fonti legislative primarie, verifica avversaria e filtraggio con controllo qualità. Un campione di 100 item è stato validato indipendentemente da un esperto giuridico svizzero (MLaw, Università di Friburgo), raggiungendo il 100% di accuratezza giuridica e lo 0% classificato come errato. Le risposte dei modelli sono valutate da un pannello cieco di tre giudici LLM su tre dimensioni (accuratezza giuridica, accuratezza delle citazioni, completezza) con aggregazione a voto di maggioranza, seguendo la metodologia multi-giudice di Zheng et al. (NeurIPS, 2023). La metodologia completa di Swiss-Bench è documentata nel nostro articolo pubblicato su ArXiv (Uenal, 2026).

Compl-AI (D2 Robustezza, D4 Conformità): Lo scoring di conformità EU AI Act adatta il framework COMPL-AI (ETH Zurigo / INSAIT, 2024), mappando i principi normativi sui requisiti tecnici. Riconosciuto dall’OCSE.

Inspect AI (D3 Sicurezza): I test di sicurezza e avversari si basano sul framework di valutazione del UK AI Security Institute, adottato dai principali laboratori IA.

Documentazione (D6): La valutazione della trasparenza segue il framework Model Cards (Mitchell et al., 2019), operazionalizzato come checklist strutturata allineata ai requisiti di documentazione tecnica dell’EU AI Act Articolo 11.

La nostra filosofia di valutazione olistica segue HELM (Stanford CRFM, peer-reviewed in TMLR). La valutazione della traduzione giuridica svizzera (D5) si basa sulla metodologia validata da Niklaus et al. (EMNLP 2023, ACL 2025) con oltre 180’000 coppie di traduzione giuridica svizzera. Lavori di benchmarking correlati includono MMLU-Redux (Gema et al., NAACL 2025), CUAD (Hendrycks et al., NeurIPS 2021) e LegalBench (Guha et al., NeurIPS 2023). In totale, la nostra metodologia si basa su oltre 100 pubblicazioni peer-reviewed.

Risultato chiave (Asai et al., Nature, 2026): Quando i LLM citano articoli di legge, regolamenti o giurisprudenza, fabbricano i riferimenti nel 78–90% dei casi. La nostra metodologia di scoring valuta esplicitamente precisione, richiamo e correttezza delle citazioni, non solo se la risposta sembra plausibile.

Riproducibilità

Trasparente e verificabile

Ogni valutazione segue una metodologia documentata con scoring deterministico. Sebbene gli output dei LLM presentino variabilità intrinseca, il nostro framework di scoring strutturato (temperature 0, prompt fissi, voto a maggioranza multi-giudice) massimizza la coerenza. Ricevete risultati di benchmark dettagliati, ripartizioni dei punteggi e documentazione metodologica completa, sufficienti per verificare e comprendere ogni risultato.

Non è un’opinione. È evidenza.

Indipendenza

Nessun conflitto di interessi

Helvetic AI non ha rapporti commerciali con fornitori di modelli IA. Nessuna commissione, nessuna partnership con vendor, nessun accordo pay-for-score. Ogni modello viene valutato con lo stesso sistema, gli stessi benchmark e la stessa metodologia di scoring.

Riferimenti

Pubblicazioni chiave

Asai, A. et al. “Citation correctness in large language models.” Nature, 2026.
Uenal, F. “Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks.” ArXiv, 2026. arxiv.org/abs/2603.23646
Dobreva, R. et al. “Compliance assessment of LLMs against EU AI Act requirements.” ETH Zürich / INSAIT, 2024.
Liang, P. et al. “Holistic Evaluation of Language Models (HELM).” TMLR, 2023. (Stanford CRFM)
UK AI Security Institute. “Evaluation framework for AI systems.” 2024.
Niklaus, J. et al. “MultiLegalPile: a 689GB multilingual legal corpus.” EMNLP, 2023.
Niklaus, J. et al. “Swiss legal translation evaluation: 180,000+ translation pairs.” ACL, 2025.
Gema, A.P. et al. “MMLU-Redux: Fixing expert-written evaluation sets.” NAACL, 2025.
Hendrycks, D. et al. “CUAD: An expert-annotated NLP dataset for legal contract review.” NeurIPS, 2021.
Guha, N. et al. “LegalBench: A collaboratively built benchmark for measuring legal reasoning.” NeurIPS, 2023.
OECD. “AI risk management and governance frameworks.” OECD AI Policy Observatory, 2024.
Zheng, L. et al. “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena.” NeurIPS, 2023.
Mitchell, M. et al. “Model Cards for Model Reporting.” FAT*, 2019.

Per saperne di più

Domande sulla nostra metodologia?

Siamo lieti di discutere il nostro approccio di valutazione nel dettaglio.

contact@ai-helvetic.ch