Méthodologie

Le HAAS-Score : 6 dimensions, entièrement reproductible

Chaque système IA que nous évaluons reçoit un Helvetic AI Assurance Score (HAAS) sur 6 dimensions. Chaque dimension est notée de 0 à 100 avec intervalles de confiance. Les résultats de benchmark détaillés et la documentation méthodologique sont livrés avec chaque mandat, afin que vous puissiez vérifier chaque résultat de manière indépendante.

Cadre de notation

6 dimensions d’évaluation

D1: Performance (25%)

Quelle est la précision du modèle sur les tâches suisses réelles ? Complétude des tâches, exactitude factuelle, détection des hallucinations. Des scénarios spécifiques au domaine issus de Swiss-Bench testent la performance réelle, pas des benchmarks génériques.

D2: Robustesse (20%)

Le modèle résiste-t-il sous pression ? Entrées adversariales, résistance aux injections de prompt, tests de stress. Comment le modèle se comporte-t-il face aux cas limites et aux conditions adversariales ?

D3: Sécurité (15%)

Peut-on faire confiance au modèle ? Détection des hallucinations, identification de citations fabriquées, évitement des sorties nuisibles. Teste si les modèles inventent des références juridiques suisses ou produisent des orientations réglementaires trompeuses.

D4: Conformité (20%)

Le modèle satisfait-il aux exigences de l’EU AI Act ? Conformité technique sur les articles applicables et les exigences techniques. Scoring automatisé basé sur une méthodologie peer-reviewed d’ETH Zurich.

D5: Langue suisse (10%)

Le modèle gère-t-il correctement le DE/FR/IT ? Compétence multilingue en allemand, français et italien. Précision linguistique et qualité de traduction suisse.

D6: Documentation (10%)

Le modèle est-il transparent et bien documenté ? Complétude des fiches modèle et qualité des explications suivant le framework Model Cards (Mitchell et al., 2019), évaluée selon une grille structurée alignée sur l’EU AI Act Art. 11 (complétude 60%, qualité 40%).

Stack technologique

Trois couches de technologie d’évaluation

UK AI Security Institute (framework d’évaluation)

Notre infrastructure d’évaluation repose sur le framework développé par le UK AI Security Institute et adopté par les principaux laboratoires d’IA, dont Anthropic, Google DeepMind et xAI.* Fournit des évaluations de modèles reproductibles à grande échelle avec plus de 100 tâches d’évaluation intégrées.

ETH Zurich / INSAIT (framework de conformité)

Scoring de conformité EU AI Act basé sur une méthodologie peer-reviewed d’ETH Zurich, projetant les principes réglementaires sur les exigences techniques. Reconnu par l’OCDE.

Swiss-Bench (propriétaire)

395 scénarios d’évaluation propriétaires testant les modèles en allemand, français et italien sur des tâches spécifiques à la Suisse. Contrairement aux benchmarks génériques, Swiss-Bench mesure la performance réelle sur des tâches réglementaires, juridiques et financières dans les trois langues officielles.

* Selon Hamel Husain, Inspect AI: An OSS Python Library For LLM Evals.

Sélection des modèles

Systématique, transparente, reproductible

Chaque modèle de notre panel d'évaluation est sélectionné selon une méthodologie documentée à quatre critères :

Performance Frontier

Meilleurs scores sur des benchmarks indépendants et largement reconnus. Nous évaluons les modèles à la pointe de la technologie, pas des systèmes dépassés.

Présence sur le marché suisse

Modèles adoptés ou envisagés par les institutions financières, assureurs et entreprises suisses. Nous testons ce que votre organisation est susceptible de déployer.

Faisabilité des coûts

Prix par token compatibles avec une évaluation de qualité production (n≥100 par benchmark). Des échantillons statistiquement significatifs, pas des démonstrations sommaires.

Couverture de l'écosystème

Représentation équilibrée entre les principaux fournisseurs, open-source et propriétaire, modèles américains, européens et chinois.

Panel actuel : principaux modèles frontier des grands fournisseurs, évalués trimestriellement. La justification de la sélection et les raisons d'exclusion sont documentées et disponibles sur demande. Voir le classement Swiss-Bench pour les résultats actuels.

Fondement scientifique

Méthodologie revue par les pairs

Notre système d’évaluation combine trois couches méthodologiques, chacune fondée sur la recherche peer-reviewed :

Swiss-Bench (D1 Performance) : Notre benchmark propriétaire utilise un pipeline de construction de vérité terrain en trois phases, inspiré de la méthodologie de curation de données d’OpenScholar (Asai et al., Nature, 2026) : rédaction par des experts à partir de sources législatives primaires, vérification adversariale et filtrage par contrôle qualité. Un échantillon de 100 items a été validé de manière indépendante par un expert juridique suisse (MLaw, Université de Fribourg), atteignant 100% de précision juridique et 0% classé incorrect. Les réponses des modèles sont évaluées par un panel aveugle de trois juges LLM sur trois dimensions (précision juridique, précision des citations, complétude) avec agrégation par vote majoritaire, suivant la méthodologie d’ensemble multi-juges de Zheng et al. (NeurIPS, 2023). La méthodologie complète de Swiss-Bench est documentée dans notre article publié sur ArXiv (Uenal, 2026).

Compl-AI (D2 Robustesse, D4 Conformité) : Le scoring de conformité EU AI Act adapte le framework COMPL-AI (ETH Zurich / INSAIT, 2024), projetant les principes réglementaires sur les exigences techniques. Reconnu par l’OCDE.

Inspect AI (D3 Sécurité) : Les tests de sécurité et adversariaux s’appuient sur le framework d’évaluation du UK AI Security Institute, adopté par les principaux laboratoires d’IA.

Documentation (D6) : L’évaluation de la transparence suit le framework Model Cards (Mitchell et al., 2019), opérationnalisé comme une grille structurée alignée sur les exigences de documentation technique de l’EU AI Act Article 11.

Notre philosophie d’évaluation holistique suit HELM (Stanford CRFM, peer-reviewed dans TMLR). L’évaluation de la traduction juridique suisse (D5) s’appuie sur la méthodologie validée par Niklaus et al. (EMNLP 2023, ACL 2025) couvrant plus de 180’000 paires de traduction juridiques suisses. Les travaux de benchmarking associés incluent MMLU-Redux (Gema et al., NAACL 2025), CUAD (Hendrycks et al., NeurIPS 2021) et LegalBench (Guha et al., NeurIPS 2023). Au total, notre méthodologie s’appuie sur plus de 100 publications peer-reviewed.

Résultat clé (Asai et al., Nature, 2026) : Lorsque les LLMs citent des articles de loi, des règlements ou de la jurisprudence, ils fabriquent les références dans 78–90% des cas. Notre méthodologie de scoring évalue explicitement la précision, le rappel et l’exactitude des citations, pas seulement si la réponse semble plausible.

Reproductibilité

Transparent et vérifiable

Chaque évaluation suit une méthodologie documentée avec un scoring déterministe. Bien que les sorties des LLM présentent une variabilité inhérente, notre cadre de scoring structuré (température 0, prompts fixes, vote majoritaire multi-juges) maximise la cohérence. Vous recevez des résultats de benchmark détaillés, des décompositions de scores et la documentation méthodologique complète, suffisants pour vérifier et comprendre chaque résultat.

Ce n’est pas une opinion. Ce sont des preuves.

Indépendance

Aucun conflit d’intérêts

Helvetic AI n’entretient aucune relation commerciale avec des fournisseurs de modèles IA. Aucune commission, aucun partenariat fournisseur, aucun accord de type pay-for-score. Chaque modèle est évalué avec le même système, les mêmes benchmarks et la même méthodologie de notation.

Références

Publications clés

Asai, A. et al. « Citation correctness in large language models. » Nature, 2026.
Uenal, F. « Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks. » ArXiv, 2026. arxiv.org/abs/2603.23646
Dobreva, R. et al. « Compliance assessment of LLMs against EU AI Act requirements. » ETH Zurich / INSAIT, 2024.
Liang, P. et al. « Holistic Evaluation of Language Models (HELM). » TMLR, 2023. (Stanford CRFM)
UK AI Security Institute. « Evaluation framework for AI systems. » 2024.
Niklaus, J. et al. « MultiLegalPile: a 689GB multilingual legal corpus. » EMNLP, 2023.
Niklaus, J. et al. « Swiss legal translation evaluation: 180,000+ translation pairs. » ACL, 2025.
Gema, A.P. et al. « MMLU-Redux: Fixing expert-written evaluation sets. » NAACL, 2025.
Hendrycks, D. et al. « CUAD: An expert-annotated NLP dataset for legal contract review. » NeurIPS, 2021.
Guha, N. et al. « LegalBench: A collaboratively built benchmark for measuring legal reasoning. » NeurIPS, 2023.
OECD. « AI risk management and governance frameworks. » OECD AI Policy Observatory, 2024.
Zheng, L. et al. “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena.” NeurIPS, 2023.
Mitchell, M. et al. “Model Cards for Model Reporting.” FAT*, 2019.

Des questions sur notre méthodologie ?

Nous nous ferons un plaisir de discuter de notre approche d’évaluation en détail.

contact@ai-helvetic.ch