Methodik

Der HAAS-Score: 6 Dimensionen, vollständig reproduzierbar

Jedes KI-System, das wir evaluieren, erhält einen Helvetic AI Assurance Score (HAAS) über 6 Dimensionen. Jede Dimension wird 0–100 bewertet mit Konfidenzintervallen. Detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen und Methodik-Dokumentation werden mitgeliefert, damit Sie jedes Ergebnis reproduzieren können.

Scoring-Framework

6 Evaluationsdimensionen

D1: Leistung (25%)

Wie genau ist das Modell bei realen Schweizer Aufgaben? Aufgabenvollständigkeit, faktische Korrektheit, Halluzinationserkennung. Domänenspezifische Szenarien aus Swiss-Bench testen reale Performance, nicht generische Benchmarks.

D2: Robustheit (20%)

Hält das Modell unter Druck stand? Adversariale Eingaben, Prompt-Injection-Resistenz, Stress-Tests. Wie verhält sich das Modell unter Grenzfällen und adversarialen Bedingungen?

D3: Sicherheit (15%)

Kann man dem Modell vertrauen? Halluzinationserkennung, Identifikation fabrizierter Zitate, Vermeidung schädlicher Outputs. Testet, ob Modelle Schweizer Rechtsverweise erfinden oder irreführende regulatorische Hinweise geben.

D4: Konformität (20%)

Erfüllt das Modell die EU-AI-Act-Anforderungen? Technische Konformität über anwendbare Artikel und technische Anforderungen. Automatisierte Bewertung basierend auf peer-reviewter Methodik der ETH Zürich.

D5: Schweizer Sprache (10%)

Beherrscht das Modell DE/FR/IT korrekt? Mehrsprachige Kompetenz in Deutsch, Französisch und Italienisch. Sprachspezifische Genauigkeit und Schweizer Übersetzungsqualität.

D6: Dokumentation (10%)

Ist das Modell transparent und gut dokumentiert? Vollständigkeit von Model Cards und Erklärungsqualität nach dem Model Cards Framework (Mitchell et al., 2019), evaluiert anhand einer strukturierten Checkliste gemäss EU AI Act Art. 11 (Vollständigkeit 60%, Qualität 40%).

System-Stack

Drei Schichten Evaluationstechnologie

UK AI Security Institute Framework (MIT-Lizenz)

Das Evaluations-Framework des UK AI Security Institute, übernommen von führenden KI-Labors. Bietet die Infrastruktur für reproduzierbare Modell-Evaluationen im grossen Massstab. Über 100 integrierte Evaluationsaufgaben mit einer bewährten Architektur für systematisches KI-Testing.

ETH Zürich / INSAIT Compliance-Framework (Apache 2.0)

EU-AI-Act-Benchmarks abgebildet auf 6 Prinzipien über 18 technische Anforderungen. Liefert das regulatorische Compliance-Scoring. Publizierte, peer-reviewed Methodik.

Swiss-Bench (Proprietär)

395 Schweiz-spezifische Evaluationsszenarien. Testet Deutsch-, Französisch- und Italienisch-Verständnis an domänenspezifischen Aufgaben in den Bereichen Recht, Regulierung und öffentliche Verwaltung.

Modellauswahl

Systematisch, transparent, reproduzierbar

Jedes Modell in unserem Evaluationsroster wird anhand einer dokumentierten Vier-Kriterien-Methodik ausgewählt:

Frontier-Performance

Spitzenwerte auf unabhängigen, anerkannten Benchmarks. Wir evaluieren Modelle an der technologischen Spitze.

Schweizer Marktpräsenz

Modelle, die von Schweizer Finanzinstituten, Versicherern und Unternehmen eingesetzt oder evaluiert werden. Wir testen, was Ihre Organisation wahrscheinlich einsetzen wird.

Kostenmachbarkeit

Token-Preise kompatibel mit produktionsreifer Evaluation (n≥100 pro Benchmark). Statistisch aussagekräftige Stichproben, keine Spielzeug-Demos.

Ökosystem-Abdeckung

Ausgewogene Repräsentation über Open-Source und proprietäre Modelle, US-, EU- und chinesische Anbieter.

Aktuelles Roster: Führende Frontier-Modelle von grossen Anbietern, quartalsweise evaluiert. Auswahlbegründung und Ausschlussgründe sind dokumentiert und auf Anfrage verfügbar. Siehe Swiss-Bench Rangliste für aktuelle Ergebnisse.

Wissenschaftliche Grundlage

Peer-reviewed Methodik

Unser Evaluationssystem kombiniert drei methodische Schichten, jeweils fundiert auf peer-reviewed Forschung:

Swiss-Bench (D1 Leistung): Unser proprietärer Benchmark verwendet eine dreiphasige Ground-Truth-Konstruktionspipeline, inspiriert von der Datenkurationsmethodik von OpenScholar (Asai et al., Nature, 2026): Expertenentwurf aus primären Gesetzesquellen, adversariale Verifizierung und qualitätsgesicherte Filterung. Eine 100-Item-Stichprobe wurde unabhängig von einem Schweizer Rechtsexperten (MLaw, Universität Freiburg) validiert und erreichte 100% juristische Genauigkeit bei 0% als falsch bewerteten Einträgen. Modellantworten werden von einem blinden Drei-Richter-LLM-Panel über drei Dimensionen (juristische Genauigkeit, Zitationsgenauigkeit, Vollständigkeit) mit Mehrheitsvotum-Aggregation bewertet, basierend auf der Multi-Judge-Ensemble-Methodik von Zheng et al. (NeurIPS, 2023). Die vollständige Swiss-Bench-Methodik ist in unserem veröffentlichten ArXiv-Paper (Uenal, 2026) dokumentiert.

Compl-AI (D2 Robustheit, D4 Konformität): Das EU-AI-Act-Compliance-Scoring adaptiert das COMPL-AI-Framework (ETH Zürich / INSAIT, 2024), das regulatorische Prinzipien auf technische Anforderungen abbildet. Anerkannt von der OECD.

Inspect AI (D3 Sicherheit): Sicherheits- und adversariales Testing basiert auf dem Evaluations-Framework des UK AI Security Institute, übernommen von führenden KI-Labors.

Dokumentation (D6): Transparenzbewertung nach dem Model Cards Framework (Mitchell et al., 2019), operationalisiert als strukturierte Checkliste gemäss den technischen Dokumentationsanforderungen des EU AI Act Artikel 11.

Unsere holistische Evaluationsphilosophie folgt HELM (Stanford CRFM, peer-reviewed in TMLR). Die Evaluation der Schweizer Rechtsübersetzung (D5) basiert auf Methodik, validiert durch Niklaus et al. (EMNLP 2023, ACL 2025) mit über 180'000 Schweizer juristischen Übersetzungspaaren. Verwandte Benchmarking-Arbeiten umfassen MMLU-Redux (Gema et al., NAACL 2025), CUAD (Hendrycks et al., NeurIPS 2021) und LegalBench (Guha et al., NeurIPS 2023). Insgesamt stützt sich unsere Methodik auf über 100 peer-reviewed Publikationen.

Kernergebnis (Asai et al., Nature, 2026): Wenn LLMs Gesetzesartikel, Verordnungen oder Urteile zitieren, erfinden sie die Referenzen in 78–90% der Fälle. Unsere Scoring-Methodik evaluiert explizit Zitations-Precision, -Recall und -Korrektheit, nicht nur, ob die Antwort plausibel klingt.

Reproduzierbarkeit

Transparent und überprüfbar

Jede Evaluation folgt einer dokumentierten Methodik mit deterministischer Bewertung. Obwohl LLM-Outputs inhärente Variabilität aufweisen, maximiert unser strukturiertes Scoring-Framework (Temperature 0, fixe Prompts, Multi-Judge-Mehrheitsabstimmung) die Konsistenz. Sie erhalten detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen und vollständige Methodik-Dokumentation, ausreichend, um jedes Ergebnis zu verifizieren und nachzuvollziehen.

Das ist keine Meinung. Es ist Evidenz.

Unabhängigkeit

Keine Interessenkonflikte

Helvetic AI hat keine kommerziellen Beziehungen zu KI-Modell-Anbietern. Keine Provisionen, keine Vendor-Partnerschaften, keine Pay-for-Score-Vereinbarungen. Jedes Modell wird mit demselben System, denselben Benchmarks und derselben Scoring-Methodik evaluiert.

Referenzen

Schlüsselpublikationen

Asai, A. et al. „Citation correctness in large language models.“ Nature, 2026.
Uenal, F. „Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks.“ ArXiv, 2026. arxiv.org/abs/2603.23646
Dobreva, R. et al. „Compliance assessment of LLMs against EU AI Act requirements.“ 2024. (ETH Zürich / INSAIT)
Liang, P. et al. „Holistic Evaluation of Language Models (HELM).“ TMLR, 2023. (Stanford CRFM)
UK AI Security Institute. „Evaluation framework for AI systems.“ MIT License, 2024.
Niklaus, J. et al. „MultiLegalPile: a 689GB multilingual legal corpus.“ EMNLP, 2023.
Niklaus, J. et al. „Swiss legal translation evaluation: 180,000+ translation pairs.“ ACL, 2025.
Gema, A.P. et al. „MMLU-Redux: Fixing expert-written evaluation sets.“ NAACL, 2025.
Hendrycks, D. et al. „CUAD: An expert-annotated NLP dataset for legal contract review.“ NeurIPS, 2021.
Guha, N. et al. „LegalBench: A collaboratively built benchmark for measuring legal reasoning.“ NeurIPS, 2023.
OECD. „AI risk management and governance frameworks.“ OECD AI Policy Observatory, 2024.
Zheng, L. et al. “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena.” NeurIPS, 2023.
Mitchell, M. et al. “Model Cards for Model Reporting.” FAT*, 2019.

Mehr erfahren

Fragen zu unserer Methodik?

Wir besprechen gerne unseren Evaluationsansatz im Detail.

contact@ai-helvetic.ch