Methodik

Helvetic AI Assurance Score (HAAS):
Eine Qualitäts-Metrik aus der Schweiz, für die Schweiz.

Wir evaluieren KI-Systeme mit unserem eigens für den Schweizer Kontext entwickelten Helvetic AI Assurance Score (HAAS). Der HAAS-Score beantwortet Ihre Fragen zur Konformität, Performanz, Zuverlässigkeit und Sicherheit von KI-Systemen: wissenschaftlich fundiert, reproduzierbar und reliabel. Der HAAS-Score verteilt sich über insgesamt 8 Dimensionen und ist gruppiert in 4 Evaluationspfeiler: Konformität, Performanz, Zuverlässigkeit und Sicherheit. Detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen, präzise Konfidenzintervalle und Methodik-Dokumentation werden mitgeliefert, damit Sie jedes Ergebnis reproduzieren können.

Leistungsmodell

Messung → Diagnose → Remediation

Jedes Engagement folgt einer strukturierten Progression von objektiver Bewertung zu umsetzbaren Empfehlungen:

Messung (Assurance Basic): Automatisierte Benchmarks liefern Scores, Ampel-Dashboards und identifizieren die wichtigsten Lücken. Sie wissen, wo Sie stehen.

Messung + Diagnose (Assurance Plus): Experteninterpretation der Benchmark-Ergebnisse. Schweregrad-Ranking, Ursachenanalyse, Konfidenzintervalle und Massnahmen-Priorisierung. Sie wissen, was am wichtigsten ist.

Messung + Diagnose + Remediation (Assurance Komplett): Evidenzbasierte, bewährte Massnahmenempfehlungen. Control Mapping, Verantwortlichkeitszuweisung, Umsetzungssequenzierung und Wirksamkeitsreferenzen. Sie wissen genau, was zu tun ist.

Dieses Drei-Stufen-Modell gilt identisch über alle vier Pfeiler. Die Stufe bestimmt die Tiefe, nicht den Umfang.

Klare Grenzen: Wir messen, diagnostizieren und empfehlen. Wir implementieren keine Massnahmen, validieren nicht als Second Line und zertifizieren keine Compliance. Die Institution implementiert; die Institution validiert.

Scoring-Framework

HAAS-Score Messdimensionen

Performanz

D1 Performance · D2 Robustheit

Konformität

D3 Safety · D4 Compliance · D5 Schweizer Sprachen · D6 Dokumentation

Zuverlässigkeit

D7 Produktionszuverlässigkeit

Sicherheit

D8 Adversariale Sicherheit

Pfeiler 1: Konform?

Regulatorische KI-Konformität

Was wir testen: Erfüllt Ihr KI-System die regulatorischen Anforderungen? Vier HAAS-Dimensionen decken die gesamte Compliance-Breite ab:

D3 Safety: Fairness, Bias-Erkennung, geschützte Attribute, Gleichbehandlung
D4 Compliance: PII-Leckage, Memorisierung, Datenexfiltration
D5 Schweizer Sprachen: Erklärbarkeit, Konfidenz-Kalibrierung, Model Cards
D6 Dokumentation: EU AI Act, FINMA 08/2024, nDSG Mapping

Wie wir testen: 29 Compl-AI Benchmarks × 6 Prinzipien × 18 technische Anforderungen. Automatisierte Bewertung basierend auf peer-reviewter Methodik der ETH Zürich / INSAIT (2024). FINMA-spezifische Szenarien für Schweizer Finanzregulierer. Transparenzbewertung nach dem Model Cards Framework (Mitchell et al., 2019).

Was Sie erhalten: Artikel-spezifische Scores (Art. 9–15), Ampel-Dashboard, Lückenanalyse mit Massnahmen-Priorisierung, FINMA-Risiko-Heatmap.

Pfeiler 2: Performant?

KI-Modell-Evaluation

Was wir testen: Welches Modell liefert die besten Ergebnisse für Ihre spezifische Domäne und Sprache?

D1 Performance: Aufgabenvollständigkeit, faktische Korrektheit, Halluzinationserkennung. Domänenspezifische Szenarien aus Swiss-Bench testen reale Performance, nicht generische Benchmarks.
D2 Robustheit: Adversariale Eingaben, Prompt-Injection-Resistenz, Stress-Tests. Verhalten unter Grenzfällen und adversarialen Bedingungen.

Wie wir testen: über 800 Schweiz-spezifische Evaluationsszenarien aus Swiss-Bench (Uenal, 2026a). DE/FR/IT in den Bereichen Recht, Regulierung und öffentliche Verwaltung. Dreiphasige Ground-Truth-Konstruktion nach OpenScholar (Asai et al., Nature 2026). Multi-Judge-Ensemble-Bewertung nach Zheng et al. (NeurIPS 2023).

Was Sie erhalten: Modell-Rankings, Head-to-Head-Vergleiche mit Konfidenzintervallen, Schweizer Sprachqualitätsanalyse, TCO-Vergleich, Selektionsempfehlung.

Pfeiler 3: Zuverlässig?

KI-Zuverlässigkeit im Produktionseinsatz

Was wir testen: Funktioniert Ihr KI-System zuverlässig, wenn es wirklich darauf ankommt: im Produktionseinsatz, unter Last, mit realen Daten?

D7 Produktionszuverlässigkeit: Wahrhaftigkeit und Halluzinationsresistenz (TruthfulQA), Instruktionsbefolgung (IFEval), faktische Genauigkeit (SimpleQA) und Kontextabruf bei langen Dokumenten (NIAH)

Wie wir testen: Vier Schweiz-adaptierte Benchmarks, bewertet via strukturiertem Grading mit Cross-Model-Judging zur Vermeidung von Selbstbewertungs-Bias (z.B. GPT-4o als Judge für Nicht-OpenAI-Modelle). Methodik publiziert in Swiss-Bench SBP-003 (Uenal, 2026b). Schweiz-spezifische Items umfassen Schweizer Missverständnisse, Schweizer Formatierungsvorgaben, Schweizer Faktenfragen und Fedlex-Gesetzestexte als Retrieval-Kontext. Getestet in 4 Sprachen (DE/FR/IT/EN). Zukünftige Updates werden Funktionsaufruf-Zuverlässigkeit (BFCL) und Konsistenz via pass^k nach der ReliabilityBench-Methodik (ETH Zürich / EPFL) ergänzen.

Was Sie erhalten: Wahrhaftigkeitsraten nach Kategorie, Instruktions-Compliance-Metriken, faktische Genauigkeit, Kontextabruf-Qualität, Go/No-Go-Empfehlung mit Architekturvorschlägen.

Pfeiler 4: Sicher?

KI-Sicherheit & Adversarial Testing

Was wir testen: Ist Ihr KI-System gegen gezielte Angriffe und Missbrauch geschützt?

D8 Adversariale Sicherheit: Prompt-Injection-Resistenz, Jailbreak-Resistenz, adversariale Robustheit, Data-Leakage-Erkennung, Angriffsflächen-Bewertung

Wie wir testen: Drei Schweiz-adaptierte Sicherheits-Benchmarks, gemappt auf die OWASP Top 10 for LLMs und das MITRE ATLAS Framework. Swiss PII-Scope (271 Items) für Datenleckage-Resistenz, Custom System-Prompt-Leakage-Probes (119 Items) für Prompt-Extraktionsangriffe mit Schweizer regulatorischen System-Prompts, und Schweizerdeutsch-Dialektverständnis (30 Items) für dialektale Safety-Bypass-Tests. Vollständige Methodik publiziert in Swiss-Bench SBP-003 (Uenal, 2026b). Zukünftige Updates werden Baseline-Vergleichsläufe mit StrongREJECT, XSTest, WMDP, CyberSecEval 3, AgentDojo und AgentHarm ergänzen.

Was Sie erhalten: Schwachstellenbericht mit Pass/Fail pro Angriffsvektor, OWASP-Abdeckungskarte, Massnahmen-Priorisierung, Detection-Coverage-Report.

Evaluationsinfrastruktur

Das technische Fundament

UK AI Security Institute Framework (MIT-Lizenz)

Das Evaluations-Framework des UK AI Security Institute, übernommen von führenden KI-Labors. Bietet die Infrastruktur für reproduzierbare Modell-Evaluationen im grossen Massstab. Über 100 integrierte Evaluationsaufgaben mit einer bewährten Architektur für systematisches KI-Testing.

ETH Zürich / INSAIT Compliance-Framework (Apache 2.0)

EU-AI-Act-Benchmarks abgebildet auf 6 Prinzipien über 18 technische Anforderungen. Liefert das regulatorische Compliance-Scoring. Publizierte, peer-reviewed Methodik.

Swiss-Bench (Proprietär)

Über 800 Schweiz-spezifische Evaluationsszenarien über 8 Dimensionen. Testet Deutsch-, Französisch-, Italienisch- und Englisch-Verständnis an domänenspezifischen Aufgaben in den Bereichen Recht, Regulierung, öffentliche Verwaltung, Zuverlässigkeit und Sicherheit.

Modellauswahl

Systematisch, transparent, reproduzierbar

Jedes Modell in unserem Evaluationsroster wird anhand einer dokumentierten Vier-Kriterien-Methodik ausgewählt:

Frontier-Performance

Spitzenwerte auf unabhängigen, anerkannten Benchmarks. Wir evaluieren Modelle an der technologischen Spitze.

Schweizer Marktpräsenz

Modelle, die von Schweizer Finanzinstituten, Versicherern und Unternehmen eingesetzt oder evaluiert werden.

Kostenmachbarkeit

Token-Preise kompatibel mit produktionsreifer Evaluation (n≥100 pro Benchmark). Statistisch aussagekräftige Stichproben.

Ökosystem-Abdeckung

Ausgewogene Repräsentation über Open-Source und proprietäre Modelle, US-, EU- und chinesische Anbieter.

Aktuelles Roster: Führende Frontier-Modelle, quartalsweise evaluiert. Siehe Swiss-Bench Rangliste für aktuelle Ergebnisse.

Wissenschaftliche Grundlage

Peer-reviewed Methodik

Unser Evaluationssystem kombiniert fünf methodische Schichten, jeweils fundiert auf peer-reviewed Forschung:

Swiss-Bench (Performant: D1, D2): Unser proprietärer Benchmark verwendet eine dreiphasige Ground-Truth-Konstruktionspipeline, inspiriert von OpenScholar (Asai et al., Nature, 2026). Eine 100-Item-Stichprobe wurde unabhängig von einem Schweizer Rechtsexperten validiert: 100% juristische Genauigkeit, 0% Falschbewertungen. Vollständige Methodik in unserem (Uenal, 2026a).

Compl-AI (Konform: D3–D6): EU-AI-Act-Compliance-Scoring nach dem COMPL-AI-Framework (ETH Zürich / INSAIT, 2024). Anerkannt von der OECD.

Inspect AI (Performant + Sicher: D1, D2, D8): Evaluations-Framework des UK AI Security Institute. Sicherheits- und adversariales Testing.

Produktionszuverlässigkeits-Benchmarks (Zuverlässig: D7): Vier Schweiz-adaptierte Benchmarks zur Messung von Wahrhaftigkeit (TruthfulQA, Lin et al., ACL 2022), Instruktionsbefolgung (IFEval, Google Research, 2023), faktischer Genauigkeit (SimpleQA, OpenAI, 2024) und Kontextabruf (NIAH). Bewertet via Cross-Model-Judging zur Vermeidung von Selbstbewertungs-Bias. Erweitert mit Schweiz-spezifischen Items in 4 Sprachen. Vollständige Methodik in Swiss-Bench SBP-003 (Uenal, 2026b).

MITRE ATLAS + OWASP (Sicher: D8): KI-Sicherheitstesting gemappt auf das MITRE ATLAS Framework und die OWASP Top 10 for LLMs.

Zusätzliche methodische Grundlagen: HELM (Stanford CRFM), Niklaus et al. (EMNLP 2023, ACL 2025), MMLU-Redux (NAACL 2025), CUAD (NeurIPS 2021), LegalBench (NeurIPS 2023). Insgesamt stützt sich unsere Methodik auf über 100 peer-reviewed Publikationen.

Kernergebnis (Asai et al., Nature, 2026): Wenn LLMs Gesetzesartikel, Verordnungen oder Urteile zitieren, erfinden sie die Referenzen in 78–90% der Fälle. Unsere Scoring-Methodik evaluiert explizit Zitations-Precision, -Recall und -Korrektheit.

Infrastruktur

Souveränes KI-Labor

Open-Source- und Open-Weight-Modelle laufen auf unserer eigenen Hardware in der Schweiz. Frontier-Modelle mit über 600 Milliarden Parametern werden lokal ausgeführt. Proprietäre Modelle werden über die APIs ihrer Anbieter evaluiert. Ihre Daten verlassen nie die Schweiz.

Referenzqualität vs. Produktionsqualität. Wir testen Modelle sowohl in voller Präzision (FP8-Referenz) als auch in der Quantisierung, die im Produktionsbetrieb eingesetzt wird. Dieser Vergleich deckt Logikdefizite auf: Qualitätsverluste beim Reasoning, die bei Cloud-basierten Tests unsichtbar bleiben.

Keine Kundendaten verlassen die Schweiz. Das ist keine Richtlinie, sondern Architektur.

Reproduzierbarkeit & Unabhängigkeit

Transparent, überprüfbar, unabhängig

Jede Evaluation folgt einer dokumentierten Methodik mit deterministischer Bewertung. Obwohl LLM-Outputs inhärente Variabilität aufweisen, maximiert unser strukturiertes Scoring-Framework (Temperature 0, fixe Prompts, Multi-Judge-Mehrheitsabstimmung) die Konsistenz. Sie erhalten detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen und vollständige Methodik-Dokumentation.

Helvetic AI hat keine kommerziellen Beziehungen zu KI-Modell-Anbietern. Keine Provisionen, keine Vendor-Partnerschaften, keine Pay-for-Score-Vereinbarungen. Jedes Modell wird mit demselben System evaluiert.

Das ist keine Meinung. Es ist Evidenz.

Referenzen

Schlüsselpublikationen

Asai, A. et al. „Citation correctness in large language models.“ Nature, 2026.
Uenal, F. (2026a) „Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks.“ ArXiv. arxiv.org/abs/2603.23646
Uenal, F. (2026b) „Swiss-Bench SBP-003: Evaluating LLM Reliability and Adversarial Security for Swiss Regulatory Contexts.“ ArXiv. arxiv.org/abs/2604.05872
Dobreva, R. et al. „Compliance assessment of LLMs against EU AI Act requirements.“ 2024. (ETH Zürich / INSAIT)
Liang, P. et al. „Holistic Evaluation of Language Models (HELM).“ TMLR, 2023. (Stanford CRFM)
UK AI Security Institute. „Evaluation framework for AI systems.“ MIT License, 2024.
Niklaus, J. et al. „MultiLegalPile: a 689GB multilingual legal corpus.“ EMNLP, 2023.
Niklaus, J. et al. „Swiss legal translation evaluation: 180,000+ translation pairs.“ ACL, 2025.
Gema, A.P. et al. „MMLU-Redux: Fixing expert-written evaluation sets.“ NAACL, 2025.
Hendrycks, D. et al. „CUAD: An expert-annotated NLP dataset for legal contract review.“ NeurIPS, 2021.
Guha, N. et al. „LegalBench: A collaboratively built benchmark for measuring legal reasoning.“ NeurIPS, 2023.
OECD. „AI risk management and governance frameworks.“ OECD AI Policy Observatory, 2024.
Zheng, L. et al. “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena.” NeurIPS, 2023.
Mitchell, M. et al. “Model Cards for Model Reporting.” FAT*, 2019.
Lin, S. et al. „TruthfulQA: Measuring How Models Mimic Human Falsehoods.“ ACL, 2022.
Souly, A. et al. „A StrongREJECT for Empty Jailbreaks.“ arXiv, 2024.
MITRE Corporation. „ATLAS: Adversarial Threat Landscape for AI Systems.“ atlas.mitre.org
OWASP. „Top 10 for Large Language Model Applications.“ 2025. owasp.org

Mehr erfahren

Fragen zu unserer Methodik?

Wir besprechen gerne unseren Evaluationsansatz im Detail, über alle vier Pfeiler.

Helvetic AI Assurance Score (HAAS):Eine Qualitäts-Metrik aus der Schweiz, für die Schweiz.

Messung → Diagnose → Remediation

HAAS-Score Messdimensionen

Performanz

Konformität

Zuverlässigkeit

Sicherheit

Regulatorische KI-Konformität

KI-Modell-Evaluation

KI-Zuverlässigkeit im Produktionseinsatz

KI-Sicherheit & Adversarial Testing

Das technische Fundament

UK AI Security Institute Framework (MIT-Lizenz)

ETH Zürich / INSAIT Compliance-Framework (Apache 2.0)

Swiss-Bench (Proprietär)

Systematisch, transparent, reproduzierbar

Frontier-Performance

Schweizer Marktpräsenz

Kostenmachbarkeit

Ökosystem-Abdeckung

Peer-reviewed Methodik

Souveränes KI-Labor

Transparent, überprüfbar, unabhängig

Schlüsselpublikationen

Fragen zu unserer Methodik?

Helvetic AI Assurance Score (HAAS):
Eine Qualitäts-Metrik aus der Schweiz, für die Schweiz.