Helvetic AI Assurance Score (HAAS):
Eine Qualitäts-Metrik aus der Schweiz, für die Schweiz.
Wir evaluieren KI-Systeme mit unserem eigens für den Schweizer Kontext entwickelten Helvetic AI Assurance Score (HAAS). Der HAAS-Score beantwortet Ihre Fragen zur Konformität, Performanz, Zuverlässigkeit und Sicherheit von KI-Systemen: wissenschaftlich fundiert, reproduzierbar und reliabel. Der HAAS-Score verteilt sich über insgesamt 8 Dimensionen und ist gruppiert in 4 Evaluationspfeiler: Konformität, Performanz, Zuverlässigkeit und Sicherheit. Detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen, präzise Konfidenzintervalle und Methodik-Dokumentation werden mitgeliefert, damit Sie jedes Ergebnis reproduzieren können.
Messung → Diagnose → Remediation
Jedes Engagement folgt einer strukturierten Progression von objektiver Bewertung zu umsetzbaren Empfehlungen:
Messung (Assurance Basic): Automatisierte Benchmarks liefern Scores, Ampel-Dashboards und identifizieren die wichtigsten Lücken. Sie wissen, wo Sie stehen.
Messung + Diagnose (Assurance Plus): Experteninterpretation der Benchmark-Ergebnisse. Schweregrad-Ranking, Ursachenanalyse, Konfidenzintervalle und Massnahmen-Priorisierung. Sie wissen, was am wichtigsten ist.
Messung + Diagnose + Remediation (Assurance Komplett): Evidenzbasierte, bewährte Massnahmenempfehlungen. Control Mapping, Verantwortlichkeitszuweisung, Umsetzungssequenzierung und Wirksamkeitsreferenzen. Sie wissen genau, was zu tun ist.
Dieses Drei-Stufen-Modell gilt identisch über alle vier Pfeiler. Die Stufe bestimmt die Tiefe, nicht den Umfang.
Klare Grenzen: Wir messen, diagnostizieren und empfehlen. Wir implementieren keine Massnahmen, validieren nicht als Second Line und zertifizieren keine Compliance. Die Institution implementiert; die Institution validiert.
HAAS-Score Messdimensionen
Performanz
D1 Performance · D2 Robustheit
Konformität
D3 Safety · D4 Compliance · D5 Schweizer Sprachen · D6 Dokumentation
Zuverlässigkeit
D7 Produktionszuverlässigkeit
Sicherheit
D8 Adversariale Sicherheit
Regulatorische KI-Konformität
Was wir testen: Erfüllt Ihr KI-System die regulatorischen Anforderungen? Vier HAAS-Dimensionen decken die gesamte Compliance-Breite ab:
- D3 Safety: Fairness, Bias-Erkennung, geschützte Attribute, Gleichbehandlung
- D4 Compliance: PII-Leckage, Memorisierung, Datenexfiltration
- D5 Schweizer Sprachen: Erklärbarkeit, Konfidenz-Kalibrierung, Model Cards
- D6 Dokumentation: EU AI Act, FINMA 08/2024, nDSG Mapping
Wie wir testen: 29 Compl-AI Benchmarks × 6 Prinzipien × 18 technische Anforderungen. Automatisierte Bewertung basierend auf peer-reviewter Methodik der ETH Zürich / INSAIT (2024). FINMA-spezifische Szenarien für Schweizer Finanzregulierer. Transparenzbewertung nach dem Model Cards Framework (Mitchell et al., 2019).
Was Sie erhalten: Artikel-spezifische Scores (Art. 9–15), Ampel-Dashboard, Lückenanalyse mit Massnahmen-Priorisierung, FINMA-Risiko-Heatmap.
KI-Modell-Evaluation
Was wir testen: Welches Modell liefert die besten Ergebnisse für Ihre spezifische Domäne und Sprache?
- D1 Performance: Aufgabenvollständigkeit, faktische Korrektheit, Halluzinationserkennung. Domänenspezifische Szenarien aus Swiss-Bench testen reale Performance, nicht generische Benchmarks.
- D2 Robustheit: Adversariale Eingaben, Prompt-Injection-Resistenz, Stress-Tests. Verhalten unter Grenzfällen und adversarialen Bedingungen.
Wie wir testen: über 800 Schweiz-spezifische Evaluationsszenarien aus Swiss-Bench (Uenal, 2026a). DE/FR/IT in den Bereichen Recht, Regulierung und öffentliche Verwaltung. Dreiphasige Ground-Truth-Konstruktion nach OpenScholar (Asai et al., Nature 2026). Multi-Judge-Ensemble-Bewertung nach Zheng et al. (NeurIPS 2023).
Was Sie erhalten: Modell-Rankings, Head-to-Head-Vergleiche mit Konfidenzintervallen, Schweizer Sprachqualitätsanalyse, TCO-Vergleich, Selektionsempfehlung.
KI-Zuverlässigkeit im Produktionseinsatz
Was wir testen: Funktioniert Ihr KI-System zuverlässig, wenn es wirklich darauf ankommt: im Produktionseinsatz, unter Last, mit realen Daten?
- D7 Produktionszuverlässigkeit: Wahrhaftigkeit und Halluzinationsresistenz (TruthfulQA), Instruktionsbefolgung (IFEval), faktische Genauigkeit (SimpleQA) und Kontextabruf bei langen Dokumenten (NIAH)
Wie wir testen: Vier Schweiz-adaptierte Benchmarks, bewertet via strukturiertem Grading mit Cross-Model-Judging zur Vermeidung von Selbstbewertungs-Bias (z.B. GPT-4o als Judge für Nicht-OpenAI-Modelle). Methodik publiziert in Swiss-Bench SBP-003 (Uenal, 2026b). Schweiz-spezifische Items umfassen Schweizer Missverständnisse, Schweizer Formatierungsvorgaben, Schweizer Faktenfragen und Fedlex-Gesetzestexte als Retrieval-Kontext. Getestet in 4 Sprachen (DE/FR/IT/EN). Zukünftige Updates werden Funktionsaufruf-Zuverlässigkeit (BFCL) und Konsistenz via passk nach der ReliabilityBench-Methodik (ETH Zürich / EPFL) ergänzen.
Was Sie erhalten: Wahrhaftigkeitsraten nach Kategorie, Instruktions-Compliance-Metriken, faktische Genauigkeit, Kontextabruf-Qualität, Go/No-Go-Empfehlung mit Architekturvorschlägen.
KI-Sicherheit & Adversarial Testing
Was wir testen: Ist Ihr KI-System gegen gezielte Angriffe und Missbrauch geschützt?
- D8 Adversariale Sicherheit: Prompt-Injection-Resistenz, Jailbreak-Resistenz, adversariale Robustheit, Data-Leakage-Erkennung, Angriffsflächen-Bewertung
Wie wir testen: Drei Schweiz-adaptierte Sicherheits-Benchmarks, gemappt auf die OWASP Top 10 for LLMs und das MITRE ATLAS Framework. Swiss PII-Scope (271 Items) für Datenleckage-Resistenz, Custom System-Prompt-Leakage-Probes (119 Items) für Prompt-Extraktionsangriffe mit Schweizer regulatorischen System-Prompts, und Schweizerdeutsch-Dialektverständnis (30 Items) für dialektale Safety-Bypass-Tests. Vollständige Methodik publiziert in Swiss-Bench SBP-003 (Uenal, 2026b). Zukünftige Updates werden Baseline-Vergleichsläufe mit StrongREJECT, XSTest, WMDP, CyberSecEval 3, AgentDojo und AgentHarm ergänzen.
Was Sie erhalten: Schwachstellenbericht mit Pass/Fail pro Angriffsvektor, OWASP-Abdeckungskarte, Massnahmen-Priorisierung, Detection-Coverage-Report.
Das technische Fundament
UK AI Security Institute Framework
Das Evaluations-Framework des UK AI Security Institute, übernommen von führenden KI-Labors. Bietet die Infrastruktur für reproduzierbare Modell-Evaluationen im grossen Massstab. Über 100 integrierte Evaluationsaufgaben mit einer bewährten Architektur für systematisches KI-Testing.
ETH Zürich / INSAIT Compliance-Framework
EU-AI-Act-Benchmarks abgebildet auf 6 Prinzipien über 18 technische Anforderungen. Liefert das regulatorische Compliance-Scoring. Publizierte, peer-reviewed Methodik.
Swiss-Bench
Über 800 Schweiz-spezifische Evaluationsszenarien über 8 Dimensionen. Testet Deutsch-, Französisch-, Italienisch- und Englisch-Verständnis an domänenspezifischen Aufgaben in den Bereichen Recht, Regulierung, öffentliche Verwaltung, Zuverlässigkeit und Sicherheit.
Systematisch, transparent, reproduzierbar
Jedes Modell in unserem Evaluationsroster wird anhand einer dokumentierten Vier-Kriterien-Methodik ausgewählt:
Frontier-Performance
Spitzenwerte auf unabhängigen, anerkannten Benchmarks. Wir evaluieren Modelle an der technologischen Spitze.
Schweizer Marktpräsenz
Modelle, die von Schweizer Finanzinstituten, Versicherern und Unternehmen eingesetzt oder evaluiert werden.
Kostenmachbarkeit
Token-Preise kompatibel mit produktionsreifer Evaluation (n≥100 pro Benchmark). Statistisch aussagekräftige Stichproben.
Ökosystem-Abdeckung
Ausgewogene Repräsentation über Open-Source und proprietäre Modelle, US-, EU- und chinesische Anbieter.
Peer-reviewed Methodik
Unser Evaluationssystem kombiniert fünf methodische Schichten, jeweils fundiert auf peer-reviewed Forschung:
Swiss-Bench (Performant: D1, D2): Unser proprietärer Benchmark verwendet eine dreiphasige Ground-Truth-Konstruktionspipeline, inspiriert von OpenScholar (Asai et al., Nature, 2026). Eine 100-Item-Stichprobe wurde unabhängig von einem Schweizer Rechtsexperten validiert: 100% juristische Genauigkeit, 0% Falschbewertungen. Vollständige Methodik in unserem (Uenal, 2026a).
Compl-AI (Konform: D3–D6): EU-AI-Act-Compliance-Scoring nach dem COMPL-AI-Framework (ETH Zürich / INSAIT, 2024). Anerkannt von der OECD.
Inspect AI (Performant + Sicher: D1, D2, D8): Evaluations-Framework des UK AI Security Institute. Sicherheits- und adversariales Testing.
Produktionszuverlässigkeits-Benchmarks (Zuverlässig: D7): Vier Schweiz-adaptierte Benchmarks zur Messung von Wahrhaftigkeit (TruthfulQA, Lin et al., ACL 2022), Instruktionsbefolgung (IFEval, Google Research, 2023), faktischer Genauigkeit (SimpleQA, OpenAI, 2024) und Kontextabruf (NIAH). Bewertet via Cross-Model-Judging zur Vermeidung von Selbstbewertungs-Bias. Erweitert mit Schweiz-spezifischen Items in 4 Sprachen. Vollständige Methodik in Swiss-Bench SBP-003 (Uenal, 2026b).
MITRE ATLAS + OWASP (Sicher: D8): KI-Sicherheitstesting gemappt auf das MITRE ATLAS Framework und die OWASP Top 10 for LLMs.
Zusätzliche methodische Grundlagen: HELM (Stanford CRFM), Niklaus et al. (EMNLP 2023, ACL 2025), MMLU-Redux (NAACL 2025), CUAD (NeurIPS 2021), LegalBench (NeurIPS 2023). Insgesamt stützt sich unsere Methodik auf über 100 peer-reviewed Publikationen.
Souveränes KI-Labor
Open-Source- und Open-Weight-Modelle laufen auf unserer eigenen Hardware in der Schweiz. Frontier-Modelle mit über 600 Milliarden Parametern werden lokal ausgeführt. Proprietäre Modelle werden über die APIs ihrer Anbieter evaluiert. Ihre Daten verlassen nie die Schweiz.
Referenzqualität vs. Produktionsqualität. Wir testen Modelle sowohl in voller Präzision (FP8-Referenz) als auch in der Quantisierung, die im Produktionsbetrieb eingesetzt wird. Dieser Vergleich deckt Logikdefizite auf: Qualitätsverluste beim Reasoning, die bei Cloud-basierten Tests unsichtbar bleiben.
Keine Kundendaten verlassen die Schweiz. Das ist keine Richtlinie, sondern Architektur.
Transparent, überprüfbar, unabhängig
Jede Evaluation folgt einer dokumentierten Methodik mit deterministischer Bewertung. Obwohl LLM-Outputs inhärente Variabilität aufweisen, maximiert unser strukturiertes Scoring-Framework (Temperature 0, fixe Prompts, Multi-Judge-Mehrheitsabstimmung) die Konsistenz. Sie erhalten detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen und vollständige Methodik-Dokumentation.
Helvetic AI hat keine kommerziellen Beziehungen zu KI-Modell-Anbietern. Keine Provisionen, keine Vendor-Partnerschaften, keine Pay-for-Score-Vereinbarungen. Jedes Modell wird mit demselben System evaluiert.
Das ist keine Meinung. Es ist Evidenz.
Schlüsselpublikationen
- Asai, A. et al. „Citation correctness in large language models.“ Nature, 2026.
- Uenal, F. (2026a) „Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks.“ ArXiv. arxiv.org/abs/2603.23646
- Uenal, F. (2026b) „Swiss-Bench SBP-003: Evaluating LLM Reliability and Adversarial Security for Swiss Regulatory Contexts.“ ArXiv. arxiv.org/abs/2604.05872
- Dobreva, R. et al. „Compliance assessment of LLMs against EU AI Act requirements.“ 2024. (ETH Zürich / INSAIT)
- Liang, P. et al. „Holistic Evaluation of Language Models (HELM).“ TMLR, 2023. (Stanford CRFM)
- UK AI Security Institute. „Evaluation framework for AI systems.“ MIT License, 2024.
- Niklaus, J. et al. „MultiLegalPile: a 689GB multilingual legal corpus.“ EMNLP, 2023.
- Niklaus, J. et al. „Swiss legal translation evaluation: 180,000+ translation pairs.“ ACL, 2025.
- Gema, A.P. et al. „MMLU-Redux: Fixing expert-written evaluation sets.“ NAACL, 2025.
- Hendrycks, D. et al. „CUAD: An expert-annotated NLP dataset for legal contract review.“ NeurIPS, 2021.
- Guha, N. et al. „LegalBench: A collaboratively built benchmark for measuring legal reasoning.“ NeurIPS, 2023.
- OECD. „AI risk management and governance frameworks.“ OECD AI Policy Observatory, 2024.
- Zheng, L. et al. “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena.” NeurIPS, 2023.
- Mitchell, M. et al. “Model Cards for Model Reporting.” FAT*, 2019.
- Lin, S. et al. „TruthfulQA: Measuring How Models Mimic Human Falsehoods.“ ACL, 2022.
- Souly, A. et al. „A StrongREJECT for Empty Jailbreaks.“ arXiv, 2024.
- MITRE Corporation. „ATLAS: Adversarial Threat Landscape for AI Systems.“ atlas.mitre.org
- OWASP. „Top 10 for Large Language Model Applications.“ 2025. owasp.org