Dieses Leaderboard bewertet führende KI-Sprachmodelle anhand eines unabhängigen Risiko-Scores, der auf Basis eigener Sicherheitsforschung von Smart Labs AI ermittelt wird. Im Mittelpunkt stehen reale Angriffsvektoren: Prompt Injection, Datenexfiltration über Tool-Calls, Jailbreaks und unkontrolliertes Agenten-Verhalten.
Ein niedriger Score bedeutet ein geringeres Sicherheitsrisiko — das Modell zeigt in unseren Tests robusteres Verhalten gegenüber Angriffen. Die Bewertung erfolgt modell- und anbieterunabhängig und wird regelmäßig aktualisiert, wenn neue Modellversionen oder Angriffstechniken verfügbar sind.
Methodik
Leaderboard wird geladen…
Research Paper
Exploiting Web Search Tools of AI Agents for Data Exfiltration
Smart Labs AI GmbH · arXiv:2510.09093