Was ein Penetrationstest typischerweise beinhaltet
Im Kern geht es bei Penetrationstests nicht nur darum, Schwachstellen zu finden, sondern auch darum, wie ein Angreifer zu denken.
Ein traditioneller Penetrationstest beinhaltet:
- Ein System aus verschiedenen Blickwinkeln zu untersuchen
- Schwachstellen zu identifizieren
- Mehrere Probleme zu kombinieren
- Sich dynamisch an unerwartetes Verhalten anzupassen
Vor allem viele wirksame Erkenntnisse sind nicht isolierte technische Fehler, sondern Kombinationen kleinerer Probleme oder Schwächen in der Systemgestaltung und -nutzung, oft auch als Geschäftslogik-Fehler bezeichnet. Diese Art des Tests beruht stark auf:
- Kontext
- Kreativität
- Erfahrung
- Urteilskraft
Mit anderen Worten: Ein Penetrationstest ist nicht einfach die Ausgabe eines Tools, sondern das Ergebnis einer menschlich gesteuerten Analyse.
Was „KI-gestützte Penetrationstests“-Tools heute tatsächlich tun
Trotz der Bezeichnung sind die meisten „KI-gestützten Penetrationstests“-Tools heute nicht autonome Angreifer.
Sie kombinieren in der Regel:
- Automatisierte Schwachstellen-Scanner
- Vordefinierte Skripte und Prüfungen
- Große Sprachmodelle (LLMs), die zur Generierung von Payloads oder zur Steuerung von Arbeitsabläufen eingesetzt werden
Diese Tools können in bestimmten Bereichen einen echten Nutzen bieten:
- Schnelle erste Erkundung (Reconnaissance)
- Umfassende Abdeckung bekannter Schwachheitsklassen
- Unterstützung für kontinuierliche oder wiederholte Tests
In der Praxis werden ihre Fähigkeiten jedoch oft überschätzt.
Eine zentrale Herausforderung ist die Konsistenz. Systeme, die auf LLMs basieren, können bei identischen Durchläufen unterschiedliche Ergebnisse liefern, insbesondere bei Aufgaben wie der Informationsgewinnung oder der Erforschung von Angriffspfaden. Diese Variabilität macht es schwierig, sie als zuverlässige, eigenständige Testlösungen zu betrachten.
Anstatt vollautomatischer Tester sind diese Tools besser als fortgeschrittene Automatisierung mit einigen KI-gestützten Funktionen zu verstehen.
Wo vollautomatisierte Ansätze versagen
Obwohl Automatisierung eindeutige Vorteile bietet, gibt es mehrere Bereiche, in denen vollautomatisierte Ansätze der menschlich geführten Testung nicht gewachsen sind.
Eingeschränktes Verständnis des Kontexts: Automatisierte Tools verfügen in der Regel über kein tiefes Verständnis von Geschäftsprozessen, Benutzerrollen und Berechtigungen sowie applikationsspezifischer Logik. Daher übersehen sie oft Probleme, die daraus resultieren, wie Systeme tatsächlich genutzt werden – nicht wie sie konstruiert sind.
Mangel an Kreativität und Anpassungsfähigkeit: Reale Tester und Angreifer folgen nicht nur vordefinierten Checklisten, sondern ändern ihre Richtung, wenn etwas vielversprechend erscheint, verknüpfen unzusammenhängende Beobachtungen und erkunden unerwartetes Verhalten. Automatisierte Systeme – selbst wenn sie mit KI verbessert sind – verbleiben dennoch oft innerhalb eingeschränkter Muster, was ihre Fähigkeit einschränkt, nicht offensichtliche Angriffspfade aufzudecken.
Genauigkeit und Validierung: Automatisierte Tools erzeugen häufig Falsch-Positive, die manuell überprüft werden müssen, sowie Falsch-Negative, bei denen kritische Schwachstellen übersehen werden. Ohne menschliche Validierung ist es schwierig zu beurteilen, welche Ergebnisse tatsächlich relevant sind und welche Risiken in der Praxis auch tatsächlich ausgenutzt werden könnten.
Fehlende risikobasierte Priorisierung: Nicht alle Schwachstellen sind gleich wichtig – selbst nicht bei identischen CVSS-Werten. Ein wesentlicher Teil des Penetrationstests besteht darin, zu verstehen, was tatsächlich ausgenutzt werden kann und welchen realen Einfluss es auf das Geschäft hat. Automatisierte Ergebnisse verfügen oft über diesen Blickwinkel nicht, was zu Listen von Erkenntnissen führt, die falsch oder unklar priorisiert sind.
Risiko automatisierter Exploitation: Ein oft übersehener Risikofaktor bei automatisierten Tests ist die Gefahr unkontrollierter oder schlecht geleiteter Exploitation-Versuche, die Produktionssysteme stören, Daten beschädigen oder Account-Sperren auslösen können. Ein menschlicher Tester wendet Urteil an – nicht nur, wie, sondern auch ob eine Schwachstelle ausgenutzt werden sollte – und konsultiert die zu testende Organisation bei Zweifeln.
Warum der Vergleich zwischen KI und Mensch irreführend ist
Die Diskussion als „KI gegen menschlichen Penetrationstest“ zu führen, ist irreführend. Eine genauere und sachgerechtere Vergleichsbasis wäre „fortgeschrittene automatisierte Scans gegen manuelle Penetrationstests“. Automatisierte Tools sind hervorragend darin, Checks im großen Maßstab durchzuführen oder bekannte Muster zu identifizieren, doch manuelle Penetrationstests gehen darüber hinaus. Bei Penetrationstests wird evaluiert, wie Schwachstellen kombiniert, ausgenutzt und in realen Szenarien genutzt werden können.
Die Chance: Ein hybrider Ansatz
Anstatt einfach „KI-gestützte Penetrationstests“ anzubieten oder menschliche Tester zu ersetzen, könnte KI als Ergänzungsschicht eingesetzt werden. In der Praxis würde dies bedeuten:
- Verwendung von Automatisierung zur Abdeckung
- Ausnutzung von KI zur Unterstützung bei der Ideen- und Exploit-Generierung
- Menschen behalten die Kontrolle über Richtung und Validierung
Zum Beispiel kann KI dabei helfen, Payloads für Angriffe zu generieren, potenzielle Angriffspfade vorzuschlagen oder die Dokumentation zu beschleunigen. Dennoch erfordern die Ergebnisse eine Validierung, ein Verständnis des Kontexts und strategisches Urteilsvermögen.
Das Ergebnis ist kein vollautomatischer Test, sondern ein KI-augmentierter Penetrationstest, der das Beste aus beiden Welten nutzt.
Was dies für Organisationen bedeutet
Beim Evaluieren der Optionen ist der Unterschied wichtig. Wenn das Ziel eine kontinuierliche, kostengünstige Grundlagenprüfung ist, können vollautomatische Tools, die LLMs nutzen, nützlich sein. Wenn jedoch das Ziel eine realistische Sicherheitsabsicherung und ein Verständnis potenzieller Risiken ist, bleibt menschlich geführter Penetrationstest unverzichtbar. Man könnte sagen: Automatisierung bietet Breite, menschliche Tests bieten Tiefe. Beide haben ihren Wert, sind aber nicht wirklich austauschbar.
Unsere Schlussfolgerung
KI verändert bereits heute die Art und Weise, wie Sicherheitstests durchgeführt werden, und wird ihre Funktion weiter ausbauen. Doch aktuelle „KI-gestützte Penetrationstests“ lösen nicht die Konsistenz, das Urteilsvermögen und das kontextuelle Verständnis erfahrener menschlicher Tester nach. Letztendlich geht es bei Sicherheit darum, zu verstehen, wie Schwachstellen tatsächlich ausgenutzt werden können und was dies in realen Szenarien bedeutet – und dafür ist menschliche Beteiligung erforderlich.