E-Mail-Sicherheit

Die Herausforderungen bei der Anwendung von maschinellem Lernen auf die Cybersicherheit

Mit Tools für das maschinelle Lernen sind Unternehmen bei der Bekämpfung von Cyberbedrohungen immer an vorderster Front dabei, aber es ist nicht immer einfach zu definieren, was eine Bedrohung ist und die Modelle auf dem neuesten Stand zu halten.

by Jose Lopez

Feb. 02, 2023

Wichtige Punkte

Durch maschinelles Lernen werden Muster in Daten erkannt und ähnliche Informationen in diesen Mustern und Daten aufgespürt, wodurch Cyberbedrohungen erkannt werden können.
Das maschinelle Lernen muss zunächst von einem Menschen gezeigt werden, wie bösartige Daten aussehen, was eine Herausforderung sein kann, da der Mensch zunächst entscheiden muss, welche Daten bösartig sind.
Bösartige Daten können nur einen Bruchteil aller zu analysierenden Daten ausmachen, aber es werden große Mengen an bösartigen Daten benötigt, um ein ML-Modell richtig zu trainieren.
Es gibt viele weitere Herausforderungen und Überlegungen, die Entwickler bei der Entwicklung eines ML-Modells berücksichtigen müssen, das zur Bekämpfung von Cyberangriffen beitragen soll.

Definition des Problems

Die meisten Cybersicherheitsexperten können sich wahrscheinlich nur schwer an eine Zeit erinnern, in der Tools für maschinelles Lernen (ML) zur Bekämpfung von Cyberangriffen eingesetzt wurden. Der Hauptbeitrag von ML zur Cybersicherheit liegt in seiner Fähigkeit, Muster in Daten zu erkennen und ähnliche Informationen in diesen Mustern und Daten zu entdecken. Einmal darauf trainiert, wie bösartige Daten aussehen, kann maschinelles Lernen ähnliche Daten erkennen und verhindern, dass diese Daten in Systeme eindringen oder, schlimmer noch, Code ausführen, der einen Angriff startet.

Damit ML jedoch bösartige Daten genau erkennen kann, muss ihm zunächst von einem Menschen gezeigt werden, wie bösartige Daten aussehen. Auch wenn die Definition bösartiger Aktivitäten für einen Menschen schwierig sein kann, können wir den Prozess der Erkennung bösartiger Daten und damit bösartiger Aktivitäten nicht automatisieren, solange wir nicht genau definieren können, wie "bösartige Aktivitäten" im Kontext des Problems, das wir zu lösen versuchen, aussehen.

Kennzeichnung der Daten

Wir können Daten nicht als bösartig einstufen, solange wir nicht genau wissen, welche Daten bösartig sind. Darüber hinaus benötigen wir eine große Menge an Daten, um das ML-Modell zu instruieren, aber bösartige Daten sind in der Regel viel seltener als gute Daten. Das bedeutet, dass wir, um eine große Menge an bösartigen Daten zu erhalten, zunächst eine große Menge an guten Daten sichten und beiseite legen müssen. Dies kann eine sehr zeitaufwändige Aufgabe sein, wenn ein ML-Modell mit bösartigen Daten erstellt oder aktualisiert wird.

Ein unausgewogener Datensatz

Die Identifizierung bösartiger Inhalte in den riesigen Mengen an URLs, E-Mails und Dateien, die ein Unternehmen täglich erhält, ist eine große Herausforderung, selbst mit Hilfe von ML. Die riesige Menge an Daten, die Unternehmen erhalten, zu durchforsten, um genau die Daten zu finden, die Angriffe, Malware, Phishing-URLs und andere Cyberbedrohungen enthalten, kann unmöglich erscheinen. Ein ML-Modell, das in der Produktion eingesetzt wird, muss mit diesem stark unausgewogenen Verhältnis zwischen bösartigen und gutartigen Daten richtig umgehen.

Die Kosten von Fehlprognosen und die Robustheit des Modells

Bei der Anwendung von ML auf die Cybersicherheit werden wir als Erstes feststellen, dass wir falsch positive Ergebnisse haben. Dies ist der Fall, wenn das Modell gutartige Daten als bösartig einstuft. Wir stellen auch schnell fest, dass wir falsch-negative Daten haben, d. h. dass bösartige Daten als gutartig eingestuft werden.

Unser erster Schritt, um dieses Problem mit dem Modell zu beheben, besteht darin, eine Analyse der Kosten jedes falsch positiven und falsch negativen Ergebnisses durchzuführen. Wir müssen abwägen, was jedes falsch negative oder positive Ergebnis unser Team an Zeit und Geld kostet, um es zu korrigieren. Die Erstellung dieser Metrik hilft dabei, das Modell in Zukunft richtig zu trainieren.

Außerdem müssen wir in alle neuen Klassifikatoren, die innerhalb des Modells erstellt werden, eine Vergleichsmetrik für die Robustheit der Gegner aufnehmen. Zu den Klassifizierungsmerkmalen gehören z. B. Dateigröße, Dateiname, ob eine Datei schreibgeschützt ist, ob sie als Systemdatei gekennzeichnet ist oder ob die Datei ausführbar ist.

Auch wenn die Robustheit eines Modells gegenüber Angriffen ein schlechtes Maß für seine Robustheit ist, wenn es um die Sicherheit eines ML-Modells geht, müssen wir verschiedene Modelle unter dem Aspekt der Sicherheit testen und vergleichen können. Dies ist jedoch nicht einfach, denn eine Metrik, die die Schwäche eines Modells gegenüber den gegnerischen Beispielen darstellt, muss vor der Entwicklung und dem Einsatz eines neuen ML-Modells von den Entwicklungsteams eingehend geprüft und diskutiert werden.

Modelländerungen

Wenn ein ML-Modell einmal entwickelt und eingesetzt wurde, muss es, um effektiv zu bleiben, ständig mit neuen Bedrohungen aktualisiert werden, da die Bedrohungsakteure ständig neue Techniken anwenden, die bestehende ML-Modelle veralten lassen. Bei der anfänglichen Entwicklung eines ML-Modells ist es äußerst wichtig, diesen ständigen Bedarf an Aktualisierungen des Modells zu berücksichtigen. Auch die Art und Weise, wie wir neue Daten beschriften werden, um unser Modell neu zu trainieren, ist ein wichtiger Aspekt. Das bedeutet nicht, dass ML-Modelle täglich aktualisiert werden müssen wie eine Liste von Virensignaturen, aber ML-Modellentwickler müssen definitiv eine Strategie und einen regelmäßigen Rhythmus für die Bereitstellung aktualisierter Versionen ihres Modells entwickeln.

Andere Überlegungen

Datenzugriff - Entwicklungsteams sollten mögliche Bedenken hinsichtlich des Datenschutzes bei den zu analysierenden Daten einplanen und zusätzliche Entwicklungszeit für dieses Hindernis einkalkulieren.

Neutrainieren mit sauberen Daten - Es ist manchmal schwierig, bestehende Modelle mit Daten neu zu trainieren, die von einem früheren Modell gefiltert wurden. Die Nachschulung von Daten, die bereits durch das Modell gefiltert wurden, wird mit zunehmendem Alter des Modells immer schwieriger.

Modellregression - Das Trainieren von Modellen mit Daten, die sich vom ursprünglichen Datensatz unterscheiden, kann zu Regressionen in den Modellen führen, da die neuen Daten anders beschaffen sind. Dies kann dazu führen, dass ein neueres Modell weniger leistungsfähig ist als ein früheres, was bei Ihren Kunden große Besorgnis hervorrufen wird.

Die Quintessenz

ML ist schon seit einiger Zeit ein wichtiger Bestandteil der Cybersicherheit und wird auch in Zukunft nicht an Bedeutung verlieren. Bei der Entwicklung eines ML-Modells sind viele Herausforderungen zu berücksichtigen, aber der Gewinn ist definitiv die Zeit und den Aufwand wert, die zur Bewältigung dieser Herausforderungen erforderlich sind.

ML ist ein wichtiger Bestandteil der Maßnahmen, mit denen Mimecast seine Kunden vor E-Mail-Angriffen schützt. Erfahren Sie mehr oder starten Sie eine kostenlose Testversion unter Mimecast.com.