Zielsetzung und Ansatz
Das MinHash-based Code Relationship & Investigation Toolkit (MCRIT) wurde entwickelt, um Code-Sharing und die Nutzung von Drittanbieter-Bibliotheken in Schadsoftware systematisch sichtbar zu machen. Im Mittelpunkt stehen die effiziente Auswertung großer Datenkorpora wie Malpedia, ein verlässliches und interpretierbares Ähnlichkeitsmaß sowie die Skalierbarkeit auf viele Millionen Funktionen.
Technische Grundlage
Methodisch setzt MCRIT auf kompakte Repräsentationen von Funktionen, die deutlich kleiner sind als der ursprüngliche Code. Aus den Binärprogrammen werden charakteristische Merkmale abgeleitet – etwa typische Instruktionsfolgen und strukturelle Kennzahlen. Diese werden normalisiert, zusammengefasst und mittels Hashverfahren so aufbereitet, dass auch unscharfe Ähnlichkeiten erkannt werden. Die Suche erfolgt über Hash-Tabellen und sogenannte Locality-Sensitive-Hashing-Verfahren (LSH), sodass eine Funktion hocheffizient gegen eine große Datenbank von Schadprogrammen abgeglichen werden kann. Aktuell konzentriert sich MCRIT auf Vergleiche innerhalb gleicher Architektur- und Bittiefe.
Praxisanwendung und Ergebnisdarstellung
Für die Praxis bedeutet das: Analystinnen und Analysten können beliebige Basic Blocks, Funktionen oder ganze Samples als Anfrage stellen und erhalten eine gewichtete Übersicht, mit welchen Malware-Familien wie viele Übereinstimmungen bestehen. Dabei lassen sich eindeutig einer Familie zuzuordnende Funktionen von weitverbreitetem Bibliothekscode unterscheiden – so wird deutlich, welche Programmteile tatsächlich »familientypisch« sind und besondere Beachtung verdienen.
Einsatzzwecke und erweiterte Funktionen
Auf dieser Basis unterstützt MCRIT eine Reihe von Anwendungsszenarien:
- Identifikation von Malware-Familien und -Versionen
- Abgrenzung von Bibliothekscode und intrinsischem Code
- Clustering großer Samplemengen
- Spurengenerierung – etwa zu bislang unbekannten Verbindungen zwischen Familien
- Label-Übertragung zwischen Werkzeugen und Samples für weitergehende, KI‑gestützte Analysen
Mit dem Analysemodus LinkHunt werden darüber hinaus zusammenhängende Funktionsgruppen innerhalb eines Samples identifiziert und hervorgehoben, wenn sie gemeinsam mit einer bekannten Familie übereinstimmen. Dies liefert zusätzliche Anhaltspunkte zu Urheberschaft und Funktionsumfang der untersuchten Schadsoftware.