Intelligenza artificiale e integrità dei dati

Indice

Il 24 maggio, a Milano, si è tenuto l’evento conclusivo del Mastercourse 2024 organizzato da ANORC: l’evento si chiama MEDDLE. In quell’occasion ho avuto la possibilità di presentare un intervento orientato al mantenimento dell’integrità dei dati anche in condizioni di particolare rischio e sono stati presentati modelli offensivi e difensivi basati su algoritmi d’intelligenza artificiale.

Occorre quindi fare alcune riflessioni in merito, essenzialmente per due motivi: il primo è che l’intelligenza artificiale è una tecnologia attuale ed in forte diffusione ed espansione. Il secondo è che tale tecnologia, sarà sempre più ad appannaggio degli hacker oltre che dei fornitori di soluzioni di cibersicurezza.

Esfiltrare informazioni e non file

L’esfiltrazione dei file è un processo complesso anche per gli hacker: esfiltrare una grande numerosità di file richiede tempi e condizioni che non è detto che siano presenti, senza contare che dopo l’acquisizione di migliaia di file bisognerebbe valutarne il contenuto ed il valore. Abbattere tempi e rischi è fattibile attraverso una pre-selezione delle informazioni da esfiltrare ma questo è possibile solo analizzando il contenuto dei file alla ricerca dei soli elementi d’interesse.

Un algoritmo d’intelligenza artificiale operante in offline e pre-addestrato per cercare e trovare “questa” o “quella” informazione può essere un valido supporto, consentendo un’individuazione puntuale ed un’esfiltrazione più ottimizzata, praticabile e gestibile.

Nel 2022 la mappa di diffusione degli stealer presentata da Dark Tracer ha fatto il giro del mondo: rubare informazioni è un’attività di grande profitto ed è al centro, attualmente, dell’offensiva ransomware.

Raffinare la capacità di ricerca operando, non solo in base al mero contenuto, ma in base a “concetti” e quindi attraverso algoritmi in grado di “comprendere” il significato del testo ed esfiltrare solo i file ritenuti rispondenti ed importanti è essenziale; senza contare che l’esfiltrazione potrebbe prevedere il trasferimento anche solo di una porzione del file.

Per avere un’idea tecnica del funzionamento degli stealer, si faccia riferimento a quanto scritto in merito sul Lumma Info-Stealer nel 2023 sul sito Dark Trace: si tenga presente che la capacità di esfiltrazione degli stealer è la medesima di quella normalmente utilizzata durante una delle fasi degli attacchi ransomware e spesso la minaccia convive e concorre con altre del medesimo tipo. Ad esempio, nel caso del Lumma Info-Stealer i ricercatori di sicurezza, sul medesimo sistema, hanno rilevato anche altri stealer tra cui il Raccoon stealer utilizzato anche nella massiccia compagna della botnet Phorpiex tramite le mail di “Jenny Green” (per approfondimenti si consiglia la lettura di questo articolo)

L’infrastruttura di comando e controllo di Phorpiex

Come è possibile notare dall’immagine pubblicata dai ricercatori di Checkpoint, la complessità dell’infrastruttura di questi malware può essere particolarmente complessa e può obbligare il direttore dei sistemi informativi ad una moltitudine di controlli a volte molto specifici e longevi. Un esempio, utilizzato per il Lumma-Info Stealer è stata la celebre analisi PCAP (Packets Capture) con risultati apprezzabili ma anche molto lunghi da ottenere e analizzare. Sistemi per l’analisi del traffico come Wireshark mostrano chiaramente il traffico in uscita al quale può seguire un’ulteriore analisi per ottenere i dettagli di ciò che è stato esfiltrato.

Il principale problema è il “silenzio” di queste minacce che, oltre ad essere installate in modo particolarmente “facile”, possono essere eseguite senza dare segni di anomalia per anni. Si tenga presente che il principale motivo per cui le minacce ransomware sono note è proprio l’evidenza del danno che producono e che, tra l’altro, viene pubblicizzato proprio dagli stessi hacker; l’attività degli stealer, invece, è molto meno “rumorosa”.

Intelligenza artificiale e offensive cibernetiche

L’intelligenza artificiale applicata ad un’offensiva “multi-staging” comporta un notevole incremento dell’efficacia: si pensi solo all’eventualità di esfiltrare i soli file contenenti informazioni importanti quali credenziali, codici di accesso o informazioni strategiche. Oggi è possibile implementare algoritmi d’intelligenza artificiale operanti in off-line e quindi capaci di lavorare anche senza bisogno di connessione internet. Molti motori di ricerca, si pensi a quello sviluppato da Evernote, si avvantaggiano dell’intelligenza artificiale per compiere ricerche in base a “concetti” e non al mero contenuto. Questo perfeziona grandemente i risultati e favorisce la ricerca anche in condizione di scarsa precisione da parte dell’utente che deve richiamare il file. Sul portale Evernote al riguardo si legge:

AI-Powered Search is a powerful tool, built right into the current Evernote search experience, that lets users ask questions and get answers in natural language about their notes. Users will be able to easily retrieve the notes they are looking for by simply describing them and can even get the exact piece of information they need without going through the contents of a note.

La ricerca basata sull’intelligenza artificiale è un potente strumento, integrato direttamente nell’attuale esperienza di ricerca di Evernote, che consente agli utenti di porre domande e ottenere risposte in linguaggio naturale sulle loro note. Gli utenti potranno recuperare facilmente le note che cercano semplicemente descrivendole e potranno anche ottenere l’esatta informazione di cui hanno bisogno senza passare attraverso il contenuto di una nota.

Il motore di ricerca è il classico applicativo “gradito all’utente” perchè lo facilità nelle sue attività quotidiane, ma il motore di ricerca è anche uno dei pochi applicativi che conosce ogni dettaglio dei nostri file:

  • Nome
  • Tipologia di file
  • Metadati descrittivi del file
  • Posizione in cartella
  • Contenuto completo di ciò che è stato scritto

Sono elementi essenziali che possono favorire tanto l’individuazione ed il recupero dell’informazione, quanto il discernimento di ciò che è rilevante da ciò che non lo è. A maggior ragione, se il motore di ricerca è in grado di “comprendere” il contenuto e avesse una funzione “malevola”, potrebbe rapidamente estrarre le sole informazioni importanti da un parco informativo più ampio, costruendo un attacco mirato e puntuale, piuttosto che generico e indistinto. L’intelligenza artificiale è in grado, tra l’altro, di prioritizzare e classificare le informazioni in modo molto puntuale: l’algoritmo riconosce la differenza tra “credenziali” (tipicamente username e password) e “codice segreto” (tipicamente un PIN). Addestrando un algoritmo adeguatamente è possibile ottenere una precisione ed una puntualità che, a scopo offensivo, potrebbe risultare devastante. Già oggi i riassunti delle mail lette dagli assistenti d’intelligenza artificiale, vengono spedite a server di terze parti perchè l’algoritmo possa effettuare le doverose operazioni di estrapolazione e riassunto dei contenuti.

Il ruolo della I.A. nei sistemi SIEM

Un esempio d’interfaccia grafica di un SIEM

Siamo abituati a sentir parlare di soluzioni SIEM e di quanto queste abbiano la capacità di integrare sistemi di monitoraggio che fino a qualche anno fa risultavano “separati” tra loro; oggi la comunicazione è (o dovrebbe essere) integrata come, d’altro canto, stabilito da standard e buone prassi. I sistemi SIEM sono una valida soluzione che comincia a ricevere i benefici derivanti dall’impiego di algoritmi d’intelligenza artificiale. Chiaramente il vantaggio più concreto consiste in due punti fondamentali:

  1. La possibilità di analizzare la minaccia su base “comportamentale”.
  2. La possibilità di prevenire l’esecuzione del codice malevolo prima che esso inizi ad essere eseguito.

Si tratta di intervenire su ciascuna delle fasi dell’attacco, soprattutto su quelle iniziali che, spesso, nemmeno vengono percepite dai normali software di protezione del sistema. L’I.A. può quindi davvero rivoluzionare i sistemi SIEM sia per ciò che riguarda la notifica di comportamenti sospetti (assolvendo così alla parte SIM-Security Information Management), sia per ciò che riguarda l’azione proattiva verso le minacce appurate (assolvendo così alla parte SEM-Security Event Management).

La qualità più importante è assolvere correttamente a quei controlli che oggi vengono svolti dall’essere umano con un grande dispendio di tempo e con conseguenze non sempre efficaci. Se l’attività svolta da sistemi come Wireshark, venisse automaticamente integrata da una PCAP in grado di stimare con precisione, ad esempio, il rischio di esfiltrazione delle informazioni, si otterrebbero risultati molto più significativi nella protezione del dato.

Tuttavia è bene ricordare che le condizioni che consentono ad un sistema SIEM+I.A. di operare e avere successo, richiedono il mantenimento di buone prassi definite negli standard che tutt’ora spesso vengono disattese. In definitiva ciò significa che nonostante l’integrazione dell’I.A. nei sistemi SIEM risulti essere un’arma di difesa molto promettente, essa perde di sostanziale efficacia se non supportata da corrette procedure a tutela dei sistemi e dei dati.