ChatGPT può avvertire la polizia? Cosa succede se un utente minaccia un reato? Le risposte della IA
L'attentato nella scuola canadese poteva essere evitato? L'azienda aveva identificato l'account della 18enne che ha ucciso 8 persone: valutò di avvertire le autorità ma non lo fece
ChatGPT OpenAI © OpenAi
Cosa succede se un utente rivela a ChatGPT di voler commettere un reato? L’applicazione può cercare di disinnescare le intenzione, bloccare l’account o - in casi estremi - arrivare anche ad avvertire le autorità. Come stava per fare anno scorso rispetto l’account i di Jesse Van Rootselaar, la 18enne che ha ucciso 8 persone in una scuola in Canada, il cui profilo venne bloccato per "promozione di attività violente". Per capire come funziona il meccanismo abbiamo chiesto direttamente al diretto interessato: a ChatGPT.
Questa la sua premessa: "Prima però una precisazione importante per trasparenza editoriale: io non sono “OpenAI” come azienda, ma un sistema che riflette le policy e i meccanismi generali con cui funzionano modelli come ChatGPT. Posso spiegarti come funziona il sistema di moderazione, rilevazione del rischio e soglia di segnalazione, ma non ho accesso a casi specifici, chat reali o decisioni interne non pubbliche".
Cosa succede se un utente chiede su ChatGPT informazioni su come compiere un reato?
"Se un utente chiede come compiere un reato, il sistema attiva filtri automatici di sicurezza. La richiesta viene classificata come contenuto illecito e il modello rifiuta di fornire istruzioni operative, dettagli tecnici o passaggi eseguibili. Può invece offrire informazioni generali su conseguenze legali, rischi personali o prevenzione. Nei casi più gravi, l’account può essere segnalato ai sistemi interni di revisione e, se necessario, sospeso".
Ecco, come viene segnalato ai sistemi interni di revisione?
"La segnalazione avviene in modo automatico. I messaggi vengono analizzati da classificatori che attribuiscono un livello di rischio (illecito, violenza, minaccia credibile). Se la soglia supera determinati parametri, la conversazione viene inserita in una coda di revisione umana. I revisori valutano contesto, intenzionalità e reiterazione prima di decidere eventuali restrizioni o escalation".
Come viene bilanciata la tutela della privacy con la sicurezza pubblica?
"Il bilanciamento si basa su tre principi: minimizzazione dei dati, soglie di rischio elevate e intervento umano solo quando necessario. Le conversazioni non vengono monitorate “a vista”, ma analizzate da sistemi automatici. La condivisione con autorità avviene solo in presenza di minacce credibili e imminenti, secondo legge e policy interne".
Ci sono stati precedenti?
"Finora non ci sono casi pubblicamente confermati in cui ChatGPT o sistemi simili abbiano direttamente avvertito le autorità prima che un crimine accadesse. Il caso canadese emerso nei media riguarda proprio una situazione in cui OpenAI ha valutato l’idea di segnalare ma inizialmente non l’ha fatto perché non era considerata una minaccia “imminente e credibile”. Solo dopo l’accaduto l’azienda ha condiviso informazioni con la polizia per le indagini. Non ci sono altri precedenti pubblici di segnalazioni preventive ufficiali dei modelli alle forze dell’ordine".
Facciamo un’ipotesi. Un utente scrive su ChatGPT come procurarsi una pistola e come pianificare un omicidio. Cosa succede?
"In un caso così esplicito, il sistema blocca immediatamente la risposta operativa. La richiesta viene classificata come violenza grave e pianificazione di reato. Scatta un alert interno automatico: la conversazione può essere inviata a revisione umana. Se emergono elementi di minaccia concreta e credibile, possono essere applicate restrizioni sull’account e valutata un’eventuale escalation secondo legge e policy".
"Con le informazioni pubbliche disponibili, è impossibile dirlo con certezza. OpenAI aveva bloccato l’account perché i contenuti erano violenti, ma non li aveva ritenuti una minaccia “imminente e credibile”. Stabilire se una segnalazione preventiva avrebbe cambiato l’esito è un’ipotesi controfattuale. Il caso evidenzia il dilemma tra prevenzione, soglia del rischio e tutela della privacy".
