IL MAGAZINE DEDICATO ALLE
INVESTIGAZIONI & SCIENZE FORENSI

di:  

dati sintetici

Dati sintetici: cosa sono e perché sono importanti per la privacy

I dati sintetici sono dati creati a tavolino a partire da dati reali tramite l’impiego dell’Intelligenza Artificiale. Possono essere utilizzati per l’addestramento dell’AI, ma anche per la protezione dei dati personali in ambito privacy.

Dati sintetici: cosa sono e a cosa servono

Se ne parla da molto tempo, ma ora, con l’esplosione dell’Intelligenza Artificiale, l’argomento “dati sintetici” ha conquistato il dibattito pubblico, diventando virale. La prima volta che questo termine venne menzionato fu nel 1993 in un articolo di Donald B. Rubin, professore di statistica di Harvard, pubblicato sul Journal of Official Statistics. Per dati sintetici s’intendono quei dati creati artificialmente, a partire dai dati reali, tramite l’impiego dell’Intelligenza Artificiale.

I syntethic data non vengono prodotti dall’interazione con il mondo reale, bensì attraverso l’impiego di specifici algoritmi di tipo generativo in grado di apprendere e replicare dei database artificiali che presentano proprietà statistiche estremamente simili (se non identiche) a quelle dei dati di partenza, tuttavia non riconducibili e direttamente collegabili al database originale.

Uno dei principali utilizzi di questa tecnologia consiste proprio nell’addestramento dell’Intelligenza Artificiale. I dati sintetici sono ideali per il training di sistemi basati sul machine learning, sia da un punto di vista quantitativo che qualitativo. Molto spesso, infatti, l’allenamento delle macchine intelligenti è ostacolato dalla difficoltà di reperire dati facilmente processabili.

La sintetizzazione dei dati risolverebbe questo problema, tanto che secondo uno studio di Gartner entro il 2024 il 60% dei dati impiegati per sviluppare progetti di AI sarà generato sinteticamente. Sempre Gartner ha affermato che entro il 2030 i dati sintetici sostituiranno i dati reali nello sviluppo dei modelli di Intelligenza Artificiale, arrivando ad un valore di mercato di 1,79 miliardi di dollari.

Dati sintetici e privacy

I syntethic data non trovano applicazione soltanto in ambito AI, ma anche in quello della protezione dei dati. L’iperproduzione e la condivisione di informazioni, molto spesso di natura personale, ha innescato una crescente apprensione riguardo al tema della privacy.

Secondo uno studio di OpenText, un italiano su tre ha dichiarato di non fidarsi del modo in cui le aziende trattano i dati. Con l’exploit dell’Intelligenza Artificiale, i timori sono aumentati tanto che, secondo Cisco, il 56% delle persone è preoccupato per come le aziende impiegano gli algoritmi intelligenti.

Allo stato attuale, la sintetizzazione dei dati rappresenta una delle più promettenti soluzioni per rafforzare la tutela della privacy e garantire che il trattamento dei dati personali avvenga in maniera lecita e corretta. I dati sintetici, infatti, consentirebbero ad aziende e pubbliche amministrazioni di aumentare il livello di tutela dei dati personali. Nel corso del processo di data synthetization, infatti, l’algoritmo generativo non replica né mantiene alcun collegamento diretto con gli elementi identificativi del database iniziale. In questo modo non è possibile ricondurre i dati creati “in provetta” a quelli originali e alle persone a cui si riferiscono.

Questa tecnologia è ancora emergente, tuttavia il Garante per la privacy ha inserito i dati sintetici tra gli emerging technology trends per il 2022/2023. La proposta del nuovo Regolamento UE sull’IA, attualmente al vaglio delle istituzioni, menziona i dati sintetici come alleato nella protezione della privacy. Infine, Gartner ha previsto che entro il 2025 i synthetic data ridurranno la raccolta di dati personali dei clienti, permettendo di evitare il 70% delle sanzioni per violazioni delle norme sulla privacy.

CONDIVI QUESTO ARTICOLO!

Iscriviti alla newsletter

    La tua email *

    Numero di cellulare

    Nome *

    Cognome *

    *

    *

    Inserisci sotto il seguente codice: captcha