Il punto di contatto tra semantica e qualità dei dati
La gestione della qualità dei dati parte dalla definizione esplicita delle aspettative da parte degli stakeholder in base all’uso che devono farne e delle regole di business che devono essere verificate per assicurare che i dati siano di qualità.
La definizione di queste regole viene fatta a complemento della definizione dei concetti di dominio (ad esempio: il “Cliente”) e degli attributi che li caratterizzano (ad esempio: il “Codice Fiscale”), arricchendo la base di conoscenza modellata nell’architettura informativa.
Le regole di business relative alla qualità dei dati rappresentano il riferimento per l’implementazione dei controlli di qualità all’interno delle applicazioni e dei data product, sia preventivi sia correttivi.
Le regole di business a corredo del modello concettuale sono il riferimento per i controlli di qualità dei dati
Ruoli e processi
Per migliorare la qualità dei dati è necessario prima di tutto agire dal punto di vita organizzativo, ovvero assegnare responsabilità esplicite sulla qualità ai ruoli coinvolti nei processi di gestione dei dati e della conoscenza.
I ruoli coinvolti nella gestione della qualità dei dati
I principali ruoli coinvolti sono:
• Data Owner e Data Steward: sono le figure responsabili di definire la semantica di dominio e le regole di business relative alla qualità dei dati.
• Data Product Owner: sono i responsabili dei data product che espongono gli asset dati aziendali al consumo da parte degli utilizzatori. In quanto tali, sono responsabili di garantire l’implementazione dei controlli sui data product che gestiscono, per dare evidenza agli utenti delle metriche di qualità dei dati esposti.
• Data Custodian: figura appartenente al team che gestisce un data product o al team di Data Quality, a cui il Data Product Owner delega le attività di monitoraggio operativo delle metriche di qualità sui dati esposti.
• Data Quality Expert: figura che lavora nell’ambito della Data Governance, specializzata nella definizione di politiche, standard e buone pratiche per assicurare la gestione efficace della qualità dei dati
• Platform Engineer: figura che lavora nel team che sviluppa i servizi condivisi, tra cui quelli per l’implementazione del framework di data quality, offerti come parte della piattaforma a supporto degli sviluppatori e degli utenti.
I processi principali che contribuiscono a misurare, monitorare e riportare lo stato di qualità dei dati sono:
• Processo di definizione delle regole di governance, in cui si definiscono i protocolli, le tecnologie, gli standard e le regole comuni con cui devono essere implementati i controlli di qualità in tutta l’organizzazione.
• Processo di ingegnerizzazione della piattaforma, in cui si sviluppano e si mettono in opera i servizi standard condivisi (librerie, strumenti tecnologici, altri moduli software) per facilitare • l’implementazione dei controlli, la misurazione, il monitoraggio e il reporting delle metriche di qualità.
• Processo di modellazione della conoscenza, in cui si definiscono le aspettative degli stakeholder e le regole di business che fanno da riferimento per la verifica della qualità dei dati.
• Processo di sviluppo dei data product, in cui si implementano i controlli che permettono di misurare le metriche di qualità sugli asset dati esposti dai prodotti.
• Processo di gestione delle problematiche, in cui si interviene per analizzare e rimuovere la causa radice dei problemi di qualità emersi nei dati.
L’esecuzione dei processi descritti viene fatta in allineamento con le politiche e gli standard definiti a livello di Data Governance. Questo aspetto è fondamentale nelle architetture modulari, in quanto garantisce l’interoperabilità dei controlli di qualità dei dati e un’interpretazione consistente delle metriche monitorate.
Tecnologie
L’implementazione dei controlli di qualità e il monitoraggio delle metriche su larga scala richiede il supporto di adeguati strumenti tecnologici.
Le metriche di data quality sono metadati di runtime che rientrano nell’insieme più ampio dei segnali di observability (questi ultimi comprendono anche i log applicativi e infrastrutturali, le metriche di runtime di utilizzo delle risorse e le tracce delle richieste utente). Per questo motivo è conveniente adottare protocolli e librerie standard di observability per gestire la generazione e la trasmissione dei segnali.
Gli strumenti necessari per misurare, monitorare e riportare lo stato della qualità dei dati in un’architettura distribuita sono i seguenti:
Strategia e Modello Operativo
Per massimizzare l’efficacia dei risultati, è consigliabile inserire l’implementazione della qualità dei dati nel contesto di una strategia dati e AI complessiva. Questo permette di gestire in modo armonico l’intero portafoglio di attività in ambito dati e AI, definire priorità coerenti con il valore che si vuole offrire in base alle necessità dell’organizzazione.
Inoltre, una gestione integrata delle attività di data quality con il resto del portafoglio strategico consente di sfruttare il lavoro in corso d’opera su altri programmi (ad esempio quello di costruzione di una piattaforma per il miglioramento dell’esperienza di utenti e sviluppatori) anche a supporto delle finalità di qualità dei dati.
Nelle organizzazioni complesse i modelli operativi adottati sono solitamente decentralizzati e federati. Pertanto, diversi gruppi di lavoro sono coinvolti in un sottoinsieme delle attività che concorrono all’implementazione della qualità dei dati. Di conseguenza, è fondamentale tenere il coordinamento operativo e strategico delle attività in modo da facilitare il lavoro sinergico dei vari gruppi verso lo sviluppo di soluzioni di qualità, che rispettino le aspettative degli utenti.
Vista la complessità dell’implementazione della qualità dei dati, specialmente nei casi in cui è necessario sanare un volume importante di soluzioni dati esistenti, è opportuno adottare un approccio incrementale e iterativo, che mira ad intervenire per priorità nel sanare i problemi di qualità più critici sugli asset dati che presentano un rischio maggiore per l’uso che ne viene fatto.