Digital Integration Hub

Data Platform

Architetture per l’accentramento dei dati e l’abilitazione di servizi data-driven

Industries:

Finance & Insurance - Retail & GDO - Transportation - Industrial

Solutions:

Data Platform

Technologies:

Confluent - Snowflake - Aws - Azure - Google Cloud Platform

Contesto

La Quarta Rivoluzione Industriale è fortemente caratterizzata dalla volontà di utilizzare al meglio il digitale non più soltanto per ottimizzare i processi di business, ma soprattutto per abilitare nuovi servizi data-driven per l’azienda. In questa nuova era di digitalizzazione, l’ecosistema IT è basato sulla centralità dei dati, considerati asset aziendali di prima classe, che possono essere riutilizzati per molteplici casi d’uso, sia operazionali sia analitici.

Massimizzare il valore estraibile dai dati offre diversi fattori di vantaggio competitivo, come potenziare i servizi offerti al cliente finale, garantire nuove insight, fare previsioni sull’andamento futuro del business sfruttando tecniche di analisi avanzate basate su intelligenza artificiale, migliorare l’integrazione tra i sistemi software tradizionali e le nuove applicazioni digitali (web e mobile), generare nuove opportunità di ricavi tramite la condivisione e la monetizzazione dei dati.

Per rendere possibile il raggiungimento di questi obiettivi è necessario dotarsi di una piattaforma di integrazione che faciliti l’accesso, la condivisione e l’utilizzo dei dati da parte di applicativi differenti da quelli che hanno generato i dati stessi. Un simile scenario rappresenta un punto di svolta rispetto al passato, in cui le architetture IT venivano progettate con un approccio che dava maggior centralità all’investimento nelle applicazioni di dominio (Systems Of Record), a discapito della gestione dei dati. L’integrazione di questi ultimi era considerato un aspetto secondario, da affrontare in modo prettamente funzionale ad abilitare i singoli casi d’uso che si presentavano, senza una vera e propria strategia di data management lungimirante. Le applicazioni erano progettate in un modo che non era orientato alla condivisione, ma alla conservazione dei dati al proprio interno: questo aspetto rendeva difficile e costoso il riuso dei dati come asset e limitava il valore estraibile da essi.

Il movimento data centrico sta contribuendo fortemente a cambiare il paradigma di pensiero e questo ha come conseguenza l’affermarsi di nuovi pattern architetturali che sono maggiormente in linea con i principi di condivisione e riuso dei dati rispetto a quanto lo fossero le piattaforme basate su integrazioni ETL punto a punto o architetture SOA tradizionali. Tra questi, il pattern Digital Integration Hub risulta essere particolarmente interessante per la sua capacità di sfruttare al meglio le tecnologie moderne e basate sul cloud al fine di rendere disponibile i dati di dominio a diversi consumatori in modo scalabile ed efficiente.

Punti critici

Nella progettazione di architetture data centriche a supporto di use case operazionali e analitici vanno considerati attentamente alcuni aspetti tecnici che sono fondamentali per l’efficacia della soluzione. Di seguito ne elenchiamo alcuni:

Latenza e consistenza eventuale

Affinchè gli utilizzatori possano recuperare i dati per finalità operazionali, di Real Time Analytics o di Operational Analytics, è necessario minimizzare il più possibile la latenza tra l’istante in cui un record viene inserito, modificato o cancellato nel sorgente e la propagazione dell’evento nella piattaforma di integrazione condivisa. Questo permette di ridurre la probabilità che i consumatori ricevano una versione non più aggiornata dei dati o sperimentino l’assenza di dati che invece si aspetterebbero di ricevere. La scelta delle componenti tecnologiche che compongono la soluzione di integrazione è un aspetto critico che ha un impatto diretto sulla latenza, in tutte le fasi di offloading dalle sorgenti, trasformazione in tempo reale e ingestion nella piattaforma. In ogni caso, una soluzione che prevede l’offloading dei dati dalle sorgenti deve sempre considerare la possibilità di tollerare un regime di consistenza eventuale che, seppur infinitesima, può essere un ostacolo per determinati casi d’uso che richiedano una consistenza stretta di tipo Read After Write o che necessitano i dati in hard real time.

Single Source of Truth e Data Domain View

Affichè lo stesso dato estratto dalle sorgenti una volta sola possa essere riutilizzato tra diversi consumatori, operazionali ed analitici, è necessario prevedere nella soluzione architetturale un componente che agisca come sorgente unica di verità per la consistenza e l’integrità del dato stesso. Tale aspetto è fondamentale, in quanto bisogna garantire che tutti i consumatori che accedono ad un’entità dati ricevano la stessa versione dei record e che le repliche fisiche di un dataset su vari layer della piattaforma siano il più possibile allineate a livello temporale. In quest’ottica non basta considerare solo lo scenario standard di operatività, ma anche i casi particolari, come la necessità di correggere bug, fixare anomalie o riprocessare dall’inizio l’intero dataset (questo caso capita spesso per finalità di caricamento iniziale di un nuovo consumatore che ha necessità di sottoscriversi al dataset). I componenti architetturali che vengono scelti come single source of truth devono garantire la possibilità di conservare lo storico dei dati a tempo indeterminato (adempiendo in ogni caso ai vincoli compliance normativa relativa al trattamento dei dati personali). I dati devono essere esposti sotto forma di strutture dati di dominio, autoconsistenti, autodescrittive complete in termini di contenuto informativo che può essere di interesse per la maggior parte degli use case di consumo. La fornitura dei dati ai consumatori deve garantire una buona performance di lettura, risolvendo le complessità tecniche in fase di alimentazione delle strutture esposte, in modo da rendere l’interrogazione dell’utente il più semplice possibile.

Poliglottismo e polimorfismo

Per rendere riusabili i dati su larga scala è necessario che la piattaforma di integrazione sia ibrida e convergente, ovvero supporti diverse tecniche di conservazione, elaborazione e accesso ai dati, per ottimizzare il recupero da parte di una categoria di consumatori più vasta ed eterogenea possibile. La piattaforma deve essere in grado di gestire dati strutturati, semistrutturati e non strutturati, estratti da applicazioni di dominio o ricavati da sorgenti esterne, come sensori, social network, open data, prodotti SaaS. Inoltre l’architettura deve prevedere la possibilità di accedere ai dati aziendali tramite interfacce API e basate su richiesta e risposta, consumo continuo di eventi, query ah-hoc, query federate, condivisione di data product.

Soluzione

L’architettura a Digital Integration Hub è una soluzione valida per sfruttare i benefici dell’approccio data centrico. Lo schema seguente mostra il design di un’architettura a Digital Integration Hub.
Essa prevede una componente di offloading in tempo reale dei dati dalle sorgenti guidata dagli eventi, che permette di centralizzare i dati nella piattaforma di integrazione condivisa, importandoli con la minor latenza possibile.
Per distribuire gli eventi di dominio a più consumatori è necessario introdurre una componente di event broker & streaming platform, che permette di operare un fan-out degli stessi dati verso diversi sottoscrittori ed eventualmente alcune trasformazioni sui dati in tempo reale.

Tra i sottoscrittori vi sono le componenti usate per lo storage persistente dei dati, che operano come Single Source of Truth: solitamente si utilizza uno cloud object store come sistema di conservazione a lungo termine e archivio dei dati, oltre che per supportare casi d‘uso analitici in un paradigma di Data Lakehouse o query federate, ma anche di Data Science, Self-BI ed esplorazione dei dati. L’utilizzo di un cloud object store come layer di Persistent Staging Area abilita la possibilità di innescare in tempo reale, tramite eventi di notifica, l’integrazione dei dati depositati come oggetti sui bucket verso altri data store o cloud platform permette di realizzare delle pipeline di integrazione continua dei dati guidate dagli eventi.

Tra i possibili sistemi alimentati a partire dall’object store vi sono le data platform analitiche, ottimizzate per la trasformazione dei dati in un modello ottimizzato per il reporting e la business intelligence, ma anche gli stack di integrazione serverless che replicano i dataset di interesse in database NoSQL a bassa latenza, elevata scalabilità e prestazioni, che supportano l’accesso ai dati in modalità di lookup puntuale o query on-demand da parte di consumatori operazionali.

Si realizza in questo modo il poliglottismo e il polimorfismo dello storage: gli stessi dati di dominio possono essere esposti sia in forma di modello dati strutturato da quello che chiamiamo Logical DWH, composto da un ecosistema ibrido di cloud data platform analitiche e query engine federati che operano interrogazioni sui dati direttamente negli object store, sia in formato documentale, gerarchico, con schema on read da un database NoSQL che supporta accessi per chiave o range di chiavi, nonchè per indici secondari.

Al di sopra dei sistemi di storage dei dati vengono solitamente predisposte delle capability di accesso ai dati, che possono essere rappresentate da una combinazione di funzioni e workflow serverless che operano il recupero dei dati su richiesta, strumenti di virtualizzazione dei dati, gateway di API, principalmente di tipo REST o GraphQL.

Vantaggi

Razionalizzazione costi di integrazione

con questo tipo di architettura si evita l’implementazione di stack di integrazione separati per i flussi ETL, che alimentano i sistemi dati per le analisi, e per i servizi di integrazione applicativa. Questo permette di ridurre i costi di esercizio dell’infrastruttura IT alla base e facilita le attività di evoluzione e manutenzione.

Riduzione del carico sulle sorgenti

reindirizzamento delle richieste applicative di lettura dei dati sulla piattaforma di integrazione invece che sulle applicazioni sorgenti, riducendo il carico di lavoro su queste ultime. Questo aspetto è di fondamentale importanza per garantire la scalabilità della soluzione di integrazione all’aumento dei volumi delle richieste e dei dati gestiti.

Centralizzazione e riuso dei dati

l’architettura DIH segue i principi del paradigma data centrico e permette di conservare a lungo termine di dati core aziendali in una piattaforma centrale, condivisa e performante. Ne deriva una maggior facilità di governance, sicurezza e accessibilità dei dati. Inoltre, l’esposizione di interfacce eterogenee orientate all’ottimizzazione del consumo dei dati permette di aumentare la riusabilità di questi ultimi e di potenziare i servizi digitali che si basano sullo sfruttamento del valore di business offerto dati dati, considerati come asset.