Quantyca Data Science Lab BNL
Scopri
Business Summary

BNL Gruppo BNP Paribas, con oltre 100 anni di storia, è uno dei principali gruppi bancari italiani, con 2,5 milioni di clienti privati, 130mila tra piccole imprese e professionisti e oltre 33mila tra aziende ed enti.
Dal 2006 la Banca fa parte del Gruppo BNP Paribas, uno dei leader mondiali nei servizi bancari e finanziari, presente in 72 paesi.

 

La necessità di comprendere meglio correlazioni e andamenti riguardanti fenomeni complessi come le preferenze dei propri clienti, l’evoluzione della domanda di uno specifico prodotto e/o servizio o l’analisi della concorrenza sul mercato, ha portato BNL ad investire nell’acquisizione di competenze specifiche per l’estrazione di informazioni utili dalla moltitudine di dati che quotidianamente ha a disposizione.

I risultati e l’efficacia di tutte le azioni strategiche dettate dagli insight ricavati, unitamente alla crescita della disponibilità di dati strutturati e non strutturati, ha spinto BNL a creare nel 2020 una piattaforma per l’industrializzazione dei processi di data science che favorisca un approccio sistematico all’analisi dei dati.

La nuova piattaforma realizzata in collaborazione con Quantyca ha permesso a BNL di standardizzare l’insieme di metodi, processi, algoritmi e tecnologie utilizzate dai propri data scientist riducendo così i costi e i tempi di sviluppo e rilascio di modelli di Machine Learning (ML) e Intelligenza Artificiale (AI).

 

Sfide e Obiettivi

Le continue richieste da parte del business di ricavare insight attraverso l’analisi dei dati hanno portato ad una crescita costante di competenze tecniche nonché del numero di professionisti del settore che si sono aggiunti ai vari team di lavoro.
Ad inizio 2022 sono 10 i gruppi di lavoro che quotidianamente svolgono analisi dei dati (ognuno composto da 4-5 componenti) per un totale di circa 50 data scientist ad oggi operativi. Questi numeri, tuttora in crescita, richiedono una standardizzazione tecnologica e metodologica dei processi seguiti da questi team di lavoro.

I problemi principali legati al fatto di non avere un’infrastruttura IT in grado di ospitare end-to-end i processi di Data Science riguardano in primo luogo la semplicità nel riprodurre degli esperimenti. Un modello deve cioè poter essere ricostruito in ogni momento successivo alla sua prima implementazione con variazioni marginali nelle performance di inferenza. La riproducibilità permette di ridurre gli errori, accelerare i tempi di sperimentazione, favorire il riuso, e creare fiducia nella validità dei risultati ottenuti da parte di tutti gli stakeholder. Senza riproducibilità inoltre non sarebbe possibile abilitare pratiche adeguate per supportare i principi di collaborazione e automazione.

L’assenza di un’infrastruttura di base inoltre porta ad un aumento dei tempi, e quindi dei costi, di sviluppo dei modelli e, soprattutto, ne rende poco agile il passaggio in produzione. L’intercettazione di un eventuale degrado degli algoritmi deve essere abilitata da un sistema di monitoraggio che possa valutare le performance dei modelli, ed è necessario standardizzare i processi per rendere le attività dei data scientist conformi alle policies di privacy e sicurezza.

Ragionare su una piattaforma per l’industrializzazione dei processi di Data Science, infine, permette di investire nella relazione tra IT tradizionale e Data Scientist, garantendo l’agilità di sviluppo necessaria da parte di questi ultimi e, allo stesso tempo, le caratteristiche di robustezza architetturale proprie dei Data/Software Engineer.

Soluzione

L’intera soluzione è basata su un’infrastruttura capace di automatizzare il processo di elaborazione del dato per il calcolo delle feature necessarie ai modelli di ML, l’addestramento e l’esecuzione dei modelli di ML e, allo stesso tempo, è in grado di integrarsi facilmente con i sistemi di BNL attraverso l’esposizione tramite API (online serving) o tecniche di integrazione batch (offline serving).

 

Grazie a Quantyca abbiamo costruito un ecosistema digitale a disposizione dei nostri data scientist che permette lo sviluppo e l'addestramento dei modelli di Machine Learning, ma che è allo stesso tempo fortemente integrabile con i sistemi bancari pre-esistenti. L'integrabilità è il vero valore aggiunto della piattaforma poiché permette il miglioramento dei nostri processi di business e il raggiungimento degli obiettivi attraverso moderne tecniche di Machine Learning e Intelligenza Artificiale"

Giovanni Cauzillo - Head of Data Intelligence Platform in BNL

 

BNL, con il supporto di Quantyca, è stata in grado di realizzare il Data Science Lab, ovvero una piattaforma self-service a disposizione dei data scientist per lo sviluppo, il training e la messa in opera di modelli di machine learning in grado di facilitare ed automatizzare il processo, rendendolo al tempo stesso scalabile e riproducibile.
Sono inoltre presenti strumenti per l’isolamento di ambienti e progetti, il provisioning dell’ambiente di sviluppo, il versionamento del codice e dei modelli.

L’ambiente che ospita DataLab è suddiviso in due macro aree chiamate rispettivamente laboratorio e produzione. L’area di laboratorio è pensata per gestire le componenti utilizzate dai data scientist al momento dello sviluppo. Quella di produzione, invece, è dedicata alla memorizzazione di progetti e modelli e alla loro esecuzione.

L’ambiente di sviluppo permette di accedere in modalità self-service a dei server JupyterHub pre-configurati con quanto ritenuto necessario (librerie Python e Conda) per creare, addestrare ed eseguire i modelli sui notebook Jupyter.
La scelta dei modelli da portare in produzione avviene tramite l’utilizzo di MLflow, il quale consente di salvare le esecuzioni dei modelli sviluppati e di raccoglierne parametri e metriche di performance.

L’ambiente di produzione utilizza GitLab per creare le pipelines di CI/CD che si occupano di automatizzare la costruzione delle immagini Docker sfruttabili per l’esecuzione dei modelli, versionarle in un docker registry privato ed esporle ai consumatori tramite API Flask.
Alle tecnologie sopra citate si aggiungono inoltre i servizi offerti dall’Elastic Stack per il monitoraggio dell’infrastruttura e degli eventi e delle performance dei singoli componenti, e Kubernetes quale orchestratore di containers Docker che si occupa dell’allocazione automatica delle risorse necessarie.

Risultati

Grazie alla nuova piattaforma per l’industrializzazione dei processi di Data Science, BNL è riuscita ad ottenere un empowerment dei propri Data Scientist e del loro ecosistema attraverso l’acquisizione di competenze e tool che permettono la produzione di deliverable con le stesse caratteristiche di robustezza architetturale dello sviluppo tradizionale.
In sostanza l’ambiente Data Lab concilia le esigenze di agilità dei data scientist con quelle di stabilità e manutenibilità dell’IT.

La piattaforma è stata adottata con successo dai data scientist di BNL, riducendo così i costi e i tempi di sviluppo e facilitando e velocizzando il processo di rilascio in produzione di nuovi modelli rispondendo così in modo più efficace ed efficiente alle esigenze del business.

Risorse

Whitepaper
Free
17/06/2022

BNL – Data Science Lab

Contattaci!

Questo campo serve per la convalida e dovrebbe essere lasciato inalterato.

Entra a far parte del team Quantyca, facciamo squadra!

Siamo sempre alla ricerca di persone di talento da inserire nel team, scopri tutte le nostre posizioni aperte.

VEDI TUTTE LE POSIZIONI APERTE