AI
Governance
Quantyca Technologies
Scopri

Overview

Databricks è una piattaforma cloud progettata per sfruttare a pieno il potenziale dei dati ed utilizzabile sui principali cloud provider (Azure, AWS, GCP). Offre un ambiente integrato per l’elaborazione e l’analisi dei dati, l’addestramento di modelli di machine learning, e lo sviluppo di dashboard.
Queste sono le caratteristiche principali che contraddistinguono la piattaforma Databricks:

 

  • Unificata

Un’unica piattaforma per l’integrazione dati, lo storage, l’analisi, lo sviluppo e l’addestramento di modelli di AI, capace di operare sia con dati strutturati che non strutturati. Permette di sfruttare i principali linguaggi di programmazione presenti sul mercato (python, SQL, Scala, R) in un IDE collaborativo basato su notebook

  • Aperta

Sfrutta i tool e i progetti open-source più diffusi in ambito dati:

  • Apache Spark per il processing batch e streaming in un pattern di computazione distribuita
  • Delta Lake come storage format che abilita la transazionalità ACID sui dati salvati all’interno del data lake
  • MLflow per gestire il lifecycle dei modelli di machine learning, inclusi l’experimentation, il serving e il tracking
  • Scalabile

Sfrutta a pieno la tecnologia cloud sottostante per ottenere prestazioni elevate a costi contenuti scalando l’infrastruttura in base al carico richiesto 

La piattaforma Databricks

Diversi moduli fanno fronte ai molteplici bisogni che sorgono durante l’ingegnerizzazione di una enterprise data platform. 

La progettazione e l’integrazione dati sono il fulcro di ogni piattaforma data-centrica. Databricks combina la potenza di elaborazione distribuita di Apache Spark con la flessibilità a livello di storage di Delta Lake per offrire un’esperienza di sviluppo ETL/ELT completamente gestita e fortemente semplificata. I Databricks Notebooks permettono lo sviluppo dei flussi delle logiche ETL con python, SQL o Scala, mentre le Delta Live Tables permettono di definire le dipendenze tra i notebook sviluppati e di creare workflows. Databricks offre inoltre tool per l’ingestion automatizzata: Auto Loader permette di fare ingestion dallo storage cloud nel datalake garantendo l’idempotenza dei dati importati. 

Sempre in più applicazioni ci troviamo a dover affrontare il tema dello streaming dati in real-time. Databricks sfrutta Apache Spark Structured Streaming per lavorare con dati in streaming e per gestire i caricamenti incrementali all’interno del data lake. 

Il modulo Machine Learning arricchisce le funzionalità della piattaforma con una suite di tool dedicati a Data Scientist ed ML Engineers. Fornisce un ambiente integrato che semplifica i processi di sviluppo ML e MLOps permettendo di gestire interamente il lifecycle dei modelli di machine learning. Infatti, Databricks ML consente: 

  • L’addestramento dei modelli, sia manuale che automatico 
  • Il tracking e la condivisione delle feature utilizzate nei processi di addestramento tramite un feature store completamente gestito 
  • Il tracking dei parametri e delle performance dei modelli tramite MLflow 
  • Il serving dei modelli tramite registry e servizi Databricks integrati 

Molto spesso le esigenze di data engineering vengono affiancate da esigenze di warehousing e analytics. La piattaforma Databricks combina la potenza di calcolo e l’affidabilità dello storage per eseguire query analitiche. Offre una UI dedicata ai data analyst dove è possibile lanciare query su dati presenti nel lakehouse e costruire visualizzazioni tramite dashboard. 

La qualità, l’integrità, la compliance e la sicurezza dei data asset sono elementi da non sottovalutare in una piattaforma data-centrica. Per questo motivo Databricks offre un servizio di governance unificata per il lakehouse che permette di implementare le pratiche, le policy e le procedure richieste dall’azienda. Tramite lo Unity Catalog, gli amministratori di piattaforma possono gestire permessi per team e individui a basso livello tramite le Access Control Lists (ACLs). Inoltre, lo Unity Catalog permette di segregare responsabilità e dati, facendo in modo che ogni utente possa leggere e visualizzare solo le porzioni di dato a cui ha effettivamente accesso (row e column-level security). 

Databricks offre servizi che semplificano i processi di sviluppo e di deployment sia in ambito ETL che in ambito ML. Parliamo di tool comuni per versionare, automatizzare, schedulare e rilasciare il codice, oltre che tool per il monitoraggio delle esecuzioni, tutti racchiusi in un’unica piattaforma. Databricks offre le Databricks Repos che consentono di integrarsi con i più comuni provider git, e i Databricks Workflows che consentono di schedulare, orchestrare e monitorare le esecuzioni dei flussi dato. 

Partnership

Realizziamo soluzioni su misura per il cliente sfruttando le feature Databricks necessarie a costruire una data platform che soddisfi tutti i requisiti necessari, dalle capabilities fino alla governance e alla security. Come partner Databricks, seguiamo le fasi di design, implementazione, test, e rilascio di soluzioni basate sul paradigma lakehouse sfruttando la flessibilità, la scalabilità e l’affidabilità dei servizi Databricks. 

  • Numerosi progetti deliverati con successo in produzione
  • Certificazioni attive
    • Databricks Certified Associate Developer for Apache Spark
    • Databricks Certified Data Engineer

 

  • Avvio di nuovi progetti
  • Assessment di soluzioni esistenti e migrazione di piattaforme dati
  • Progettazione ed implementazione soluzioni di data lake e lakehouse
  • Progettazione ed implementazione soluzioni di Data Science
  • Formazione da remoto o in-house

Use Cases

Hai bisogno di una consulenza personalizzata? Contattaci per trovare la soluzione migliore!

Questo campo serve per la convalida e dovrebbe essere lasciato inalterato.

Entra a far parte del team Quantyca, facciamo squadra!

Siamo sempre alla ricerca di persone di talento da inserire nel team, scopri tutte le nostre posizioni aperte.

VEDI TUTTE LE POSIZIONI APERTE