Nelle scorse settimane di relax, preso dalle letture sotto l’ombrellone, mi sono reso conto di come in questi ultimi anni il mondo dei dati si è sempre più arricchito di termini “accattivanti” che hanno posto l’accento sulla trasformazione nella gestione dei dati, che sempre più, sono la vera ricchezza delle aziende “cross mercato”.
Tutti questi termini, per chi come me si occupa di dati da quasi vent’anni, sono chiare fotografie di concetti, di infrastrutture e di approccio ai dati, che permettono di indirizzare la roadmap verso il DSS (Decision Support System), mentre in altri casi possono generare confusione e di conseguenza indecisione sulle scelte da fare.Pertanto, visto che c’è stata e c’è effettivamente una grande evoluzione nella gestione dei dati, ho pensato di parlare di uno dei termini più in voga, nonché, uno dei concetti più innovativi e virtuosi nella gestione dati, ossia…… il Data LakeHouse.
Un Data LakeHouse è un’architettura/infrastruttura moderna di gestione dei dati che combina, in modo ibrido, i vantaggi di un Data Lake, come ad esempio la flessibilità, la scalabilità e l’apertura a strumenti di (ML), con le consolidate funzionalità di Governance e Performance, di un ; questo approccio ibrido semplifica in modo sostanziale le attività di analisi, di , di Data Science e Machine Learning.
Approfondiamo sinteticamente le caratteristiche dei due sistemi che insieme formano la più moderna ed affidabile Data Platform.
I Data WareHouse sin dai primi utilizzi, hanno messo in evidenza le grandi capacità di garantire la qualità dei dati grazie ad una visione unica e completa per tutta l’organizzazione aziendale; questa gestione strutturata dei dati, basati su fatti e dimensioni con schemi grafici specifici (star schema e/o snowflake schema), mette a disposizione dei decision maker, strumenti di BI e analytics flessibili come ad esempio le funzioni self-service ed esplorazioni approfondite grazie a funzioni di drill up e drill down.
Seppur solidi ed altamente affidabili, i sistemi di Data WareHouse, con l’avvento dei e le conseguenti evoluzioni di sistemi di analytics su grandi moli di dati anche non strutturati, hanno mostrato i loro limiti.
La sempre più crescente necessità di utilizzare nuovi modelli di analytics, basata anche sull’ e sul Machine Learning, hanno inevitabilmente mutato l’approccio ai dati e hanno aperto la strada a nuove tecnologie spesso basate sull’ecosistema Hadoop come ad esempio Hive, Sqoop, Spark, ecc.
Le infrastrutture di Data Management si arricchiscono con nuove strutture di Data Lake, che altro non sono che dei repository di storage economico e flessibile in cui i dati vengono memorizzati in modo “grezzo” e non strutturato su file system distribuiti, in genere HDFS o sue evoluzioni.
Da qui si evince l’opportunità di lavorare direttamente sui file attraverso script Python, procedure R ecc.
La grande crescita dei Data Lake, spinta da forti investimenti delle organizzazioni in tutti i settori, ha dato vita a nuove figure professionali come i Data Scientist, e a grandi possibilità di analisi, grazie all’utilizzo di tecnologie di Big Data e di Predictive Analytics.
Tutto questo ha messo in discussione per un po’ l’utilità di mantenere in vita le storiche strutture di Data WareHouse, ma il Data Lake ha presto mostrato i suoi limiti soprattutto sulla questione della qualità dei dati e della Data , difficile da gestire con file non strutturati.
Un esempio è stato l’introduzione della GDPR-Compliant che ha prodotto diversi problemi di gestione.
Ecco perché, ad oggi in tutti i settori, si tende ad implementare soluzioni di Data LakeHouse, da progettare in modo “intelligente” e specifico per l’azienda.
Poter sfruttare le virtù di schemi strutturati di dati come quelli del Data WareHouse, combinati con le potenzialità analitiche dell’AI e del ML sul Data Lake, è sicuramente la soluzione più innovativa e vincente anche sotto l’aspetto economico; per quanto riguarda il concetto di economicità, va però sottolineato che l’implementazione di un Data LakeHouse è un’operazione custom; un vestito cucito addosso al cliente in base alle esigenze, alle caratteristiche del business e alle infrastrutture (anche Legacy) presenti in azienda.
Implementare un Data LakeHouse solo perché “è di moda”, il più delle volte è antieconomico e poco produttivo.
In conclusione, volendo semplificare, possiamo definire un Data LakeHouse come un repository ibrido ed economico dove gestire grandi moli di dati strutturati e non ( SQL e NoSQL ) in maniera diversa in base alle esigenze, potendo garantire solida qualità dei dati, semplicità di interrogazione anche self-service, Governance, Analytics e Integrazioni con AI e ML.