olap.it
The N° 1 site for Data Warehousing Professionals |
Business Intelligence & Data Warehouse Resource Center |
|
Home Servizi di consulenza Siti e Risorse Definizioni Libri Recensioni Articoli Prodotti Soc Consulenza News Progetti Italiani Altre Info |
Recensioni di libri e Siti specializzati sul Data Warehousing apparsi sulla newsletter Microstrategy BI Bulletin (autore: A. Vincenzi) |
|||||||||||||||||
LIBRI | WEB SITES | ||||||||||||||||
|
Questa rubrica è dedicata a recensioni di libri, siti e altre risorse dedicate ai temi Data Warehouse e Business Intelligence. Nella scelta dei libri da recensire verranno privilegiate le opere più rilevanti indipendentemente dalle tecnologie, senza peraltro trascurare le ultime novità. Naturalmente, mentre la data di pubblicazione è un dato certo, la rilevanza rappresenta un criterio soggettivo, quindi la selezione ed i giudizi riflettono unicamente il mio punto di vista e sono basati sulle mie esperienze personali.
Suggerimenti e critiche sono comunque benvenuti, scrivendo a andrea.vincenzi@olap.it
Fatta questa debita premessa passiamo alla prima review, dedicata a quello che considero il miglior libro sul Data Warehousing che sia mai stato scritto: The Data Warehouse Toolkit di Kimball, pubblicato in prima edizione nel 1996 e in seconda edizione nel 2002.
La seconda edizione non è semplicemente un aggiornamento della prima, si tratta in realtà di un’opera completamente nuova, anche se la struttura rimane sostanzialmente la stessa; il tema principale riguarda le tecniche del data modeling dimensionale, spiegate tramite esempi pratici basati sulle problematiche tipiche di diversi settori aziendali.
La bontà delle teorie di Kimball è dimostrata dal fatto che tutti i principi fondamentali enunciati nel 1996 (slowly changing dimensions, factless fact tables, conforming dimensions e molti altri) hanno retto all’impatto del tempo e rimangono tuttora validi, anche se nel frattempo la tecnologia si è evoluta ed i volumi di dati sono cresciuti di almeno un ordine di grandezza.
Per chi cerca una conoscenza approfondita del soggetto Data Warehousing consiglio di leggere entrambe le edizioni; altrimenti, dovendo scegliere, la seconda è ovviamente da preferire per la maggiore completezza e per l’aggiornamento tecnologico. In entrambi i casi si tratta di libri di qualità superlativa per la profondità delle idee esposte, la chiarezza espositiva, la competenza degli autori e la completezza della trattazione.
Raramente capita di imbattersi in opere che hanno un così profondo contenuto innovativo, tanto che le teorie esposte reggono inalterate nel tempo anche in settori in veloce evoluzione; l’unico altro esempio che mi viene in mente nel campo del software è “Structured Systems Design” di Yourdon e Constantine, solo che questo era a volte troppo verboso, mentre Kimball raramente spreca una parola di troppo.
Entrando più nel dettaglio, il libro introduce prima i concetti basilari e le componenti di un data warehouse come staging area, fatti, dimensioni, strumenti di ETL e di presentazione dei dati. Nei capitoli seguenti vengono esaminati alcuni modelli tipici dei principali settori di impiego dei data warehouse: Retail, Inventory, Procurement, Order Management, CRM, Accounting, HRM, Financial, Telecom, Transportation, Education, Health care, ECommerce, Insurance.
Il penultimo capitolo è dedicato alle componenti del ciclo di vita di un DW, dalla pianificazione del progetto alla messa in esercizio, passando per raccolta dei requisiti, disegno dell’architettura, data staging, reportistica. Questi argomenti, che qui sono condensati in circa 30 pagine, sono trattati in grande dettaglio in un altro fondamentale libro di Kimball che tratterò in una prossima recensione (“The Data Warehouse Lifecycle Toolkit”).
L’ultimo capitolo è dedicato alle problematiche del trattamento dei dati personali e ad uno sguardo al futuro, come ad esempio la tendenza a gestire le aziende facendo più affidamento sui numeri e meno sull’istinto. Questo sta avvenendo grazie a fattori come la presenza di una nuova classe dirigente che ha familiarità con i computer, e la disponibilità di grandi moli di dati provenienti dai sistemi informativi ERP.
In definitiva, un grande libro che non si può fare a meno di leggere se si vuole capire cos’è, come funziona e a cosa serve un data warehouse.
Oggi torniamo ad occuparci di libri, e dallo scaffale questa volta prendiamo “Business Intelligence for the Enterprise”, di Mike Biere.
Si tratta di un’opera piuttosto recente (Giugno 2003), quindi aggiornata circa le ultime tendenze e buzzwords relative alla Business Intelligence. L’autore però è un veterano che ha trascorso gli oltre vent’anni della sua carriera nei reparti vendite e supporto di IBM, tranne una piccola parentesi in una società specializzata in Data Warehousing, quindi mette nel testo tutta la sua esperienza e ci racconta anche la storia e l’evoluzione della BI in termini di architetture e tecnologie.
L’udienza alla quale si rivolge Biere sono principalmente i manager che si trovano in qualche modo coinvolti in un progetto di BI, siano essi dalla parte del vendor, della società di consulenza o del cliente.
A mio giudizio la qualità migliore del libro è il numero di esempi e di situazioni vissute che vi sono contenuti. Questo può dare un contributo veramente efficace al manager di un’azienda che non conosca i rischi connessi ai progetti BI e voglia imparare dai molti errori (spesso pagati a caro prezzo) commessi da persone e aziende che hanno intrapreso questa difficile via prima di lui.
Sotto questo aspetto il libro contiene molto buon senso ed è una lettura consigliabile, ma non cercatevi contenuti particolarmente innovativi; anche le spiegazioni delle tecnologie chiave, delle metodologie e delle keywords più diffuse sono a volte meno chiare di quanto sarebbe desiderabile.
Un’altra parte ben sviluppata è quella che tratta della segmentazione degli utenti, indicando le linee guida per un lavoro sistematico in fase di preparazione del progetto. Vi vengono esposti alcuni concetti giusti e interessanti, che però richiedono un impegno notevole in termini di risorse; per questo motivo spesso la maggior parte dei team di progetto tende a sorvolare su questa fase, o a svolgerla in maniera frettolosa.
Nella maggior parte dei casi però l’autore si limita a descrivere situazioni (spesso problematiche) e a dare consigli, rimanendo ad una “quota” piuttosto alta, senza scendere tanto nei dettagli.
In altri punti vengono elencate una serie di domande circa i problemi tipici che si incontrano in un progetto di BI, ma poi non è facile individuare le risposte corrispondenti nel testo.
É opportuno anche avvertire che, come per molti altri libri scritti da autori Americani, la dimensione media dei progetti che vengono descritti è decisamente più grande di quanto siamo abituati a vedere in Italia.
Anche se non vengono mai citati prodotti specifici, in più di un’occasione affiora in certo qual modo la provenienza dell’autore, come quando dice di preferire l’approccio “single provider” rispetto a quello “best of breed” (Cap. 4), oppure quando sostiene la validità del mainframe rispetto ai sistemi distribuiti (cap. 7 e altri).
Prima di dare un giudizio complessivo sul libro vorrei fare una premessa: nella prima uscita di questa rubrica ho recensito quello che considero il miglior libro sui Data Warehouse che sia stato scritto (The Data Warehouse Toolkit di Ralph Kimball). Anche se potrebbe sembrare ingiusto nei confronti delle altre opere, quando leggo un libro di BI mi viene comunque spontaneo metterlo a confronto con quelli di Kimball e chiedermi se aggiungono qualcosa di originale e significativo.
In questo caso la risposta è probabilmente si, ma solo per un target di lettori molto preciso: i manager delle aziende che intendono sviluppare il loro primo progetto di BI. Il resto degli addetti ai lavori probabilmente impiegherà meglio il proprio tempo leggendo libri che trattano gli argomenti tecnici ad un maggiore livello di dettaglio.
Quando un manuale di prodotto è scritto bene vale quanto un buon libro, e in più fornisce il livello di dettaglio che serve per realizzare veramente un progetto, ovvero nel nostro caso per progettare un database con funzioni di Data Warehouse.
É il caso di “Oracle 9i Data Warehousing Guide” e “Oracle 9i Olap User’s Guide”, che fanno parte della manualistica tecnica di Oracle e sono scaricabili in maniera gratuita da Internet in formato PDF.
Partiamo dal primo: “Oracle 9i Data Warehousing Guide” è un manuale di 660 pagine molto tecnico, che spiega in maniera chiara e con largo uso di esempi e codice un gran numero di concetti e funzionalità che è opportuno conoscere quando ci si accinge a progettare un data warehouse con Oracle.
Dopo una prima parte, per la verità molto succinta, che contiene un accenno ai concetti base dei data warehouse (fatti, dimensioni, star schema e simili), si passa ai capitoli più approfonditi, che descrivono le soluzioni specifiche adottate da Oracle.
Nella prima parte viene affrontato il tema della struttura fisica del database con particolare riguardo alle caratteristiche proprie dei data warehouse, ovvero tabelle di grandi dimensioni e operazioni batch su grandi quantità di record. Vengono descritte funzionalità come:
· Partizionamento delle tabelle, essenziale per gestire efficacemente le fact tables
· Disk striping e configurazioni RAID
· Strumenti per ottimizzare i tempi di risposta alle query su campi aggregati, come Viste Materializzate e Query Rewriting
· Struttura e utilizzo degli indici bitmap
· Esecuzione in parallelo di varie operazioni batch (query, insert, update) in ambienti multiprocessore e multidisco
· Dimensioni, una delle novità più importanti introdotte in Oracle 9i per gestire in maniera nativa le strutture star schema
La seconda parte parla della gestione del data warehouse, andando in profondità sui processi di ETL e sul meccanismo di “change data capture” che consente di identificare ed estrarre solo le righe modificate dai db operazionali.
La terza parte descrive varie tecniche per l’ottimizzazione delle prestazioni utilizzando in particolare le estensioni ad SQL, come ROLLUP, CUBE, GROUPING, RANK, LAG/LEAD. In questo caso si tratta di informazioni utili soprattutto a chi deve sviluppare applicazioni di reporting o al DBA per costruire query su richiesta degli utenti, poiché come si sa il linguaggio SQL è troppo complicato per essere usato direttamente dagli utenti finali.
Il secondo manuale (“Oracle 9i Olap User’s Guide”) descrive come progettare ed amministrare un’applicazione OLAP utilizzando le componenti appositamente introdotte nella versione 9i.
É interessante anzitutto notare le profonde differenze che esistono tra l’approccio Microsoft e quello Oracle. Una prima differenza è naturalmente sui linguaggi: la soluzione Oracle è completamente basata su Java ed usa estensioni del linguaggio SQL, mentre quella Microsoft si integra con Visual Basic e utilizza un linguaggio proprietario dedicato ai motori multidimensionali (MDX).
Un’altra differenza importante risiede nel fatto che Oracle consiglia l’architettura ROLAP come soluzione principale da adottare per le soluzioni di query & reporting, mentre Microsoft ritiene in genere più efficiente il modello MOLAP:
Per il resto, il manuale descrive come creare ed amministrare applicazioni OLAP, e ripete in molti casi i concetti già esposti nella data warehousing guide. Il livello però non è altrettanto approfondito, mancano gli esempi e in genere la qualità e l’utilità di questo manuale non sono all’altezza del primo.
Il sito ufficiale che contiene la manualistica Oracle è http://otn.oracle.com; se doveste avere dei problemi a trovare il primo manuale nell’indice vi consiglio di cercare facendo una ricerca sul sito con il suo titolo.
Business Intelligence Roadmap è un libro recente (2003) che affronta il tema della realizzazione di un progetto di Business Intelligence da un punto di vista molto ampio e si rivolge ad un pubblico composto da progettisti, project managers ed executives.
Trattandosi di un argomento che è già stato affrontato innumerevoli volte gli autori sapevano bene che non sarebbe stato facile dire qualcosa di veramente nuovo, e da persone molto ragionevoli e competenti della materia quali sono si sono posti saggiamente un altro obiettivo, anzi due:
· Spiegare la complessità dei progetti di Business Intelligence
· Fornire una guida e una metodologia per la loro realizzazione
Si tratta di obiettivi che indirizzano problemi reali, specialmente il primo: molto spesso nelle aziende manca la comprensione di cosa sia esattamente un progetto di BI e di quanto possa essere complesso. Dato che non è infrequente imbattersi in offerte commerciali che presentano come Data Warehouse quello che in realtà è poco più di un prototipo di Data Mart, uno sguardo a questo libro può essere illuminante per chi vuole capire meglio il ciclo di vita di un vero Data Warehouse.
Le varie fasi vengono presentate in maniera organica e organizzate in maniera tale da prestarsi a vari livelli di approfondimento. Il lettore “veloce” può limitarsi a guardare gli schemi e le liste di attività, lasciando ai progettisti il compito di leggere le descrizioni più dettagliate.
Ogni capitolo include un flow-chart delle attività, un’analisi dei rischi che si corrono se non si realizzano le attività medesime, un elenco dei ruoli di progetto, e varie altre utili checklist di utilità pratica.
Grazie a questa ottima organizzazione il libro può costituire un valido aiuto metodologico nella realizzazione di un DW, dalla definizione del business case all’entrata in produzione, al contrario di molti altri testi che si limitano a coprire solo una parte del ciclo di vita.
Dopo aver analizzato i pregi è giusto parlare anche dei difetti, che ci sono e non sono nemmeno tanto nascosti. Come si diceva questo non è un libro innovativo, in esso non troverete nuovi modi di risolvere i problemi, ma piuttosto accenni alle best practice già indicate da altri.
Questo approccio a volte lascia il progettista a metà del guado, anche perché in gran parte dei casi le spiegazioni si fermano ad un livello di dettaglio assolutamente insufficiente a realizzare veramente le cose. Ciò è particolarmente evidente nel capitolo dedicato alla progettazione del database (Cap. 8), dove viene trattato in due paragrafi striminziti l’argomento della modellazione dimensionale, che in altri libri (Kimball, Venerable ad esempio) occupa centinaia di pagine.
D’altronde non si possono avere insieme ampiezza di contenuti e approfondimento, altrimenti si dovrebbe scrivere un’enciclopedia invece di un libro. Gli autori (Shaku Atre e Larissa T. Moss) sono due professional molto esperti, e la prefazione di Edward Yourdon rappresenta un biglietto da visita che non passa inosservato e contribuisce al giudizio finale che rimane molto positivo.
English
TThis isn’t a technical book that talks in detail about how to solve design problems. It’s a book that tries to explain what a BI project is and why it is so complex.Even if it isn’t a book for developers, the target audience is very broad and includes dw architects, project managers and executives.
The book structure is well designed: each chapter covers a different stage of BI projects using the same structure which includes useful practical things like project flow charts, project roles and risks.
It is essentially a methodology with some technical details, but don’t look in it for complete, in-depth technical discussions, or for innovative contents.
For example, dimensional modelling only takes two short paragraphs that are absolutely insufficient to teach a designer how to use it in practical situations.
Even with these limitations this is a good and useful book, and it’s clear that the two authors (Shaku Atre e Larissa T. Moss) have a lot of experience and a good understanding of BI projects.
OLAP Solutions (second edition), il libro di cui parliamo oggi, non è una lettura facile ma è considerato il testo più completo esistente sull’argomento Olap, che viene affrontato da un punto di vista teorico con una trattazione di livello universitario dedicata ai professionisti del settore.
Il libro è diviso in tre sezioni: la prima parla del significato del termine OLAP e dei limiti imposti da strumenti come gli spreadheets e i report tradizionali, limiti che possono essere superati con la tecnologia olap. La seconda, che rappresenta il nucleo principale, descrive in dettaglio i fondamenti teorici, trattando concetti come gli ipercubi, le strutture e le formule multidimensionali e il disegno fisico dei motori olap. La terza contiene una collezione di applicazioni, dove le tecnologie olap vengono applicate ad alcune classiche aree aziendali (finanza, vendite, supply chain) e spiegate utilizzando la tecnica del dialogo tra Lulu e Thor, due ipotetici sviluppatori di soluzioni Olap.
Come dicevo non si tratta di un libro introduttivo o divulgativo, ma di un trattato completo rivolto ai professionisti, ovvero a coloro che vogliono sapere tutto sulla tecnologia olap senza fermarsi alla conoscenza di un prodotto specifico. Anche se si fa riferimento a prodotti commerciali, la trattazione è infatti basata su modelli teorici che prescindono dalle arie implementazioni. Nella sua prima edizione il libro faceva riferimento ad un prodotto software (Applix TM1), ma nella seconda l’autore ha preferito elaborare un suo modello e linguaggio multidimensionale che ha chiamato LC, che costituisce un sovrainsieme dei vari prodotti esistenti sul mercato.
Nel suo complesso si tratta di un’opera molto valida, direi quasi necessaria vista la mancanza di testi analoghi, ma la lettura risulta piuttosto pesante, non solo perché gli argomenti trattati sono complessi ma anche perché a tratti ci sono intere pagine di testo senza interruzioni, figure o frasi in evidenza. Un altro aspetto non del tutto soddisfacente riguarda la mancanza di una trattazione adeguata di uno dei problemi fondamentali che affliggono i progettisti di data warehouse e soluzioni olap , ovvero le Slowly Changing Dimensions: nel libro c’è solo un breve accenno al problema (pag. 292), ma non viene proposta nessuna soluzione.
Verso la fine del libro c’è un interessante capitolo dedicato al confronto dei linguaggi per rappresentare espressioni multidimensionali usati da alcuni prodotti commerciali. Se siete in fase di software selection vi consiglio di leggerlo, è abbastanza illuminante.
In conclusione, una lettura interessante per chi vuole andare in profondità, ma forse non indispensabile. L’impressione è che, mentre è virtualmente impossibile costruire un solido data warehouse senza possedere le cognizioni base sulla modellazione dimensionale, sia invece possibile per uno sviluppatore esperto costruire una valida applicazione OLAP anche basandosi solo sulla conoscenza di un prodotto specifico, senza conoscere le basi teoriche contenute in questo libro.
Con l’avanzare della tecnologia questo diventerà ancora più vero, in quanto i prodotti software diventano più sofisticati e tendono a prendere decisioni complesse per conto del progettista. Leggendo certe pagine del libro sulla struttura fisica dei cubi e sulla miriade di parametri da considerare mi venivano in mente le prime auto, dove il guidatore doveva regolare a mano l’anticipo a seconda dell’andatura.
Nota sull’autore: Erik Thomsen è considerato il maggiore “guru” del settore olap, ha scritto un altro libro (Microsoft OLAP Solutions) ed ha partecipato alla stesura di MDX Solutions (entrambi i testi sono dedicati in maniera più specifica agli strumenti Microsoft).
Dopo avere recensito nel primo numero quello che definivo “il miglior libro sul Data Warehousing che sia mai stato scritto”, ovvero il primo libro di Kimball, torno allo stesso autore per parlare di quello che ritengo, neanche a dirlo, “il secondo miglior libro sul DW”.
I due libri hanno delle aree di sovrapposizione, in particolare sulle tecniche di modellazione dimensionale, ma sono pensati per essere complementari e fornire insieme una guida completa alla realizzazione di un data warehouse.
Una caratteristica dei libri di Kimball, che viene in genere molto apprezzata, è la praticità: mentre molti testi sui DW e sulla Business Intelligence si dilungano in ragionamenti abbastanza astratti che riguardano gli aspetti manageriali, le motivazioni del progetto o il livello di soddisfazione degli utenti, qui si va decisamente al sodo, dando la precedenza ai consigli pratici e alle best practice da seguire per realizzare un qualcosa di funzionante.
Come suggerito dal titolo, il testo si propone di abbracciare tutto il ciclo di vita di un progetto di DW, dalla raccolta dei requisiti alla fase di manutenzione. L’argomento è ampio e le pagine sono tante (730 più le appendici), ma a parte qualche raro episodio (ad esempio il capitolo “Introducing DW Architecture”) non si tratta di una “minestra allungata”, come capita talvolta con i libri che superano le 400 pagine.
Il formato inoltre, come quasi sempre nei testi Americani, è molto ben studiato e aiuta a evidenziare i punti salienti per chi volesse effettuare una lettura veloce. Tutti i concetti sono spiegati in maniera chiara, con esempi basati su esperienze reali e su ragionamenti pieni di buonsenso.
I cardini fondamentali del Kimball-pensiero (modellazione dimensionale, utilizzo di chiavi surrogate, slowly changing dimensions, architettura a bus con dimensioni conformi, tanto per fare qualche esempio) sono tutti trattati con ampiezza di dettagli. Consiglio in particolare il capitolo dedicato al data staging, che spesso viene trascurato nei testi anche se rappresenta normalmente il 70-80% del lavoro in un progetto.
Nelle appendici e nel cd-rom allegato si trova un project plan molto dettagliato e molti altri documenti che possono essere immediatamente utilizzati come base per un progetto. Mi sembra che non ci sia altro da dire, tranne dare un consiglio: se dovete realizzare un progetto di DW, leggetelo (se non l’avete già fatto) e tenetelo sulla scrivania per tutta la durata del progetto.
“Building the data warehouse”, giunto alla terza edizione, è il libro più famoso di Inmon. In esso sono contenuti tutti i concetti fondamentali della sua visione sul Data Warehousing, che è stata poi affinata nei successivi “Building the Operational Data Store” e “The Corporate Information Factory” e in innumerevoli articoli (tutti disponibili sul sito www.inmoncif.com).
I libri di Inmon sono ben scritti ed offrono una trattazione di ampio respiro, e per questo gli hanno valso una fama mondiale e l’appellativo “padre del data warehouse”. Ciò malgrado sono in molti (me compreso) a ritenere che siano troppo teorici, mancanti di buoni esempi e che le teorie esposte siano difficili da applicare in pratica.
Sebbene la semplice idea di rispolverare la discussione sui differenti approcci Inmon-Kimball sia giustamente oggetto di ostracismo sui newsgroups dedicati, accennarvi mi sembra il modo migliore per spiegare cosa non va nei libri di Inmon (sempre naturalmente secondo i suoi detrattori).
Come succede quasi sempre, quando si crea un dualismo, la disputa si radicalizza fino ad assumere a tratti contorni di carattere religioso / filosofico (vedi l’esempio Microsoft/ ambiente proprietario contro Linux/Open Source), e il caso Kimball / Inmon non fa eccezione, come testimoniano molte emails “infuocate” apparse nel cosro degli anni sulla mailing list dwlist (http://www.DataWarehousing.com).
I due approcci differiscono sotto molti aspetti, ma la differenza fondamentale risiede nel modello dati proposto: Kimball sostiene un modello dimensionale “puro”, formato da vari star schema che usano dimensioni conformi. Inmon sostiene che il data warehouse deve essere basato su un modello E/R normalizzato, e propone la creazione di un repository denominato “ODS”, anch’esso in forma normalizzata, dal quale generare i dati per il Data Warehouse e i Data Mart.
Naturalmente questa è una super-semplificazione dettata da esigenze di spazio, ma gli esperti di DW saranno sicuramente stanchi di leggere queste cose, mentre per chi si avvicina adesso alla materia può essere solo un riferimento per ulteriori approfondimenti.
Uno dei problemi fondamentali dell’approccio di Inmon risiede nel fatto che per sua natura l’ODS è un oggetto molto complicato da costruire e soprattutto da manutenere, dato che le aziende cambiano continuamente, e finisce spesso per replicare in gran parte la struttura dei db sorgenti usati dai sistemi OLTP.
Inmon inoltre ritiene che il modello dimensionale basato sulle dimensioni conformi, proposto da Kimball, non sia adeguato per ottenere un Data Warehouse. La sua posizione è riassunta nello specchietto di Pag. 142, dove dice tra l’altro “Because there is a different data structure for each data mart, making any data mart into a data warehouse doesn’t make sense.” Purtroppo questa affermazione sembra non tenere conto del concetto di “dimensione conforme”, e soprattutto del fatto che innumerevoli DW sono stati costruiti con successo tramite l’integrazione di Data Mart con dimensioni conformi, mentre molti progetti basati su ODS sono naufragati, a volte esaurendo le risorse economiche nella costruzione dell’ODS stesso.
In altre parole, il modello dimensionale è ormai accettato dalla stragrande maggioranza dei professionals come quello più idoneo a realizzare un data warehouse, e diventa difficile continuare a sostenere la sua inadeguatezza.
English
If you work for a large corporation which has millions of $ to spend on DW projects, maybe you should look at this book and even consider some of the ideas that it contains.
But if you need to develop a data warehouse using limited resources and within a certain timeframe, your time will better used reading other books, because following the Inmon approach will lead you to an unnecessary complicated and expensive design.
I found that the arguments used by Inmon to demonstrate the limits of the dimensional approach are not convincing at all. For example, at page 142 he says “Because there is a different data structure for each data mart, making any data mart into a data warehouse doesn’t make sense.”
Having personally implemented several data warehouses using the “conformed dimensions” approach, I can guarantee that it worked and produced a very elegant and clean data model.
Oggi parliamo di un libro che può essere annoverato nella ristretta schiera dei “classici” del Data Warehousing, da consigliare senza riserve: “Data Warehouse Design Solutions”, di Chris Adamson e Michael Venerable.
Malgrado sia uscito ormai da diversi anni (1998) i contenuti sono tuttora validissimi, grazie soprattutto al fatto che il soggetto principale è la teoria e pratica della modellazione dimensionale, argomenti che (per fortuna dei progettisti di Data Warehouse) non sono soggetti a continui cambiamenti.
Gli autori sposano pienamente l’impostazione di Kimball (non a caso la prefazione è di Kimball medesimo), basata su star schema con dimensioni conformi. Lo stesso taglio del libro è simile a quelli di Kimball, con una trattazione molto pratica basata sull’esperienza reale e ultradecennale degli autori.
La differenza principale rispetto a “The Data Warehouse Toolkit” di R.K. è la prospettiva utilizzata per suddividere gli argomenti: mentre Kimball dedica un capitolo ad ogni tipologia di business (retail, banche, assicurazioni…), Adamson e Venerable preferiscono partire dai processi, per cui i capitoli assumono nomi come Sales, Marketing, Production, Inventory, Financial Reporting.
Il risultato è un’opera di grande valore ed utilità per il data modeler dimensionale, piena di spunti e di modelli completi che possono essere usati come base per progettare un DW. Naturalmente ci sono anche capitoli “cross”, dedicati a fasi specifiche del processo di costruzione di un DW, come l’analisi e la progettazione degli strumenti di reporting.
In quest’ultimo caso mi è sembrato di notare, come nei libri di Kimball, una singolare propensione verso strumenti “fatti in casa”, anzichè usare ambienti di reporting evoluti. Questo è uno dei rari punti in cui i contenuti andrebbero aggiornati, insieme alla quasi mancanza di riferimenti a sistemi Olap. Questi ultimi vengono citati solo in un piccolo riquadro, avvertendo però che non possono essere usati per grandi moli di dati, cosa oggi assolutamente non vera.
Da segnalare infine il capitolo 12, dedicato ai KPI; personalmente trovo che un elenco di KPI suddivisi per industria e per processo, con una trattazione chiara e sufficientemente approfondita, sia una delle cose più difficili da trovare nella letteratura, e questo capitolo è forse il migliore esempio che mi sia capitato di leggere.
Dopo avervi parlato di un libro fondamentale (The Data Warehouse Toolkit di R. Kimball), è ora la volta di quello che potremmo definire un “sito fondamentale”, ovvero www.dw-institute.com (“The Data Warehouse Institute”), con molta probabilità il sito più completo al mondo per quanto riguarda la Business Intelligence.
L’azienda che possiede il sito, 101Communications, possiede anche una quindicina di altri siti simili, specializzati nei vari settori dell’IT.
I contenuti del sito e soprattutto le attività ad esso correlate sono tanto numerose che sarebbe difficile elencarle tutte, per cui accennerò solo alle più importanti:
· Articoli e newsletter archiviate sul sito: si tratta di contributi originali di elevata qualità da parte di alcuni tra i personaggi più quotati nel settore della Business Intelligence, tra cui spiccano la rivista “Business Intelligence Journal”, che esce con cadenza trimestrale, e la newsletter Flashpoint.
· Marketplace: in questa sezione del sito si trovano schede e informazioni sul 99,99% dei prodotti software, dei servizi e delle infrastrutture necessarie per costruire un sistema di BI.
· Conferenze: la TDWI World Conference si tiene Quattro volte all’anno negli USA ed una volta all’anno in Europa, ed è l’evento più completo del settore, con importanti speaker e molte tracce in parallelo.
· Corsi e seminari, sia itineranti che on-line, in genere con gli stessi istruttori che parlano alle conferenze.
· Webinars (seminari online) scaricabili
· On-line forums
In soli cinque anni dalla sua nascita, TDWI è diventato il punto di riferimento del settore BI per quanto riguarda corsi e conferenze, ed il suo sito funge da centro di aggregazione di tutte la attività.
Come ultima cosa, è utile osservare che la maggior parte delle attività si svolge negli USA e che tutti i contenuti più importanti del sito sono riservati ai soci.
DM Review (www.dmreview.com), una rivista del gruppo editoriale Thomson Media, è pubblicata sia in veste cartacea che online. I contenuti sono di altissimo livello grazie alla collaborazione di molti autorevoli collaboratori, tra cui Claudia Imhoff, David Marco e lo stesso Ralph Kimball.
Le pubblicazioni sono iniziate come Data Management Review nel 91, poi il nome è cambiato e l’attenzione si è focalizzata su alcuni aspetti, tra i quali spiccano data warehousing, business intelligence e analytic applications.
Il contenuto è suddiviso in modo che sia possibile accedere tramite diverse modalità, permettendo un accesso sempre molto rapido alle informazioni desiderate.
I portali tematici filtrano gli articoli per area d’interesse, altrimenti si possono visitare le sezioni trasversali come i “classic articles”, la “hall of fame” che contiene gli articoli più votati dai lettori, le review dei prodotti (selezionabili per azienda, tipologia e nome prodotto), e molte altre.
Una menzione a parte meritano due sezioni che permettono di farsi una cultura sui prodotti di BI velocemente, gratuitamente e senza spostarsi dalla scrivania: i “Web Seminars”, che possono essere seguiti in diretta o presi dall’archivio, e la “Resource Guide”, una guida ondine ai prodotti e ai fornitori aggiornata annualmente e suddivisa per aree tematiche.
Dal sito è anche possibile iscriversi alla ottima newsletter settimanale DMDirect, dedicata esclusivamente a Business Intelligence e Data Warehouse.
I contenuti sono aperti a tutti, previa registrazione on-line; negli USA anche l’abbonamento cartaceo è gratis, mentre in Europa costa intorno agli 80 $.
Il sito di IT Toolbox (www.ittoolbox.com) è uno dei maggiori portali generici specializzati in Information Technology. Non si tratta quindi di un sito specifico per la Business Intelligence, ma ciononostante contiene un gran numero di informazioni specialistiche, grazie ai suoi numeri: 26 Knowledge Base specializzati, 47000 documenti, 100 newsletter e 330000 sessioni Q&A, ai quali si aggiungono ogni giorno oltre 50 nuovi articoli.
Uno dei suoi punti di forza sono le newsletter specialistiche, che ogni giorno portano nelle caselle di posta dei professionisti IT di tutto il mondo informazioni precise e puntuali.
Gli argomenti sono suddivisi in cinque gruppi principali: CRM, Data Management (che include BI e Data Warehouse), Sviluppo software, Applicativi ERP e Reti / Sistemi.
Ogni categoria è suddivisa al suo interno in sottocategorie, per cui la ricerca dei documenti risulta molto efficiente, grazie anche alla ricerca full-text. Oltre alle funzionalità principali, che sono le newsletter e gli articoli, il sito è letteralmente infarcito di mille altre cose, in genere utili e ben realizzate: aree tematiche riservate a lavoro e carriere, gruppi di discussione, FAQ, news e una interessante sezione di Blogs, tra i quali vi consiglio senz’altro “A Day in the Life of a Business Intelligence Administrator”.
Per terminare, fa piacere riscontrare che tutto il contenuto è gratis e che ITToolbox è in attivo, grazie alla pubblicità.
Il sito di cui vi parlo oggi (www.datawarehouse.com) appartiene alla ristretta schiera dei principali repository specializzati di informazioni sulla Business Intelligence presenti sul web, e come biglietto da visita presenta nella home page i suoi sponsor: nientemeno che HP, IBM, Microsoft, Peoplesoft e Trillium.
I contenuti sono strutturati in maniera simile ad altri portali del genere, anche se forse l’interfaccia grafica è un po’ meno curata di ITToolbox e DM Review (che tra l’altro è stato rinnovato dopo la review uscita su BI Magazine), ma la sua caratteristica più originale sono gli “Online Trade Show”.
Si tratta di conferenze con annesso trade show in pieno stile “terraferma”, con tanto di sessioni plenarie e parallele e zona adibita ad esposizione, ma in realtà si svolgono online, rendendo possibile a chiunque di ascoltare le conferenze e visitare gli stand degli espositori senza muoversi da casa o dall’ufficio. I trade show del 2004 sono dedicati ad argomenti come Business Performance Management, Integrated BI Infrastructure, Data Management/Integration Issues.
La sezione Iknowledge contiene la maggior parte del materiale, ovvero articoli, white papers, news e links ad altri siti. É possibile effettuare ricerche per categoria, titolo e autore ma stranamente manca la ricerca full-text, forse perché il numero totale degli articoli non è elevatissimo.
Da segnalare alcune utilissime serie di articoli scritti dallo stesso autore, come “Modeling matters” di Tom Johnston dedicata al data modeling, o “Data Warehousing: what’s next?” di Michael Haisten, che parla della futura evoluzione dei sistemi di Data Warehouse.
Nella sezione Presentations è possibile accedere a un notevole numero di presentazioni che possono essere viste e ascoltate tramite un software apposito (Presentation Viewer), molto ben realizzato.
Per ultimo vi segnalo la possibilità di tracciare i forum che interessano, ricevendo via email le nuove entry. I forum sono moderati e quindi in generale non contengono sciocchezze, anche se non sempre le risposte sono di alta qualità.
Se cercate una fonte autorevole ed approfondita sul mercato e sui prodotti che ruotano intorno alle tecnologie Olap, c’è un sito che dovreste visitare prima di qualsiasi altro: The OLAP Report (www.olapreport.com).
Olapreport si distingue dagli altri siti per due aspetti importanti:
- É gestito da un consulente molto noto e rispettato nel settore, Nigel Pendse
- Il 90% del suo contenuto è riservato agli abbonati. Il sito contiene solo materiale originale ed è completamente indipendente, essendo finanziato solo dagli abbonamenti.
In effetti il sito era nato principalmente come strumento di marketing per promuovere il report in formato cartaceo, ma dalla prima edizione del 1995 il report annuale era cresciuto così tanto da rendere poco pratica la stampa del volume. Quindi nel 2002 si è deciso di sopprimere il volume e potenziare il sito, sfruttando tutte le capacità del web come links, figure, colori, ricerche e indici.
Il materiale presente sul sito è diviso in tre sezioni: analisi, prove di prodotti e case studies.
Le analisi contengono materiale di vario tipo, dagli articoli tecnici che spiegano i concetti dei sistemi OLAP alle analisi di mercato. La pagina probabilmente più visitata, disponibile gratuitamente, contiene un’analisi del market share dei primi 12 produttori di software OLAP. Questa pagina (www.olapreport.com/Market.htm) vale sicuramente una visita, ed è una risorsa fondamentale per vedere a colpo d’occhio chi sono i leader di mercato e quali sono le tendenze attuali.
Le altre due sezioni, prove di prodotti e case studies, contengono il materiale più approfondito e sono disponibili solo per gli abbonati. Il costo dell’abbonamento non si può definire economico, ma può senz’altro far risparmiare molto tempo a chi debba effettuare una software selection; la qualità dell’informazione è molto elevata, e data la specificità si pone come ottima alternativa ai tradizionali analisti di mercato come Gartner.
Intelligent Enterprise è insieme una rivista cartacea e un portale Web (come DM Review), che si focalizza sull’estrazione dell’informazione nelle aziende per trasformarla in vantaggio competitivo, ovvero Business Intelligence, Data Warehousing, CRM, CPM, Knowledge Management.
I contenuti sono altamente professionali, grazie alla collaborazione di personaggi di primo piano e di molte aziende leader del settore. La navigabilità del sito è veramente ottima, e potrebbe servire come esempio a chi vuole realizzare un portale specialistico: oltre naturalmente alla ricerca full-text, i contenuti possono essere visualizzati in base a molti altri criteri, come numero della rivista, autore, argomento, tipo di articolo.
La sezione “Research” è la mia preferita: vi si possono trovare white papers e webcasts suddivisi per categorie e creati dalle aziende o dalle società di ricerca come Gartner, che trattano in maniera approfondita molti temi altamente specialistici.
Vi consiglio comunque una visita anche ad un’altra sezione molto innovativa: Playbooks, dalla quale è possibile scaricare un certo numero di e-books tematici, gratuiti e molto ben realizzati da parte di personaggi come Kimball e Neil Raden.
Qualche piccola pecca a dire il vero qua e là salta fuori, come dei link non validi ai contenuti di vecchi numeri della rivista DBMS, oppure il fatto che per scaricare i Playbooks si richiede di effettuare la registrazione più volte, senza poter riutilizzare quella già effettuata.
Questi comunque sono difetti assolutamente marginali, il sito rientra senz’altro nella ristretta schiera dei “Top 10” della Business Intelligence e merita una visita almeno una volta al mese.
www.datawarehousing.com è un portale piuttosto semplice nei contenuti, il cui principale merito è quello di ospitare la mailing list dwlist, ovvero il più importante centro di aggregazione e di scambio di idee tra professionisti del Data Warehousing nel mondo.
Oltre a questo, il sito contiene un forum, che in fondo ha uno scopo molto simile a quello della mailing list. Ma il forum è meno attivo e frequentato più da principianti, mentre i “grossi calibri” comunicano prevalentemente tramite la mailing list.
Una buona comodità per l’utente è che i messaggi di forum e mailing list possono essere letti e ricercati in modalità full-text dal sito, anche se personalmente preferisco scaricare automaticamente i messaggi provenienti dalla mailing list in un folder separato di Outlook ed effettuare ricerche con il mio strumento di indicizzazione preferito (Enfish).
Le altre sezioni del sito (glossario dei termini di BI, calendario degli eventi specializzati e tech tips) meritano solo un breve cenno, in quanto i contenuti non sono molto estesi.
Il sito è semplice e ben strutturato, con un unico menu che rimanda alle varie sezioni. La qualità dei contenuti è in genere elevata e naturalmente focalizzata sull’argomento BI.
Le sezioni che meritano di essere visitate sono:
· Articles: Ricca collezione di articoli specializzati, molti dei quali fanno parte di una serie pubblicata a puntate, quindi contengono una trattazione abbastanza approfondita
· News: fatti ed eventi legati alla BI, molto aggiornata
· Media: rassegna stampa dedicata alla BI, molto utile, con informazioni prese da varie fonti online
· Research: non molto sviluppata, i contenuti non si differenziano molto dalla sezione news o media
· Extract: contiene esempi di capitoli presi da libri specializzati, utile per farsi un’idea del libro prima di acquistarlo
Le sezioni papers, forum e directory invece sono stranamente quasi vuote. Per accedere ai contenuti occorre registrarsi (gratuitamente); la navigazione è in genere efficace, anche se con qualche “intoppo” occasionale, come il login che viene chiesto nuovamente quando si passa dalla sezione articoli alla sezione news.