Si può definire OLTP (Online Transaction Processing), un insieme di tecniche software utilizzate per effettuare l'analisi dei dati.
La tecnologia OLTP prevede la creazione di banche dati uniche, questa soluzione permette di avere dati sempre aggiornati, ma è di dificile utilizzo in situazioni dove la quantità di dati da analizzare è molto elevata.
La tecnologia OLTP prevede la creazione di banche dati uniche, questa soluzione permette di avere dati sempre aggiornati, ma è di dificile utilizzo in situazioni dove la quantità di dati da analizzare è molto elevata.
Questi sistemi devono garantire transazioni in tempi brevi (pochi secondi) stabiliti dallo SLA (Service Level Agreement). L'aggiornamento rapido del database e la tolleranza ai guasti nei sistemi OLTP assumono un'importanza cruciale.
L'esempio più comune di applicazioni OLTP è il servizio Bancomat per effettuare acquisti e prelievi, ma anche la gestione delle prenotazioni dei mezzi di trasporto da più terminali, da eseguire in breve tempo nonostante le numerose richieste concorrenti. I sistemi OLTP generalmente forniscono anche dati al Data Warehouse, per calcoli statistici aziendali su un grande volume di dati.
Un DBMS (Database Management System) è un sistema software progettato per consentire la creazione e manipolazione di database, ossia di collezioni di dati strutturali. Un DBMS può essere costituito da un insieme anche complesso di programmi software che controllano l'organizzazione, la memorizzazione e il reperimento dei dati. Esso istruisce il sistema operativo per il trasferimento dei dati appropriati. Un data warehouse è una raccolta organica di informazioni (o dati) da più sorgenti anche eterogenee come ad esempio database aziendali, database di altre aziende, internet etc..., che è mantenuta separatamente dal database principale dell' organizzazione che utilizza talis istemi; Un data warehouse serve principalmente come supporto per le attività decisionali, e svolge la sua funzione fornendo tra le altre cose una serie di dati storici consistenti. Un data warehouse è quindi una collezione di dati a sostegno della presa di decisioni, è organizzato attorno a degli specifici aspetti dell'azienda quali ad esempio clienti, vendite, ordini, etc... Essoè focalizzato sui dati utili al processo decisionale, e non sulle operazioni giornaliere e contiene tipicamente dati aggregati.
Questo strumento permette di integrare dati da sorgenti diverse e di tipo eterogeneo (database relazionali, file di testo, database transazionali, etc...), e assicura la consistenza dei dati integrati utilizzando tecniche di data cleaning e data integration. I dati non forniscono solo informazioni attuali ma, come si accennava prima, hanno una prospettiva storica in quanto, per esempio, fornisce dati sugli ultimi 5-10 anni.
siccome abbiamo detto che un data warehouse è un archivio fisicamente separato dalle basi di dati usate per le operazioni quotidiane, esso non richiede operazioni di aggiornamento continuo e dunque non necessità di supporto per la gestione delle transazioni e della concorrenza. Le uniche operazioni effettuabili su un data warehouse sono il caricamento iniziale dei dati e l'accesso in lettura.
Un esempio di data warehouse può essere una catena di supermercati che può avere database diversi, uno per ogni punto vendita: occorre metterli assieme per ottenere il data warehouse di tutte le vendite della catena.
Data warehouse e data mart sono sistemi analoghi al database che grazie anche ad informazioni storiche migliora la reattività e il supporto decisionale delle imprese in formato adatto per le analisi statistiche e finanziarie. Un data mart si differenzia da un data warehouse in termini di dimensioni: il data mart infatti è di dimensioni più ridotte ed è specializzato per una particolare area di attività. Si pensi, ad esempio, al data mart per il marketing, in cui i dati filtrati dagli archivi transazionali sono memorizzati per consentire l'analisi della clientela. All'interno della banca dati possono quindi esistere più data mart, aventi finalità diverse e orientati a coprire diverse aree di business.
Le funzionalità di un data warehouse si fondano su una tecnologia di tipo OLAP (online analytical processing), che è essenzialmente un sistema che si focalizza sull'analisi dimensionale delle informazioni che possono dunque riguardare clienti, fornitori,dipendenti etc...
Un data warehouse è basato, quindi, su un modello di dati di tipo multidimensionale, in quanto gli stessi sono visti sotto forma di ipercubi.
Le dimensioni del cubo sono le entità rispetto alle quali una organizzazione vuole mantenere nota dei propri dati. ad esempio un'azienda può creare un data warehouse “vendite” per registrare le vendite dell'azienda in base alle dimensioni tempo, oggetto, filiale e località.
In ogni posizione del cubo viene inserito un "fatto", ovvero la misura numerica della quantità che si vuole analizzare (alcuni esempi di fatti sono le "unità di prodotto vendute” e il “ricavato dalla vendita”).
Le funzionalità di un data warehouse si fondano su una tecnologia di tipo OLAP (online analytical processing), che è essenzialmente un sistema che si focalizza sull'analisi dimensionale delle informazioni che possono dunque riguardare clienti, fornitori,dipendenti etc...
Un data warehouse è basato, quindi, su un modello di dati di tipo multidimensionale, in quanto gli stessi sono visti sotto forma di ipercubi.
Le dimensioni del cubo sono le entità rispetto alle quali una organizzazione vuole mantenere nota dei propri dati. ad esempio un'azienda può creare un data warehouse “vendite” per registrare le vendite dell'azienda in base alle dimensioni tempo, oggetto, filiale e località.
In ogni posizione del cubo viene inserito un "fatto", ovvero la misura numerica della quantità che si vuole analizzare (alcuni esempi di fatti sono le "unità di prodotto vendute” e il “ricavato dalla vendita”).
In generale il processo di sviluppo di un Data Warehouse si compone di varie fasi, che sono poi anche quelle tipiche dell'ingegneria del software: pianificazione e studio dei requisiti, analisi del problema, progettazione del warehouse, caricamento dati e testing.
La progettazione si compone in generale di queste fasi:
– scelta del processo da analizzare (vendite, ordini, ecc.);
– scelta del livello di granularità massima (singole transazioni, riassunti giornalieri, etc..);
– scelta delle dimensioni e delle gerarchie di concetti;
– scelta delle misure che popoleranno la tabella dei fatti;
Altri aspetti dell'uso del Data Warehouse che vanno presi in considerazione sono:
– installazione iniziale e addestramento del personale;
– aggiornamento dei dati, piani per “disaster recovery”, controllo degli accessi, controllo della crescita dei dati.
Con l'espressioe Extract, Transform, Load (ETL) ci si riferisce al processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi (per l'appunto il data warehouse).
I dati vengono generalmente estratti da sistemi sorgenti quali database transazionali (OLTP), comuni file di testo o da altri sistemi informatici (ad esempio, sistemi ERP o CRM).
Subiscono quindi un processo di trasformazione, che consiste ad esempio nel:
- selezionare solo quelli che sono di interesse per il sistema;
- normalizzare i dati (per esempio eliminando i duplicati);
- tradurre dati codificati;
- derivare nuovi dati calcolati;
- eseguire accoppiamenti (join) tra dati recuperati da differenti tabelle;
- raggruppare i dati;
Tale trasformazione ha lo scopo di consolidare i dati (cioè rendere omogenei dati provenienti da sorgenti diverse) e di fare in modo che siano più aderenti alla logica di business del sistema di analisi per cui viene sviluppato.
Vengono infine memorizzati nelle tabelle del sistema di sintesi (load).
Occorre prestare particolare attenzione alla granularità delle informazioni da memorizzare nella struttura a valle. Queste infatti, non solo devono essere aggregate in modo da non avere un dettaglio eccessivo (cosa che potrebbe portare ad un decadimento delle prestazioni delle interrogazioni effettuate sul sistema), ma devono anche mantenere una granularità che consenta di effettuare le necessarie analisi sui dati.
I dati vengono generalmente estratti da sistemi sorgenti quali database transazionali (OLTP), comuni file di testo o da altri sistemi informatici (ad esempio, sistemi ERP o CRM).
Subiscono quindi un processo di trasformazione, che consiste ad esempio nel:
- selezionare solo quelli che sono di interesse per il sistema;
- normalizzare i dati (per esempio eliminando i duplicati);
- tradurre dati codificati;
- derivare nuovi dati calcolati;
- eseguire accoppiamenti (join) tra dati recuperati da differenti tabelle;
- raggruppare i dati;
Tale trasformazione ha lo scopo di consolidare i dati (cioè rendere omogenei dati provenienti da sorgenti diverse) e di fare in modo che siano più aderenti alla logica di business del sistema di analisi per cui viene sviluppato.
Vengono infine memorizzati nelle tabelle del sistema di sintesi (load).
Occorre prestare particolare attenzione alla granularità delle informazioni da memorizzare nella struttura a valle. Queste infatti, non solo devono essere aggregate in modo da non avere un dettaglio eccessivo (cosa che potrebbe portare ad un decadimento delle prestazioni delle interrogazioni effettuate sul sistema), ma devono anche mantenere una granularità che consenta di effettuare le necessarie analisi sui dati.
Attraverso i sistemi OLAP è possibile scoprire regolarità nei dati, in particolare, i sistemi OLAP consentono di effettuare l'attività di data mining, ossia di realizzare la descrizione di concetti. Inoltre i sistemi di data mining consentono altri tipi di analisi come la classificazione, il clustering, la scoperta di regole associative etc...
E' possibile, dunque, definire OLAP tutti quegli insiemi di database e applicazioni per l'analisi statistica multidimensionale dei dati storici di un'azienda, da molteplici punti di analisi quali ad esmpio zone di vendita, prodotti, periodi di tempo, ambiti geografici etc...
Quindi i sistemi OLAP aiutano l'analisi dei dati o più propriamente potremmo dire di "reporting mining".
Sebbene i sitemi Data Mining non richiedano l'esistenza di un sistema OLAP sottostante, la loro integrazione è benefica: in quanto arrecca i seguenti vantaggi:
– migliore qualità dei dati (i data warehouse contengono dati integrati, puliti, consistenti);
– disponibilità di vari tool software ormai maturi che operano sui data warehouse (JDBC, ODBC, sistemi di reportisitca);
– possibilità di effetturare analisi esplorative dei dati (vista multidimensionale dei dati con operazioni di drilling, slicing, etc..).
L'integrazione di sistemi OLAP con data mining prende il nome di OLAM (on-line analytical mining).
Infine attraverso i sistemi di reportistica è possibile realizzare dei report, ossia dei rapporti di visualizzazione dei risultati delle varie analisi attuate sui dati a disposizione di un database ed effettuati attravero delle query. La reportistica è un tema che verrà trattato più approfonditamente nelle ricerche che seguiranno in questo blog.
– migliore qualità dei dati (i data warehouse contengono dati integrati, puliti, consistenti);
– disponibilità di vari tool software ormai maturi che operano sui data warehouse (JDBC, ODBC, sistemi di reportisitca);
– possibilità di effetturare analisi esplorative dei dati (vista multidimensionale dei dati con operazioni di drilling, slicing, etc..).
L'integrazione di sistemi OLAP con data mining prende il nome di OLAM (on-line analytical mining).
Infine attraverso i sistemi di reportistica è possibile realizzare dei report, ossia dei rapporti di visualizzazione dei risultati delle varie analisi attuate sui dati a disposizione di un database ed effettuati attravero delle query. La reportistica è un tema che verrà trattato più approfonditamente nelle ricerche che seguiranno in questo blog.
Nessun commento:
Posta un commento