Introduzione alla Business Intelligence

Le aziende si trovano sempre più spesso a confrontarsi col bisogno di conoscere il modo in cui si stanno comportando e come si evolve il mercato in cui si trovano ad operare. Per essere in grado di prendere decisioni operative corrette e superare la concorrenza è necessario avere informazioni precise sul proprio business e sulla propria clientela. La chiave del corretto decision-making è dunque l’informazione: chi riesce ad avere il maggior numero di informazioni e ad utilizzarle nel modo più efficace può sfruttare quel vantaggio competitivo necessario per essere leader di mercato. Questo concetto è noto già da molti anni ma mai come in questo periodo la sua applicazione sta portando le aziende ad avere dei risultati operativi concreti, ben visibili analizzando i R.O.I. relativi ai sistemi informativi delle aziende che per prime lo hanno adottato. Da questo punto di vista l’evoluzione degli strumenti informatici è stata uno dei fattori decisivi perché ha reso possibile immagazzinare, maneggiare ed analizzare grandi volumi di dati in poco tempo ed a basso costo; la crescente potenza di calcolo ha reso inoltre possibile l’utilizzo e l’applicazione pratica di metodi matematici e statistici per gettare una nuova luce sulla gestione di una azienda. Inoltre l’evoluzione dei software, grazie all’uso di interfaccia sempre più user-friendly, permette l’uso di strumenti matematici complessi, che fino a poco tempo fa non erano adottati nel mondo manageriale. Per esempio ora è semplice fare delle previsioni sulla domanda, scegliere il prezzo di vendita che massimizza il profitto, misurare l’efficacia delle campagne pubblicitarie, tracciare il profilo della clientela, ecc.

Sono molti i termini che vengono comunemente utilizzati per descrivere le tecnologie che permettono di avere una visione integrata di tutte le attività aziendali, sfruttando i dati e le conoscenze disponibili a tutti i livelli, e che possono estendere le loro funzioni di analisi ad un elevato numero di utenti: i più comuni sono Business Intelligence (B.I.), Data Warehouse (D.W.), Data Mart (D.M.), Sistemi di Supporto Decisionale (D.S.S.), Data Mining. Spesso questi termini vengono addirittura confusi tra loro da un numerosi professionisti dell’I.T. e dagli analisti vista la differenza sempre meno marcata tra i software oggi in commercio. Oggi però il termine business intelligence ha un’accezione funzionale più ampia degli altri (data warehouse, data mart, D.S.S., ecc.), che possono essere considerate delle architetture ad essa sottostanti. Ciò che è chiaro è che le aziende di tutto il mondo stanno comunque investendo miliardi di dollari per avere la possibilità di prendere decisioni di business sempre più appropriate in tempi sempre più rapidi in modo da ridurre i costi, identificare nuove opportunità di mercato, misurare l’efficacia di campagne promozionali e controllare gli sviluppi nelle attività commerciali: in sostanza per migliorare ed ottimizzare la gestione dell’azienda.

Ogni azienda richiede inoltre uno spettro abbastanza vario di funzionalità per la business intelligence, che spaziano dalla pubblicazione di “istantanee” di dati fino alla possibilità per gli utenti di creare query personalizzate, nonché attività avanzate di analisi quali previsioni e analisi “what if”. Gli utenti necessi­tano quindi di strumenti diversi, che permettano loro di accedere a dati eterogenei per rispondere a domande di natura diversa. Pertanto la definizione che ogni utente dà di Business Intelligence è quella giusta e l’unica che corrisponde alle sue esigenze.

In generale comunque una soluzione completa deve aiutare gli utenti a rispondere a qualsiasi tipo di quesito, utilizzando tutti i dati a disposizione e perciò un buon sistema di business intelligence deve possedere alcune caratteristiche fondamentali, quali l’accesso a fonti dati differenti, la flessibilità nell’implementazione e nell’uso, la possibilità di compiere analisi multidimen­sionali dei dati (OLAP) e di estrarre nuove conoscenze utili anche per formulare delle previsioni sull’andamento futuro dell’azienda.

Accesso a tutti i dati

Un tool di business intelligence deve avere la possibilità di accedere a tutti i tipi di dati che descrivono un’azienda e i suoi clienti sotto più punti di vista possibile: ciò può comprendere dati ottenibili da sistemi di elaborazione transazionali (On-Line Transactional Processing), dati ottenibili da applicativi per le attività finanziarie, le risorse umane e l’area manifatturiera, dati legacy, che spesso rappresentano una fonte preziosa di informazioni storiche, nonché altri dati ottenibili da comuni file, fogli di calcolo ed altre applicazioni. Alcuni impieghi analitici (ad esempio la creazione giornaliera di report sulle vendite o l’estrazione di informazioni ad hoc) implicano l’accesso diretto ai dati sorgente, mentre altri impieghi (come per esempio l’esame dei trend di vendita per regione in un determinato intervallo di tempo) richiedono una struttura ed un contesto tipico di un data warehouse (o anche un data mart), che organizza i dati in maniera utile, coerente e comprensibile. Una piattaforma warehouse, in quanto componente di una soluzione per la business intelligence, deve poter gestire grandi quantità di dati di tipi diversi; deve inoltre incorporare funzionalità per il supporto di analisi sofisticate, compresa la rappresentazione di dati in forma multidimensionale e gerarchica (OLAP).

Flessibilità d’uso

Nell’attuale ambiente competitivo avere informazioni aggiornate è neces­sario per un prendere decisioni in modo accurato e vantaggioso. Le informazioni sono così richieste da una forza lavoro sempre maggiore e sempre più spesso distribuita geograficamente: la distribuzione delle informazioni deve dunque essere tempestiva, affidabile, contenuta nei costi e accessibile a tutti coloro che ne fanno richiesta. Alcuni utenti finali richiedono poi strumenti diversi tra loro, con funzionalità mirate: tali strumenti devono interagire fra loro ed in più devono poter evolversi man mano che le esigenze dei clienti cambiano. Quindi è impor­tante per l’installazione di un sistema di business intelligence considerare la massima flessibilità possibile.

Analisi multidimensionale OLAP

Questa funzione espande la possibilità di generare report oltre il semplice approccio righe e colonne dei database relazionali a categorie multiple di dati, che permettono agli utenti di analizzare i dati storici nello stesso modo in cui analiz­zano le loro attività di business. I report, detti “cubi”, sono organizzati in dimensioni (e per questo vengono definiti “multidimensionali”), le quali si suddi­vidono in livelli e categorie che riepilogano i fatti. Le dimensioni, definibili in base alle attività aziendali, sono potenzialmente infinite: per esempio le dimensioni più comuni sono il tempo, la posizione geografica, il prodotto, il dipartimento ed il canale di distribuzione. Un’analisi ben fatta prevede lo studio di più dimensioni contemporaneamente in modo da vedere gli stessi dati da diversi punti di vista e scoprire così nuove informazioni: le varie attività di analisi comportano dunque un’organizzazione flessibile dei dati in base alle diverse combinazioni di dimensioni. La risposta a domande che coinvolgono aspetti diffe­renti dei business (quindi “multidimensionali”) spesso implica enormi quantità di dati, che non possono essere interpretati ai livelli inferiori e che richiedono un’aggregazione opportuna ed efficace. Gli strumenti OLAP forniscono la possi­bilità di aggregare i dati e sommarizzarli, come anche quella di fare dei drill-down per “sezionare” un singolo aggregato ed analizzare i dati atomici in profondità: proprio per questa possibilità di interazione con l’utente i cubi possono essere definiti dei “live report”, che difficilmente possono essere rappresentati al di fuori di un monitor, al contrario dei normali report bidimensionali che possono facilmente essere stampati.

Data Mining

A differenza di un sistema OLAP, che crea conoscenza semplicemente “riassumendo” i dati in forma ordinata, un sistema di Data Mining genera infor­mazioni del tutto nuove, non ancora presenti in alcun database aziendale, come la spiegazione e l’interpretazione delle relazioni che intercorrono nei dati di partenza delle analisi. Un data mining mette a disposizione degli utenti un quadro chiaro ed allo stesso tempo approfondito del problema analizzato, permettendo anche di generare delle previsioni sugli sviluppi futuri.

Le fonti dati

Quando si installa un sistema di business intelligence è necessario decidere innanzitutto quali, tra i database aziendali, sono adatti a fornire i dati per il sistema di reporting o se è necessario creare un apposito data warehouse intermedio nel caso in cui nessun database abbia le caratteristiche richieste. Solitamente un tool di business intelligence fornisce i migliori risultati se può aggregare informazioni provenienti da diverse aree aziendali, e dunque da diversi software e database: nella maggior parte dei casi si attinge a database relazionali, sistemi M.R.P./E.R.P. e fogli di calcolo. Come si può notare queste fonti dati hanno caratteristiche molto diverse tra loro, che possono essere più o meno adatte ad alimentare un sistema di business intelligence.

Per esempio un sistema OLTP non è una buona fonte dati per un sistema di reporting ed analisi su larga scala, perché questo è nato per scopi diversi da quelli della business intelligence: un OLTP immagazzina infatti i dati delle transazioni necessarie per la gestione day-to-day di una azienda ed è quindi ottimizzato per velocizzare le operazioni di scrittura e lettura, supportare accessi multipli ai mede­simi dati e garantirne l’assoluta integrità. Dunque il sistema RDBMS che governa un OLTP è spesso piuttosto complesso in termini di tabelle, viste, indici e join; invece un sistema di business intelligence deve fornire informazioni gestionali sotto forma di business view. In secondo luogo i dati inerenti diverse aree aziendali si trovano spesso collocati in database differenti mentre un sistema di business intelligence richiede che i dati relativi ad uno specifico soggetto siano tutti integrati. Altre peculiarità di un OLTP non adatte per la business intelligence sono la volatilità dei dati (i dati sono aggiornati ad ogni transazione), che quindi rappresentano solo la situazione attuale e non la storia passata, e la loro atomicità (cioè non esiste nessun livello di aggregazione parziale né totale).

Può capitare però che un sistema di business intelligence debba necessaria­mente attingere ai dati di un OLTP ed allora è consigliabile creare un data warehouse intermedio e separato, in modo da poter gestire dati subject-oriented (metadati): in questo caso bisogna anche creare un sistema che estragga i dati dall’OLTP per immagazzinarli nella giusta forma nel data warehouse in modo automatico. La soluzione warehouse permette inoltre di sfruttare dati provenienti da fonti esterne. È chiaro dunque come l’uso di un data warehouse faciliti l’implementazione e l’uso di un sistema di business intelligence.

È necessario poi chiarire bene cosa si intende per data warehouse e data mart: entrambi sono sistemi che estraggono dati dai sistemi operazionali e li memorizzano in un sistema di supporto alle decisioni, ma mentre i primi sono costruiti per soddisfare i bisogni dell’intera impresa, sono gestiti dai responsabili aziendali dell’Information System, contengono una gran quantità di dati atomici storici e sono progettati per ottimizzare l’integrazione e la gestione dei source data, i data mart servono a specifiche Unità di Business o funzioni aziendali ed in genere sono gestiti dall’I.S. della stessa unità, sono focalizzati soprattutto sulla gestione di dati di sommario e sono progettati per ottimizzare la divulgazione delle informazioni per il supporto alle decisioni. I data mart non sono quindi solo “departmental warehouse” ma hanno finalità leggermente differenti. [LOV1] In effetti si stima che il 70-80% dei data warehouse oggi in produzione siano in realtà dei data mart: il loro successo è legato al basso costo di realizzazione (si parla di spese da centomila a un milione di dollari contro investimenti tra 2 e 5 milioni per un data warehouse.), ai tempi di realizzazione (3-6 mesi contro 18-36 mesi necessari per un data warehouse) ed alla possibilità di partire affrontando un problema alla volta. Molte aziende, non in grado di affrontare tali budget, o che non hanno la necessità di recuperare enormi masse di dati storici aziendali, si stanno rivolgendo proprio ai data mart.

Nonostante il successo, i data mart non potranno però sostituirsi integral­mente ai data warehouse di impresa. Anzi, secondo Gartner Group sarà sempre più frequente il caso di organizzazioni che dispongono di entrambi i sistemi, con destinazioni d’uso complementari ma differenti: gli enterprise data warehouse, costruiti per un largo spettro di esigenze e di utenti, ed i data mart con soggetti ben definiti, costruiti per una specifica esigenza o uno specifico obiettivo di business. Già oggi, esistono data warehouse virtuali, frutto della connessioni di vari data mart, o data warehouse usati per alimentare i data mart, che così operano come sottoinsiemi specializzati, centralizzando le funzioni di estrazione dei dati su un unico ambiente ottimizzato allo scopo. Questa soluzione però non sembra molto soddisfacente nel lungo periodo perché l’obiettivo di un data warehouse è quello di far fronte a interrogazioni ad hoc sui dati di dettaglio, mentre un data mart solitamente richiede l’utilizzo di sommarizzazioni e un pesante uso di indici, e quindi il suo modello di dati non sarà capace di maneggiare le nuove necessità degli utenti ed i collegamenti con gli altri repository, costringendo a decise mutazioni ed aumenti di complessità.

Il mercato della business intelligence

Da un’indagine condotta da IDC nel primo trimestre del 1999 [COMPW8] emerge che il mercato italiano della business intelligence ed in particolare dei data warehouse è in costante crescita. Se nel 1998 il mercato valeva circa 366 miliardi di lire, oggi si stima che sia già cresciuto fino ad oltre 470 e la crescita sarà quasi certamente continua fino al 2002, quando dovrebbe superare i 1000 miliardi di lire. La crescita media annua sarà intorno al 29%, un valore piuttosto elevato in confronto alla crescita stimata del mercato in cui si collocano i data warehouse, cioè quello dei software a pacchetto (che oggi vale circa 6000 miliardi di lire), che è appena del 6-7%, ed anche rispetto alla crescita del mercato E.R.P..

Il mercato dei data warehouse si compone di tre elementi fondamentali: l’hardware, il software ed i servizi di supporto. Analizzando l’andamento futuro si scopre che l’incidenza dei servizi andrà aumentando (dal 46% odierno al 51% del 2002), vista la sempre maggiore complessità delle installazioni, mentre quella dell’hardware scenderà (dal 16% al 7,7%), cosa sempre più comune nel mercato dell’informatica.

In generale si può dire che la crescita della spesa per progetti di data warehouse è spiegabile con lo spostamento della domanda da un ambito stretta­mente tecnologico (richiesta di tool da parte dell’I.S. aziendale) a quello delle soluzioni in cui vengono effettivamente utilizzati. Queste soluzioni possono essere raggruppate in tre filoni principali: il Customer Relationship Management, che tende a mettere il cliente, e le relazioni con esso, alla base delle strategie aziendali, l’integrazione tra data warehouse ed eCommerce, che prevede l’estrazione di informazioni sui clienti in base alle loro operazioni via Internet, e la relazione tra data warehouse e sistemi E.R.P.. Proprio in questo ultimo periodo infatti si sono conclusi, o si stanno concludendo, molti progetti di installazione di sistemi E.R.P. e gli utenti cominciano a rendersi conto che, per sfruttare appieno la gran mole di dati che questi sistemi generano, è necessario affiancare dei tool di reporting e di analisi, che solitamente sono prodotti da terzi. Oltre a questi fattori bisogna anche non sottovalutare l’apporto delle analytic application, cioè dei nuovi strumenti di data mining, che richiedono spesso l’uso di dati stivati nei da data warehouse.

Difficoltà di implementazione

Se è chiaro come l’installazione di un tool di business intelligence porta un valore aggiunto ai prodotti ed ai processi aziendali, non altrettanto chiaro è, tuttavia, il modo in cui le aziende devono realizzare la soluzione adatta alle loro esigenze specifiche. Mentre la maggior parte delle aziende condivide una serie piuttosto uniforme di requisiti di base, come facilità d’uso, prestazioni, scalabilità e compatibilità con altri sistemi collegati, ogni implementazione di un tool di business intelligence presenta però una propria configurazione unica in termini di query ad hoc, reporting e funzionalità di analisi, supporto di piattaforma, volumi di dati, popolazione di utenti e numerosi altri parametri diversi tra loro.

Per la maggior parte delle aziende, l’unico modo di affrontare tutte queste esigenze diverse è stato quello di mettere assieme prodotti specifici forniti da for­nitori diversi: una piattaforma per il database creata da un fornitore, strumenti di gestione da uno diverso, strumenti per query e reporting da un altro e strumenti di analisi da un altro ancora. La sperimentazione con queste componenti così diverse fra loro si è dimostrata un compito difficile per il personale I.T.: le aziende, oltre alle sfide tecnologiche che hanno dovuto affrontare per far interagire questi sistemi, devono fornire una visione integrata delle attività aziendali servendosi di prodotti che si basano su modelli analitici, strutture di processi aziendali e inter­facce utente molto diversi fra loro. Il problema si aggrava ulteriormente quando si deve operare con servizi e supporto di più fornitori.

Solo in questi ultimi mesi sono arrivati sul mercato strumenti che riescono a gestire tutti gli aspetti dell’implementazione e della gestione di un data warehouse, nonché la sua preparazione per analisi produttive. Un esempio ne è Oracle Warehouse Builder (OWB) che opera nel campo della modellazione e della progettazione, nella gestione di warehouse, dell’integrazione di strumenti analisi e per tutto ciò che riguarda i dati (estrazione, trasformazione, trasporto, carica­mento, aggregazione e gestione) e i metadati. [WPO] Principali caratteristiche di OWB sono la scalabilità, la struttura completamente ampliabile, il supporto delle fonti dati relazionali e non relazionali, compresi i principali applicativi E.R.P. (Oracle Application, SAP e PeopleSoft), la gestione dell’intero ambiente warehouse da qualsiasi piattaforma che utilizzi una struttura orientata agli oggetti e sia basata su Java, il supporto completo di modelli dati dimensionali ottimizzati per l’analisi e la generazione di metadati comuni, che offrono integrazione con strumenti di analisi.

Il Data Mining

All’interno dei tool di business intelligence sono spesso presenti moduli di Data Mining. Il Data Mining è il processo di derivazione di nuove conoscenze, ed eventualmente di modelli matematici, da grandi volumi di dati, finalizzato a far emergere informazioni e relazioni tra i dati stessi in precedenza sconosciute. [LOV2] Il suo obiettivo quindi è di fornire visioni in profondità all’interno dei pro­cessi di business, e di supportare, automatizzare o migliorare il decision-making nel marketing, nelle vendite, nella gestione del rischio ed in svariate altre attività. Dunque l’obiettivo di uno strumento di data mining è bene o male lo stesso di tutti i software di business intelligence ma ciò che lo distingue dalle applicazioni che fanno solo reportistica o dalle applicazioni OLAP è l’automazione del processo di scoperta delle nuove informazioni: mentre per questi ultimi è l’utente che richiede l’estrazione dei dati necessari a confermare o a smentire uno schema che ha già in mente, un’analisi di data mining cerca autonomamente i modelli da applicare ai dati. Attraverso l’impiego delle metodologie di data mining si possono così trovare nuove informazioni presenti nei dati in forma nascosta, che ne costitui­scono quindi un arricchimento, informazioni che permettono di cogliere aspetti essenziali per il successo del business aziendale. Tecniche quali l’analisi dei fattori, dei cluster e delle corrispondenze, gli alberi di classificazione e le reti neurali possono essere impiegate per la definizione dei tipi e dei profili del cliente, l’individuazione dei target e la costruzione di una “scheda cliente” da fornire agli agenti; l’utilizzo della modellistica permette, invece, di costruire modelli di scoring e classificare in termini predittivi i propri clienti, potendo così stimare, ad esempio, la probabilità di adesione ad una proposta commerciale, il potenziale di spesa e la creazione di un portafoglio clienti da assegnare alla rete di vendita.

Le aziende percepiscono chiaramente che il data mining costituisce un processo ad elevato ritorno degli investimenti e che chi utilizza queste tecniche si pone in una posizione di vantaggio competitivo, in grado di scoprire nuove appli­cazioni per il business. È proprio per questi motivi che si sta assistendo oggi ad una grande diffusione di questi software, che, a sua volta, induce le case produt­trici a sviluppare con sempre maggiore frequenza nuovi prodotti o nuove release. Secondo Gartner Group, infatti, l’uso di uno strumento di data mining nel target marketing passerà da meno del 5% di oggi a più dell’80% tra dieci anni. Questo sviluppo è evidente anche dalle spese per l’acquisto di tool data mining: si stima infatti che nel 2000 il mercato di questi software sarà intorno agli 800 milioni di dollari contro i 300 stimati per quest’anno (fonte: META Group). Bisogna inoltre considerare un altro fattore decisivo che sta contribuendo a questa affermazione e cioè la possibilità di divulgare le informazioni estratte dai dati a molte persone in forma chiara, concisa e soprattutto semplice, cosa possibile con i software odierni.

Un progetto di installazione di un software di data mining, come più in generale di un tool di business intelligence, non può e non deve essere portato avanti solo dal personale I.T. di una azienda ma anzi è consigliabile, per una buona riuscita del progetto, uno sforzo congiunto sia del personale I.T., che dovrà mettere a disposizione i dati e la tecnologia per accedervi, sia dei responsabili dei diversi processi di business, possibilmente anche con l’aiuto di personale esperto in statistica o matematica, in grado di analizzare patrimoni informativi complessi, fornendo indicazioni sintetiche e complete. Infatti il processo che porta ad ottenere dei risultati effettivi grazie ad un tool di data mining si può suddividere in diverse fasi:

·         Analisi del problema: bisogna innanzitutto capire bene quale è il problema che si vuole analizzare e se è utile usare un software di data mining (cioè se le tecniche che usa sono adatte a spiegare il problema);

·         Preparazione dei dati: in questa fase si estraggono i dati dalle fonti e li si trasformano nella forma richiesta dal data mining, per esempio facendo delle aggregazioni e delle join, creando nuove colonne o eliminando quelle inutili, ecc.;

·         Esplorazione dei dati: i dati vengono visualizzati (anche graficamente) in modo da fornire una prima idea dei modelli a cui possono richiamarsi ed in modo da mostrare eventuali errori nella fase di preparazione:

·         Creazione di un modello: viene generato il modello, automaticamente o in base ad un processo interattivo guidato dall’utente;

·         Monitoring del modello: il modello predittivo creato su dati storici deve essere utilizzabile anche con nuovi dati, mantenendo vera l’assunzione di base delle analisi avanzate di data mining, e cioè che il futuro assomigli in qualche modo al passato;

·         Uso del modello: le scoperte effettuate vengono utilizzate per risolvere i problemi di partenza reingegnerizzando i processi.

Nella scelta di un software di data mining è anche necessario analizzare bene il trade off tra scalabilità e performance delle diverse soluzioni hardware utilizzabili. Un’architettura client based impone l’immagazzinamento di tutti i dati estratti su un PC locale, dove avviene poi anche l’analisi: questa soluzione, benché la potenza di calcolo dei PC sia in costante crescita, può limitare il numero di record processabili (anche se si parla di centinaia di migliaia di record). La solu­zione maggiormente adottata oggi è quella di utilizzare un server NT o Unix che sia in grado di processare i dati richiesti grazie alla presenza del data mining engine richiamato dal data mining front-end presente su un PC collegato. Nel caso in cui i PC che elaborano analisi siano più di due è bene pensare all’installazione di un data warehouse o un data mart che alimenti il data mining engine.

Le tecniche del data mining

Gli strumenti OLAP, cioè quei programmi che permettono la creazione di report multidimensionali, possono essere considerati il punto di partenza per un’analisi più approfondita, tipica dei software specifici di data mining: è spesso proprio grazie all’analisi dei dati storici che si riescono infatti ad individuare i principali fattori da includere nei modelli di analisi avanzate. Queste analisi possono essere di tipo esplorativo, per avere una prima idea sulla struttura dei dati e dei possibili modelli che si possono applicare, e di tipo confermativo, basate sulla verifica di ipotesi (che vengono tradotte in modelli), per valutare la loro aderenza ai dati.

Un’analisi avanzata comprende prima un’accurata visualizzazione dei dati e poi un processo di modellazione. L’esplorazione dei dati tramite la visualizza­zione multidimensionale consente di rappresentare i dati all’utente in modo che possa interagire facilmente con gli stessi nella ricerca di relazioni nascoste: gli strumenti di visualizzazione avanzata permettono infatti di guardare tre o anche più dimensioni (o variabili) alla volta e permettono di scoprire legami, tendenze ed anomalie presenti nei dati molto più velocemente che non tramite la grafica o la reportistica tradizionale. La modellazione riguarda invece la forma funzionale che lega i dati: avere a disposizione un modello significa avere la possibilità di fare delle previsioni e delle simulazioni. I metodi di modellazione usati nel data mining, che “scoprono” la forma delle relazioni, sono essenzialmente di tre tipi: clustering, alberi decisionali e reti neurali.

Le tecniche di clustering permettono di ottenere uno schema di segmenta­zione dividendo una popolazione in sottogruppi: in questo modo è possibile collegare tra loro diverse caratteristiche dei dati e scoprirne le relazioni interne. Questa tecnica però non si può però utilizzare direttamente per fare previsioni o per applicare la classificazione ad altri insiemi di dati poiché i cluster non sono definiti come funzioni esplicite dei predittori, ma dipendono dai dati utilizzati.

Gli alberi decisionali sono costruiti suddividendo ripetutamente i dati secondo sottogruppi definiti dai valori delle variabili obiettivo, per tentare di trovare sottoinsiemi omogenei che spieghino il comportamento dell’obiettivo. Questa suddivisione produce una gerarchia ad albero, dove i sottoinsiemi vengono chiamati nodi e i nodi finali foglie. L’albero decisionale può essere usato per creare generalizzazioni (o regole di induzione), con i nodi che servono da punto di decisione.

Le reti neurali sono una vasta classe di modelli sviluppati nell’ambito scien­tifico, i quali, grazie ad un processo di apprendimento riescono a risolvere complessi problemi di classificazione e di previsione. In pratica una rete neurale “impara” il modello di rappresentazione di un gruppo di dati di esempio modifi­cando iterativamente i propri parametri interni, detti “pesi”, per arrivare a generare risultati che combaciano con quelli dell’esempio stesso. Al modello così creato si possono poi fornire nuovi dati, dello stesso tipo, di cui però non si conosce il risultato: la rete neurale usa il modello trovato in precedenza per predire il risultato sconosciuto, assumendo ovviamente che la predizione possa essere fatta basandosi sui risultati della precedente analisi. La capacità di valutare un gran numero di fattori e la tolleranza verso dati imperfetti, come la presenza di dati mancanti o altri problemi di qualità dei dati, ne fanno uno strumento particolar­mente adatto per analizzare dati del mondo reale, soprattutto in ambienti dinamici. Altri motivi che determinano l’uso di reti neurali sono la presenza di grossi set di dati di esempio, dove è difficile specificare un modello parametrico, e di dati in cui le relazioni sono sottili, profondamente nascoste o caratterizzate da una forte non linearità.

I tool di modellazione avanzata possono essere divisi in due grandi categorie: i theory driven e i data driven. [SPSS] I primi si basano sui test di ipotesi statistiche, che cercano di provare o negare: questi software richiedono che l’utente contribuisca in buona parte alla creazione del modello, basandosi sulla propria esperienza, e poi lo testi per vedere se è valido. Al contrario i software data driven creano automaticamente il modello basandosi sugli schemi (pattern) che riescono ad applicare ai dati. In generale però si può dire che la ricerca di un modello statistico sia un processo interattivo che si basa sia sull’esperienza dell’utente che sulle procedure automatiche dei programmi.

I software theory driven modeling si basano su tecniche statistiche quali:

·         Correlazione: la correlazione è la misura della relazione esistente tra due variabili e può essere positiva o negativa a seconda della proporzionalità esistente tra le variabili stesse;

·         Test t: il test t serve a stabilire se due variabili hanno stessa media, varianza o distribuzione (quando la varianza della popola­zione è ignota), oppure se la media o la varianza hanno un determinato valore. È usato quando si vuole stabilire se c’è differenza tra due singole regioni di un gruppo di dati oppure per testare la significatività di una variabile nella regressione;

·         ANOVA: l’ANOVA (acronimo di analisi della varianza) è un test che verifica se ci sono differenze nei valori medi di una variabile dipendente tra due o più categorie di variabili indipendenti (a differenza del test t che richiede la specificazione di due cate­gorie precise). L’ANOVA è utile per stabilire se due gruppi di dati apparentemente simili si comportano in maniera diversa;

·         Regressione lineare: la regressione lineare cerca di adattare una linea retta ai dati di un grafico per poter riassumere il comportamento di una variabile obiettivo in modo lineare. Se la pendenza è positiva la proporzionalità tra le variabili è diretta, altrimenti è inversa. Maggiore è la pendenza della retta e maggiore è l’impatto della variabile indipendente su quella dipendente;

·         Regressione logistica: la regressione logistica serve a stimare la probabilità dell’avverarsi di un evento. Si basa sui fattori osservati in relazione alle occorrenze dell’evento per creare il modello probabilistico;

·         Analisi discriminante: è un metodo di classificazione che misura l’importanza dei singoli fattori determinando l’appartenenza di un gruppo di dati ad certa una categoria;

·         Metodi di forecasting: i metodi di forecasting studiano l’andamento di una variabile in base ai dati storici e cercano di proiettarne l’andamento nel futuro.

I software data driven modeling invece sfruttano generalmente:

·         Analisi dei cluster: l’analisi dei cluster è una tecnica che cerca di raggrup­pare insieme i dati simili tra loro per evidenziare le caratteristiche comuni principali. È una tecnica usata per esempio per segmentare un mercato o la clientela in base a caratteristiche particolari;

·         Analisi dei fattori: l’analisi dei fattori cerca di costruire un modello a partire dai dati basandosi sulle variabili latenti: raggrup­pandole opportunamente è possibile generare dei fattori (o regole di associazione), ognuno dei quali è individuato da un proprio gruppo di variabili. Questa tecnica è anche usata per raggruppare i prodotti venduti in base alle loro caratteristiche principali;

·         Alberi di decisione: la tecnica degli alberi di decisione permette di organizzare i dati in una gerarchia multilivello, al vertice della quale si trova la variabile di cui si vuole spiegare l’andamento: suddividendo progressivamente i dati in sottogruppi si riescono a creare delle regole di comportamento che permettono di focalizzare l’attenzione solo su alcune caratteristiche della variabile scelta;

·         Visualizzazione dei dati: visualizzare i dati in modo chiaro è uno dei metodi più semplici ed al tempo stesso più utili per scoprirne l’andamento. A volte un semplice grafico riesce ad eviden­ziare caratteristiche difficili da scoprire con metodi matematici. La visualizzazione è importante anche per riuscire a trasmettere, con un linguaggio facilmente acces­sibile, le scoperte fatte da un analista ad altre persone;

·         Reti neurali: l’uso delle reti neurali simula il comportamento del cervello umano, che “impara” un modello a partire da un set di dati di esempio e lo applica poi ai dati stessi. Le reti neurali usano funzioni non lineari, ma a differenza della regressione non è necessario avere già in mente un modello nel momento in cui si lancia una analisi. Inoltre sono l’ideale per scovare interazioni tra le variabili o variabili obiettivo in set di dati altamente non lineari. L’uso delle reti neurali permette di trattare il modello trovato come una black box, cosa fonda­mentale quando non si riesce a spiegarlo facilmente con altre tecniche (alberi, regole, ecc.). L’interpretazione dei risultati però può essere alle volte difficoltosa.

Alcuni esempi di data mining

Un esempio di approccio pratico al data mining è la metodologia S.E.M.M.A. (Sample, Explore, Modify, Model, Assess) proposta da SAS Institute: la nuova informazione viene “scoperta” nelle fasi di esplorazione e di modelli­stica, mentre le altre fasi sono costituite da attività di rifinitura e supporto. Questa metodologia si configura come un vero e proprio processo dove ogni fase è caratterizzata da un input e da un output, che diventa input per la fase successiva. [SAS]

Nella fase Sample si estrae una campione di dati dal data set abbastanza grande per contenere ancora informazioni significative e abbastanza piccola per analizzarla velocemente. L’esplorazione dei dati serve per cercare relazioni e anomalie nei dati in modo non aprioristico e per capire quali possono essere quelli di interesse. La fase Modify serve per creare, selezionare e trasformare le variabili e le misure per mettere a punto il processo di costruzione del modello. Vengono poi ricercate automaticamente le variabili significative ed i modelli che forniscono le informazioni contenute nei dati (Model). Infine, nella fase Assess, si valutano l’utilità e l’affidabilità delle informazioni scoperte tramite la verifica di ipotesi ricavate su altri campioni ed i metodi del test statistico.

Anche NCR, leader nel mercato dei data warehouse, propone un processo di data mining molto simile, dove alla fase Problem Definition seguono la fase di Data Processing, per la campionatura dei dati, la visualizzazione ed una prima manipolazione, la fase di Model Building & Analysis, per la creazione ed il test del modello, l’interpretazione e la valutazione dei risultati, ed infine la fase di Knowledge Deployment & Maintenance, che comprende la fase di report e l’uso di monitor e agenti. [NCR]

Torna in alto

Continua          Indice