Historie zpracovávání dat
– nástup elektronických technologií >>> shromažďování dat
– začátek 70. let – vznik relačních databází, následně definice SQL
– 80. léta – vznik velkých serverových databází
– 1986 – uvedena první client-server aplikace
– centrální databáze = na databázi jsou navázány aplikace – jeden uživatel má jednu aplikaci
– databáze client-server = klienti jsou navázáni na server, klienti mohou sdílet jednu aplikaci
– začátek 90. let – oddělování specifických dat pro MIS a DSS
– polovina 90. let – vznik datových skladů
– konec 90. let – rozvoj datových skladů – e-business, systém datamartů, data mining
Úvod DW
Problémy s OLTP (Online Transaction Processing):
– nedosažitelnost dat vytvořených či skrytých v transakčních systémech
– dlouhé prodlevy, když se nedostatečně silné systémy snaží provést komplikované dotazy
Skladování dat je kolekce technologií podporujících rozhodování, s cílem umožnit řídícímu pracovníkovi učinit lepší a rychlejší rozhodování.
DW označují databázovou architekturu používanou pro údržbu historických dat, která jsou získána z jedné nebo více operativních databází. Data jsou vyčištěna a restrukturována pro podporu dotazů, agregací a analýz.
Klíčové: integrace vlastních a externích dat
Alternativa zpracování historie – temporární databáze – odlišný přístup (časové značky ke změnám údajů).
– s pokračující redukcí středních článků řízení, které vytvářely rozbory dat, by měl DW poskytnout podobné, respektive kvalitnější služby
– DW musí poskytnou nikoliv operativní, ale data přeměněná ve strategické informace
Problémy DW
– postavení DW v informační strategii organizace
– modelování DW
– konstrukce DW
– údržba DW
– použití DW
DW v informačním prostředí organizace
OLTP => DW =>OLAP
Stádia dodávání dat
– analogie s průmyslovou výrobou:
– výroba dat (OLTP – selektivní dotazy)
– skladování dat (DW, datová tržiště – dotazy intenzivní na data)
– prodej dat (OLAP – Online Analytical Processing – reporty, analýzy)
Klíčové: multidimenzionalita, (multi)dimenzionální modelování (DM)
(tabulka = dimenze 2)
Komponenty DW
– akvizice dat (sběr) a jejich integrace do DW (generátory kódu, replikace dat, kopírování…)
– řízení dat (databázový server + služby: archivace, autorizace, zálohování a zotavení z chyb, provoz, monitorování a ladění, řízení zdrojů)
– slovník informací (metadata a přístup k nim – informace o tom, co je uskladněno v DW)
– přístup k datům a komponenty dodání dat (db middelware, OLAP, multidimenzionální data, data řízená časem a událostmi)
Informační zdroje DW
– databázový pohled: integrace heterogenních dat
Přístupy:
– přes globální schéma (neefektivní) – využívání již stávajících databází
– zvláštní databáze – DW (možnost využití replikací, automatické změny, průběžné výpočty agregací…)
Dva hlavní problémy:
– jak dostat data do DW
– jsou-li tam, co s nimi dělat
Modelování DW
OLTP databáze – normalizované tabulky, optimalizace pro insert, update
OLAP databáze – odvozené tabulky, redundantní data, optimalizace pro dotazy, procesní logika ve schématech
Velká diskuze: E-R vs. multidimenzionální přístupy
2 přístupy k datovému modelování:
– konceptuální struktury založené na tabulkách (dimenzionální a tabulky faktů) organizovaných do tzv. hvězdičkových schémat
– konceptuální struktury jsou založeny na hyperkostkách (kostkách, multidimenzionálních polích), které reprezentují data jako multidimenzionální strukturu
Hyperkostka – schéma multidimenzionální databáze je množina vícerozměrných polí
Multidimenzionální databáze je dána vícerozměrnými množinami dat uloženými v těchto polích
Výhody:
– pole nabízí přímo jisté informace – například počet pozic v každé dimenzi
– jednodušší vyhledávání (místo v řádcích tabulky se hledá v dimenzích a pak se přímo určí buňka pole
– v poli se přirozeně seskupují data (=> řezy kostkou)
– seskupování dat => agregace
DM pomocí kostek
Nejvýhodnější situace: mezi dimenzemi existují multizávislosti.
Př.: ve schématu OBJEM_PRODEJE platí:
MODEL=> barva
MODEL => prodejce
Operace podporované v DM:
– agregace
– pivoting (rotating) – změna vizualizace dat kostky
– roll-up: od prodejce podle města k prodeji podle obvodu
– drill-down: od prodeje podle obvodu k prodeji dle města
– operátor Cube
– slice_and_dice (redukce dimenzionality dat)
Proces zavádění DW
– založení organizačního modelu
– založení modelu řízení dat/informací
– založení modelu vývoje DW
– založit tým pro návrh a budování DW
– založit technické procesy pro DW na základě operačních zvyklostí v podniku
Chyby manažerů DW
(1) chyba v řetězu sponzorství
– dvě klíčové osoby nad DW manažerem:
– sponzor (dodává peníze do projektu)
– „tahoun“ ze strany uživatele
– již si získal respekt dříve
– vlastní zdravý skepticismus nad technologií
– je rozhodný a pružný
(2) stanovení nevhodných očekávání – ne vše vyhoví uživateli
(3) politicky naivní chování
Př: „…to umožní manažerovi lepší rozhodnutí“
Správný manažer se stane nedůvěřivým.
(4) předimenzování DW
Př.: dotazník, co by mělo být v DW => NE!!!
(5) záměna návrhu databáze DW za návrh transakčního systému – jde o zcela různé cíle
(6) volba špatného manažera pro DW
(manažer by měl být ne technicky, ale spíše uživatelsky orientovaný)
(7) interní data starého stylu (tj. záznamy) – a ne externí data typu video, obrázky, zvuk
Př. někdo chce vidět obrazovou kopii původního papírového dokumentu.
Vkládat pouze údaje, nikoliv obrázky, video, zvuk…
(8) překrývání a omyly v definicích dat (chyby v metadatech)
(9) víra ve sliby týkající se výkonu
Př.: potřeba další investice (zvlášť podceněny bývají náklady na síť)
(10) DW v krátkém termínu
Př.: jakmile je DW hotov, všechny problémy skončily.
DW je cesta, nikoliv vzdálenost. Uživatelé chtějí stále nová data.
(11) zaměření se na ad hoc data mining a periodické sestavy
Manažeři nemají čas vše číst! Lépe: systémy reagující na změny toku dat do DW.
Závěr
– DW se stále výzvou pro teorii i praxi jak v implementaci, tak v návrhu, tak ve formulaci požadavků
– první vlna je za námi
tři technologie: prostředky pro transformaci dat a metadat, kombinace SŘBD a parelismu (SMP), multidimenzionální uživatelské prostředky
Data Mining
– rozhodovací stromy
– shlukování (clustering) – tvorba „hroznů“ – shlukování
– asociační pravidla
Rozhodovací stromy
Příklad:
– zjištění údajů, jací zákazníci se zajímají o nové modely aut
– výběr zákazníků pro reklamní kampaň
Datový sklad (trénovací množina):
Rozhodovací strom nemůže být příliš hluboký:
– jinak by neměl statisticky významné hodnoty pro rozhodování na nižších úrovních
– je třeba vybrat strom, který nejspolehlivěji predikuje výsledky
Shlukování
Jiný příklad: text
– každý dokument je vektor (např. <100110…> obsahuje slova 1, 4, 5…
– shluky obsahují podobné dokumenty (ochrana proti kopírování…)
– užitečné pro klasifikaci, vyhledávání dokumentů
Dolování asociačních pravidel
Asociační pravidla
– pravidlo: {p1, p3, p8}
– support: počet košů obsahující tento produkt
– častá množina položek: support >= práh s
– problém: nalezení všech častých množin