Datové sklady (DW)

0

Historie zpracovávání dat

– nástup elektronických technologií >>> shromažďování dat

– začátek 70. let – vznik relačních databází, následně definice SQL

– 80. léta – vznik velkých serverových databází

– 1986 – uvedena první client-server aplikace

– centrální databáze = na databázi jsou navázány aplikace – jeden uživatel má jednu aplikaci

– databáze client-server = klienti jsou navázáni na server, klienti mohou sdílet jednu aplikaci

– začátek 90. let – oddělování specifických dat pro MIS a DSS

– polovina 90. let – vznik datových skladů

– konec 90. let – rozvoj datových skladů – e-business, systém datamartů, data mining

Úvod DW

Problémy s OLTP (Online Transaction Processing):

– nedosažitelnost dat vytvořených či skrytých v transakčních systémech

– dlouhé prodlevy, když se nedostatečně silné systémy snaží provést komplikované dotazy

Skladování dat je kolekce technologií podporujících rozhodování, s cílem umožnit řídícímu pracovníkovi učinit lepší a rychlejší rozhodování.

DW označují databázovou architekturu používanou pro údržbu historických dat, která jsou získána z jedné nebo více operativních databází. Data jsou vyčištěna a restrukturována pro podporu dotazů, agregací a analýz.

Klíčové: integrace vlastních a externích dat

Alternativa zpracování historie – temporární databáze – odlišný přístup (časové značky ke změnám údajů).

– s pokračující redukcí středních článků řízení, které vytvářely rozbory dat, by měl DW poskytnout podobné, respektive kvalitnější služby

– DW musí poskytnou nikoliv operativní, ale data přeměněná ve strategické informace

Problémy DW

– postavení DW v informační strategii organizace

– modelování DW

– konstrukce DW

– údržba DW

– použití DW

DW v informačním prostředí organizace

OLTP => DW =>OLAP

Stádia dodávání dat

– analogie s průmyslovou výrobou:
– výroba dat (OLTP – selektivní dotazy)
– skladování dat (DW, datová tržiště – dotazy intenzivní na data)
– prodej dat (OLAP – Online Analytical Processing – reporty, analýzy)

Klíčové: multidimenzionalita, (multi)dimenzionální modelování (DM)
(tabulka = dimenze 2)

Komponenty DW

– akvizice dat (sběr) a jejich integrace do DW (generátory kódu, replikace dat, kopírování…)

– řízení dat (databázový server + služby: archivace, autorizace, zálohování a zotavení z chyb, provoz, monitorování a ladění, řízení zdrojů)

– slovník informací (metadata a přístup k nim – informace o tom, co je uskladněno v DW)

– přístup k datům a komponenty dodání dat (db middelware, OLAP, multidimenzionální data, data řízená časem a událostmi)

Informační zdroje DW

– databázový pohled: integrace heterogenních dat

Přístupy:

– přes globální schéma (neefektivní) – využívání již stávajících databází

– zvláštní databáze – DW (možnost využití replikací, automatické změny, průběžné výpočty agregací…)

Dva hlavní problémy:

– jak dostat data do DW

– jsou-li tam, co s nimi dělat

Modelování DW

OLTP databáze – normalizované tabulky, optimalizace pro insert, update

OLAP databáze – odvozené tabulky, redundantní data, optimalizace pro dotazy, procesní logika ve schématech

Velká diskuze: E-R vs. multidimenzionální přístupy

2 přístupy k datovému modelování:

– konceptuální struktury založené na tabulkách (dimenzionální a tabulky faktů) organizovaných do tzv. hvězdičkových schémat

– konceptuální struktury jsou založeny na hyperkostkách (kostkách, multidimenzionálních polích), které reprezentují data jako multidimenzionální strukturu

Hyperkostka – schéma multidimenzionální databáze je množina vícerozměrných polí

Multidimenzionální databáze je dána vícerozměrnými množinami dat uloženými v těchto polích

Výhody:

– pole nabízí přímo jisté informace – například počet pozic v každé dimenzi

– jednodušší vyhledávání (místo v řádcích tabulky se hledá v dimenzích a pak se přímo určí buňka pole

– v poli se přirozeně seskupují data (=> řezy kostkou)

– seskupování dat => agregace

 

DM pomocí kostek

Nejvýhodnější situace: mezi dimenzemi existují multizávislosti.

Př.: ve schématu OBJEM_PRODEJE platí:

MODEL=> barva

MODEL => prodejce

Operace podporované v DM:

– agregace

– pivoting (rotating) – změna vizualizace dat kostky

– roll-up: od prodejce podle města k prodeji podle obvodu

– drill-down: od prodeje podle obvodu k prodeji dle města

– operátor Cube

– slice_and_dice (redukce dimenzionality dat)

Proces zavádění DW

– založení organizačního modelu

– založení modelu řízení dat/informací

– založení modelu vývoje DW

– založit tým pro návrh a budování DW

– založit technické procesy pro DW na základě operačních zvyklostí v podniku

Chyby manažerů DW

(1)   chyba v řetězu sponzorství

– dvě klíčové osoby nad DW manažerem:

– sponzor (dodává peníze do projektu)

– „tahoun“ ze strany uživatele

– již si získal respekt dříve
– vlastní zdravý skepticismus nad technologií
– je rozhodný a pružný

(2)   stanovení nevhodných očekávání – ne vše vyhoví uživateli

(3)   politicky naivní chování
Př: „…to umožní manažerovi lepší rozhodnutí“

Správný manažer se stane nedůvěřivým.

(4)   předimenzování DW
Př.: dotazník, co by mělo být v DW => NE!!!

(5)   záměna návrhu databáze DW za návrh transakčního systému – jde o zcela různé cíle

(6)   volba špatného manažera pro DW
(manažer by měl být ne technicky, ale spíše uživatelsky orientovaný)

(7)   interní data starého stylu (tj. záznamy) – a ne externí data typu video, obrázky, zvuk
Př. někdo chce vidět obrazovou kopii původního papírového dokumentu.
Vkládat pouze údaje, nikoliv obrázky, video, zvuk…

(8)   překrývání a omyly v definicích dat (chyby v metadatech)

(9)   víra ve sliby týkající se výkonu
Př.: potřeba další investice (zvlášť podceněny bývají náklady na síť)

(10)     DW v krátkém termínu
Př.: jakmile je DW hotov, všechny problémy skončily.
DW je cesta, nikoliv vzdálenost. Uživatelé chtějí stále nová data.

(11)     zaměření se na ad hoc data mining a periodické sestavy
Manažeři nemají čas vše číst! Lépe: systémy reagující na změny toku dat do DW.

Závěr

– DW se stále výzvou pro teorii i praxi jak v implementaci, tak v návrhu, tak ve formulaci požadavků

– první vlna je za námi
tři technologie: prostředky pro transformaci dat a metadat, kombinace SŘBD a parelismu (SMP), multidimenzionální uživatelské prostředky

Data Mining

– rozhodovací stromy

– shlukování (clustering) – tvorba „hroznů“ – shlukování

– asociační pravidla

Rozhodovací stromy

Příklad:

– zjištění údajů, jací zákazníci se zajímají o nové modely aut

– výběr zákazníků pro reklamní kampaň

Datový sklad (trénovací množina):

 

Rozhodovací strom nemůže být příliš hluboký:
– jinak by neměl statisticky významné hodnoty pro rozhodování na nižších úrovních
– je třeba vybrat strom, který nejspolehlivěji predikuje výsledky

Shlukování

Jiný příklad: text

– každý dokument je vektor (např. <100110…> obsahuje slova 1, 4, 5…

– shluky obsahují podobné dokumenty (ochrana proti kopírování…)

– užitečné pro klasifikaci, vyhledávání dokumentů

Dolování asociačních pravidel

 

Asociační pravidla

– pravidlo: {p1, p3, p8}

– support: počet košů obsahující tento produkt

– častá množina položek: support >= práh s

– problém: nalezení všech častých množin

Comments are closed.