Nástroje a metody pro integraci, ukládání a úpravu podnikových dat představují ústřední komponenty každého datového skladu. Aby zajistily úspěch realizovaných projektů, musejí především technicky dobře podporovat extrakci, transformaci a nahrávání dat (ETL). Stále důležitější roli přitom hraje zjišťování stavu a měření kvality existujících dat (data profiling), stejně jako proti poruchám odolné prohledávání a čištění dat pro konkrétní aplikace či případy použití (data cleansing).
Zatímco zavedení prodejci databází se v této oblasti teprve začínají orientovat, bezpočet specialistů -- dodavatelů BI (Business Intelligence) a ETL (Extraction, Transformation and Loading) řešení -- už nabízí vlastní nebo koupené produkty tohoto typu. Například společnost SAS Institute získala firmu Dataflux, která se zaměřuje na kvalitu dat, zatímco Ascential Software nabízí produkt pro profilování a čištění doplňující klasické ETL v podobě Quality Stage. Jejich konkurenti Informatica a Oracle už ale také uvedli na trh první verze svých řešení pro data profiling. K dalším příkladům patří specialista na kvalitu dat Group 1, který si dostupnost ETL techniky zajistil akvizicí firmy Sagent, podobně jako společnost Trillium, jež se zaměřuje na cleansing a nedávno převzala metodu datového profilingu od firmy Avellino.
Analýza a integrace
Schéma warehouse: 1. Aplikační nástroje 2. Úprava dat 3. Reporting 4. Data mining 5. Alerting 6. Ukládání dat 7. Hromadná data 8. Integrace MDB a RDB 9. Řízení životního cyklu 10. Integrace dat 11. Správa kvality dat 12. Hromadná data 13. Zpracování v reálném čase 14. Back-endové systémy 15. Metadata 16. Operacionalizace datového skladu 17. Nestrukturovaná data |
Mezi příklady produktů, které jsou kombinací ETL a EAI řešení, patří enginy využívající listener technologií od společností jako Ascential a Informatica, funkce messagingu v systému Data Integrator firmy Business Objects nebo Business Warehouse začleněný do platformy pro firemní infrastrukturu Netweaver u společnosti SAP. Do této kategorie dále spadají ETL produkty rozšířené o funkce pro hromadný přenos transakčních dat -- náleží sem Ascential, který koupil firmu Mercator, nebo společnost Inway Software, jež převzala adaptéry od firmy Actional specializující se na EAI.
Ohniska na všech systémových úrovních: Při úpravě, ukládání a integraci dat v datovém skladu se středem pozornosti stávají nové problémy a oblasti aplikací |
ETL nástroje však při zpracování hromadných dat často vykazují výkonnostní problémy související s propustností dat. Pomoc zde slibují metody jako paralelizace aplikací, již využívá Ascential, nasazení nástrojů typu Bulk Loader nebo ještě výkonnější operace doplňování polí cílové databáze prováděné s využitím skriptovacího jazyka samotného ETL řešení, což nabízí například Hummingbird ve svém produktu Genio.
Multidimenzionální databáze (MDB) jsou velmi užitečné jako decentralizovaně spravovaná datová tržiště v technických odděleních nebo coby doplněk relačních datových skladů (RDB) pro agregovaná data s vysokými požadavky na rychlost zpracování dotazů. Oba typy implementací
Až 80 % veškerých informací bývá k dispozici ve formě textu, obrázků či audiosouborů, proto bude v následujících letech středem zájmu zpracování nestrukturovaných dat. |
Dalším trendem je modernizace datových skladů, neboť jejich architektura bude do budoucna muset podporovat webové technologie a zahrnovat robustní škálovatelný aplikační server. Mnohé funkce dnes přebírá databáze - například tvorbu modelů pro reporting a analýzu (data mining) nebo mechanismy pro aktuální dohled a upozorňování (alerting). Podobně je pak například tvorba standardních reportů přebírána zvláštními servery nebo databázemi datových skladů, neboť ty pak dovolují provádět historizaci nebo integraci dat z různých zdrojů jinak než v samotných provozních systémech. Mezi takové produkty patří Reporting Services od Microsoftu, jakož i řešení pro hromadnou tvorbu reportů od společností Actuate, Business Objects, Cognos, Information Builders nebo Microstrategy.
Vytoužená metadata
Stále důležitější roli bude hrát v oblasti datových skladů zpracování metadat, která už neponesou pouze technické, ale také obchodní informace - to umožní nástroje jako SuperGlue firmy Informatica |
Standardizovaný formát pro jejich popis a výměnu nabízí specifikace Common Warehouse Metamodel (CMW), jejímž vývojem se zabývá skupina OMG (Object Management Group). Oracle, Hyperion a SAS ji už sice využívají, nicméně převážně pro jednoduchou výměnu datových modelů. Speciální metody založené na využití metadat nabízí také Ascential se svým MetaBrokerem nebo Informatica v podobě produktu SuperGlue. Právě tak slouží k integraci a analýze metadat i mnohé ETL nástroje, avšak provázanost se zpracováním dat a nástroji koncových uživatelů je zde teprve v plenkách.
Autor: Carsten Bange, redaktorka Computerworldu
Zveřejněno se souhlasem týdeníku Computerworld.