Vysoké požadavky na skladování dat

  • 3
Datový sklad (data warehouse) hraje při podnikovém zpracování dat klíčovou roli. To se odráží i ve skutečnosti, že je dnes využíván ve firmách prakticky ze všech možných oblastí: od dodavatelských řetězců přes finančnictví a controlling až po styk se zákazníky. Vzhledem ke stále větším nárokům na tyto systémy zřejmě jejich funkcionalita i výkon v následujících letech projdou podstatnými proměnami.

Nástroje a metody pro integraci, ukládání a úpravu podnikových dat představují ústřední komponenty každého datového skladu. Aby zajistily úspěch realizovaných projektů, musejí především technicky dobře podporovat extrakci, transformaci a nahrávání dat (ETL). Stále důležitější roli přitom hraje zjišťování stavu a měření kvality existujících dat (data profiling), stejně jako proti poruchám odolné prohledávání a čištění dat pro konkrétní aplikace či případy použití (data cleansing).

Zatímco zavedení prodejci databází se v této oblasti teprve začínají orientovat, bezpočet specialistů -- dodavatelů BI (Business Intelligence) a ETL (Extraction, Transformation and Loading) řešení -- už nabízí vlastní nebo koupené produkty tohoto typu. Například společnost SAS Institute získala firmu Dataflux, která se zaměřuje na kvalitu dat, zatímco Ascential Software nabízí produkt pro profilování a čištění doplňující klasické ETL v podobě Quality Stage. Jejich konkurenti Informatica a Oracle už ale také uvedli na trh první verze svých řešení pro data profiling. K dalším příkladům patří specialista na kvalitu dat Group 1, který si dostupnost ETL techniky zajistil akvizicí firmy Sagent, podobně jako společnost Trillium, jež se zaměřuje na cleansing a nedávno převzala metodu datového profilingu od firmy Avellino.

Analýza a integrace

Schéma warehouse:

1.  Aplikační nástroje

2.  Úprava dat

3.  Reporting

4.  Data mining

5.  Alerting

6.  Ukládání dat

7.  Hromadná data

8.  Integrace MDB a RDB

9.  Řízení životního cyklu

10. Integrace dat

11. Správa kvality dat

12. Hromadná data

13. Zpracování v reálném čase

14. Back-endové systémy

15. Metadata

16. Operacionalizace datového skladu

17. Nestrukturovaná data

Další trend souvisí s datovým skladem fungujícím v reálném čase. Cílem je lepší dohled nad obchodními procesy (Business Activity Monitoring, BAM) a signalizace výskytu z obchodního hlediska důležitých událostí pomocí výstražných funkcí (alerting). Z technického hlediska to vyžaduje zejména kombinaci dosavadního dávkového zpracování s metodami messagingu, jaké nabízí software pro integraci podnikových aplikací (Enterprise Application Integration, EAI).

Mezi příklady produktů, které jsou kombinací ETL a EAI řešení, patří enginy využívající listener technologií od společností jako Ascential a Informatica, funkce messagingu v systému Data Integrator firmy Business Objects nebo Business Warehouse začleněný do platformy pro firemní infrastrukturu Netweaver u společnosti SAP. Do této kategorie dále spadají ETL produkty rozšířené o funkce pro hromadný přenos transakčních dat -- náleží sem Ascential, který koupil firmu Mercator, nebo společnost Inway Software, jež převzala adaptéry od firmy Actional specializující se na EAI.

Ohniska na všech systémových úrovních: Při úpravě, ukládání a  integraci dat v datovém skladu se středem pozornosti stávají nové problémy a oblasti aplikací
Díky rostoucím objemům dat se mimoto může u datového skladu stát velkou výzvou zajištění přiměřené doby ukládání a dotazování. Mnozí dodavatelé zkoušejí těmto problémům čelit prostřednictvím využití 64bitového hardwaru, nasazení massive parallel databází nebo pomocí kombinace technologií typu symetric multiprocessing (SMP) a massive parallel processing (MPP), jaké vyvíjejí společnosti IBM, NCR nebo Netezza. Naproti tomu Oracle sází spíše na cenově výhodné hardwarové architektury coby bázi pro řešení datového skladu a využívá také linuxové počítače propojené v síti.

ETL nástroje však při zpracování hromadných dat často vykazují výkonnostní problémy související s propustností dat. Pomoc zde slibují metody jako paralelizace aplikací, již využívá Ascential, nasazení nástrojů typu Bulk Loader nebo ještě výkonnější operace doplňování polí cílové databáze prováděné s využitím skriptovacího jazyka samotného ETL řešení, což nabízí například Hummingbird ve svém produktu Genio.

Multidimenzionální databáze (MDB) jsou velmi užitečné jako decentralizovaně spravovaná datová tržiště v technických odděleních nebo coby doplněk relačních datových skladů (RDB) pro agregovaná data s vysokými požadavky na rychlost zpracování dotazů. Oba typy implementací

Až 80 % veškerých informací bývá k dispozici ve formě textu, obrázků či audiosouborů, proto bude v následujících letech středem zájmu zpracování nestrukturovaných dat.

jsou však často odlišné jak co se týká datového modelu, tak pokud jde dotazovací jazyk nebo rozhraní. Cestu k integraci otevírají kupříkladu Microsoft a SAS nebo Oracle, který v 10g sdružuje obě techniky ukládání. Kromě toho posilují výrobci jako Applix, Hyperion, MIS či MIK možnosti provázání svých řešení a výměny dat s dalšími databázemi. Protože vývoj datových skladů neustává, nabývá na důležitosti řízení životního cyklu (lifecycle management), které zahrnuje správu základních dat, kontrolu a optimalizaci databázových zdrojů nebo kalkulace a zabezpečení potřebného výkonu. Jako příklad je možné uvést optimalizaci dotazů či ukládacích struktur u IBM a NCR. Modelování a udržování stále se měnících struktur datových skladů může být navíc podporováno na úrovni datové integrace, a to prostřednictvím ETL nástrojů (jako Cognos Decisionstream), aplikačních serverů (SAP BW) nebo speciálních aplikací (řešení firmy Kalido).

Dalším trendem je modernizace datových skladů, neboť jejich architektura bude do budoucna muset podporovat webové technologie a zahrnovat robustní škálovatelný aplikační server. Mnohé funkce dnes přebírá databáze - například tvorbu modelů pro reporting a analýzu (data mining) nebo mechanismy pro aktuální dohled a upozorňování (alerting). Podobně je pak například tvorba standardních reportů přebírána zvláštními servery nebo databázemi datových skladů, neboť ty pak dovolují provádět historizaci nebo integraci dat z různých zdrojů jinak než v samotných provozních systémech. Mezi takové produkty patří Reporting Services od Microsoftu, jakož i řešení pro hromadnou tvorbu reportů od společností Actuate, Business Objects, Cognos, Information Builders nebo Microstrategy.

Vytoužená metadata

Stále důležitější roli bude hrát v oblasti datových skladů zpracování metadat, která už neponesou pouze technické, ale také obchodní informace - to umožní nástroje jako SuperGlue firmy Informatica

Značný význam při využití datových skladů by měl být v budoucnu spatřován rovněž v metadatech. Ta už nebudou představovat pouze technické informace, jako například údaje o datových typech, ale budou uchovávat také obchodně orientované informace. Analogicky pak budou vyžadovány i nové metody pro ukládání, výměnu a poskytování metadat.

Standardizovaný formát pro jejich popis a výměnu nabízí specifikace Common Warehouse Metamodel (CMW), jejímž vývojem se zabývá skupina OMG (Object Management Group). Oracle, Hyperion a SAS ji už sice využívají, nicméně převážně pro jednoduchou výměnu datových modelů. Speciální metody založené na využití metadat nabízí také Ascential se svým MetaBrokerem nebo Informatica v podobě produktu SuperGlue. Právě tak slouží k integraci a analýze metadat i mnohé ETL nástroje, avšak provázanost se zpracováním dat a nástroji koncových uživatelů je zde teprve v plenkách.

Související články:
Altiris 6; svěží vánek v oblasti řízení životního cyklu
Hledání nástroje pro správu aplikací
Jak správně nakupovat software pro firmu?
Integrace podnikových aplikací za pomoci Microsoft BizTalk Serveru 2002
Do budoucna mohou uživatelé konečně očekávat také využití nestrukturovaných dat. Až 80 % veškerých dat či potenciálních informací bývá k dispozici ve formě textu, obrázků nebo audiosouborů, které zpravidla nejsou integrovány se strukturovanými daty datového skladu. V tomto směru je možné očekávat řešení na všech úrovních podnikových systémů. IBM dodává v podobě Information Integratoru middleware pro integraci dat a všichni databázoví výrobci pracují na metodách ukládání XML a nestrukturovaných dat. Hummingbird začleňuje do svých produktů za účelem zpracování takových dat vyhledávací engine, zatímco Microsoft dovoluje tvorbu referencí na tento typ informací pomocí Smart Tags.

Autor: Carsten Bange, redaktorka Computerworldu

Zveřejněno se souhlasem týdeníku Computerworld.