Premium

Získejte všechny články
jen za 89 Kč/měsíc

Vysoké požadavky na skladování dat

Datový sklad (data warehouse) hraje při podnikovém zpracování dat klíčovou roli. To se odráží i ve skutečnosti, že je dnes využíván ve firmách prakticky ze všech možných oblastí: od dodavatelských řetězců přes finančnictví a controlling až po styk se zákazníky. Vzhledem ke stále větším nárokům na tyto systémy zřejmě jejich funkcionalita i výkon v následujících letech projdou podstatnými proměnami.

Nástroje a metody pro integraci, ukládání a úpravu podnikových dat představují ústřední komponenty každého datového skladu. Aby zajistily úspěch realizovaných projektů, musejí především technicky dobře podporovat extrakci, transformaci a nahrávání dat (ETL). Stále důležitější roli přitom hraje zjišťování stavu a měření kvality existujících dat (data profiling), stejně jako proti poruchám odolné prohledávání a čištění dat pro konkrétní aplikace či případy použití (data cleansing).

Zatímco zavedení prodejci databází se v této oblasti teprve začínají orientovat, bezpočet specialistů -- dodavatelů BI (Business Intelligence) a ETL (Extraction, Transformation and Loading) řešení -- už nabízí vlastní nebo koupené produkty tohoto typu. Například společnost SAS Institute získala firmu Dataflux, která se zaměřuje na kvalitu dat, zatímco Ascential Software nabízí produkt pro profilování a čištění doplňující klasické ETL v podobě Quality Stage. Jejich konkurenti Informatica a Oracle už ale také uvedli na trh první verze svých řešení pro data profiling. K dalším příkladům patří specialista na kvalitu dat Group 1, který si dostupnost ETL techniky zajistil akvizicí firmy Sagent, podobně jako společnost Trillium, jež se zaměřuje na cleansing a nedávno převzala metodu datového profilingu od firmy Avellino.

Analýza a integrace

Schéma warehouse:

1.  Aplikační nástroje

2.  Úprava dat

3.  Reporting

4.  Data mining

5.  Alerting

6.  Ukládání dat

7.  Hromadná data

8.  Integrace MDB a RDB

9.  Řízení životního cyklu

10. Integrace dat

11. Správa kvality dat

12. Hromadná data

13. Zpracování v reálném čase

14. Back-endové systémy

15. Metadata

16. Operacionalizace datového skladu

17. Nestrukturovaná data

Další trend souvisí s datovým skladem fungujícím v reálném čase. Cílem je lepší dohled nad obchodními procesy (Business Activity Monitoring, BAM) a signalizace výskytu z obchodního hlediska důležitých událostí pomocí výstražných funkcí (alerting). Z technického hlediska to vyžaduje zejména kombinaci dosavadního dávkového zpracování s metodami messagingu, jaké nabízí software pro integraci podnikových aplikací (Enterprise Application Integration, EAI).

Mezi příklady produktů, které jsou kombinací ETL a EAI řešení, patří enginy využívající listener technologií od společností jako Ascential a Informatica, funkce messagingu v systému Data Integrator firmy Business Objects nebo Business Warehouse začleněný do platformy pro firemní infrastrukturu Netweaver u společnosti SAP. Do této kategorie dále spadají ETL produkty rozšířené o funkce pro hromadný přenos transakčních dat -- náleží sem Ascential, který koupil firmu Mercator, nebo společnost Inway Software, jež převzala adaptéry od firmy Actional specializující se na EAI.

Ohniska na všech systémových úrovních: Při úpravě, ukládání a  integraci dat v datovém skladu se středem pozornosti stávají nové problémy a oblasti aplikací
Díky rostoucím objemům dat se mimoto může u datového skladu stát velkou výzvou zajištění přiměřené doby ukládání a dotazování. Mnozí dodavatelé zkoušejí těmto problémům čelit prostřednictvím využití 64bitového hardwaru, nasazení massive parallel databází nebo pomocí kombinace technologií typu symetric multiprocessing (SMP) a massive parallel processing (MPP), jaké vyvíjejí společnosti IBM, NCR nebo Netezza. Naproti tomu Oracle sází spíše na cenově výhodné hardwarové architektury coby bázi pro řešení datového skladu a využívá také linuxové počítače propojené v síti.

ETL nástroje však při zpracování hromadných dat často vykazují výkonnostní problémy související s propustností dat. Pomoc zde slibují metody jako paralelizace aplikací, již využívá Ascential, nasazení nástrojů typu Bulk Loader nebo ještě výkonnější operace doplňování polí cílové databáze prováděné s využitím skriptovacího jazyka samotného ETL řešení, což nabízí například Hummingbird ve svém produktu Genio.

Multidimenzionální databáze (MDB) jsou velmi užitečné jako decentralizovaně spravovaná datová tržiště v technických odděleních nebo coby doplněk relačních datových skladů (RDB) pro agregovaná data s vysokými požadavky na rychlost zpracování dotazů. Oba typy implementací

Až 80 % veškerých informací bývá k dispozici ve formě textu, obrázků či audiosouborů, proto bude v následujících letech středem zájmu zpracování nestrukturovaných dat.

jsou však často odlišné jak co se týká datového modelu, tak pokud jde dotazovací jazyk nebo rozhraní. Cestu k integraci otevírají kupříkladu Microsoft a SAS nebo Oracle, který v 10g sdružuje obě techniky ukládání. Kromě toho posilují výrobci jako Applix, Hyperion, MIS či MIK možnosti provázání svých řešení a výměny dat s dalšími databázemi. Protože vývoj datových skladů neustává, nabývá na důležitosti řízení životního cyklu (lifecycle management), které zahrnuje správu základních dat, kontrolu a optimalizaci databázových zdrojů nebo kalkulace a zabezpečení potřebného výkonu. Jako příklad je možné uvést optimalizaci dotazů či ukládacích struktur u IBM a NCR. Modelování a udržování stále se měnících struktur datových skladů může být navíc podporováno na úrovni datové integrace, a to prostřednictvím ETL nástrojů (jako Cognos Decisionstream), aplikačních serverů (SAP BW) nebo speciálních aplikací (řešení firmy Kalido).

Dalším trendem je modernizace datových skladů, neboť jejich architektura bude do budoucna muset podporovat webové technologie a zahrnovat robustní škálovatelný aplikační server. Mnohé funkce dnes přebírá databáze - například tvorbu modelů pro reporting a analýzu (data mining) nebo mechanismy pro aktuální dohled a upozorňování (alerting). Podobně je pak například tvorba standardních reportů přebírána zvláštními servery nebo databázemi datových skladů, neboť ty pak dovolují provádět historizaci nebo integraci dat z různých zdrojů jinak než v samotných provozních systémech. Mezi takové produkty patří Reporting Services od Microsoftu, jakož i řešení pro hromadnou tvorbu reportů od společností Actuate, Business Objects, Cognos, Information Builders nebo Microstrategy.

Vytoužená metadata

Stále důležitější roli bude hrát v oblasti datových skladů zpracování metadat, která už neponesou pouze technické, ale také obchodní informace - to umožní nástroje jako SuperGlue firmy Informatica

Značný význam při využití datových skladů by měl být v budoucnu spatřován rovněž v metadatech. Ta už nebudou představovat pouze technické informace, jako například údaje o datových typech, ale budou uchovávat také obchodně orientované informace. Analogicky pak budou vyžadovány i nové metody pro ukládání, výměnu a poskytování metadat.

Standardizovaný formát pro jejich popis a výměnu nabízí specifikace Common Warehouse Metamodel (CMW), jejímž vývojem se zabývá skupina OMG (Object Management Group). Oracle, Hyperion a SAS ji už sice využívají, nicméně převážně pro jednoduchou výměnu datových modelů. Speciální metody založené na využití metadat nabízí také Ascential se svým MetaBrokerem nebo Informatica v podobě produktu SuperGlue. Právě tak slouží k integraci a analýze metadat i mnohé ETL nástroje, avšak provázanost se zpracováním dat a nástroji koncových uživatelů je zde teprve v plenkách.

Související články:
Altiris 6; svěží vánek v oblasti řízení životního cyklu
Hledání nástroje pro správu aplikací
Jak správně nakupovat software pro firmu?
Integrace podnikových aplikací za pomoci Microsoft BizTalk Serveru 2002
Do budoucna mohou uživatelé konečně očekávat také využití nestrukturovaných dat. Až 80 % veškerých dat či potenciálních informací bývá k dispozici ve formě textu, obrázků nebo audiosouborů, které zpravidla nejsou integrovány se strukturovanými daty datového skladu. V tomto směru je možné očekávat řešení na všech úrovních podnikových systémů. IBM dodává v podobě Information Integratoru middleware pro integraci dat a všichni databázoví výrobci pracují na metodách ukládání XML a nestrukturovaných dat. Hummingbird začleňuje do svých produktů za účelem zpracování takových dat vyhledávací engine, zatímco Microsoft dovoluje tvorbu referencí na tento typ informací pomocí Smart Tags.

Autor: Carsten Bange, redaktorka Computerworldu

Zveřejněno se souhlasem týdeníku Computerworld.

 

  • Nejčtenější

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 169 příspěvků

23. dubna 2024  13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti

v diskusi je 28 příspěvků

21. dubna 2024

Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 51 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

v diskusi je 16 příspěvků

20. dubna 2024

Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Proč umělá inteligence lže a proč kvůli ní zhloupneme. Počítačový expert vypráví

v diskusi je 17 příspěvků

22. dubna 2024

Premium Zatímco průmyslová revoluce zaváděla masivní využití strojů, které nahradily lidské svaly, nyní...

Sphere jako osmý div světa? Zábavní komplex ve Vegas je technologický zážitek

v diskusi je 7 příspěvků

25. dubna 2024

Uvidíte v ní famózní obraz s nejvyšším rozlišením na světě, do uší zahraje sto šedesát tisíc...

POZOR VLAK: Slavíme půl století pražského metra, vznikla k tomu unikátní hra

v diskusi jsou 3 příspěvky

24. dubna 2024  7:29

Pro Československo, a především pro Prahu, to byl slavný den, devátého května 1974 byl slavnostně...

Jiří Horák obnovil ČSSD a dovedl ji do parlamentu. Se Zemanem si nerozuměl

v diskusi jsou 3 příspěvky

24. dubna 2024

Před 100 lety se narodil Jiří Horák, který po sametové revoluci pomáhal znovuobnovit sociální...

Dnes už se bez nich válčit nedá. Raketový vzestup bojových dronů

v diskusi je 43 příspěvků

24. dubna 2024

Bezpilotní letadla (drony) jsou v posledních dvou dekádách na raketovém vzestupu. Přispěla k tomu...

Manželé Babišovi se rozcházejí, přejí si zachovat rodinnou harmonii

Podnikatel, předseda ANO a bývalý premiér Andrej Babiš (69) s manželkou Monikou (49) v pátek oznámili, že se...

Bývalý fitness trenér Kavalír zrušil asistovanou sebevraždu, manželka je těhotná

Bývalý fitness trenér Jan Kavalír (33) trpí osmým rokem amyotrofickou laterální sklerózou. 19. dubna tohoto roku měl ve...

Herečka Hunter Schaferová potvrdila románek se španělskou zpěvačkou

Americká herečka Hunter Schaferová potvrdila domněnky mnoha jejích fanoušků. A to sice, že před pěti lety opravdu...

Největší mýty o zubní hygieně, kvůli kterým si můžete zničit chrup

Možná si myslíte, že se v péči o zuby orientujete dost dobře, přesto v této oblasti stále ještě existuje spousta...

Tenistka Markéta Vondroušová se po necelých dvou letech manželství rozvádí

Sedmá hráčka světa a aktuální vítězka nejprestižnějšího turnaje světa Wimbledonu, tenistka Markéta Vondroušová (24), se...