Premium

Získejte všechny články
jen za 89 Kč/měsíc

Vysoké požadavky na skladování dat

Datový sklad (data warehouse) hraje při podnikovém zpracování dat klíčovou roli. To se odráží i ve skutečnosti, že je dnes využíván ve firmách prakticky ze všech možných oblastí: od dodavatelských řetězců přes finančnictví a controlling až po styk se zákazníky. Vzhledem ke stále větším nárokům na tyto systémy zřejmě jejich funkcionalita i výkon v následujících letech projdou podstatnými proměnami.

Nástroje a metody pro integraci, ukládání a úpravu podnikových dat představují ústřední komponenty každého datového skladu. Aby zajistily úspěch realizovaných projektů, musejí především technicky dobře podporovat extrakci, transformaci a nahrávání dat (ETL). Stále důležitější roli přitom hraje zjišťování stavu a měření kvality existujících dat (data profiling), stejně jako proti poruchám odolné prohledávání a čištění dat pro konkrétní aplikace či případy použití (data cleansing).

Zatímco zavedení prodejci databází se v této oblasti teprve začínají orientovat, bezpočet specialistů -- dodavatelů BI (Business Intelligence) a ETL (Extraction, Transformation and Loading) řešení -- už nabízí vlastní nebo koupené produkty tohoto typu. Například společnost SAS Institute získala firmu Dataflux, která se zaměřuje na kvalitu dat, zatímco Ascential Software nabízí produkt pro profilování a čištění doplňující klasické ETL v podobě Quality Stage. Jejich konkurenti Informatica a Oracle už ale také uvedli na trh první verze svých řešení pro data profiling. K dalším příkladům patří specialista na kvalitu dat Group 1, který si dostupnost ETL techniky zajistil akvizicí firmy Sagent, podobně jako společnost Trillium, jež se zaměřuje na cleansing a nedávno převzala metodu datového profilingu od firmy Avellino.

Analýza a integrace

Schéma warehouse:

1.  Aplikační nástroje

2.  Úprava dat

3.  Reporting

4.  Data mining

5.  Alerting

6.  Ukládání dat

7.  Hromadná data

8.  Integrace MDB a RDB

9.  Řízení životního cyklu

10. Integrace dat

11. Správa kvality dat

12. Hromadná data

13. Zpracování v reálném čase

14. Back-endové systémy

15. Metadata

16. Operacionalizace datového skladu

17. Nestrukturovaná data

Další trend souvisí s datovým skladem fungujícím v reálném čase. Cílem je lepší dohled nad obchodními procesy (Business Activity Monitoring, BAM) a signalizace výskytu z obchodního hlediska důležitých událostí pomocí výstražných funkcí (alerting). Z technického hlediska to vyžaduje zejména kombinaci dosavadního dávkového zpracování s metodami messagingu, jaké nabízí software pro integraci podnikových aplikací (Enterprise Application Integration, EAI).

Mezi příklady produktů, které jsou kombinací ETL a EAI řešení, patří enginy využívající listener technologií od společností jako Ascential a Informatica, funkce messagingu v systému Data Integrator firmy Business Objects nebo Business Warehouse začleněný do platformy pro firemní infrastrukturu Netweaver u společnosti SAP. Do této kategorie dále spadají ETL produkty rozšířené o funkce pro hromadný přenos transakčních dat -- náleží sem Ascential, který koupil firmu Mercator, nebo společnost Inway Software, jež převzala adaptéry od firmy Actional specializující se na EAI.

Ohniska na všech systémových úrovních: Při úpravě, ukládání a  integraci dat v datovém skladu se středem pozornosti stávají nové problémy a oblasti aplikací
Díky rostoucím objemům dat se mimoto může u datového skladu stát velkou výzvou zajištění přiměřené doby ukládání a dotazování. Mnozí dodavatelé zkoušejí těmto problémům čelit prostřednictvím využití 64bitového hardwaru, nasazení massive parallel databází nebo pomocí kombinace technologií typu symetric multiprocessing (SMP) a massive parallel processing (MPP), jaké vyvíjejí společnosti IBM, NCR nebo Netezza. Naproti tomu Oracle sází spíše na cenově výhodné hardwarové architektury coby bázi pro řešení datového skladu a využívá také linuxové počítače propojené v síti.

ETL nástroje však při zpracování hromadných dat často vykazují výkonnostní problémy související s propustností dat. Pomoc zde slibují metody jako paralelizace aplikací, již využívá Ascential, nasazení nástrojů typu Bulk Loader nebo ještě výkonnější operace doplňování polí cílové databáze prováděné s využitím skriptovacího jazyka samotného ETL řešení, což nabízí například Hummingbird ve svém produktu Genio.

Multidimenzionální databáze (MDB) jsou velmi užitečné jako decentralizovaně spravovaná datová tržiště v technických odděleních nebo coby doplněk relačních datových skladů (RDB) pro agregovaná data s vysokými požadavky na rychlost zpracování dotazů. Oba typy implementací

Až 80 % veškerých informací bývá k dispozici ve formě textu, obrázků či audiosouborů, proto bude v následujících letech středem zájmu zpracování nestrukturovaných dat.

jsou však často odlišné jak co se týká datového modelu, tak pokud jde dotazovací jazyk nebo rozhraní. Cestu k integraci otevírají kupříkladu Microsoft a SAS nebo Oracle, který v 10g sdružuje obě techniky ukládání. Kromě toho posilují výrobci jako Applix, Hyperion, MIS či MIK možnosti provázání svých řešení a výměny dat s dalšími databázemi. Protože vývoj datových skladů neustává, nabývá na důležitosti řízení životního cyklu (lifecycle management), které zahrnuje správu základních dat, kontrolu a optimalizaci databázových zdrojů nebo kalkulace a zabezpečení potřebného výkonu. Jako příklad je možné uvést optimalizaci dotazů či ukládacích struktur u IBM a NCR. Modelování a udržování stále se měnících struktur datových skladů může být navíc podporováno na úrovni datové integrace, a to prostřednictvím ETL nástrojů (jako Cognos Decisionstream), aplikačních serverů (SAP BW) nebo speciálních aplikací (řešení firmy Kalido).

Dalším trendem je modernizace datových skladů, neboť jejich architektura bude do budoucna muset podporovat webové technologie a zahrnovat robustní škálovatelný aplikační server. Mnohé funkce dnes přebírá databáze - například tvorbu modelů pro reporting a analýzu (data mining) nebo mechanismy pro aktuální dohled a upozorňování (alerting). Podobně je pak například tvorba standardních reportů přebírána zvláštními servery nebo databázemi datových skladů, neboť ty pak dovolují provádět historizaci nebo integraci dat z různých zdrojů jinak než v samotných provozních systémech. Mezi takové produkty patří Reporting Services od Microsoftu, jakož i řešení pro hromadnou tvorbu reportů od společností Actuate, Business Objects, Cognos, Information Builders nebo Microstrategy.

Vytoužená metadata

Stále důležitější roli bude hrát v oblasti datových skladů zpracování metadat, která už neponesou pouze technické, ale také obchodní informace - to umožní nástroje jako SuperGlue firmy Informatica

Značný význam při využití datových skladů by měl být v budoucnu spatřován rovněž v metadatech. Ta už nebudou představovat pouze technické informace, jako například údaje o datových typech, ale budou uchovávat také obchodně orientované informace. Analogicky pak budou vyžadovány i nové metody pro ukládání, výměnu a poskytování metadat.

Standardizovaný formát pro jejich popis a výměnu nabízí specifikace Common Warehouse Metamodel (CMW), jejímž vývojem se zabývá skupina OMG (Object Management Group). Oracle, Hyperion a SAS ji už sice využívají, nicméně převážně pro jednoduchou výměnu datových modelů. Speciální metody založené na využití metadat nabízí také Ascential se svým MetaBrokerem nebo Informatica v podobě produktu SuperGlue. Právě tak slouží k integraci a analýze metadat i mnohé ETL nástroje, avšak provázanost se zpracováním dat a nástroji koncových uživatelů je zde teprve v plenkách.

Související články:
Altiris 6; svěží vánek v oblasti řízení životního cyklu
Hledání nástroje pro správu aplikací
Jak správně nakupovat software pro firmu?
Integrace podnikových aplikací za pomoci Microsoft BizTalk Serveru 2002
Do budoucna mohou uživatelé konečně očekávat také využití nestrukturovaných dat. Až 80 % veškerých dat či potenciálních informací bývá k dispozici ve formě textu, obrázků nebo audiosouborů, které zpravidla nejsou integrovány se strukturovanými daty datového skladu. V tomto směru je možné očekávat řešení na všech úrovních podnikových systémů. IBM dodává v podobě Information Integratoru middleware pro integraci dat a všichni databázoví výrobci pracují na metodách ukládání XML a nestrukturovaných dat. Hummingbird začleňuje do svých produktů za účelem zpracování takových dat vyhledávací engine, zatímco Microsoft dovoluje tvorbu referencí na tento typ informací pomocí Smart Tags.

Autor: Carsten Bange, redaktorka Computerworldu

Zveřejněno se souhlasem týdeníku Computerworld.

 

  • Nejčtenější

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

v diskusi je 30 příspěvků

13. dubna 2024

V dubnu 1924 zažilo americké námořnictvo obrovský skandál, který se dostal na titulní stránky...

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 38 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 13 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

v diskusi je 17 příspěvků

15. dubna 2024

Položíte jej na polici před televizor, propojíte kabelem, zapojíte do zásuvky a během pár chvil se...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Dawesův plán na čas stabilizoval Německo, ale nástup Hitlera neodvrátil

v diskusi je 15 příspěvků

16. dubna 2024

Německá vláda přijala před 100 lety, v dubnu 1924, Dawesův plán. Byl to americký projekt na...

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 38 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

v diskusi je 5 příspěvků

18. dubna 2024

V roce 2004 vstoupilo Lotyšsko do NATO, přesto nemůže nechat svou případnou obranu pouze na bedrech...

Pes na Měsíci či Marsu už nemusí být fikce. NASA trénuje průzkumného robopsa

v diskusi jsou 4 příspěvky

17. dubna 2024  15:12

Vědci z projektu Lassie, sponzorovaném americkou NASA, zdokonalují robotického psa pro použití při...

Na dům mu spadl odpad z vesmíru. Nyní NASA potvrdila, že je to kus z baterie

v diskusi je 7 příspěvků

17. dubna 2024  11:50

Před několika týdny proběhla médii informace o varování německého Spolkového úřad pro civilní...

Měsíc bez starostí s BEBELO® Milk 2: Vyhrajte zásobu mléka pro miminko
Měsíc bez starostí s BEBELO® Milk 2: Vyhrajte zásobu mléka pro miminko

Zajistěte svému miminku to nejlepší hned od začátku s BEBELO® Milk 2, které je pečlivě vyvinuté pro harmonický růst a vývoj vašeho dítěte. Mléko...

Náhle zemřel zpěvák Maxim Turbulenc Daniel Vali, bylo mu 53 let

Ve věku 53 let zemřel zpěvák skupiny Maxim Turbulenc Daniel Vali. Letos by se svou kapelou oslavil 30 let na scéně....

Sexy Sandra Nováková pózovala pro Playboy. Focení schválil manžel

Herečka Sandra Nováková už několikrát při natáčení dokázala, že s odhalováním nemá problém. V minulosti přitom tvrdila,...

Charlotte spí na Hlaváku mezi feťáky, dluží spoustě lidí, říká matka Štikové

Charlotte Štiková (27) před rokem oznámila, že zhubla šedesát kilo. Na aktuálních fotkách, které sdílela na Instagramu...

Vykrojené trikoty budí emoce. Olympijská kolekce Nike je prý sexistická

Velkou kritiku vyvolala kolekce, kterou pro olympijský tým amerických atletek navrhla značka Nike. Pozornost vzbudily...

Rohlík pro dítě, nákup do kočárku. Co v obchodě projde a kdy už hrozí právník?

V obchodech platí pravidla, která občas zákazník nedodržuje. Někdy se navoní parfémem, aniž by použil tester, nebo...