Сабір Асадуллаев
Ідея сховищ даних (СД), запропонована Б. Інмона, і концепція оперативної аналітичної обробки даних (OLAP), розроблена Е. Коддом, вдало доповнили один одного. Практика побудови сховищ даних виявила необхідність впровадження вітрин даних. За минуле десятиліття аналітики розробили близько десятка різних архітектур корпоративних інформаційних систем на основі сховищ і вітрин даних, призначених для підтримки прийняття рішень і аналітичних досліджень. До їх числа відносяться:
- віртуальні сховища даних;
- незалежні вітрини даних;
- централізовані сховища даних;
- інмонова модель з шарами детальних і консолідованих даних;
- розширена інмонова модель з персональними вітринами даних;
- інверсна інмонова модель;
- централізоване сховище з накопиченням даних в незалежних вітринах;
- централізоване сховище з тематичними вітринами даних;
- централізоване очищення даних з паралельними сховищами і вітринами даних.
Відповідно до цих архітектурою провідні фірми пропонують свої рішення, засновані на що випускаються і розробляються продуктах. У створенні великих сховищ даних лідирують IBM, Informix, NCR, Oracle, Red Brick, SAS, Sybase. Крім того, на ринку продуктів для побудови і використання сховищ даних значне місце займають Brann Software, Business Objects, Cayenne Software, Computer Associates, MicroStrategy, Prism Solutions, Brio Technology, Cognos, Platinum Technology.
Перед організаціями, охочими поліпшити якість інформаційного обслуговування і підвищити ефективність використання корпоративної інформації, постає питання співвідношення, з одного боку, архітектури корпоративних інформаційних систем, з іншого фірмових рішень, і з третій- потреби цих організацій, як вже виникли, так і тих, що неодмінно з'являться в перспективі.
У цій статті розглядаються архітектурні рішення провідних фірм-виробників програмного забезпечення, які виявляють значну активність на російському ринку.
IBM: Visual Warehouse
Корпорація IBM належить до числа компаній, що надають повний набір послуг, програмного і апаратного забезпечення, необхідного для побудови сховищ даних.
Під назвою Visual Warehouse фірма IBM пропонує архітектурне рішення вітрин даних та програмного компонента для їх створення. Це технологія збору даних з різних транзакційних систем, локальних і віддалених плоских файлів, великих двійкових об'єктів (BLOB) та інших джерел. Пакет Visual Warehouse містить інтегровані програмні продукти, які відповідають різним рівням архітектури (див. Табл. 1). Дані з цих джерел трансформуються за правилами метаданих, що визначаються за допомогою графічного інтерфейсу користувача на платформі Win- OS / 2 або Microsoft Windows. На основі одного або декількох джерел для користувача або групи користувачів можна готувати бізнес-огляди.
Таблиця 1. Засоби для створення вітрин даних IBM
Метадані, створені і імпортовані адміністратором з різних джерел, керують усім процесом збору даних. Для кінцевих користувачів вони з Visual Warehouse експортуються в засіб управління метаданими DataGuide.
ПО Client Application Enabler забезпечує через ODBC доступ до однієї або через сервер DataJoiner- до кількох вітринах даних. Доступ до даних підтримує ряд програм, розроблених як в самій IBM (Intelligent Decision Server, Intelligent Miner, Visualizer), так і в сторонніх фірмах- Andyne, Bryo, Business Objects, Cognos і багатьох інших. У цьому ряду слід згадати розробку PolyAnalyst російської фірми "Мегапьютер".
Таблиця 2. Кошти для створення інформаційних сховищ даних IBM
Як багатовимірної вітрини даних можна використовувати Essbase Analysis Server фірми Arbor Software і Decision-Support Suite Analysis Server компанії Pilot Software. Ці продукти працюють тільки з реляційними базами даних.
Система підготовки даних на корпоративному рівні включає Data Propagator Relational і Non-Relational, які захоплюють дані з транзакційних БД, не знижуючи їх продуктивності. Так як можливості Data Propagator Relational з очищення даних обмежені SQL, тут допустимо застосування спеціалізованого засобу Integrity фірми Vality Technologies.
В якості засобів управління даними IBM пропонує такі СУБД, як DB2 MVS, DB2 PE і DB2 / 400 SMP. Управління метаданими забезпечує ПО DataGuide, яке імпортує і зберігає інформацію про структуру даних, джерелах, власників, умови і правила, датах поновлення. Метадані групуються в глосарій, що забезпечує швидкий пошук необхідної інформації.
Для доставки даних служить ПО Lotus Notes. Крім того, користувачі можуть отримувати доступ до DB2 через Web-браузери. Як ПО проміжного шару IBM пропонує DataJoiner для розподілених вітрин даних та багаторівневих сховищ або ODBC для єдиною вітрини даних. ПО DataJoiner придатне для сховищ даних, створених на основі Oracle.
Пакет DataHub забезпечує управління СУБД DB2, інструментами DataPropagator і деякими СУБД, доступними через DataJoiner. Інший засіб, FlowMark, може управляти процесами збору інформації з безлічі платформ.
Серед великої кількості засобів доступу до даних виділяється Intelligent Miner, здатний виявляти тенденції за зразком і має програмний інтерфейс для взаємодії, наприклад, з Busyness Objects.
Informix: MetaCube
Фінансові результати II кварталу 1998 р дають підстави для надії, що Informix вийде з кризи. До цього ж прагнула фірма, переглядаючи свій продуктовий ряд, призначений для побудови транзакційних баз даних, сховищ і вітрин даних, а також для оперативної аналітичної обробки інформації.
Informix пропонує єдиний сервер Informix Dynamic Server і п'ять опцій для розширення його функціональності: Advanced Decision Support, яка підтримує оптимізацію обробки запитів для спеціалізованих індексів DSS; Extended Parallel для використання Informix Dynamic Server в багатопроцесорних комплексах різної архітектури; MetaCube ROLAP Option, що забезпечує багатомірний аналіз інформації; Universal Data Option для підтримки нових типів даних; Web Integration Option для інтеграції баз даних з Web-серверами.
Динамічна масштабируемая архітектура Informix DSA (Dynamic Scalable Architecture) дозволяє будувати ефективні транзакційні системи, вітрини і сховища даних. Модулі DataBlade продаються окремо, завдяки чому вартість модернізації продуктів Informix тримається в прийнятних рамках. Крім того, компанія планує переорієнтацію Unix на Windows NT як основну платформу.
Програмне забезпечення Informix і партнерів дає можливість отримувати дані з різних джерел: IMS, IDMS, VSAM, DB2 AS400, Adabas, Informix, Oracle і Sybase. Автоматизоване управління сховищем даних забезпечують такі інструменти, як, наприклад, Warehouse Manager фірми Prism Solutions Data. Informix поставляє засоби розробки додатків і доступу до даних з БД Informix- NewEra, ViewPoint і HyperScript. ПО цієї категорії постачають понад 50 фірм.
У сімейство MetaCube входять Analysis Engine- засіб реляційної аналітичної обробки (ROLAP), Explorer- спеціалізоване засіб підтримки прийняття рішень і MetaCube для Excel- засіб перенесення результатів багатовимірного аналізу великих обсягів даних в середу Excel.
MetaCube Warehouse Optimizer використовується для аналізу і вибору стратегії збору даних; для управління завантаженням даних і календарним плануванням призначений планувальник MetaCube Sheduler. ПО MetaCube Aggregator служить для агрегування даних в сховищі. Агент MetaCube for Web забезпечує доступ до аналітичних засобів з браузерів. З метою розподілу часу між завданнями застосовується інструмент відпрацювання ресурсномістких запитів у фоновому режимі QueryBack, що функціонує на сервері БД.
Засоби доступу до даних, розміщених в MetaCube, виробляють такі фірми, як Cognos, Business Objects, Andyne і інші.
NCR: Scalable Data Warehouse
Компанія NCR, мабуть, має найбільш відпрацьованою методикою, в яку вкладено весь п'ятнадцятирічний досвід створення і впровадження приблизно 600 сховищ даних. Фірмі належать рекорди як з розробки найбільшого в світі сховища (від 7 до 24 Тб різних даних), так і за результатами тестів TPC-D на підтримку прийняття рішень у всіх трьох класах сховищ об'емом- 100 Мб, 300 Мб і 1 Тб.
Основу технології Scalable Data Warehouse становить реляційна СУБД NCR Teradata, розроблена спеціально для архітектур з масовим паралелізмом і функціонує під управлінням ОС UNIX SVR4. Заплановано також перенесення СУБД Teradata на ОС Windows NT корпорації Microsoft і Solaris фірми Sun Microsystems.
Ця технологія дозволяє будувати сховища даних на основі СУБД Informix, SQL Server і Oracle. Як апаратного забезпечення NCR пропонує свої сервери WorldMark 5100, масштабована архітектура яких полегшує розширення сховища. Компанія також надає консультаційні послуги з підготовки архітектурного проекту сховища даних, його реалізації та управління ім.
При створенні корпоративних інформаційних систем на базі сховищ даних NCR пропонує підхід, у великій мірі заснований на класичній моделі Інмона. Дані з різних джерел (реляційних і нереляційних СУБД, послідовних і плоских файлів) піддаються очищенню, вилучення, фільтрації, погодженням, реорганізації за допомогою процедур, що розробляються для кожного замовника індивідуально. Очищені дані завантажуються в сховище за допомогою утиліт завантаження FastLoad і MultiLoad.
Сховище даних в архітектурі NCR, засноване на СУБД Teradata, є єдиним джерелом достовірної інформації. Тому консультанти фірми вказують на неприпустимість створення незалежних вітрин даних. Детальні дані з центрального сховища тиражуються в тематичні вітрини, які можуть бути створені на основі будь-якої комерційної СУБД, в тому числі Teradata. Вітрини даних призначені для обслуговування кінцевих користувачів і містять агреговані дані.
Як засіб управління інформаційними ресурсами передбачається використовувати Unicenter TNG. Програмне забезпечення фірми SAS, базове ядро якого реалізує функції доступу до даних, їх аналізу, управління та подання до потужної середовищі розробки додатків, рекомендується для управління даними.
Oracle: архітектура мережевих обчислень
При побудові корпоративних інформаційних сховищ Oracle використовує традиційну архітектуру, що реалізує будь-який доступ до будь-яких даних з будь-якого джерела.
Розроблена корпорацією Oracle архітектура мережевих обчислень дає основу для переходу від принципу клієнт-сервер до концепції Web. Ця архітектура включає в себе п'ять логічних шарів. Шар джерел складають транзакційні бази даних, успадковані додатки на мейнфреймах, додатки клієнт-сервер, плоскі файли і інші зовнішні джерела даних. Інформація витягується з джерел, перетворюється, денормалізуется і транспортується в сховище або вітрину даних. Шар даних включає центральне сховище і залежні вітрину даних і OLAP-сервер. Шар OLAP і додатків складають Oracle Web Application Server, а також підтримувані їм додатка і Web-картриджі. Сервер додатків вносить в архітектуру додатковий рівень, в завдання якого входить забезпечення надійності, захищеності, цілісності транзакцій, підтримка розподілених транзакцій і балансування навантаження. В даний час Express Web Agent реалізований у вигляді CGI-програми. Картридж PL / SQL генерує на Web Application Server форму, що дозволяє переглядати дані з вітрини, а потім передає її на Web-сервер.
Завдяки тому, що шар Web-додатків існує окремо від Web-сервера, в шарі публікацій можна застосовувати стандартні Web-сервери фірми Microsoft, Netscape або Spy-Glass. Останній поставляється в складі Oracle Web Application Server. Тонкі клієнти, такі, як браузери фірм Netscape Navigator або Microsoft Internet Explorer, складають шар презентацій.
В об'єктно-орієнтованому середовищі розробки Express Objects 2.1 створюються системи оперативної аналітичної обробки інформації (OLAP), які використовують централізоване сховище для текстових описів об'єктів. Утиліта Express Web Publisher, також включена в комплект нової версії, дає користувачам можливість розгортати OLAP-додатки в мережах intranet / Internet без програмування.
Таблиця 3. Засоби для створення інформаційних сховищ даних NCR
Комплект ПО Oracle Data Mart Suite призначений для створення інформаційних вітрин, що функціонують в середовищі Windows NT. Він включає в себе Oracle7 Enterprise Server, Oracle Data Mart Builder, Oracle Data Mart Designer, клієнтське інструментальне засіб Discoverer 3.0 і Oracle Web Server. Інший комплект, Oracle Application Data Warehouse, поєднує в собі властивості прикладного сховища даних і OLAP-інструментарію. Існує велика кількість програмного забезпечення, що пропонується третіми фірмами для розширення функціональних можливостей сховищ даних на основі продуктів Oracle. Так, компанії QAD, Oracle і Data General випускають єдиний комплекс Enterprise Data Warehouse для зберігання даних.
Таблиця 4. Засоби Oracle для створення інформаційних сховищ
Продукти SAS Institute
На відміну від основних постачальників ПО для сховищ даних, SAS Institute пропонує організовувати сховища не на основі реляційних СУБД, а в SAS-наборах, що підтримують одночасне завантажування та читання великих обсягів даних. SAS-набори- це аналоги таблиць в реляційних СУБД, що представляють собою файли до 2 Гб для деяких OC UNIX, які можуть розташовуватися в різних каталогах на різних дисках. Сховище складається з безлічі таких наборів і досягає 3 Тб. Архітектура сховища SAS зображена на рис. 1, а кошти для їх створення перераховані в таблиці 5.
Таблиця 5. Засоби SAS для створення інформаційних сховищ
Побудова сховищ даних, відповідно до методики SAS Institute, включає в себе процеси завантаження, управління даними і експлуатації сховища. За допомогою продуктів SAS можна створити централізоване, розподілене або віртуальне сховище. Модульний принцип цього програмного забезпечення дозволяє використовувати його в різних архітектурах.
Мал. 1. Архітектура інформаційного сховища SAS
ПО доступу SAS / Access служить для отримання даних з СУБД Oracle, Informix, DB2 і багатьох інших. Засоби завантаження даних в інформаційне сховище (BASE / SAS, SAS / FSP, SAS / Access) надає відповідний інструментарій, призначений для створення процедур завантаження даних в інформаційне сховище і їх перетворення в необхідні формати. BASE / SAS, що включає в себе мову програмування четвертого покоління, може бути використано як середовище для розробки додатків. SAS / FSP підтримує роботу з даними при їх введенні, редагуванні, оновленні, перегляді і при формуванні запитів.
ПО управління сховищем даних Data Warehouse Administrator забезпечує повне управління як централізованим, так і розподіленим сховищем даних, зокрема контроль і планування процесу завантаження даних в сховище і управління метаданими. При використанні цього продукту в якості засобу проектування сховища буде створена найбільш ефективна структура даних.
При експлуатації можна використовувати пакет інтерактивного дослідження даних Enterprise Miner, інструмент інтерактивного створення звітів Enterprise Reporter, SAS / ASSIST для візуалізації даних і засіб аналітичної обробки даних SAS / Insight. Пакет SAS / Graph призначений для графічного представлення даних.
Для створення додатків в середовищі клієнт-сервер використовуються сервери SAS / Connect, SAS / Share і SAS / SPDS. Сервер SAS / Connect є вбудованим компонентом системи SAS, що підтримує дистанційний доступ до різних зовнішніх джерел даних. Продукт SAS / Share дозволяє здійснювати багато користувачів доступ до файлів системи SAS. Сервер SAS / SPDS (Scalable Performance Data Server) є засобом забезпечення багатокористувацького доступу до сховища даних з можливістю протоколювання подій.
Для складних аналітичних розрахунків використовується засіб побудови багатовимірних баз даних SAS / MDDB. В меню-орієнтованої середовищі SAS / EIS можлива швидка розробка OLAP-додатків без програмування. Для інтерактивної розробки додатків з використанням мови Screen Control Language (SCL) служить продукт SAS / AF.
Пакет SAS / STAT застосовується для різних видів статистичної обробки даних. Додаткові можливості надає пакет SAS / ETS (Econometrics and Time Series).
До безперечних переваг ПО компанії SAS Institute слід віднести підтримку технології Multi Vendor Architecture (MVA), що дозволяє йому функціонувати практично на будь-яких обчислювальних платформах- від персональних комп'ютерів до мейнфреймів.
Технологія Multiple Engine Architecture (MEA) забезпечує доступ до даних з різних джерел: СУБД Oracle, Informix, Adabas, Sybase, DB2, з ієрархічних і успадкованих файлів, структурованих текстових файлів більше п'ятдесяти форматів. ПО підтримує різні моделі клієнт-сервер з можливістю дистанційного виконання завдань. Крім того, SAS Institute пропонує комплексне, функціонально закінчене рішення SAS / IntrNet, що дозволяє з високою ефективністю експлуатувати SAS Data Warehouse в середовищі Internet / intranet.
Sybase: WarehouseNOW
У компанії Sybase централізований підхід вважають досить ризикованим, тому основний акцент тут переноситься на створення розподілених вітрин даних, які в подальшому можуть бути об'єднані в централізоване сховище, архітектура якого показана на рис. 2, а кошти для створення- в таблиці 6.
Для проектування корпоративних сховищ даних є сімейство продуктів PowerDesigner, що включає шість інтегрованих модулів: Process Analyst для дослідження потоків даних; DataArchitect для послідовної розробки концептуальної і фізичної моделей; AppModeler для створення фізичної моделі даних і об'єктів додатків; MetaWorks для групової роботи, спільного доступу до інформації та управління моделлю; WarehouseArchitect для проектування сховищ даних; Viewer для графічного перегляду інформації про модель.
Доступ до транзакційних і архівними даними забезпечує сімейство програмних продуктів Enterprise Connect, в яке входять: DirectConnect для доступу до даних на основі MVS і AS / 400; OmniConnect для єдиного доступу до різнорідних джерел; InfoHub для доступу до нереляційних даними на мейнфреймах; jConnect як реалізація стандарту JDBC. Це ж сімейство підтримує цілісність даних в розподілених вітринах.
Для переміщення даних у вітрину застосовуються програмні продукти сімейства Sybase Data Movement, яке включає Replication Server, Replication Agents, Replication Toolkit for MVS, SQL Anywhere і SQL Remote. Пакет Replication Server підтримує тиражування даних, як инкрементальное, так і за подією, і дозволяє підключати довільні програми перетворення даних, забезпечуючи тим самим закінчене рішення для переміщення і очищення даних.
При створенні вітрин бажано використовувати сервер Sybase IQ- спеціалізовану СУБД, в якій підтримуються вертикальне зберігання даних, стиснення даних і технологія обробки запитів Bit-Wise. Для управління великим обсягом даних застосовуються сервер Sybase MPP, що дозволяє обробляти масиви даних розміром до 2 Тб.
Мал. 2. Архітектура сховищ даних Sybase
Набір інтерфейсів Sybase Open Client / Open Server є основою програмних продуктів як Sybase, так і третіх фірм. Серверний інтерфейс для розподілених баз даних Open Server підтримує будь-які клієнтські програми (CT-Lib, DB-Lib, ODBC, JDBC, Web), SQL- і не-SQL джерела даних і прикладні служби (сервіси).
Для створення вітрин даних рекомендується сервер Sybase IQ, який представляє собою спеціалізовану СУБД, в якій підтримуються вертикальне зберігання даних, стиснення даних і технологія обробки запитів Bit-Wise. Для управління великими обсягами даних застосовується сервер Sybase MPP, призначений для роботи на масивно-паралельних архітектурах і дозволяє обробляти масиви даних розміром до 2 Тб.
Таблиця 6. Засоби для створення сховищ даних Sybase
Сервер додатків NetImpact Dynamo є повністю HTTP-сумісним сервером, що забезпечує інтерпретує шлюз між Web-сервером і СУБД Sybase. Він посилає SQL-запити до бази даних, отримані результати обробки запиту перетворюються в HTML-формат і повертаються на Web-сервер. Для швидкого створення вітрин даних Sybase пропонує інтегрований пакет QuickStart DataMart для Windows NT.
висновок
Розглядаючи фірмові архітектури побудови сховищ даних, можна прийти до несподіваного висновку: ці рішення не конкурують один з одним, а скоріше адресовані різним сегментам ринку. Більш того, при створенні корпоративної інформаційної системи на основі сховищ даних можливо її модульну побудову з використанням програмного забезпечення різних фірм. Таке рішення може найбільш повно врахувати специфіку конкретної організації, її потреби, фінансові можливості, наявність кваліфікованих фахівців по роботі з продуктами.
За рамками даної роботи залишилися такі важливі аспекти сховищ даних, як тести продуктивності апаратно-програмних комплексів, досвід реалізації, дослідження аналітичних і корпоративних архітектур, стратегія і методика побудови. До цих тем ми сподіваємося повернутися в наступних статтях.
Без обговорення цих питань досить важко зробити певні висновки щодо застосовності продуктів тих чи інших фірм в конкретних банках, так як число користувачів сховища в різних банках може варіюватися від одного-двох до декількох тисяч. У другому випадку необхідний захищений доступ до інформації з введенням прав на читання, доповнення, зміна даних та їх переміщення в архів. Безумовно, в залежності від масштабів змінюється і архітектура: один-два користувача можуть отримати прямий доступ до сховища, для тисяч користувачів необхідно поверх сховища створити тематичні або подразделенческіе вітрини даних і вже поверх тих розмістити Web-сервери.
Проте, проаналізувавши фірмові архітектури корпоративних систем на основі сховищ даних, ми можемо дати деякі практичні рекомендації. Якщо важливе значення мають конфіденційність і безпеку розміщуються в сховище даних, то краще за все використовувати програмно-апаратні комплекси IBM, зарекомендували себе як найбільш захищені. Програмні рішення на основі продуктів фірми Informix відомі своєю невисокою ціною і їх можна рекомендувати для організацій з обмеженим бюджетом. Фірма NCR володіє не тільки рекордними сервером WorldMark і СУБД Teradata, але і величезним досвідом створення сховищ; її послугами можна скористатися як для реалізації терабайтних проектів, так і для отримання консультацій. Сервер баз даних Oracle реалізований практично на всіх апаратних платформах, що в сукупності зі стійким становищем фірми дозволяє рекомендувати його для використання в довгострокових проектах, розрахованих на масштабованість. Фірма SAS крім засобів створення сховищ пропонує один з кращих пакетів аналітичної і статистичної обробки даних, який може бути використаний на робочому місці в поєднанні з будь-яким сховищем або вітриною даних. Рішення фірми Sybase, відомі своїм швидкодією, представляють особливий інтерес для тих, хто зупинив свій вибір на розподілених незалежних вітринах даних.
Версія для друку
Тільки зареєстровані користувачі можуть залишати коментарі.