Базы данных Oracle - статьи

         

Комментарии к статье Ч.Бергера «»


,
старший консультант отдела бизнес-анализа и хранилищ данных,
Консалтинговая группа «Борлас» (Москва)

Источник: Oracle Magazine/Русское Издание

Истоки развития Data Mining от Oracle восходят к 1998 году, когда корпорация серьезно занялась расширением этого функционала и его инструментальных средств. В состав СУБД Oracle 8i была включена частичная поддержка алгоритмов Data Mining. Затем Oracle приобрела подразделение компании Thinking Machines, занимающегося разработкой ПО для интеллектуального анализа данных под общим названием Darwin. Основной идей было встроить систему интеллектуального анализа данных в будущие версии СУБД Oracle. Параллельно Oracle выпускает набор инструментальных средств Oracle Data Mining Suite. На конференции Oracle OpenWorld’2000 выходит статья “Data Mining от Oracle: настоящее и будущее” Ч.Бергера, занимающегося развитием этой технологии. С момента той публикации прошло практически 7 лет. За это время многое изменилось, и сделанные еще 2000 году предположения о будущем Data Mining абсолютно все воплотились в жизнь.

Технологии Data Mining появились в составе движка базы данных, начиная с Oracle 9i. Было очевидно желание Oracle встроить алгоритмы анализа в базу данных, чтобы минимизировать потери при передаче и подготовке данных. Могучие функциональные возможности СУБД Oracle, включая многопоточность и распараллеливание, систему блокировок и изощренные механизмы разграничения прав доступа к информации, кардинально расширяли возможности Data Mining. Поэтому реализация опции Data Mining в составе движка базы данных давало колоссальную возможность для продвижения новой технологии и решения аналитических задач. А поскольку по сути СУБД является средой разработки приложений, необходимым условием успешного развития стало наличие специального API. Все это было удачно реализовано в СУБД Oracle. Сегодня ODM (Oracle Data Mining) – опция Oracle EE (Enterprise Edition). В редакциях Personal Edition, Standard Edition, Standard Edition One эта опция отсутствует.


ODM поддерживает все этапы технологии извлечения знаний из данных, включая постановку задачи, подготовку данных, автоматическое построение моделей, анализ и тестирование результатов, использование моделей в реальных приложениях. ODM состоит из двух компонентов: Oracle Data Mining Server – процедуры, реализующие различные алгоритмы извлечения данных и Oracle Data Mining API – API для разработки. Существенно, что модели строятся автоматически в процессе анализа имеющейся информации об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов, основанных на различных математических и статистических подходах. Важными техническими характеристиками ODM являются: работа в архитектуре клиент-сервер, широкое использование техники параллельных вычислений, высокая степень масштабируемости.
На данный момент в состав Oracle Data Mining реализованы алгоритмы для следующих моделей:
  • Классификационные модели

  • Деревья решений
  • Наивный Байесовский классификатор
  • Адаптивная Байесовская сеть
  • Метод опорных векторов

  • Регрессионные модели

    • Метод опорных векторов

    • Поиск существенных атрибутов

      • Метод минимальной длины описания

      • Кластеризация



        • Иерархический алгоритм k-средних
        • Иерархический алгоритм с неизвестным число кластеров

        • Поиск ассоциаций

          • Априорный алгоритм

          • Выделение признаков

            • Алгоритм сингулярной декомпозиции

            • Выделение аномальных выбросов
              Таким образом, за 7 лет Oracle серьезно развил математическую составляющую опции Data Mining. Появились новые алгоритмы и методы, были переписаны и оптимизированы старые алгоритмы. Кроме того, появились совсем новые подходы к анализу данных, в частности, Text Mining - анализ структурированных и неструктурированных текстовых данных. Text Mining позволяет вместе с опцией Oracle Text производить глубокий анализ текстовых документов для того, чтобы затем их классифицировать по атрибутам и кластеризовать. Еще одним нововведением стало появление BLAST-алгоритма, позволяющего искать закономерности в последовательностях букв и цифр. Технологии BLAST-анализа нашли широкое применение в естественных науках, особенно в медицине для анализа последовательностей генов и в химии для анализа химических соединений. Кроме математической составляющей, очень широкое развитие получили интерфейсы взаимодействия пользователей и разработчиков с ODM. На программном уровне с ODM можно взаимодействовать с помощью Java API или PL/SQL API, а на графическом - с помощью клиентского Java-приложения Oracle Data Miner или c помощью специального расширения для Microsoft Excel – Oracle Spreadsheet Add-In for Predictive Analytics. Oracle Java Data Mining API соответствует международным стандартам JSR-73, JSR-247 и PMML. Таким образом функционал Oracle Data Mining можно легко и просто встраивать в любые приложения, поддерживающие эти стандарты.


              Говоря о современном Data Mining, можно выделить следующие тенденции:
            • попытка сделать Data Mining более “простым” и удобным для использования.

              Потому как процесс создания модели анализа достаточно трудоемок и сложен, в состав клиентского приложения Oracle Data Miner включены специальные мастера-помощники, которые позволяют пользователям легко и быстро строить адекватные модели. Они шаг за шагом помогают пользователям пройти через все этапы data mining. С другой стороны, в язык SQL добавлены специальные функции для прогнозной аналитики. Их можно легко и просто использовать, не надо строить никаких моделей, достаточно подать на вход выборку и указать прогнозируемые величины. Та же тенденция проявилась и в Oracle Spreadsheet Add-In, который позволяет строить прогнозы и выполнять анализ данных в режиме реального времени.
            • интеграция приложений.

              Следует отметить, что это общая тенденция для всей отрасли ИТ. В Oracle Data Miner добавлены средства для интеграции с Oracle Business Intelligence.
            • работа Data Mining в режиме реального времени.

              Уже упоминались SQL-функции и Excel Add-In. Самым же важным примером этой тенденции является Oracle Real-Time Decisions, новый специальный инструмент, предназначенный для автоматизации принятия решений в режиме реального времени. Он идеально подходит для SOA-среды и легко интегрируется в любые бизнес-процессы на предприятии. Основной его плюс - самонастраивающиеся прогностические модели, которые можно оперативно запускать через Web-сервисы. Более подробно о продукте Oracle Real Time Decisions можно прочитать в статье “Глубинный анализ данных в режиме реального времени: Oracle Real Time Decisions”. А в статье “Байесовский классификатор и регрессионная модель в ORTD: практический пример” рассматривается реальный бизнес пример, который решается как в ODM, так и ORTD.


            • Содержание раздела