CRISP-DM
Материал из MachineLearning.
CRISP-DM (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов интеллектуального анализа данных[1]. Опросы проводившиеся в 2002, 2004 и 2007 годах, показывают что эта методология часто применяется исследователями данных.[1] [1] [1]
Содержание |
Основные этапы
CRISP-DM разбивает процесс анализа данных на шесть основных этапов[1]:
Понимание бизнеса (Business Understanding)
Первая фаза процесса направлена на определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи интеллектуального анализа данных и предварительный план достижения целей проекта.
- Определить бизнес цели
- Оценить ситуацию
- Определить цели анализа данных
- Составить план проекта
Понимание данных (Data Understanding)
Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. Для этого необходимо выявить проблемы с качеством данных такие как ошибки или пропуски, понять что за данные имеются в наличии, попробовать отыскать интересные наборы данных или сформировать гипотезы о наличии скрытых закономерностей в данных.
- Собрать исходные данные
- Описать данные
- Исследовать данные
- Проверить качество данных
Подготовка данных (Data Preparation)
Фаза подготовки данных ставит целью получить итоговый набор данных, данных которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных. Задачи подготовки данных выполняются большое количество раз без какого-то наперед заданного порядка и включат в себя отбор таблиц, записей и атрибутов, а также конвертацию и очистку данных для моделирования.
- Отобрать данные
- Очистить данные
- Сделать производные данные
- Объединить данные
- Привести данные в нужный формат
Моделирование (Modeling)
В этой фазе к данным применяются разнообразные методики моделирования, строятся модели и их параметры настраиваются на оптимальные значения. Обычно для решения любой задачи анализа данных существует несколько различных подходов. Некоторые подходы накладывают особые требования на представление данных. Таким образом часто бывает нужен возврат на шаг назад к фазе подготовки данных.
- Выбрать методику моделирования
- Сделать тесты для модели
- Построить модель
- Оценить модель
Оценка (Evaluation)
На этом этапе проекта уже построена модель которая как представляется имеет хорошее качество с точки зрения анализа данных. Перед тем как внедрять эту модель, необходимо убедиться что мы достигли всех поставленных бизнес-целей. Основной целью является поиск важных бизнес-задач которым не было уделено должного внимания.
- Оценить результаты
- Сделать ревью процесса
- Определить следующие шаги
Развертывание (Deployment)
В зависимости от требований фаза развертывания может быть простой как составление финального отчета или сложной как автоматизация процесса анализа данных для решения бизнес-задач. Обычно развертывание это забота клиента. Однако, даже если аналитик не принимает участие в развертывании важно дать понять клиенту что ему нужно сделать для того чтобы начать использовать полученные модели.
- Запланировать развертывание
- Запланировать поддержку и мониторинг развернутого решения
- Сделать финальный отчет
- Сделать ревью проекта
Перемещение вперед и назад между фазами — обычное дело. В зависимости от результата фазы или её подзадачи, принимается решение в какую фазу переходить дальше. Стрелками обозначены наиболее важные и частые переходы между фазами.
Внешний круг символизирует циклическую природу анализа данных. Процесс анализа данных продолжается и после развертывания решения. Знания, полученные во время процесса, могут породить новые более тонкие вопросы бизнеса. Последующий процесс анализа данных выгодно проводить используя знания полученные ранее. [1]
История
Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и OHRA.
Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена SPSS Inc. на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation породивший Teradata — хранилище данных, имел штат консультантов и собственное программное обеспечение по анализу данных. В Daimler-Benz была большая команда интеллектуального анализа данных для удовлетворения нужд собственного бизнеса. OHRA, страховая компания начала исследовать потенциал интеллектуального анализа данных.
Первая версия методологии была выпущена CRISP-DM 1.0 в 1999.
CRISP-DM 2.0
В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, инициативная группа CRISP-DM собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации.
Преимущества методологии
- Пригодна для любой индустрии.
- Можно использовать любые инструменты.
- Близка по духу к KDD Process Model.
- Делает основной упор на интеллектуальном анализе данных.
Сноски
Внешние ссылки
- CRoss Industry Standard Process for Data Mining
- CRoss Industry Standard Process for Data Mining Blog
- Le site des dataminers Article publié par Pascal BIZZARI, Mai 2009
- The Data Mining Group (DMG): The DMG is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language (PMML)