CRISP-DM

Материал из MachineLearning.

Перейти к: навигация, поиск

CRISP-DM (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов интеллектуального анализа данных[1]. Опросы, проводившиеся в 2002, 2004 и 2007 годах, показывают, что эта методология часто применяется исследователями данных.[1] [1] [1]


Содержание

Зачем нужна методология?

Проекты анализа данных должны:

  • надежно исполняться испытанными средствами с предсказуемыми результатом (Reliable);
  • быть повторяемыми, особенно людьми с малым опытом в анализе данных (Repeatable).

Следование методике дает нам:

  • Средства для сохранения опыта проектов, накопленный опыт позволяет нам успешно повторять проекты;
  • Упрощение планирования и управления проектами, известная и привычная последовательность действий и набор необходимых артефактов;
  • Простоту включения в работу новых членов команды, уменьшение зависимости от "звезд".

Инструменты методологии

Иерархическая декомпозиция

Основная статья: CRISP-DM/Hierarchical breakdown

Применение общей модели в конкретном проекте

Основная статья: CRISP-DM/Generic model mapping

База знаний

Основная статья: CRISP-DM/Knowledge base
(TODO: рекомендации по накоплению базы знаний)

В базе знаний сохраняются хорошо зарекомендовавшие себя методы для последующего применения в других проектах.

Основные этапы проекта

CRISP-DM разбивает процесс анализа данных на шесть основных этапов[1]:


Понимание бизнеса (Business Understanding)

Основная статья: CRISP-DM/Business Understanding

Первая фаза процесса направлена на определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи интеллектуального анализа данных и предварительный план достижения целей проекта.

  • Определить бизнес цели
  • Оценить ситуацию
  • Определить цели анализа данных
  • Составить план проекта

Понимание данных (Data Understanding)

Основная статья: CRISP-DM/Data Understanding

Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. Для этого необходимо выявить проблемы с качеством данных такие как ошибки или пропуски, понять что за данные имеются в наличии, попробовать отыскать интересные наборы данных или сформировать гипотезы о наличии скрытых закономерностей в данных.

  • Собрать исходные данные
  • Описать данные
  • Исследовать данные
  • Проверить качество данных

Подготовка данных (Data Preparation)

Основная статья: CRISP-DM/Data Preparation

Фаза подготовки данных ставит целью получить итоговый набор данных, которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных. Задачи подготовки данных могут выполняться много раз без какого-либо наперед заданного порядка. Они включают в себя отбор таблиц, записей и атрибутов, а также конвертацию и очистку данных для моделирования.

  • Отобрать данные
  • Очистить данные
  • Сделать производные данные
  • Объединить данные
  • Привести данные в нужный формат

Моделирование (Modeling)

Основная статья: CRISP-DM/Modeling

В этой фазе к данным применяются разнообразные методики моделирования, строятся модели и их параметры настраиваются на оптимальные значения. Обычно для решения любой задачи анализа данных существует несколько различных подходов. Некоторые подходы накладывают особые требования на представление данных. Таким образом часто бывает нужен возврат на шаг назад к фазе подготовки данных.

  • Выбрать методику моделирования
  • Сделать тесты для модели
  • Построить модель
  • Оценить модель

Оценка (Evaluation)

Основная статья: CRISP-DM/Evaluation

На этом этапе проекта уже построена модель и получены количественные оценки её качества. Перед тем, как внедрять эту модель, необходимо убедиться, что мы достигли всех поставленных бизнес-целей. Основной целью этапа является поиск важных бизнес-задач, которым не было уделено должного внимания.

  • Оценить результаты
  • Сделать ревью процесса
  • Определить следующие шаги

Развертывание (Deployment)

Основная статья: CRISP-DM/Deployment

В зависимости от требований фаза развертывания может быть простой, например, составление финального отчета, или сложной, например, автоматизация процесса анализа данных для решения бизнес-задач. Обычно развертывание — это забота клиента. Однако, даже если аналитик не принимает участие в развертывании, важно дать понять клиенту, что ему нужно сделать для того, чтобы начать использовать полученные модели.

  • Запланировать развертывание
  • Запланировать поддержку и мониторинг развернутого решения
  • Сделать финальный отчет
  • Сделать ревью проекта


Изображение:Crisp-dmchart.gif

Перемещение вперед и назад между фазами — обычное дело. В зависимости от результата фазы или её подзадачи принимается решение, в какую фазу переходить дальше. Стрелками обозначены наиболее важные и частые переходы между фазами.

Внешний круг символизирует циклическую природу анализа данных. Процесс анализа данных продолжается и после развертывания решения. Знания, полученные во время процесса, могут породить новые более тонкие вопросы бизнеса. Последующий процесс анализа данных выгодно проводить, используя знания, полученные ранее. [1]

История

Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и OHRA.

Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена SPSS Inc. на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation, породивший Teradata — СУБД для хранения сверхбольших данных, имел штат консультантов и собственное программное обеспечение по анализу данных. В Daimler-Benz была большая команда интеллектуального анализа данных для удовлетворения нужд собственного бизнеса. Страховая компания OHRA начала исследовать потенциал интеллектуального анализа данных.

Первая версия методологии была выпущена CRISP-DM 1.0 в 1999.

В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, инициативная группа CRISP-DM собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации.

Преимущества методологии

Ссылки

Сноски

Смотри также

Внешние ссылки

Личные инструменты