CRISP-DM
Материал из MachineLearning.
(→Основные этапы) |
м |
||
(11 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | '''''CRISP-DM''''' (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов [[Data Mining | интеллектуального анализа данных]]<ref name="Shearer00">Shearer C. [http://www.crisp-dm.org/News/86605.pdf The CRISP-DM model: the new blueprint for data mining]. J Data Warehousing 2000;5:13—22.</ref>. Опросы проводившиеся в 2002, 2004 и 2007 годах, показывают что эта методология часто применяется исследователями данных.<ref>Gregory Piatetsky-Shapiro (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll'']</ref> <ref>Gregory Piatetsky-Shapiro (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref> <ref>Gregory Piatetsky-Shapiro (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref> | + | '''''CRISP-DM''''' (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов [[Data Mining | интеллектуального анализа данных]]<ref name="Shearer00">Shearer C. [http://www.crisp-dm.org/News/86605.pdf The CRISP-DM model: the new blueprint for data mining]. J Data Warehousing 2000;5:13—22.</ref>. Опросы, проводившиеся в 2002, 2004 и 2007 годах, показывают, что эта методология часто применяется исследователями данных.<ref>Gregory Piatetsky-Shapiro (2002) [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll'']</ref> <ref>Gregory Piatetsky-Shapiro (2004) [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref> <ref>Gregory Piatetsky-Shapiro (2007) [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref> |
- | ==Основные этапы== | + | |
+ | == Зачем нужна методология? == | ||
+ | Проекты анализа данных должны: | ||
+ | * надежно исполняться испытанными средствами с предсказуемыми результатом (Reliable); | ||
+ | * быть повторяемыми, особенно людьми с малым опытом в анализе данных (Repeatable). | ||
+ | |||
+ | Следование методике дает нам: | ||
+ | * Средства для сохранения опыта проектов, накопленный опыт позволяет нам успешно повторять проекты; | ||
+ | * Упрощение планирования и управления проектами, известная и привычная последовательность действий и набор необходимых артефактов; | ||
+ | * Простоту включения в работу новых членов команды, уменьшение зависимости от "звезд". | ||
+ | |||
+ | ==Инструменты методологии== | ||
+ | |||
+ | ===Иерархическая декомпозиция=== | ||
+ | {{Main|CRISP-DM/Hierarchical breakdown}} | ||
+ | |||
+ | ===Применение общей модели в конкретном проекте=== | ||
+ | {{Main|CRISP-DM/Generic model mapping}} | ||
+ | |||
+ | ===База знаний=== | ||
+ | {{Main|CRISP-DM/Knowledge base}} (TODO: рекомендации по накоплению базы знаний) | ||
+ | |||
+ | В базе знаний сохраняются хорошо зарекомендовавшие себя методы для последующего применения в других проектах. | ||
+ | |||
+ | ==Основные этапы проекта== | ||
CRISP-DM разбивает процесс [[Data Mining | анализа данных]] на шесть основных этапов<ref name="Harper06"> | CRISP-DM разбивает процесс [[Data Mining | анализа данных]] на шесть основных этапов<ref name="Harper06"> | ||
<!--{{cite journal | last = Harper | first = Gavin | coauthors = Stephen D. Pickett | year = 2006 | month=August | title = Methods for mining HTS data | journal = [[Drug Discovery Today]] | volume = 11 | issue=15-16 | pages = 694–699 | url=http://www.sciencedirect.com/science/article/pii/S1359644606002133 | pmid = 16846796}}-->Gavin (2007) [http://www.sciencedirect.com/science/article/pii/S1359644606002133 Methods for mining HTS data]. </ref>: | <!--{{cite journal | last = Harper | first = Gavin | coauthors = Stephen D. Pickett | year = 2006 | month=August | title = Methods for mining HTS data | journal = [[Drug Discovery Today]] | volume = 11 | issue=15-16 | pages = 694–699 | url=http://www.sciencedirect.com/science/article/pii/S1359644606002133 | pmid = 16846796}}-->Gavin (2007) [http://www.sciencedirect.com/science/article/pii/S1359644606002133 Methods for mining HTS data]. </ref>: | ||
- | |||
===Понимание бизнеса (Business Understanding)=== | ===Понимание бизнеса (Business Understanding)=== | ||
+ | {{Main|CRISP-DM/Business Understanding}} | ||
+ | |||
Первая фаза процесса направлена на определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи [[Data Mining | интеллектуального анализа данных]] и предварительный план достижения целей проекта. | Первая фаза процесса направлена на определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи [[Data Mining | интеллектуального анализа данных]] и предварительный план достижения целей проекта. | ||
Строка 16: | Строка 41: | ||
===Понимание данных (Data Understanding)=== | ===Понимание данных (Data Understanding)=== | ||
+ | {{Main|CRISP-DM/Data Understanding}} | ||
+ | |||
Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. Для этого необходимо выявить проблемы с качеством данных такие как ошибки или пропуски, понять что за данные имеются в наличии, попробовать отыскать интересные наборы данных или сформировать гипотезы о наличии скрытых закономерностей в данных. | Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. Для этого необходимо выявить проблемы с качеством данных такие как ошибки или пропуски, понять что за данные имеются в наличии, попробовать отыскать интересные наборы данных или сформировать гипотезы о наличии скрытых закономерностей в данных. | ||
Строка 24: | Строка 51: | ||
===Подготовка данных (Data Preparation)=== | ===Подготовка данных (Data Preparation)=== | ||
- | Фаза подготовки данных ставит целью получить итоговый набор данных, | + | {{Main|CRISP-DM/Data Preparation}} |
+ | |||
+ | Фаза подготовки данных ставит целью получить итоговый набор данных, которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных. Задачи подготовки данных могут выполняться много раз без какого-либо наперед заданного порядка. Они включают в себя отбор таблиц, записей и атрибутов, а также конвертацию и очистку данных для моделирования. | ||
*Отобрать данные | *Отобрать данные | ||
Строка 33: | Строка 62: | ||
===Моделирование (Modeling)=== | ===Моделирование (Modeling)=== | ||
+ | {{Main|CRISP-DM/Modeling}} | ||
+ | |||
В этой фазе к данным применяются разнообразные методики моделирования, строятся модели и их параметры настраиваются на оптимальные значения. Обычно для решения любой задачи анализа данных существует несколько различных подходов. Некоторые подходы накладывают особые требования на представление данных. Таким образом часто бывает нужен возврат на шаг назад к фазе подготовки данных. | В этой фазе к данным применяются разнообразные методики моделирования, строятся модели и их параметры настраиваются на оптимальные значения. Обычно для решения любой задачи анализа данных существует несколько различных подходов. Некоторые подходы накладывают особые требования на представление данных. Таким образом часто бывает нужен возврат на шаг назад к фазе подготовки данных. | ||
Строка 41: | Строка 72: | ||
===Оценка (Evaluation)=== | ===Оценка (Evaluation)=== | ||
- | На этом этапе проекта уже построена модель | + | {{Main|CRISP-DM/Evaluation}} |
+ | |||
+ | На этом этапе проекта уже построена модель и получены количественные оценки её качества. Перед тем, как внедрять эту модель, необходимо убедиться, что мы достигли всех поставленных бизнес-целей. Основной целью этапа является поиск важных бизнес-задач, которым не было уделено должного внимания. | ||
*Оценить результаты | *Оценить результаты | ||
Строка 48: | Строка 81: | ||
===Развертывание (Deployment)=== | ===Развертывание (Deployment)=== | ||
- | В зависимости от требований фаза развертывания может быть простой | + | {{Main|CRISP-DM/Deployment}} |
+ | |||
+ | В зависимости от требований фаза развертывания может быть простой, например, составление финального отчета, или сложной, например, автоматизация процесса анализа данных для решения бизнес-задач. Обычно развертывание — это забота клиента. Однако, даже если аналитик не принимает участие в развертывании, важно дать понять клиенту, что ему нужно сделать для того, чтобы начать использовать полученные модели. | ||
*Запланировать развертывание | *Запланировать развертывание | ||
Строка 58: | Строка 93: | ||
[[Изображение:Crisp-dmchart.gif]] | [[Изображение:Crisp-dmchart.gif]] | ||
- | Перемещение вперед и назад между фазами — обычное дело. В зависимости от результата фазы или её подзадачи | + | Перемещение вперед и назад между фазами — обычное дело. В зависимости от результата фазы или её подзадачи принимается решение, в какую фазу переходить дальше. Стрелками обозначены наиболее важные и частые переходы между фазами. |
- | Внешний круг символизирует циклическую природу [[Data Mining | анализа данных]]. Процесс анализа данных продолжается и после развертывания решения. Знания, полученные во время процесса, могут породить новые более тонкие вопросы бизнеса. Последующий процесс анализа данных выгодно проводить используя знания полученные ранее. <ref>http://www.crisp-dm.org [http://www.crisp-dm.org]</ref> | + | Внешний круг символизирует циклическую природу [[Data Mining | анализа данных]]. Процесс анализа данных продолжается и после развертывания решения. Знания, полученные во время процесса, могут породить новые более тонкие вопросы бизнеса. Последующий процесс анализа данных выгодно проводить, используя знания, полученные ранее. <ref>http://www.crisp-dm.org [http://www.crisp-dm.org]</ref> |
==История== | ==История== | ||
Строка 66: | Строка 101: | ||
Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и [http://www.ohra.nl/ OHRA]. | Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и [http://www.ohra.nl/ OHRA]. | ||
- | Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена [[SPSS Inc.]] на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation породивший [[Teradata]] — | + | Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена [[SPSS Inc.]] на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation, породивший [[Teradata]] — СУБД для хранения сверхбольших данных, имел штат консультантов и собственное программное обеспечение по [[Data Mining | анализу данных]]. В Daimler-Benz была большая команда интеллектуального анализа данных для удовлетворения нужд собственного бизнеса. Страховая компания [http://www.ohra.nl/ OHRA] начала исследовать потенциал интеллектуального анализа данных. |
Первая версия методологии была выпущена [http://www.crisp-dm.org/download.htm CRISP-DM 1.0] в 1999. | Первая версия методологии была выпущена [http://www.crisp-dm.org/download.htm CRISP-DM 1.0] в 1999. | ||
- | |||
- | |||
В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, [http://www.crisp-dm.org/SIG/ инициативная группа CRISP-DM] собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации. | В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, [http://www.crisp-dm.org/SIG/ инициативная группа CRISP-DM] собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации. | ||
Строка 80: | Строка 113: | ||
*Делает основной упор на [[Data Mining | интеллектуальном анализе данных]]. | *Делает основной упор на [[Data Mining | интеллектуальном анализе данных]]. | ||
- | ==Сноски== | + | ==Ссылки== |
+ | |||
+ | ===Сноски=== | ||
<div class = "references-small"> | <div class = "references-small"> | ||
- | <references/> | + | <references /> |
</div> | </div> | ||
- | == Смотри также == | + | === Смотри также === |
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]] | * [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]] | ||
* [[Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)|Автоматизация и стандартизация научных исследований]] | * [[Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)|Автоматизация и стандартизация научных исследований]] | ||
* [[Отчет о выполнении исследовательского проекта (практика, В.В. Стрижов)|Отчет о выполнении исследовательского проекта]] | * [[Отчет о выполнении исследовательского проекта (практика, В.В. Стрижов)|Отчет о выполнении исследовательского проекта]] | ||
- | ==Внешние ссылки== | + | ===Внешние ссылки=== |
* [http://www.crisp-dm.org/ CRoss Industry Standard Process for Data Mining] | * [http://www.crisp-dm.org/ CRoss Industry Standard Process for Data Mining] | ||
* [http://crispdm.wordpress.com/ CRoss Industry Standard Process for Data Mining Blog] | * [http://crispdm.wordpress.com/ CRoss Industry Standard Process for Data Mining Blog] | ||
* [http://lesitedesdataminers.free.fr/02_PAGES_WEB/conduite_projet_crisp_dm.html Le site des dataminers] Article publié par Pascal BIZZARI, Mai 2009 | * [http://lesitedesdataminers.free.fr/02_PAGES_WEB/conduite_projet_crisp_dm.html Le site des dataminers] Article publié par Pascal BIZZARI, Mai 2009 | ||
* [http://www.dmg.org The Data Mining Group (DMG)]: The DMG is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language ([[PMML]]) | * [http://www.dmg.org The Data Mining Group (DMG)]: The DMG is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language ([[PMML]]) | ||
+ | |||
+ | [[Категория:Инструменты и технологии]] | ||
+ | [[Категория:Интеллектуальный анализ данных]] |
Текущая версия
CRISP-DM (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов интеллектуального анализа данных[1]. Опросы, проводившиеся в 2002, 2004 и 2007 годах, показывают, что эта методология часто применяется исследователями данных.[1] [1] [1]
Содержание |
Зачем нужна методология?
Проекты анализа данных должны:
- надежно исполняться испытанными средствами с предсказуемыми результатом (Reliable);
- быть повторяемыми, особенно людьми с малым опытом в анализе данных (Repeatable).
Следование методике дает нам:
- Средства для сохранения опыта проектов, накопленный опыт позволяет нам успешно повторять проекты;
- Упрощение планирования и управления проектами, известная и привычная последовательность действий и набор необходимых артефактов;
- Простоту включения в работу новых членов команды, уменьшение зависимости от "звезд".
Инструменты методологии
Иерархическая декомпозиция
Применение общей модели в конкретном проекте
База знаний
- (TODO: рекомендации по накоплению базы знаний)
В базе знаний сохраняются хорошо зарекомендовавшие себя методы для последующего применения в других проектах.
Основные этапы проекта
CRISP-DM разбивает процесс анализа данных на шесть основных этапов[1]:
Понимание бизнеса (Business Understanding)
Первая фаза процесса направлена на определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи интеллектуального анализа данных и предварительный план достижения целей проекта.
- Определить бизнес цели
- Оценить ситуацию
- Определить цели анализа данных
- Составить план проекта
Понимание данных (Data Understanding)
Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. Для этого необходимо выявить проблемы с качеством данных такие как ошибки или пропуски, понять что за данные имеются в наличии, попробовать отыскать интересные наборы данных или сформировать гипотезы о наличии скрытых закономерностей в данных.
- Собрать исходные данные
- Описать данные
- Исследовать данные
- Проверить качество данных
Подготовка данных (Data Preparation)
Фаза подготовки данных ставит целью получить итоговый набор данных, которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных. Задачи подготовки данных могут выполняться много раз без какого-либо наперед заданного порядка. Они включают в себя отбор таблиц, записей и атрибутов, а также конвертацию и очистку данных для моделирования.
- Отобрать данные
- Очистить данные
- Сделать производные данные
- Объединить данные
- Привести данные в нужный формат
Моделирование (Modeling)
В этой фазе к данным применяются разнообразные методики моделирования, строятся модели и их параметры настраиваются на оптимальные значения. Обычно для решения любой задачи анализа данных существует несколько различных подходов. Некоторые подходы накладывают особые требования на представление данных. Таким образом часто бывает нужен возврат на шаг назад к фазе подготовки данных.
- Выбрать методику моделирования
- Сделать тесты для модели
- Построить модель
- Оценить модель
Оценка (Evaluation)
На этом этапе проекта уже построена модель и получены количественные оценки её качества. Перед тем, как внедрять эту модель, необходимо убедиться, что мы достигли всех поставленных бизнес-целей. Основной целью этапа является поиск важных бизнес-задач, которым не было уделено должного внимания.
- Оценить результаты
- Сделать ревью процесса
- Определить следующие шаги
Развертывание (Deployment)
В зависимости от требований фаза развертывания может быть простой, например, составление финального отчета, или сложной, например, автоматизация процесса анализа данных для решения бизнес-задач. Обычно развертывание — это забота клиента. Однако, даже если аналитик не принимает участие в развертывании, важно дать понять клиенту, что ему нужно сделать для того, чтобы начать использовать полученные модели.
- Запланировать развертывание
- Запланировать поддержку и мониторинг развернутого решения
- Сделать финальный отчет
- Сделать ревью проекта
Перемещение вперед и назад между фазами — обычное дело. В зависимости от результата фазы или её подзадачи принимается решение, в какую фазу переходить дальше. Стрелками обозначены наиболее важные и частые переходы между фазами.
Внешний круг символизирует циклическую природу анализа данных. Процесс анализа данных продолжается и после развертывания решения. Знания, полученные во время процесса, могут породить новые более тонкие вопросы бизнеса. Последующий процесс анализа данных выгодно проводить, используя знания, полученные ранее. [1]
История
Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и OHRA.
Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена SPSS Inc. на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation, породивший Teradata — СУБД для хранения сверхбольших данных, имел штат консультантов и собственное программное обеспечение по анализу данных. В Daimler-Benz была большая команда интеллектуального анализа данных для удовлетворения нужд собственного бизнеса. Страховая компания OHRA начала исследовать потенциал интеллектуального анализа данных.
Первая версия методологии была выпущена CRISP-DM 1.0 в 1999.
В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, инициативная группа CRISP-DM собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации.
Преимущества методологии
- Пригодна для любой индустрии.
- Можно использовать любые инструменты.
- Близка по духу к KDD Process Model.
- Делает основной упор на интеллектуальном анализе данных.
Ссылки
Сноски
Смотри также
- Численные методы обучения по прецедентам
- Автоматизация и стандартизация научных исследований
- Отчет о выполнении исследовательского проекта
Внешние ссылки
- CRoss Industry Standard Process for Data Mining
- CRoss Industry Standard Process for Data Mining Blog
- Le site des dataminers Article publié par Pascal BIZZARI, Mai 2009
- The Data Mining Group (DMG): The DMG is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language (PMML)