CRISP-DM

Материал из MachineLearning.

(Различия между версиями)

Версия 21:09, 27 мая 2011

CRISP-DM (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов интеллектуального анализа данных^[1]. Опросы проводившиеся в 2002, 2004 и 2007 годах, показывают что эта методология часто применяется исследователями данных.^[1] ^[1] ^[1]

Основные этапы

CRISP-DM разбивает процесс анализа данных на шесть основных этапов^[1]:

Понимание бизнеса (Business Understanding)
Понимание данных (Data Understanding)
Подготовка данных (Data Preparation)
Моделирование (Modeling)
Оценка (Evaluation)
Развертывание (Deployment)

История

Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и OHRA.

Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена SPSS Inc. на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation породивший Teradata — хранилище данных, имел штат консультантов и собственное программное обеспечение по анализу данных. В Daimler-Benz была большая команда интеллектуального анализа данных для удовлетворения нужд собственного бизнеса. OHRA, страховая компания начала исследовать потенциал интеллектуального анализа данных.

Первая версия методологии была выпущена CRISP-DM 1.0 в 1999.

CRISP-DM 2.0

В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, инициативная группа CRISP-DM собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации.

Преимущества

Пригодна для любой индустрии
Можно использовать любые инструменты
Близка по духу к KDD Process Model
Делает основной упор на интеллектуальном анализе данных

Сноски

Внешние ссылки

CRoss Industry Standard Process for Data Mining
CRoss Industry Standard Process for Data Mining Blog
Le site des dataminers Article publié par Pascal BIZZARI, Mai 2009
The Data Mining Group (DMG): The DMG is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language (PMML)

Источник — «http://machinelearning.ru/wiki/index.php?title=CRISP-DM»

@@ Строка 4: / Строка 4: @@
 CRISP-DM разбивает процесс [[Data Mining | анализа данных]] на шесть основных этапов<ref name="Harper06">{{cite journal | last = Harper | first = Gavin | coauthors = Stephen D. Pickett | year = 2006 | month=August | title = Methods for mining HTS data | journal = [[Drug Discovery Today]] | volume = 11 | issue=15-16 | pages = 694–699 | url =http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6T64-4KDJSRH-4&_user=793840&_coverDate=08%2F31%2F2006&_rdoc=4&_fmt=full&_orig=browse&_srch=doc-info(%23toc%235020%232006%23999889984%23627946%23FLA%23display%23Volume)&_cdi=5020&_sort=d&_docanchor=&view=c&_ct=17&_acct=C000043460&_version=1&_urlVersion=0&_userid=793840&md5=f7f5b2376172e12b63177a32b03de111 |doi=10.1016/j.drudis.2006.06.006 | pmid = 16846796}}</ref>:
-*Понимание задач бизнеса (Business Understanding)
+*Понимание бизнеса (Business Understanding)
 *Понимание данных (Data Understanding)
 *Подготовка данных (Data Preparation)
 *Моделирование (Modeling)
-*Тестирование (Evaluation)
+*Оценка (Evaluation)
-*Запуск в производство (Deployment)
+*Развертывание (Deployment)
+[[Изображение:Crisp-dmchart.gif]]
 ==История==
-Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz and [http://www.ohra.nl/ OHRA].
+Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и [http://www.ohra.nl/ OHRA].
-Эти компании поделились своим опытом в проекте. ISL впоследствии была поглощена [[SPSS Inc.]]. Компьютерный гигант NCR Corporation породила [[Teradata]], хранилище данных и собственное программное обеспечение по [[Data Mining | анализу данных]]. Daimler-Benz имело большую команду интеллектуального анализа данных. [http://www.ohra.nl/ OHRA], страховая компания начала исследовать потенциал интеллектуального анализа данных.
+Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена [[SPSS Inc.]] на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation породивший [[Teradata]] — хранилище данных, имел штат консультантов и собственное программное обеспечение по [[Data Mining | анализу данных]]. В Daimler-Benz была большая команда интеллектуального анализа данных для удовлетворения нужд собственного бизнеса. [http://www.ohra.nl/ OHRA], страховая компания начала исследовать потенциал интеллектуального анализа данных.
 Первая версия методологии была выпущена [http://www.crisp-dm.org/download.htm CRISP-DM 1.0] в 1999.

CRISP-DM

Материал из MachineLearning.

Версия 21:09, 27 мая 2011

Содержание

Основные этапы

История

CRISP-DM 2.0

Преимущества

Сноски

Внешние ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты