CRISP-DM
Материал из MachineLearning.
CRISP-DM (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов интеллектуального анализа данных[1]. Опросы проводившиеся в 2002, 2004 и 2007 годах, показывают что эта методология часто применяется исследователями данных.[1] [1] [1]
Содержание |
Основные этапы
CRISP-DM разбивает процесс анализа данных на шесть основных этапов[1]:
- Понимание задач бизнеса (Business Understanding)
- Понимание данных (Data Understanding)
- Подготовка данных (Data Preparation)
- Моделирование (Modeling)
- Тестирование (Evaluation)
- Запуск в производство (Deployment)
История
Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz and OHRA.
Эти компании поделились своим опытом в проекте. ISL впоследствии была поглощена SPSS Inc.. Компьютерный гигант NCR Corporation породила Teradata, хранилище данных и собственное программное обеспечение по анализу данных. Daimler-Benz имело большую команду интеллектуального анализа данных. OHRA, страховая компания начала исследовать потенциал интеллектуального анализа данных.
Первая версия методологии была выпущена CRISP-DM 1.0 в 1999.
CRISP-DM 2.0
В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, инициативная группа CRISP-DM собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации.
Преимущества
- Пригодна для любой индустрии
- Можно использовать любые инструменты
- Близка по духу к KDD Process Model
- Делает основной упор на интеллектуальном анализе данных
Сноски
Внешние ссылки
- CRoss Industry Standard Process for Data Mining
- CRoss Industry Standard Process for Data Mining Blog
- Le site des dataminers Article publié par Pascal BIZZARI, Mai 2009
- The Data Mining Group (DMG): The DMG is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language (PMML)