Интеллектуальный анализ данных

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Термин интеллектуальный анализ данных можно понимать двояко.

В узком смысле это попытка адекватного русского перевода термина Data Mining, который ввёл в обиход Григорий Пятецкий-Шапиро в 1992 году. Согласно его определению, Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Дословный перевод «раскопки (или добыча) данных» следует, по всей видимости, считать неудачным.

В широком смысле это современная концепция анализа данных, предполагающая, что

  • данные могут быть неточными, неполными (содержать пропуски), противоречивыми, разнородными, косвенными, и при этом иметь гигантские объёмы; поэтому понимание данных в конкретных приложениях требует значительных интеллектуальных усилий;
  • сами алгоритмы анализа данных могут обладать «элементами интеллекта», в частности, способностью обучаться по прецедентам, то есть делать общие выводы на основе частных наблюдений; разработка таких алгоритмов также требует значительных интеллектуальных усилий;
  • процессы переработки сырых данных в информацию, а информации в знания уже не могут быть выполнены по старинке вручную, и требуют нетривиальной автоматизации.

Необходимость интеллектуального анализа данных возникла в конце XX века в результате повсеместного распространения информационных технологий, позволяющих детально протоколировать процессы бизнеса и производства.

По составу решаемых задач Data Mining практически не отличается от стандартного набора средств, применяемых с середины XX века в области прикладной статистики, машинного обучения (machine learning), информационного поиска (information retrieval). Основное различие заключается в эффективности алгоритмов и технологичности их применения. Подавляющее большинство классических процедур имеют время выполнения, квадратичное или даже кубическое по объёму исходных данных. При количестве объектов, превосходящем несколько десятков тысяч, они работают неприемлемо медленно даже на самых современных компьютерах. За последние десятилетия значительные усилия в области Data Mining были направлены на создание специализированных алгоритмов, способных выполнять те же задачи за линейное или даже логарифмическое время без существенной потери точности.

Приложения

Анализ рыночных корзин

Управление взаимоотношениями с клиентами

Анализ текстовой информации

Анализ информации, порождаемой в сети Интернет

Анализ клиентских сред

Маркетинговые исследования

Свойства реальных данных

Методология интеллектуального анализа данных

Инструментальные средства

Хранилища данных

OLAP

Ссылки

Литература

W. Frawley, G. Piatetsky-Shapiro, C. Matheus Knowledge Discovery in Databases: An Overview. — AI Magazine. — 1992. — С. pp. 213-228.

Личные инструменты