Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

(Различия между версиями)

Версия 09:51, 25 апреля 2008

Содержание

1 План-конспект лекции
2 Темы рефератов и литература

Лекция читается в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.

План-конспект лекции

Задачи обучения по прецедентам

Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.

Типы задач: классификация, регрессия, прогнозирование.

Свойства реальных данных: многомерные, неполные, неточные, противоречивые, разнородные.

Задачи и методы классификации

Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).

Методы классификации (минутный обзор).

Дискретно-логические методы классификации. Понятие закономерности. Требование интерпретируемости, конъюнктивные закономерности. Критерии закономерности и неслучайности.

Методы поиска логических закономерностей (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.

Схожая задача: анализ рыночных корзин. Методы поиска ассоциативных правил.

Проблема 1: как искать закономерности в сверхбольших данных? Самплинг.

Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.

Ссылки:

Прогнозирование временных рядов

Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).

Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?

Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?

Ссылки:

Анализ клиентских сред

Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.

Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.

Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.

Ссылки:

Лидеры конкурса Netflix

Анализ текстов

Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.

Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.

Ссылки:

Темы рефератов и литература

Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
Оценивание вероятностей классов в логических алгоритмах классификации.
Обзор методов, применяемых для прогнозирования объёмов продаж.
Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
Обзор методов, применяемых для поиска заимствований.

Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Vokov/%D0%9D%D0%B5%D0%BA%D0%BE%D1%82%D0%BE%D1%80%D1%8B%D0%B5_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%29»

@@ Строка 75: / Строка 75: @@
 '''Ссылки:'''
-#
+# [http://www.antiplagiat.ru/ www.antiplagiat.ru]
+# [http://www.google.com/patents?id=DPIVAAAAEBAJ&dq=iparadigms Патент iParadigms]
 == Темы рефератов и литература ==

Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

Версия 09:51, 25 апреля 2008

Содержание

План-конспект лекции

Задачи обучения по прецедентам

Задачи и методы классификации

Прогнозирование временных рядов

Анализ клиентских сред

Анализ текстов

Темы рефератов и литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты