Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
м |
|||
Строка 12: | Строка 12: | ||
Типы задач: классификация, регрессия, прогнозирование. | Типы задач: классификация, регрессия, прогнозирование. | ||
- | Свойства реальных данных: | + | Свойства реальных данных: |
+ | многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём. | ||
=== Задачи и методы классификации === | === Задачи и методы классификации === | ||
Строка 82: | Строка 83: | ||
== Темы рефератов == | == Темы рефератов == | ||
- | + | {{tip| | |
+ | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''. | ||
+ | }} | ||
# Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов. | # Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов. | ||
# Оценивание вероятностей классов в логических алгоритмах классификации. | # Оценивание вероятностей классов в логических алгоритмах классификации. | ||
# Обзор методов, применяемых для прогнозирования объёмов продаж. | # Обзор методов, применяемых для прогнозирования объёмов продаж. | ||
+ | # Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии. | ||
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. | # Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. | ||
- | # Обзор методов, применяемых для поиска заимствований. | + | # Обзор методов, применяемых для поиска заимствований. |
- | + | # Обзор методов, применяемых для оценивания сходства (релевантности) текстов. | |
- | + |
Версия 18:57, 26 апреля 2008
|
Лекция читается в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.
Файл презентации
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Дискретно-логические методы классификации. Понятие закономерности. Требование интерпретируемости, конъюнктивные закономерности. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Схожая задача: анализ рыночных корзин. Методы поиска ассоциативных правил.
Проблема 1: как искать закономерности в сверхбольших данных? Самплинг.
Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.
Ссылки:
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Ссылки:
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
- www.antiplagiat.ru
- Патент iParadigms
- Интернет-математика отчёты по конкурсам Яндекс.
Темы рефератов
Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат. |
- Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
- Оценивание вероятностей классов в логических алгоритмах классификации.
- Обзор методов, применяемых для прогнозирования объёмов продаж.
- Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
- Обзор методов, применяемых для поиска заимствований.
- Обзор методов, применяемых для оценивания сходства (релевантности) текстов.