Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{TOCright}} Лекция прочитана в рамках курса '''«Современные проблемы прикладной математики»''' студентам 5 ...)
м
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
Лекция прочитана в рамках курса '''«Современные проблемы прикладной математики»''' студентам 5 курса ВМиК МГУ, 28 апреля 2008 года.
+
Лекция читается в рамках курса '''«Современные проблемы прикладной математики»''' студентам {{S|5 курса ВМиК МГУ}}.
 +
{{S|28 апреля 2008 года.}}
== План-конспект лекции ==
== План-конспект лекции ==
Строка 21: Строка 22:
Дискретно-логические методы классификации.
Дискретно-логические методы классификации.
Понятие закономерности.
Понятие закономерности.
-
Требование интерпретируемости, конъюнкутивные закономерности.
+
Требование интерпретируемости, конъюнктивные закономерности.
Критерии закономерности и неслучайности.
Критерии закономерности и неслучайности.
Строка 33: Строка 34:
Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.
Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.
 +
 +
'''Ссылки:'''
 +
#
=== Прогнозирование временных рядов ===
=== Прогнозирование временных рядов ===
Строка 43: Строка 47:
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
 +
 +
'''Ссылки:'''
 +
#
=== Анализ клиентских сред ===
=== Анализ клиентских сред ===
Строка 56: Строка 63:
Анализ айтемов (item-based CF).
Анализ айтемов (item-based CF).
Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Байесовские генеративные модели и восстановление скрытых интересов пользователей.
 +
 +
'''Ссылки:'''
 +
# [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]
=== Анализ текстов ===
=== Анализ текстов ===
Строка 63: Строка 73:
Постановки задач распознавания при обнаружении заимствований:
Постановки задач распознавания при обнаружении заимствований:
различение плагиата и цитирования.
различение плагиата и цитирования.
 +
 +
'''Ссылки:'''
 +
#
== Темы рефератов и литература ==
== Темы рефератов и литература ==
-
 
-
Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и присылаются [[Участник:Vokov|мне]] в электронном виде для проверки в системе Антиплагиат.
 
# Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
# Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
Строка 74: Строка 85:
# Обзор методов, применяемых для поиска заимствований.
# Обзор методов, применяемых для поиска заимствований.
-
== Ссылки ==
+
Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде '''и присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.
-
 
+
-
# [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]
+

Версия 09:48, 25 апреля 2008

Содержание

Лекция читается в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.

План-конспект лекции

Задачи обучения по прецедентам

Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.

Типы задач: классификация, регрессия, прогнозирование.

Свойства реальных данных: многомерные, неполные, неточные, противоречивые, разнородные.

Задачи и методы классификации

Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).

Методы классификации (минутный обзор).

Дискретно-логические методы классификации. Понятие закономерности. Требование интерпретируемости, конъюнктивные закономерности. Критерии закономерности и неслучайности.

Методы поиска логических закономерностей (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.

Схожая задача: анализ рыночных корзин. Методы поиска ассоциативных правил.

Проблема 1: как искать закономерности в сверхбольших данных? Самплинг.

Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.

Ссылки:

Прогнозирование временных рядов

Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).

Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?

Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?

Ссылки:

Анализ клиентских сред

Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.

Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.

Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.

Ссылки:

  1. Лидеры конкурса Netflix

Анализ текстов

Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.

Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.

Ссылки:

Темы рефератов и литература

  1. Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
  2. Оценивание вероятностей классов в логических алгоритмах классификации.
  3. Обзор методов, применяемых для прогнозирования объёмов продаж.
  4. Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
  5. Обзор методов, применяемых для поиска заимствований.

Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат.

Личные инструменты