Методы машинного обучения и поиск достоверных закономерностей в данных (курс лекций, О.В. Сенько)

Материал из MachineLearning.

Перейти к: навигация, поиск

Специальный курс на ВМК МГУ.

Лектор: д.ф.-м.н. О.В. Сенько.

В курсе обсуждаются основные проблемы, возникающие при использовании методов обучения по прецедентам (машинного обучения). Даётся краткий обзор существующих методов распознавания и регрессионного анализа. Рассказывается о способах оценки точности на генеральной совокупности (обобщающей способности). Обсуждаются различные способы повышения обобщающей способности методов машинного обучения.

Программа и примеры задач на экзамене

Программа курса

  1. Область применения методов, основанных на обучении по прецедентам (машинном обучении). Примеры применения. Понятие обучающей выборки. Способ обучения, основанный на минимизации эмпирического риска.
  2. Типы задач машинного обучения в зависимости от характера целевой переменной: распознавание, регрессионный анализ, анализ выживаемости
  3. Различные метрики для оценивания эффективности в задачах регрессионного анализа и в задачах распознавания. ROC анализ. Основные цели метода. Способ построения ROC кривых.
  4. Понятие обобщающей способности. Для каких алгоритмов достигается максимум обобщающей способности. Байесовский классификатор.
  5. Способы оценки обобщающей способности. Кросс-валидация.
  6. Эффект переобучения.
  7. Линейная регрессия. Использование метода наименьших квадратов для оценки коэффициентов. Оценка параметров одномерной регрессии.
  8. Поиск коэффициентов многомерной регрессии с помощью МНК. Формула для регрессионных коэффициентов. Явление мультиколлинеарности.
  9. Свойства оптимальных регрессий.
  10. Трёхкомпонентное разложение обобщённой ошибки. Смысл шумовой составляющей, составляющей сдвига и дисперсионной составляющей. Bias-Variance дилемма.
  11. Байесовские методы обучения. Аппроксимация с помощью многомерного нормального распределения. Способ обучения.
  12. Линейный дискриминант Фишера. Способ обучения.
  13. Метод k-ближайших соседей. Способ обучения.
  14. Логистическая регрессия. Способ обучения.
  15. Распознавание при заданной точности распознавания одного из классов. Оптимальное решение согласно лемме Неймана-Пирсона.
  16. Принцип частичной прецедентности. Понятие тупикового теста. Общая схема тестового алгоритма. Обобщение для вещественнозначной информации.
  17. Понятие тупикового представительного набора. Общая схема алгоритма распознавания, основанного на тупиковых представительных наборах. Обобщение для вещественнозначной информации.
  18. Модель Алгоритмов вычисления оценок. Понятия и опорного множества, функции близости, для вычисления оценок за классы. Компактные формулы для оценок в случае, когда признаки равноправны, а мощность опорных множеств фиксирована. Способы обучения для модели АВО.
  19. Модель искусственного нейрона. Пецептрон Розенблатта и метод его обучения, условие сходимости.
  20. Многослойный перцептрон и его структура. Аппроксимирующая способность многослойных перцептронов. Метод обратного распространения ошибки.
  21. Метод опорных векторов. Концепция максимального “зазора”. Сведение к задаче квадратичного программирования. Условия, налагаемые теоремой Каруша-Куна-Таккера. Двойственная задача квадратичного программирования. Опорные вектора и их роль в формирование распознающего алгоритма.
  22. Обобщение исходного варианта метода опорных векторов на случай отсутствия линейной разделимости. “Смягчение” условия линейной разделимости с помощью введения дополнительных переменных. Основные отличия от исходного варианта метода.
  23. Обобщение метода опорных векторов, позволяющее строить нелинейные разделяющие поверхности.
  24. Решающие деревья. Методы обучения. Индексы неоднородности. Критерии остановки ветвления. Методы “подрезки”.
  25. Коллективные методы. Обоснование. Ошибка выпуклой комбинации алгоритмов прогнозирования. Простые комитетные методы. Наивный Байесовский классификатор.
  26. Коллективные методы, основанные на бутстрэп репликациях. Методы бэггинг и бустинг.
  27. Решающие леса.
  28. Методы, основанные на голосовании по системам логических закономерностей. Полные и частичные логические закономерности. Методы поиска. Коллективное решение.
  29. Метод «Статистически взвешенные синдромы». Оптимальные разбиения в рамках фиксированных моделей. Коллективное решение.
  30. Методы кластеризации. Цели кластерного анализа. Метод k-внутригрупповых средних. Иерархические методы кластеризации.
  31. Введение в байесовские сети.
  32. Методы анализа выживаемости (надёжности). Оценки кривых выживаемости по методу Каплан-Майера. Модель Кокса.
  33. Верификация закономерностей. Перестановочные тесты.
  34. Проблема множественного тестирования
Личные инструменты