Участник:Denis Kochedykov

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Ближайший план работы)
(Ближайший план работы)
Строка 81: Строка 81:
## Построить графы для связи «через 2 объекта». То есть связывать ребром алгоритмы, отличающиеся на 1 объекте. Посмотреть, сколько в среднем связей со своим же слоем, сколько через слой выше, сколько через слой ниже.
## Построить графы для связи «через 2 объекта». То есть связывать ребром алгоритмы, отличающиеся на 1 объекте. Посмотреть, сколько в среднем связей со своим же слоем, сколько через слой выше, сколько через слой ниже.
## Посмотреть, какие графы связности получаются для семейства разделяющих прямых на выборке, в которой точки одного класса «окружены» точками другого класса.
## Посмотреть, какие графы связности получаются для семейства разделяющих прямых на выборке, в которой точки одного класса «окружены» точками другого класса.
-
# Попробовать теоретически вывести профиль расслоения семейства.
 
-
## Посмотреть на динамику профиля при:
 
-
### сближении/удалении центров классов
 
-
### увеличении/уменьшении количества шума
 
-
### изменении соотношения классов в выборке
 
-
## Попробовать решить задачу сначала для прямых на плоскости и нормально распределенных классов.
 
# Для сетки без расслоения
# Для сетки без расслоения
## Получить вероятность возникновения переобучения в сетке (эквивалентно вероятности переобучения пессимистичного метода МЭР). Это будет оценка с полным учетом структуры сходства, но без учета «хороших» свойств обучения.
## Получить вероятность возникновения переобучения в сетке (эквивалентно вероятности переобучения пессимистичного метода МЭР). Это будет оценка с полным учетом структуры сходства, но без учета «хороших» свойств обучения.
Строка 93: Строка 87:
# union bound'ом получить для каждой из последних двух оценок общую верхнюю оценку для семейства состоящего из цепочек без расслоения. (здесь пока не совсем понятна практическая применимость - ведь слои в реальных семействах не обязательно представляют из себя цепочки). Замечание: Для использования union bound'а нужно знать профиль семейства - число алгоритмов в каждом слое(цепочке). Его можно оценить по наблюдаемому профилю семейства так, как это делается в observable shell Лэнгфорда.
# union bound'ом получить для каждой из последних двух оценок общую верхнюю оценку для семейства состоящего из цепочек без расслоения. (здесь пока не совсем понятна практическая применимость - ведь слои в реальных семействах не обязательно представляют из себя цепочки). Замечание: Для использования union bound'а нужно знать профиль семейства - число алгоритмов в каждом слое(цепочке). Его можно оценить по наблюдаемому профилю семейства так, как это делается в observable shell Лэнгфорда.
# Написать литобзор.
# Написать литобзор.
 +
 +
Опционально:
 +
# Попробовать теоретически вывести профиль расслоения семейства.
 +
## Посмотреть на динамику профиля при:
 +
### сближении/удалении центров классов
 +
### увеличении/уменьшении количества шума
 +
### изменении соотношения классов в выборке
 +
## Попробовать решить задачу сначала для прямых на плоскости и нормально распределенных классов.
== См. также ==
== См. также ==
* [[Расслоение_и_сходство_алгоритмов_(виртуальный_семинар)]]
* [[Расслоение_и_сходство_алгоритмов_(виртуальный_семинар)]]
[[Категория:Кандидатские диссертации]]
[[Категория:Кандидатские диссертации]]

Версия 10:00, 12 июня 2009

Изображение:KochedykovFace.jpg    Кочедыков Денис Алексеевич, Forecsys, ВЦ РАН(соискатель).

Научный руководитель Воронцов К.В..

Области научных интересов
теория машинного обучения, оценивание обобщающей способности, комбинаторика, статистика.


Написать письмо.

Содержание

Публикации

Тезисы

  1. Кочедыков Д.А., Ивахненко А.А., Воронцов К.В. "Система кредитного скоринга на основе логических алгоритмов классификации" // Математические методы распознавания образов-12. — М.: МАКС Пресс, 2005. — С. 349–353.
  2. Кочедыков Д.А., Воронцов К.В. "О поиске оптимальных сочетаний управляющих параметров в логических алгоритмах классификации" //Тезисы докладов международной конференции «Интеллектуализация обработки информации» (ИОИ-2006) - Симферополь, 2006 - С. 117–119.
  3. Кочедыков Д.А., Ивахненко А.А., Воронцов К.В. "Применение логических алгоритмов классификации в задачах кредитного скоринга и управления риском кредитного портфеля банка" // Математические методы распознавания образов-13. — М.: МАКС Пресс, 2007. — С. 484–488.
  4. Кочедыков Д.А., Воронцов К.В. "К определению понятия информативности логических закономерностей в задачах классификации" //Труды 50-ой научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» - 2008г - т.2 - с 100-102
  5. Кочедыков Д.А., "Комбинаторные оценки обобщающей способности методов обучения по прецедентам с расслоением по наблюдаемой частоте ошибок" //Труды 51-ой научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» - 2009г

Статьи

Структура кандидатской диссертации

Тема: "Структура близости и расслоения семейства алгоритмов и обобщающая способность"

  1. Введение
    1. Актуальность
    2. Новизна: учет эффекта сходства и расслоения в оценках обобщающей способности в комбинаторном подходе
    3. Апробация: ИОИ-2008, МФТИ-2007, МФТИ-2008, ММРО-2009(предстоит), семинары ВЦ РАН(предстоит)
    4. Содержание работы по главам и личный вклад.
  2. Обзорная часть
    1. Проблема обобщающей способности. Обзор современных результатов: Вапника, Лэнгфорда, МакАллистера, и т.д.
    2. Слабая вероятностная аксиоматика
    3. Постановка задачи диссертации: учет расслоения и связности семейства в оценках обобщающей способности
  3. Некоторые известные оценки, переведенные в слабую аксиоматику (содержательная глава №1)
    1. Вапник
    2. Лэнгфорд
    3. Силл
    4. Возможно еще какие-то оценки
  4. Эффект сходства алгоритмов при оценивании вероятности переобучения (содержательная глава №2. основная.)
    1. Связное семейство - верхняя оценка вероятности возникновения переобучения посредством неравенств типа Бонферрони
    2. Цепочка алгоритмов без расслоения
      1. Точное значение вероятности возникновения переобучения в цепочке
      2. Точное значение вероятности пеореобучения метода МЭР
    3. Семейство, состоящее из цепочек без расслоения
      1. Верхняя оценка вероятности переобучения метода МЭР
      2. Верхняя оценка вероятности возникновения переобучения
  5. Эксперименты
    1. Сравнение различных оценок

Состояние работы на текущий момент

  1. В обзорной части
    • Частично есть описание постановки задачи.
    • Есть описание слабой вероятностной аксиоматики.
    • Отсутствует обзор современного состояния по теме.
  2. В главе про перевод известных оценок в комбинаторный вид
    • Естественно, есть стандартная оценка Вапника.
    • Из Лэнгфорда есть оценки Occam Razor, Shell, можно считать, что есть Microchoice, т.к. он переводится тривиально.
    • Есть оценка Силла для связных семейств.
    • Других оценок пока нет.
  3. В главе про эффект сходства
    • Есть верхняя оценка вероятности возникновения переобучения в связном семействе через дерево на алгоритмах
    • Есть оценка учитывающая число соседей у каждого алгоритма в семействе
    • Остального еще нет.

Ближайший план работы

  1. Пусть семейство имеет граф связности с заданными характеристиками (совместное распределение величины (n,r), где r(a) - степень вершины a и n(a) – номер слоя, полное число ошибок вершины a). Получить оценку вероятности возникновения переобучения в семействе с учетом этого распределения.
  2. Добавить в оценку учет того, что к каждому алгоритму семейства ведет монотонная цепочка алгоритмов(или даже сетка), которые хуже строго лучше него.
  3. Сдать вторую статью в печать.
  4. Посмотреть (по аналогии с Силлом) – графы связности с какими распределениями (n, r) могут получаться при непрерывном изменении параметров
  5. Экспериментально поанализировать графы связности:
    1. распределение числа вершин (по разным выборкам).
    2. как зависит это распределение от размера выборки и размерности прост-ва параметров
    3. распределение степеней вершин для фиксированной выборки.
    4. как меняется это распределение от выборки к выборке. как оно меняется с ростом размерности пр-ва параметров.
    5. число связей между слоями. как оно зависит от m слоя, как зависит от числа алгоритмов в слое.
    6. стабильно ли отношение числа связей к полному числу возможных связей для данного размера соседних слоев.
    7. составляются ли алгоритмы в одном слое в цепочку.
    8. если нет - то сколько цепочек получается в слое, как это зависит от m слоя и от числа алгоритмов в слое.
    9. Построить графы для связи «через 2 объекта». То есть связывать ребром алгоритмы, отличающиеся на 1 объекте. Посмотреть, сколько в среднем связей со своим же слоем, сколько через слой выше, сколько через слой ниже.
    10. Посмотреть, какие графы связности получаются для семейства разделяющих прямых на выборке, в которой точки одного класса «окружены» точками другого класса.
  6. Для сетки без расслоения
    1. Получить вероятность возникновения переобучения в сетке (эквивалентно вероятности переобучения пессимистичного метода МЭР). Это будет оценка с полным учетом структуры сходства, но без учета «хороших» свойств обучения.
    2. Получить вероятность переобучения на сетке для оптимистичного или случайного метода МЭР (можно для худшего случая – наиболее «распрямленной» сетки). Это будет оценка с одновременным учетом и свойств метода обучения и структуры сходства семейства.
  7. Сравнить эти две последние оценки и обычную оценку union bound(Вапник) для цепочки - определить какой сравнительный эффект дают учет 1) структуры сходства и 2) метода обучения.
  8. union bound'ом получить для каждой из последних двух оценок общую верхнюю оценку для семейства состоящего из цепочек без расслоения. (здесь пока не совсем понятна практическая применимость - ведь слои в реальных семействах не обязательно представляют из себя цепочки). Замечание: Для использования union bound'а нужно знать профиль семейства - число алгоритмов в каждом слое(цепочке). Его можно оценить по наблюдаемому профилю семейства так, как это делается в observable shell Лэнгфорда.
  9. Написать литобзор.

Опционально:

  1. Попробовать теоретически вывести профиль расслоения семейства.
    1. Посмотреть на динамику профиля при:
      1. сближении/удалении центров классов
      2. увеличении/уменьшении количества шума
      3. изменении соотношения классов в выборке
    2. Попробовать решить задачу сначала для прямых на плоскости и нормально распределенных классов.

См. также

Личные инструменты