|
|
(2 промежуточные версии не показаны) |
Строка 2: |
Строка 2: |
| |- | | |- |
| |[[Изображение:KochedykovFace.jpg]] | | |[[Изображение:KochedykovFace.jpg]] |
- | |'''Кочедыков Денис Алексеевич''', Forecsys, ВЦ РАН(соискатель). | + | |'''Kochedykov Denis''', J.P.Morgan quantitative research, CC RAS (PhD candidate). |
- | | + | Scientific advisor: [[Участник:Vokov|Dr. Konstantin V. Vorontsov]]. |
- | Научный руководитель [[Участник:Vokov|Воронцов К.В.]].
| + | |
| <br> | | <br> |
- | ;Области научных интересов: теория машинного обучения, оценивание обобщающей способности, комбинаторика, статистика. | + | ;Scientific interests: statistical learning theory, generalization ability, combinatorics, statistics. |
| <br> | | <br> |
- | '''[[Служебная:EmailUser/Denis_Kochedykov|Написать письмо]]'''. | + | '''[[Служебная:EmailUser/Denis_Kochedykov|Send email]]'''. |
| |} | | |} |
| | | |
- | == Публикации == | + | == Pulications == |
- | === Тезисы ===
| + | |
- | # Кочедыков Д.А., Ивахненко А.А., Воронцов К.В. "Система кредитного скоринга на основе логических алгоритмов классификации" // Математические методы распознавания образов-12. — М.: МАКС Пресс, 2005. — С. 349–353.
| + | |
- | # Кочедыков Д.А., Воронцов К.В. "О поиске оптимальных сочетаний управляющих параметров в логических алгоритмах классификации" //Тезисы докладов международной конференции «Интеллектуализация обработки информации» (ИОИ-2006) - Симферополь, 2006 - С. 117–119.
| + | |
- | # Кочедыков Д.А., Ивахненко А.А., Воронцов К.В. "Применение логических алгоритмов классификации в задачах кредитного скоринга и управления риском кредитного портфеля банка" // Математические методы распознавания образов-13. — М.: МАКС Пресс, 2007. — С. 484–488.
| + | |
- | # Кочедыков Д.А., Воронцов К.В. "К определению понятия информативности логических закономерностей в задачах классификации" //Труды 50-ой научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» - 2008г - т.2 - с 100-102
| + | |
- | # Кочедыков Д.А., "Комбинаторные оценки обобщающей способности методов обучения по прецедентам с расслоением по наблюдаемой частоте ошибок" //Труды 51-ой научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» - 2009г
| + | |
- | | + | |
- | === Статьи ===
| + | |
- | | + | |
- | == Структура кандидатской диссертации ==
| + | |
- | Тема: "Структура близости и расслоения семейства алгоритмов и обобщающая способность"
| + | |
- | # Введение
| + | |
- | ## Актуальность
| + | |
- | ## Новизна: учет эффекта сходства и расслоения в оценках обобщающей способности в комбинаторном подходе
| + | |
- | ## Апробация: ИОИ-2008, МФТИ-2007, МФТИ-2008, ММРО-2009(предстоит), семинары ВЦ РАН(предстоит)
| + | |
- | ## Содержание работы по главам и личный вклад.
| + | |
- | # Обзорная часть
| + | |
- | ## Проблема обобщающей способности. Обзор современных результатов: Вапника, Лэнгфорда, МакАллистера, и т.д.
| + | |
- | ## Слабая вероятностная аксиоматика
| + | |
- | ## Постановка задачи диссертации: учет расслоения и связности семейства в оценках обобщающей способности
| + | |
- | # Некоторые известные оценки, переведенные в слабую аксиоматику (содержательная глава №1)
| + | |
- | ## Вапник
| + | |
- | ## Лэнгфорд
| + | |
- | ## Силл
| + | |
- | ##''Возможно еще какие-то оценки''
| + | |
- | # Эффект сходства алгоритмов при оценивании вероятности переобучения (содержательная глава №2. основная.)
| + | |
- | ## Связное семейство - верхняя оценка вероятности возникновения переобучения посредством неравенств типа Бонферрони
| + | |
- | ## Цепочка алгоритмов без расслоения
| + | |
- | ### Точное значение вероятности возникновения переобучения в цепочке
| + | |
- | ### Точное значение вероятности пеореобучения метода МЭР
| + | |
- | ## Семейство, состоящее из цепочек без расслоения
| + | |
- | ### Верхняя оценка вероятности переобучения метода МЭР
| + | |
- | ### Верхняя оценка вероятности возникновения переобучения
| + | |
- | # Эксперименты
| + | |
- | ## Сравнение различных оценок
| + | |
- | | + | |
- | == Состояние работы на текущий момент ==
| + | |
- | | + | |
- | # В обзорной части
| + | |
- | #* Частично есть описание постановки задачи.
| + | |
- | #* Есть описание слабой вероятностной аксиоматики.
| + | |
- | #* Отсутствует обзор современного состояния по теме.
| + | |
- | # В главе про перевод известных оценок в комбинаторный вид
| + | |
- | #* Естественно, есть стандартная оценка Вапника.
| + | |
- | #* Из Лэнгфорда есть оценки Occam Razor, Shell, можно считать, что есть Microchoice, т.к. он переводится тривиально.
| + | |
- | #* Есть оценка Силла для связных семейств.
| + | |
- | #* Других оценок пока нет.
| + | |
- | # В главе про эффект сходства
| + | |
- | #* Есть верхняя оценка вероятности возникновения переобучения в связном семействе через дерево на алгоритмах
| + | |
- | #* Есть оценка учитывающая число соседей у каждого алгоритма в семействе
| + | |
- | #* Остального еще нет.
| + | |
- | | + | |
- | == Ближайший план работы ==
| + | |
- | | + | |
- | # Пусть семейство имеет граф связности с заданными характеристиками (совместное распределение величины (n,r), где r(a) - степень вершины a и n(a) – номер слоя, полное число ошибок вершины a). Получить оценку вероятности возникновения переобучения в семействе с учетом этого распределения.
| + | |
- | # Добавить в оценку учет того, что к каждому алгоритму семейства ведет монотонная цепочка алгоритмов(или даже сетка), которые хуже строго лучше него.
| + | |
- | # '''Сдать вторую статью в печать'''.
| + | |
- | # Посмотреть (по аналогии с Силлом) – графы связности с какими распределениями (n, r) могут получаться при непрерывном изменении параметров
| + | |
- | # Экспериментально поанализировать графы связности:
| + | |
- | ## распределение числа вершин (по разным выборкам).
| + | |
- | ## как зависит это распределение от размера выборки и размерности прост-ва параметров
| + | |
- | ## распределение степеней вершин для фиксированной выборки.
| + | |
- | ## как меняется это распределение от выборки к выборке. как оно меняется с ростом размерности пр-ва параметров.
| + | |
- | ## число связей между слоями. как оно зависит от m слоя, как зависит от числа алгоритмов в слое.
| + | |
- | ## стабильно ли отношение числа связей к полному числу возможных связей для данного размера соседних слоев.
| + | |
- | ## составляются ли алгоритмы в одном слое в цепочку.
| + | |
- | ## если нет - то сколько цепочек получается в слое, как это зависит от m слоя и от числа алгоритмов в слое.
| + | |
- | ## Построить графы для связи «через 2 объекта». То есть связывать ребром алгоритмы, отличающиеся на 1 объекте. Посмотреть, сколько в среднем связей со своим же слоем, сколько через слой выше, сколько через слой ниже.
| + | |
- | ## Посмотреть, какие графы связности получаются для семейства разделяющих прямых на выборке, в которой точки одного класса «окружены» точками другого класса.
| + | |
- | # Для сетки без расслоения
| + | |
- | ## Получить вероятность возникновения переобучения в сетке (эквивалентно вероятности переобучения пессимистичного метода МЭР). Это будет оценка с полным учетом структуры сходства, но без учета «хороших» свойств обучения.
| + | |
- | ## Получить вероятность переобучения на сетке для оптимистичного или случайного метода МЭР (можно для худшего случая – наиболее «распрямленной» сетки). Это будет оценка с одновременным учетом и свойств метода обучения и структуры сходства семейства.
| + | |
- | # Сравнить эти две последние оценки и обычную оценку union bound(Вапник) для цепочки - определить какой сравнительный эффект дают учет 1) структуры сходства и 2) метода обучения.
| + | |
- | # union bound'ом получить для каждой из последних двух оценок общую верхнюю оценку для семейства состоящего из цепочек без расслоения. (здесь пока не совсем понятна практическая применимость - ведь слои в реальных семействах не обязательно представляют из себя цепочки). Замечание: Для использования union bound'а нужно знать профиль семейства - число алгоритмов в каждом слое(цепочке). Его можно оценить по наблюдаемому профилю семейства так, как это делается в observable shell Лэнгфорда.
| + | |
- | # Написать литобзор.
| + | |
| | | |
- | Опционально:
| + | # Kochedykov D.A. (2011) “A Combinatorial Approach to Hypothesis Similarity in Generalization Bounds” (English+Russian), submitted. |
- | # Попробовать теоретически вывести профиль расслоения семейства. | + | # Kochedykov D.A. (2010) “Combinatorial shell bounds for generalization ability” (Russian + English), “Pattern Recognition and Image Analysis”, 2010, 4. |
- | ## Посмотреть на динамику профиля при: | + | # Kochedykov D.A. (2009) “Connectivity structures in hypotheses’ space and generalization bounds”. Mathematical methods for pattern recognition 2009 (in Russian) |
- | ### сближении/удалении центров классов | + | # Kochedykov D.A (2008) “Combinatorial generalization bounds using the splitting of hypothesis spaces”. Contemporary problems of fundamental and applied sciences 2008 (in Russian) |
- | ### увеличении/уменьшении количества шума | + | # Kochedykov D.A, Vorontsov K.V.(2007) “Information measures for rule induction algorithms”. Contemporary problems of fundamental and applied sciences 2007 (in Russian). |
- | ### изменении соотношения классов в выборке | + | # Kochedykov D.A, Ivakhnenko A.A, Vorontsov K.V.(2007) “Logical classification algorithms for risk management”. Mathematical methods for pattern recognition 2007 (in Russian). |
- | ## Попробовать решить задачу сначала для прямых на плоскости и нормально распределенных классов. | + | # Kochedykov D.A, Vorontsov K.V. (2006) “Meta-learning for rule induction algorithms”. Intelligent information processing 2006 (in Russian). |
| + | # Kochedykov D.A, Ivakhnenko A.A, Vorontsov K.V. (2005) “Credit scoring system based on logical classification algorithms”. Mathematical methods for pattern recognition 2005 (in Russian). |
| | | |
- | == См. также == | + | == See also == |
| * [[Расслоение_и_сходство_алгоритмов_(виртуальный_семинар)]] | | * [[Расслоение_и_сходство_алгоритмов_(виртуальный_семинар)]] |
| [[Категория:Кандидатские диссертации]] | | [[Категория:Кандидатские диссертации]] |