Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 17:02, 4 сентября 2012

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Курс называется "Математические методы прогнозирования"

Страница наполняется до 5 сентября 2012.

Список задач

Название задачи	Автор	Рецензент	Ссылка на работу	Комментарии
Название	Кто	Кто	Surname2012Title	AIPVDTCHSJR[R]

Расписание

Дата		Что делаем	Результат для обсуждения	Код
Сентябрь	5	Выбрана задача, рецензент	Запись в ML
	12	Выбрана задача, найдены базовые публикации.	Аннотация, 600 знаков.	Annotation
	19	Собрана литература, она в bib; найдены данные.	Введение, примерно одна страница.	Introduction
	26	Поставлена задача, собраны все Литература по работе. Найдены публикации.	Постановка задачи, полстраницы.	Problem
Октябрь	3	Поставлен вычислительный эксперимент, получены первые результаты.	Визуализация данных.	Visualizing
	10	Описание алгоритма.	Алгоритмическая часть (третий раздел).	Document
	17	Теоретическая часть.	Второй раздел.	Theory
	24	Завершение вычислительного эксперимента.	Описание эксперимента и анализ ошибок.	Comp
	31	Контрольная точка - показ статьи в целом.	Статья.	cHeck
Ноябрь	7	Доработка статьи; доклад, первая группа.	Доклад.	Show
	14	Доклад, вторая группа.	Подача статьи в журнал.	Journal
	21	Доклад, третья группа.	Рецензия написана, [r]-рецензенту	Review, [r]
	28	Последний день для претендентов на оценки 10,9,8.	Экзамен	(score)

Черновой список задач

1. 2012ThematicMatching

Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Данные: Авторефераты диссертаций (ссылка). Паспорта специальностей.
Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
Предлагаемый алгоритм:
Базовый алгоритм: (Использовать работу С.Царькова — синтез C-Value и TF-IDF - проверить).
Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

2. 2012ThematicClustering

Название: Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации)
Тизер: Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью

Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)

Данные:

Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.

Литература:? конс. К.В.)
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм ?
Базовый алгоритм ?

3. 2012ThematicHierarchy

Название: Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной)

Тизер: Построение тематической модели на материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Литература:? конс. К.В.)
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм ?
Базовый алгоритм ?

4. 2012ThematicVisualizing

Название: Визуализация иерархической тематических моделей
Тизер: На материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Литература:? конс. К.В.)
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм ?
Базовый алгоритм ?

5. 2012FeatureGen

Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации

Нзавание2: Определение социальной роли автора текста

Данные: *Данные: отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
Литература:
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм
Базовый алгоритм

6. 2012CoRegression

Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
Тизер: Построение интегральной оценки эффективности научной деятельности.
Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
Литература: К.В.Воронцов «Коллаборативная фильтрация».
Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

7. 2012StructureRegression

Название: Выбор признаков в задачах структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков
Данные: библиографические записи из BibTeX collection on CS.
Литература: работы Jaakkola и его команды, возможно, код.
Предлагаемый алгоритм Структурная регрессия
Базовый алгоритм возможно у Валентина появится

8. 2012RankClustering

Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
Тизер: Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей).
Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов).
Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
Ключевые слова: DTW — модификации, k-Means.
Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
Базовый алгоритм: k-Means и его высокопроизводительные вариации.
Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

9. 2012CovSelection

Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
Тизер: Ранжирование поисковых выдач Яндекса.
Данные: Яндекс – математика.
Литература: Бишоп, Стрижов.
Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
Базовый алгоритм: SVM.
Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ExpertRanking

Название: Согласование ранговых экспертных оценок.
Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
Данные: Интернет-голосование за список книг, голосование без кооптации.
Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
Базовый алгоритм: Медиана Кемени и другие алгоритмы.
Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

11. 2012TypeDetection

Название: Методы извлечения признаков из текстовой информации
Тизер: Определение типа произведения (определение научной области произведения)
Данные: Книги с УДК, у Антона
Литература Найти
Предлагаемый алгоритм
Базовый алгоритм

Другие темы

2012SpareDirichlet Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц., тема К.В.В.)
2012HierarchcalThemes Иерархические вероятностные тематические модели (Е.К., тема К.В.В.)

Разное

Мультимодельный подход при классификации авторефератов
Выбор признаков при кластеризации текстов
Кластеризация и структурная классификация текстов
Многомерное шкалирование и визуализация кластеризованных текстов
Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF

Полезные Литература

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_974%2C_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2012»

@@ Строка 52: / Строка 52: @@
 |
 |26
-|Поставлена задача, собраны все материалы по работе. Найдены публикации.
+|Поставлена задача, собраны все Литература по работе. Найдены публикации.
 |Постановка задачи, полстраницы.
 |'''P'''roblem
@@ Строка 117: / Строка 117: @@
 *'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
 *'''Данные:''' Авторефераты диссертаций (ссылка). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
-*'''Материалы:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
+*'''Литература:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
 *'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
 *'''Предлагаемый алгоритм:'''
@@ Строка 130: / Строка 130: @@
 *'''Данные:'''
 Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
-*'''Материалы:'''? конс. К.В.)
+*'''Литература:'''? конс. К.В.)
 *'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 *'''Предлагаемый алгоритм''' ?
@@ Строка 140: / Строка 140: @@
 *'''Тизер:''' Построение тематической модели на материалах конференции EURO.
 *'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
-*'''Материалы:'''? конс. К.В.)
+*'''Литература:'''? конс. К.В.)
 *'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 *'''Предлагаемый алгоритм''' ?
@@ Строка 149: / Строка 149: @@
 *'''Тизер:''' На материалах конференции EURO.
 *'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
-*'''Материалы:'''? конс. К.В.)
+*'''Литература:'''? конс. К.В.)
 *'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 *'''Предлагаемый алгоритм''' ?
@@ Строка 158: / Строка 158: @@
 Нзавание2: Определение социальной роли автора текста
 *'''Данные:''' *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
-*'''Материалы:'''
+*'''Литература:'''
 *'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 *'''Предлагаемый алгоритм'''
@@ Строка 167: / Строка 167: @@
 *'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
 *'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
-*'''Материалы:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
+*'''Литература:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
 *'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
 *'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
@@ Строка 177: / Строка 177: @@
 *'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков
 *'''Данные:''' библиографические записи из BibTeX collection on CS.
-*'''Материалы:''' работы Jaakkola и его команды, возможно, код.
+*'''Литература:''' работы Jaakkola и его команды, возможно, код.
 *'''Предлагаемый алгоритм''' Структурная регрессия
 *'''Базовый алгоритм''' возможно у Валентина появится
@@ Строка 185: / Строка 185: @@
 * '''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей).
 * '''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов).
-* '''Материалы:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
+* '''Литература:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
 * '''Ключевые слова:''' DTW — модификации, k-Means.
 * '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
@@ Строка 195: / Строка 195: @@
 *'''Тизер:''' Ранжирование поисковых выдач Яндекса.
 *'''Данные:''' Яндекс – математика.
-*'''Материалы:''' Бишоп, Стрижов.
+*'''Литература:''' Бишоп, Стрижов.
 *'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов.
 *'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц.
 *'''Базовый алгоритм:''' SVM.
-*'''Проблема и решение:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
+*'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
 ===10. 2012ExpertRanking===
@@ Строка 205: / Строка 205: @@
 *'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
 *'''Данные:''' Интернет-голосование за список книг, голосование без кооптации.
-*'''Материалы:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
+*'''Литература:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
 *'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
 *'''Базовый алгоритм:''' Медиана Кемени и другие алгоритмы.
@@ Строка 229: / Строка 229: @@
 * Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF
-== Полезные материалы ==
+== Полезные Литература ==
 https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities