Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 15:13, 4 сентября 2012

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Курс называется "Математические методы прогнозирования"

Страница наполняется до 5 сентября 2012.

Список задач

Название задачи	Автор	Рецензент	Ссылка на работу	Комментарии
Название	Кто	Кто	Surname2012Title	AIPVDTCHSJR[R]

Расписание

Дата		Что делаем	Результат для обсуждения	Код
Сентябрь	5	Выбрана задача, рецензент	Запись в ML
	12	Выбрана задача, найдены базовые публикации.	Аннотация, 600 знаков.	Annotation
	19	Собрана литература, она в bib; найдены данные.	Введение, примерно одна страница.	Introduction
	26	Поставлена задача, собраны все материалы по работе. Найдены публикации.	Постановка задачи, полстраницы.	Problem
Октябрь	3	Поставлен вычислительный эксперимент, получены первые результаты.	Визуализация данных.	Visualizing
	10	Описание алгоритма.	Алгоритмическая часть (третий раздел).	Document
	17	Теоретическая часть.	Второй раздел.	Theory
	24	Завершение вычислительного эксперимента.	Описание эксперимента и анализ ошибок.	Comp
	31	Контрольная точка - показ статьи в целом.	Статья.	cHeck
Ноябрь	7	Доработка статьи; доклад, первая группа.	Доклад.	Show
	14	Доклад, вторая группа.	Подача статьи в журнал.	Journal
	21	Доклад, третья группа.	Рецензия написана, [r]-рецензенту	Review, [r]
	28	Последний день для претендентов на оценки 10,9,8.	Экзамен	(score)

Черновой список задач

1. 2012ThematicMatching

Название: Определение соответствия документа тематике на основе выделения ключевых фраз
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Данные: Авторефераты диссертаций. Паспорта специальностей (в качестве данных) - http://www.aspirantura.spb.ru/pasport/05.html
Материалы: Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов»
Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
Предлагаемый алгоритм - ???
Базовый алгоритм — можно использовать работу С.Царькова — синтез C-Value и TF-IDF.

2. 2012ThematicClustering

Название: Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации)
Тизер: Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью

Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)

Данные:

Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.

Материалы:? конс. К.В.)
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм ?
Базовый алгоритм ?

3. 2012ThematicHierarchy

Название: Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной)

Тизер: Построение тематической модели на материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Материалы:? конс. К.В.)
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм ?
Базовый алгоритм ?

4. 2012ThematicVisualizing

Название: Визуализация иерархической тематических моделей
Тизер: На материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Материалы:? конс. К.В.)
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм ?
Базовый алгоритм ?

5. 2012FeatureGen

Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации

Нзавание2: Определение социальной роли автора текста

Данные: *Данные: отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
Материалы:
Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм
Базовый алгоритм

6. 2012CoRegression

Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
Тизер: Построение интегральной оценки эффективности научной деятельности
Данные: Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)

Таблица авторы-журналы и число статей выбранных авторов в журналах.

Материалы: Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
Базовый алгоритм Ко-кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h-index авторов.

7. 2012StructureRegression

Название: Выбор признаков в задачах структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков
Данные: библиографические записи из BibTeX collection on CS.
Материалы: работы Jaakkola и его команды, возможно, код.
Предлагаемый алгоритм Структурная регрессия
Базовый алгоритм возможно у Валентина появится

8. 2012RankClustering

Название: Ранговая кластеризация и алгоритмы динамического выравнивания
Тизер: Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов)
Материалы:
Ключевые слова: DTW – модификации, k-Means
Предлагаемый алгоритм Алгоритм ранговой кластеризации.
Базовый алгоритм k-Means и его высокопроизводительные вариации.

9. 2012CovSelection

Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации
Тизер: Ранжирование поисковых выдач Яндекса
Данные: Яндекс – математика
Материалы: Бишоп, Стрижов
Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов
Предлагаемый алгоритм Совместный выбор путем анализа ковариационных матриц
Базовый алгоритм SVM.

TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.

10. 2012ExpertRanking

Название: Согласование ранговых экспертных оценок
Тизер: Методы ранжирования при голосовании (выборе литературных произведений)
Данные: Интернет-голосование за список книг

Литература: Нужно будет сделать обзор

Предлагаемый алгоритм Нахождение пересечения конусов и оценка эффективной размерности пространства
Базовый алгоритм Медиана Кемени и другие алгоритмы

11. 2012TypeDetection

Название: Методы извлечение признаков из текстовой информации
Тизер: Определение типа произведения (определение научной области произведения)
Данные: Книги с УДК, у Антона
Литература Найти
Предлагаемый алгоритм
Базовый алгоритм

Другие темы: Мультимодельный подход при классификации авторефератов Выбор признаков при кластеризации текстов Кластеризация и структурная классификация текстов Многомерное шкалирование и визуализация кластеризованных текстов Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF

Полезные материалы

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_974%2C_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2012»

@@ Строка 116: / Строка 116: @@
 *'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз
 *'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
-*'''Данные:''': Авторефераты диссертаций. Паспорта специальностей (в качестве данных) - http://www.aspirantura.spb.ru/pasport/05.html
+*'''Данные:''' Авторефераты диссертаций. Паспорта специальностей (в качестве данных) - http://www.aspirantura.spb.ru/pasport/05.html
 *'''Материалы:''' Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов»
-*'''Ключевые слова:''': ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
+*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
-*'''Предлагаемый алгоритм''': - ???
+*'''Предлагаемый алгоритм''' - ???
-*'''Базовый алгоритм''': — можно использовать работу С.Царькова — синтез C-Value и TF-IDF.
+*'''Базовый алгоритм''' — можно использовать работу С.Царькова — синтез C-Value и TF-IDF.
 ===2. 2012ThematicClustering===
@@ Строка 126: / Строка 126: @@
 *'''Тизер:''' Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью
 Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)
-*'''Данные:''':
+*'''Данные:'''
 Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
 *'''Материалы:'''? конс. К.В.)
-*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-*'''Предлагаемый алгоритм''': ?
+*'''Предлагаемый алгоритм''' ?
-*'''Базовый алгоритм''': ?
+*'''Базовый алгоритм''' ?
 ===3. 2012ThematicHierarchy===
@@ Строка 137: / Строка 137: @@
 *'''Тизер:''' Построение тематической модели на материалах конференции EURO.
-*'''Данные:''': Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
+*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
 *'''Материалы:'''? конс. К.В.)
-*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-*'''Предлагаемый алгоритм''': ?
+*'''Предлагаемый алгоритм''' ?
-*'''Базовый алгоритм''': ?
+*'''Базовый алгоритм''' ?
 ===4. 2012ThematicVisualizing===
 *'''Название:''' Визуализация иерархической тематических моделей
 *'''Тизер:''' На материалах конференции EURO.
-*'''Данные:''': Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
+*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
 *'''Материалы:'''? конс. К.В.)
-*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-*'''Предлагаемый алгоритм''': ?
+*'''Предлагаемый алгоритм''' ?
-*'''Базовый алгоритм''': ?
+*'''Базовый алгоритм''' ?
 ===5. 2012FeatureGen===
 *'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
 Нзавание2: Определение социальной роли автора текста
-*'''Данные:''': *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
+*'''Данные:''' *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
 *'''Материалы:'''
-*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-*'''Предлагаемый алгоритм''':
+*'''Предлагаемый алгоритм'''
-*'''Базовый алгоритм''':
+*'''Базовый алгоритм'''
 ===6. 2012CoRegression===
 *'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
 *'''Тизер:''' Построение интегральной оценки эффективности научной деятельности
-*'''Данные:''': Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)
+*'''Данные:''' Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)
 Таблица авторы-журналы и число статей выбранных авторов в журналах.
 *'''Материалы:''' Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
-*'''Ключевые слова:''': индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
+*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
-*'''Предлагаемый алгоритм''': Совместная регрессия (придумать или найти готовую).
+*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
-*'''Базовый алгоритм''': Ко-кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h-index авторов.
+*'''Базовый алгоритм''' Ко-кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h-index авторов.
 ===7. 2012StructureRegression===
 *'''Название:''' Выбор признаков в задачах структурной регрессии
 *'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков
-*'''Данные:''': библиографические записи из BibTeX collection on CS.
+*'''Данные:''' библиографические записи из BibTeX collection on CS.
 *'''Материалы:''' работы Jaakkola и его команды, возможно, код.
-*'''Предлагаемый алгоритм''': Структурная регрессия
+*'''Предлагаемый алгоритм''' Структурная регрессия
-*'''Базовый алгоритм''': возможно у Валентина появится
+*'''Базовый алгоритм''' возможно у Валентина появится
 ===8. 2012RankClustering===
 *'''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания
 *'''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
-*'''Данные:''': Испорченные и некорректные библиографические записи (базы студенческих рефератов)
+*'''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов)
 *'''Материалы:'''
-*'''Ключевые слова:''': DTW – модификации, k-Means
+*'''Ключевые слова:''' DTW – модификации, k-Means
-*'''Предлагаемый алгоритм''': Алгоритм ранговой кластеризации.
+*'''Предлагаемый алгоритм''' Алгоритм ранговой кластеризации.
-*'''Базовый алгоритм''': k-Means и его высокопроизводительные вариации.
+*'''Базовый алгоритм''' k-Means и его высокопроизводительные вариации.
 ===9. 2012CovSelection===
 *'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации
 *'''Тизер:''' Ранжирование поисковых выдач Яндекса
-*'''Данные:''': Яндекс – математика
+*'''Данные:''' Яндекс – математика
 *'''Материалы:''' Бишоп, Стрижов
-*'''Ключевые слова:''': логистическая регрессия, выбор признаков, фильтрация объектов
+*'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов
-*'''Предлагаемый алгоритм''': Совместный выбор путем анализа ковариационных матриц
+*'''Предлагаемый алгоритм''' Совместный выбор путем анализа ковариационных матриц
-*'''Базовый алгоритм''': SVM.
+*'''Базовый алгоритм''' SVM.
 TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и
 данные Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.
@@ Строка 202: / Строка 202: @@
 *'''Название:''' Согласование ранговых экспертных оценок
 *'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений)
-*'''Данные:''': Интернет-голосование за список книг
+*'''Данные:''' Интернет-голосование за список книг
 Литература: Нужно будет сделать обзор
-*'''Предлагаемый алгоритм''': Нахождение пересечения конусов и оценка эффективной размерности пространства
+*'''Предлагаемый алгоритм''' Нахождение пересечения конусов и оценка эффективной размерности пространства
-*'''Базовый алгоритм''': Медиана Кемени и другие алгоритмы
+*'''Базовый алгоритм''' Медиана Кемени и другие алгоритмы
 ===11. 2012TypeDetection===
 *'''Название:''' Методы извлечение признаков из текстовой информации
 *'''Тизер:''' Определение типа произведения (определение научной области произведения)
-*'''Данные:''': Книги с УДК, у Антона
+*'''Данные:''' Книги с УДК, у Антона
-*'''Литература''': Найти
+*'''Литература''' Найти
-*'''Предлагаемый алгоритм''':
+*'''Предлагаемый алгоритм'''
-*'''Базовый алгоритм''':
+*'''Базовый алгоритм'''
 Другие темы: