Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

Версия от 14:54, 4 сентября 2012; Aduenko (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Курс называется "Математические методы прогнозирования"

Страница наполняется до 5 сентября 2012.

Список задач

Название задачи	Автор	Рецензент	Ссылка на работу	Комментарии
Название	Кто	Кто	Surname2012Title	AIPVDTCHSJR[R]

Расписание

Дата		Что делаем	Результат для обсуждения	Код
Сентябрь	5	Выбрана задача, рецензент	Запись в ML
	12	Выбрана задача, найдены базовые публикации.	Аннотация, 600 знаков.	Annotation
	19	Собрана литература, она в bib; найдены данные.	Введение, примерно одна страница.	Introduction
	26	Поставлена задача, собраны все материалы по работе. Найдены публикации.	Постановка задачи, полстраницы.	Problem
Октябрь	3	Поставлен вычислительный эксперимент, получены первые результаты.	Визуализация данных.	Visualizing
	10	Описание алгоритма.	Алгоритмическая часть (третий раздел).	Document
	17	Теоретическая часть.	Второй раздел.	Theory
	24	Завершение вычислительного эксперимента.	Описание эксперимента и анализ ошибок.	Comp
	31	Контрольная точка - показ статьи в целом.	Статья.	cHeck
Ноябрь	7	Доработка статьи; доклад, первая группа.	Доклад.	Show
	14	Доклад, вторая группа.	Подача статьи в журнал.	Journal
	21	Доклад, третья группа.	Рецензия написана, [r]-рецензенту	Review, [r]
	28	Последний день для претендентов на оценки 10,9,8.	Экзамен	(score)

Черновой cписок задач

---1. 2012ThematicMatching---

Название: Определение соответствия документа тематике на основе выделения ключевых фраз
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Данные:: Авторефераты диссертаций. Паспорта специальностей (в качестве данных) - http://www.aspirantura.spb.ru/pasport/05.html
Материалы: Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов»
Ключевые слова:: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
Предлагаемый алгоритм: - ???
Базовый алгоритм: — можно использовать работу С.Царькова — синтез C-Value и TF-IDF.

---2. 2012ThematicClustering---

Название: Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации)
Тизер: Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью

Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)

Данные::

Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.

Материалы:? конс. К.В.)
Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм: ?
Базовый алгоритм: ?

---3. 2012ThematicHierarchy---

Название: Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной)

Тизер: Построение тематической модели на материалах конференции EURO.
Данные:: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Материалы:? конс. К.В.)
Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм: ?
Базовый алгоритм: ?

---4. 2012ThematicVisualizing---

Название: Визуализация иерархической тематических моделей *Тизер: На материалах конференции EURO.
Данные:: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Материалы:? конс. К.В.)
Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм: ?
Базовый алгоритм: ?

---5. 2012FeatureGen---

Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации

Нзавание2: Определение социальной роли автора текста

Данные:: *Данные: отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
Материалы:
Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
Предлагаемый алгоритм:
Базовый алгоритм:

---6. 2012CoRegression---

Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
Тизер: Построение интегральной оценки эффективности научной деятельности
Данные:: Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)

Таблица авторы-журналы и число статей выбранных авторов в журналах.

Материалы: Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
Ключевые слова:: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм: Совместная регрессия (придумать или найти готовую).
Базовый алгоритм: Ко-кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h-index авторов.

---7. 2012StructureRegression---

Название: Выбор признаков в задачах структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков
Данные:: библиографические записи из BibTeX collection on CS.
Материалы: работы Jaakkola и его команды, возможно, код.
Предлагаемый алгоритм: Структурная регрессия
Базовый алгоритм: возможно у Валентина появится

---8. 2012RankClustering---

Название: Ранговая кластеризация и алгоритмы динамического выравнивания
Тизер: Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
Данные:: Испорченные и некорректные библиографические записи (базы студенческих рефератов)
Материалы:
Ключевые слова:: DTW – модификации, k-Means
Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
Базовый алгоритм: k-Means и его высокопроизводительные вариации.

---9. 2012CovSelection---

Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации
Тизер: Ранжирование поисковых выдач Яндекса
Данные:: Яндекс – математика
Материалы: Бишоп, Стрижов
Ключевые слова:: логистическая регрессия, выбор признаков, фильтрация объектов
Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц
Базовый алгоритм: SVM.

TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и *Данные: Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.

---10. 2012ExpertRanking---

Название: Согласование ранговых экспертных оценок
Тизер: Методы ранжирования при голосовании (выборе литературных произведений)
Данные:: Интернет-голосование за список книг

Литература: Нужно будет сделать обзор

Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства
Базовый алгоритм: Медиана Кемени и другие алгоритмы

---11. 2012TypeDetection---

Название: Методы извлечение признаков из текстовой информации
Тизер: Определение типа произведения (определение научной области произведения)
Данные:: Книги с УДК, у Антона
Литература: Найти
Предлагаемый алгоритм:
Базовый алгоритм:

Другие темы: Мультимодельный подход при классификации авторефератов Выбор признаков при кластеризации текстов Кластеризация и структурная классификация текстов Многомерное шкалирование и визуализация кластеризованных текстов Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF