Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Курс "Математические методы прогнозирования"

Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.

Список задач

Название задачи	Автор	Ссылка на работу	Комментарии
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации	Медведникова Мария	[1]	Опубликовано
Иерархическая тематическая кластеризация тезисов и визуализация	Кузьмин Арсентий	[2]	Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации.	Адуенко Александр	[3]	Опубликовано
Построение иерархических тематических моделей	Цыганова Светлана	[4]	Опубликовано
Выбор признаков в задачах структурной регрессии	Варфоломеева Анна	[5]	Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений	Целых Влада	[6]	Опубликовано
Построение логических правил при разметке текстов	Иванова Алина	[7]	Принято
Проверка адекватности тематической модели	Степан Лобастов	[8]	Редакция

Расписание

Дата		Что делаем	Результат для обсуждения	Код
Сентябрь	10	Выбрана задача, рецензент	Запись в ML
	17	Выбрана задача, найдены базовые публикации.	Аннотация, 600 знаков.	Annotation
	24	Собрана литература, она в bib; найдены данные.	Введение, примерно одна страница.	Introduction
Октябрь	8	Поставлена задача, собраны или написаны все необходимые алгоритмы.	Постановка задачи, полстраницы.	Problem
	15	Поставлен вычислительный эксперимент, получены первые результаты.	Визуализация данных.	Visualizing
	22	Описание алгоритма.	Алгоритмическая часть (третий раздел).	Document
	29	Теоретическая часть.	Второй раздел.	Theory
Ноябрь	5	Завершение вычислительного эксперимента.	Описание эксперимента и анализ ошибок.	Comp
	12	Контрольная точка - показ статьи в целом.	Статья.	cHeck
	19	Доработка статьи; доклад, первая группа.	Доклад.	Show
	26	Доклад, вторая группа.	Подача статьи в журнал.	Journal
Декабрь	3	Доклад, третья группа.	Рецензия написана, [r]-рецензенту	Review, [r]
	10	Последний день для претендентов на оценки 10,9,8.	Экзамен	(score)

Черновой список задач

1. 2012CoRegression

Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
Тизер: Построение интегральной оценки эффективности научной деятельности.
Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
Литература: К.В.Воронцов «Коллаборативная фильтрация».
Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

Название: Согласование ранговых экспертных оценок.
Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
Данные: Интернет-голосование за список книг, голосование без кооптации.
Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
Базовый алгоритм: Медиана Кемени и другие алгоритмы.
Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

Название: Выбор признаков в задачах структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS.
Литература: работы Jaakkola и его команды, возможно, код.
Предлагаемый алгоритм: Структурная регрессия.
Базовый алгоритм: описан Валентином.
Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

Название: Построение логических правил при разметке текстов
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
Литература: работы Инякина, Чувилина, Кудинова.
Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
Базовый алгоритм: описан Валентином.
Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
Ключевые слова: DTW — модификации, k-Means.
Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
Базовый алгоритм: k-Means и его высокопроизводительные вариации.
Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
Базовый алгоритм: k-Means
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy

Название: Построение иерархических тематических моделей.
Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
Данные: Тексты тезисов.
Литература: иерархические модели, topic modelling.
Ключевые слова: иерархическое тематическое моделирование.
Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
Базовый алгоритм: PLSA--LDA.
Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

Название: Визуализация иерархических тематических моделей.
Тизер: На материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012.
Литература: многомерное шкалирование, кластеризация.
Ключевые слова: визуализация графов.
Предлагаемый алгоритм:
Базовый алгоритм: --
Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
- корректировки названий тем/подтем конференции,
- переносе тезиса из одной темы в другую,
- адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
Тизер: Ранжирование поисковых выдач Яндекса.
Данные: Яндекс – математика.
Литература: Бишоп, Стрижов.
Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
Базовый алгоритм: SVM.
Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
Предлагаемый алгоритм:
Базовый алгоритм: C-Value и TF-IDF.
Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
- пополняем паспорт известной специальности новыми ключевыми словами, либо
- находим ближайший паспорт специальности.
Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература: Стрижов, Рудой.
Ключевые слова: порождение признаков, поиск изоморфных моделей.
Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
Базовый алгоритм: решающие деревья.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

Название: Методы извлечения признаков из текстовой информации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература Найти.
Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
Предлагаемый алгоритм.
Базовый алгоритм.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по латентным моделям.
Ключевые слова: мягкая кластеризация, латентные модели.
Предлагаемый алгоритм: hHDP.
Базовый алгоритм: HDP.
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

Литература

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.

Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).

Название задачи	Автор	Ссылка на журнал	Исходный текст работы	Дата подачи	Состояние
Выбор признаков и оптимизация метрики при кластеризации коллекции документов	Адуенко А.А., Кузьмин А.А., Стрижов В.В.	Известия ТулГу	[9]	12.10.2012	Опубликовано
Оценивание вероятностей появления строк в коллекции документов	Будников Е.А., Стрижов В.В.	Информационные технологии	[10]	24.09.2012	Опубликовано
Проверка адекватности тематических моделей коллекции документов	Кузьмин А.А., Стрижов В.В.	Программная инженерия	[11]	17.12.2012	Опубликовано
Алгоритм оптимального расположения названий коллекции документов	Адуенко А.А., Стрижов В.В.	Программная инженерия	[12]	13.11.2012	Опубликовано
Визуализация матрицы парных расстояний между документами	Адуенко А.А., Стрижов В.В.	Научно-технические ведомости С.-Пб.ПГУ	[13]	29.10.2012	Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации	Медведникова М.М., Стрижов В.В.	Известия ТулГу	[14]	15.11.2012	Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов	Адуенко А.А., Стрижов В.В.	Инфокоммуникационные технологии	[15]	18.12.2012	Опубликовано
Алгоритм построения логических правил при разметке текстов	Иванова А.В., Адуенко А.А., Стрижов В.В.	Программная инженерия	[16]	24.01.2013	Принято
Построение иерархических тематических моделей коллекции документов	Цыганова С.В., Стрижов В.В.	Прикладная информатика	[17]	27.01.2013	Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения	Варфоломеева А.А., Стрижов В.В.	Научно-технические ведомости С.-Пб.ПГУ	[18]	27.01.2013	Отрецензировано
Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании	Целых В.Р., Воронцов К.В.	Машинное обучение и анализ данных	[19]	17.12.2012	Опубликовано
Проверка адекватности тематической модели	Степан Лобастов		[20]		Редакция

Список принятых к публикации работ

1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_974%2C_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2012»

Категория: Учебные курсы