Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(11. 2012TypeDetection)
Строка 52: Строка 52:
|
|
|26
|26
-
|Поставлена задача, собраны все материалы по работе. Найдены публикации.
+
|Поставлена задача, собраны все Литература по работе. Найдены публикации.
|Постановка задачи, полстраницы.
|Постановка задачи, полстраницы.
|'''P'''roblem
|'''P'''roblem
Строка 117: Строка 117:
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
*'''Данные:''' Авторефераты диссертаций (ссылка). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
*'''Данные:''' Авторефераты диссертаций (ссылка). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
-
*'''Материалы:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
+
*'''Литература:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
*'''Предлагаемый алгоритм:'''
*'''Предлагаемый алгоритм:'''
Строка 130: Строка 130:
*'''Данные:'''
*'''Данные:'''
Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
-
*'''Материалы:'''? конс. К.В.)
+
*'''Литература:'''? конс. К.В.)
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Предлагаемый алгоритм''' ?
*'''Предлагаемый алгоритм''' ?
Строка 140: Строка 140:
*'''Тизер:''' Построение тематической модели на материалах конференции EURO.
*'''Тизер:''' Построение тематической модели на материалах конференции EURO.
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
-
*'''Материалы:'''? конс. К.В.)
+
*'''Литература:'''? конс. К.В.)
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Предлагаемый алгоритм''' ?
*'''Предлагаемый алгоритм''' ?
Строка 149: Строка 149:
*'''Тизер:''' На материалах конференции EURO.
*'''Тизер:''' На материалах конференции EURO.
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
-
*'''Материалы:'''? конс. К.В.)
+
*'''Литература:'''? конс. К.В.)
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Предлагаемый алгоритм''' ?
*'''Предлагаемый алгоритм''' ?
Строка 158: Строка 158:
Нзавание2: Определение социальной роли автора текста
Нзавание2: Определение социальной роли автора текста
*'''Данные:''' *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
*'''Данные:''' *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
-
*'''Материалы:'''
+
*'''Литература:'''
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
*'''Предлагаемый алгоритм'''
*'''Предлагаемый алгоритм'''
Строка 167: Строка 167:
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
*'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
*'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
-
*'''Материалы:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
+
*'''Литература:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
Строка 177: Строка 177:
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков
*'''Данные:''' библиографические записи из BibTeX collection on CS.
*'''Данные:''' библиографические записи из BibTeX collection on CS.
-
*'''Материалы:''' работы Jaakkola и его команды, возможно, код.
+
*'''Литература:''' работы Jaakkola и его команды, возможно, код.
*'''Предлагаемый алгоритм''' Структурная регрессия
*'''Предлагаемый алгоритм''' Структурная регрессия
*'''Базовый алгоритм''' возможно у Валентина появится
*'''Базовый алгоритм''' возможно у Валентина появится
Строка 185: Строка 185:
* '''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей).
* '''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей).
* '''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов).
* '''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов).
-
* '''Материалы:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
+
* '''Литература:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
* '''Ключевые слова:''' DTW — модификации, k-Means.
* '''Ключевые слова:''' DTW — модификации, k-Means.
* '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
* '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
Строка 195: Строка 195:
*'''Тизер:''' Ранжирование поисковых выдач Яндекса.
*'''Тизер:''' Ранжирование поисковых выдач Яндекса.
*'''Данные:''' Яндекс – математика.
*'''Данные:''' Яндекс – математика.
-
*'''Материалы:''' Бишоп, Стрижов.
+
*'''Литература:''' Бишоп, Стрижов.
*'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов.
*'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов.
*'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц.
*'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц.
*'''Базовый алгоритм:''' SVM.
*'''Базовый алгоритм:''' SVM.
-
*'''Проблема и решение:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
+
*'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
===10. 2012ExpertRanking===
===10. 2012ExpertRanking===
Строка 205: Строка 205:
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
*'''Данные:''' Интернет-голосование за список книг, голосование без кооптации.
*'''Данные:''' Интернет-голосование за список книг, голосование без кооптации.
-
*'''Материалы:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
+
*'''Литература:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
*'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
*'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
*'''Базовый алгоритм:''' Медиана Кемени и другие алгоритмы.
*'''Базовый алгоритм:''' Медиана Кемени и другие алгоритмы.
Строка 229: Строка 229:
* Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF
* Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF
-
== Полезные материалы ==
+
== Полезные Литература ==
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities

Версия 17:02, 4 сентября 2012


Курс называется "Математические методы прогнозирования"


Страница наполняется до 5 сентября 2012.


Список задач

Название задачи Автор Рецензент Ссылка на работу Комментарии
Название Кто Кто Surname2012Title AIPVDTCHSJR[R]


Расписание

Дата Что делаем Результат для обсуждения Код
Сентябрь 5 Выбрана задача, рецензент Запись в ML
12 Выбрана задача, найдены базовые публикации. Аннотация, 600 знаков. Annotation
19 Собрана литература, она в bib; найдены данные. Введение, примерно одна страница. Introduction
26 Поставлена задача, собраны все Литература по работе. Найдены публикации. Постановка задачи, полстраницы. Problem
Октябрь 3 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
10 Описание алгоритма. Алгоритмическая часть (третий раздел). Document
17 Теоретическая часть. Второй раздел. Theory
24 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
31 Контрольная точка - показ статьи в целом. Статья. cHeck
Ноябрь 7 Доработка статьи; доклад, первая группа. Доклад. Show
14 Доклад, вторая группа. Подача статьи в журнал. Journal
21 Доклад, третья группа. Рецензия написана, [r]-рецензенту Review, [r]
28 Последний день для претендентов на оценки 10,9,8. Экзамен (score)

Черновой список задач

1. 2012ThematicMatching

  • Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
  • Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
  • Данные: Авторефераты диссертаций (ссылка). Паспорта специальностей.
  • Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
  • Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: (Использовать работу С.Царькова — синтез C-Value и TF-IDF - проверить).
  • Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
  • Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

2. 2012ThematicClustering

  • Название: Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации)
  • Тизер: Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью

Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)

  • Данные:

Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.

  • Литература:? конс. К.В.)
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм ?
  • Базовый алгоритм ?

3. 2012ThematicHierarchy

  • Название: Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной)
  • Тизер: Построение тематической модели на материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
  • Литература:? конс. К.В.)
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм ?
  • Базовый алгоритм ?

4. 2012ThematicVisualizing

  • Название: Визуализация иерархической тематических моделей
  • Тизер: На материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
  • Литература:? конс. К.В.)
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм ?
  • Базовый алгоритм ?

5. 2012FeatureGen

  • Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации

Нзавание2: Определение социальной роли автора текста

  • Данные: *Данные: отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
  • Литература:
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм
  • Базовый алгоритм

6. 2012CoRegression

  • Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
  • Тизер: Построение интегральной оценки эффективности научной деятельности.
  • Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
  • Литература: К.В.Воронцов «Коллаборативная фильтрация».
  • Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
  • Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
  • Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
  • Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

7. 2012StructureRegression

  • Название: Выбор признаков в задачах структурной регрессии
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков
  • Данные: библиографические записи из BibTeX collection on CS.
  • Литература: работы Jaakkola и его команды, возможно, код.
  • Предлагаемый алгоритм Структурная регрессия
  • Базовый алгоритм возможно у Валентина появится

8. 2012RankClustering

  • Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
  • Тизер: Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей).
  • Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов).
  • Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
  • Ключевые слова: DTW — модификации, k-Means.
  • Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
  • Базовый алгоритм: k-Means и его высокопроизводительные вариации.
  • Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

9. 2012CovSelection

  • Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
  • Тизер: Ранжирование поисковых выдач Яндекса.
  • Данные: Яндекс – математика.
  • Литература: Бишоп, Стрижов.
  • Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
  • Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
  • Базовый алгоритм: SVM.
  • Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ExpertRanking

  • Название: Согласование ранговых экспертных оценок.
  • Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
  • Данные: Интернет-голосование за список книг, голосование без кооптации.
  • Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
  • Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
  • Базовый алгоритм: Медиана Кемени и другие алгоритмы.
  • Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

11. 2012TypeDetection

  • Название: Методы извлечения признаков из текстовой информации
  • Тизер: Определение типа произведения (определение научной области произведения)
  • Данные: Книги с УДК, у Антона
  • Литература Найти
  • Предлагаемый алгоритм
  • Базовый алгоритм

Другие темы

  • 2012SpareDirichlet Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц., тема К.В.В.)
  • 2012HierarchcalThemes Иерархические вероятностные тематические модели (Е.К., тема К.В.В.)

Разное

  • Мультимодельный подход при классификации авторефератов
  • Выбор признаков при кластеризации текстов
  • Кластеризация и структурная классификация текстов
  • Многомерное шкалирование и визуализация кластеризованных текстов
  • Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF

Полезные Литература

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities

Личные инструменты