Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(9. 2012CovSelection)
(Черновой список задач)
Строка 116: Строка 116:
*'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз
*'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
-
*'''Данные:''': Авторефераты диссертаций. Паспорта специальностей (в качестве данных) - http://www.aspirantura.spb.ru/pasport/05.html
+
*'''Данные:''' Авторефераты диссертаций. Паспорта специальностей (в качестве данных) - http://www.aspirantura.spb.ru/pasport/05.html
*'''Материалы:''' Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов»
*'''Материалы:''' Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов»
-
*'''Ключевые слова:''': ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
+
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
-
*'''Предлагаемый алгоритм''': - ???
+
*'''Предлагаемый алгоритм''' - ???
-
*'''Базовый алгоритм''': — можно использовать работу С.Царькова — синтез C-Value и TF-IDF.
+
*'''Базовый алгоритм''' — можно использовать работу С.Царькова — синтез C-Value и TF-IDF.
===2. 2012ThematicClustering===
===2. 2012ThematicClustering===
Строка 126: Строка 126:
*'''Тизер:''' Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью
*'''Тизер:''' Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью
Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)
Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)
-
*'''Данные:''':
+
*'''Данные:'''
Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
*'''Материалы:'''? конс. К.В.)
*'''Материалы:'''? конс. К.В.)
-
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-
*'''Предлагаемый алгоритм''': ?
+
*'''Предлагаемый алгоритм''' ?
-
*'''Базовый алгоритм''': ?
+
*'''Базовый алгоритм''' ?
===3. 2012ThematicHierarchy===
===3. 2012ThematicHierarchy===
Строка 137: Строка 137:
*'''Тизер:''' Построение тематической модели на материалах конференции EURO.
*'''Тизер:''' Построение тематической модели на материалах конференции EURO.
-
*'''Данные:''': Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
+
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
*'''Материалы:'''? конс. К.В.)
*'''Материалы:'''? конс. К.В.)
-
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-
*'''Предлагаемый алгоритм''': ?
+
*'''Предлагаемый алгоритм''' ?
-
*'''Базовый алгоритм''': ?
+
*'''Базовый алгоритм''' ?
===4. 2012ThematicVisualizing===
===4. 2012ThematicVisualizing===
*'''Название:''' Визуализация иерархической тематических моделей
*'''Название:''' Визуализация иерархической тематических моделей
*'''Тизер:''' На материалах конференции EURO.
*'''Тизер:''' На материалах конференции EURO.
-
*'''Данные:''': Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
+
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
*'''Материалы:'''? конс. К.В.)
*'''Материалы:'''? конс. К.В.)
-
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-
*'''Предлагаемый алгоритм''': ?
+
*'''Предлагаемый алгоритм''' ?
-
*'''Базовый алгоритм''': ?
+
*'''Базовый алгоритм''' ?
===5. 2012FeatureGen===
===5. 2012FeatureGen===
*'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
*'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
Нзавание2: Определение социальной роли автора текста
Нзавание2: Определение социальной роли автора текста
-
*'''Данные:''': *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
+
*'''Данные:''' *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
*'''Материалы:'''
*'''Материалы:'''
-
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
+
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
-
*'''Предлагаемый алгоритм''':
+
*'''Предлагаемый алгоритм'''
-
*'''Базовый алгоритм''':
+
*'''Базовый алгоритм'''
===6. 2012CoRegression===
===6. 2012CoRegression===
*'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
*'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности
-
*'''Данные:''': Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)
+
*'''Данные:''' Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)
Таблица авторы-журналы и число статей выбранных авторов в журналах.
Таблица авторы-журналы и число статей выбранных авторов в журналах.
*'''Материалы:''' Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
*'''Материалы:''' Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
-
*'''Ключевые слова:''': индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
+
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
-
*'''Предлагаемый алгоритм''': Совместная регрессия (придумать или найти готовую).
+
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
-
*'''Базовый алгоритм''': Ко-кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h-index авторов.
+
*'''Базовый алгоритм''' Ко-кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h-index авторов.
===7. 2012StructureRegression===
===7. 2012StructureRegression===
*'''Название:''' Выбор признаков в задачах структурной регрессии
*'''Название:''' Выбор признаков в задачах структурной регрессии
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков
-
*'''Данные:''': библиографические записи из BibTeX collection on CS.
+
*'''Данные:''' библиографические записи из BibTeX collection on CS.
*'''Материалы:''' работы Jaakkola и его команды, возможно, код.
*'''Материалы:''' работы Jaakkola и его команды, возможно, код.
-
*'''Предлагаемый алгоритм''': Структурная регрессия
+
*'''Предлагаемый алгоритм''' Структурная регрессия
-
*'''Базовый алгоритм''': возможно у Валентина появится
+
*'''Базовый алгоритм''' возможно у Валентина появится
===8. 2012RankClustering===
===8. 2012RankClustering===
*'''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания
*'''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания
*'''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
*'''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
-
*'''Данные:''': Испорченные и некорректные библиографические записи (базы студенческих рефератов)
+
*'''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов)
*'''Материалы:'''
*'''Материалы:'''
-
*'''Ключевые слова:''': DTW – модификации, k-Means
+
*'''Ключевые слова:''' DTW – модификации, k-Means
-
*'''Предлагаемый алгоритм''': Алгоритм ранговой кластеризации.
+
*'''Предлагаемый алгоритм''' Алгоритм ранговой кластеризации.
-
*'''Базовый алгоритм''': k-Means и его высокопроизводительные вариации.
+
*'''Базовый алгоритм''' k-Means и его высокопроизводительные вариации.
===9. 2012CovSelection===
===9. 2012CovSelection===
*'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации
*'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации
*'''Тизер:''' Ранжирование поисковых выдач Яндекса
*'''Тизер:''' Ранжирование поисковых выдач Яндекса
-
*'''Данные:''': Яндекс – математика
+
*'''Данные:''' Яндекс – математика
*'''Материалы:''' Бишоп, Стрижов
*'''Материалы:''' Бишоп, Стрижов
-
*'''Ключевые слова:''': логистическая регрессия, выбор признаков, фильтрация объектов
+
*'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов
-
*'''Предлагаемый алгоритм''': Совместный выбор путем анализа ковариационных матриц
+
*'''Предлагаемый алгоритм''' Совместный выбор путем анализа ковариационных матриц
-
*'''Базовый алгоритм''': SVM.
+
*'''Базовый алгоритм''' SVM.
TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и
TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и
данные Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.
данные Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.
Строка 202: Строка 202:
*'''Название:''' Согласование ранговых экспертных оценок
*'''Название:''' Согласование ранговых экспертных оценок
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений)
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений)
-
*'''Данные:''': Интернет-голосование за список книг
+
*'''Данные:''' Интернет-голосование за список книг
Литература: Нужно будет сделать обзор
Литература: Нужно будет сделать обзор
-
*'''Предлагаемый алгоритм''': Нахождение пересечения конусов и оценка эффективной размерности пространства
+
*'''Предлагаемый алгоритм''' Нахождение пересечения конусов и оценка эффективной размерности пространства
-
*'''Базовый алгоритм''': Медиана Кемени и другие алгоритмы
+
*'''Базовый алгоритм''' Медиана Кемени и другие алгоритмы
===11. 2012TypeDetection===
===11. 2012TypeDetection===
*'''Название:''' Методы извлечение признаков из текстовой информации
*'''Название:''' Методы извлечение признаков из текстовой информации
*'''Тизер:''' Определение типа произведения (определение научной области произведения)
*'''Тизер:''' Определение типа произведения (определение научной области произведения)
-
*'''Данные:''': Книги с УДК, у Антона
+
*'''Данные:''' Книги с УДК, у Антона
-
*'''Литература''': Найти
+
*'''Литература''' Найти
-
*'''Предлагаемый алгоритм''':
+
*'''Предлагаемый алгоритм'''
-
*'''Базовый алгоритм''':
+
*'''Базовый алгоритм'''
Другие темы:
Другие темы:

Версия 15:13, 4 сентября 2012


Курс называется "Математические методы прогнозирования"


Страница наполняется до 5 сентября 2012.


Список задач

Название задачи Автор Рецензент Ссылка на работу Комментарии
Название Кто Кто Surname2012Title AIPVDTCHSJR[R]


Расписание

Дата Что делаем Результат для обсуждения Код
Сентябрь 5 Выбрана задача, рецензент Запись в ML
12 Выбрана задача, найдены базовые публикации. Аннотация, 600 знаков. Annotation
19 Собрана литература, она в bib; найдены данные. Введение, примерно одна страница. Introduction
26 Поставлена задача, собраны все материалы по работе. Найдены публикации. Постановка задачи, полстраницы. Problem
Октябрь 3 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
10 Описание алгоритма. Алгоритмическая часть (третий раздел). Document
17 Теоретическая часть. Второй раздел. Theory
24 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
31 Контрольная точка - показ статьи в целом. Статья. cHeck
Ноябрь 7 Доработка статьи; доклад, первая группа. Доклад. Show
14 Доклад, вторая группа. Подача статьи в журнал. Journal
21 Доклад, третья группа. Рецензия написана, [r]-рецензенту Review, [r]
28 Последний день для претендентов на оценки 10,9,8. Экзамен (score)

Черновой список задач

1. 2012ThematicMatching

  • Название: Определение соответствия документа тематике на основе выделения ключевых фраз
  • Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
  • Данные: Авторефераты диссертаций. Паспорта специальностей (в качестве данных) - http://www.aspirantura.spb.ru/pasport/05.html
  • Материалы: Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов»
  • Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
  • Предлагаемый алгоритм - ???
  • Базовый алгоритм — можно использовать работу С.Царькова — синтез C-Value и TF-IDF.

2. 2012ThematicClustering

  • Название: Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации)
  • Тизер: Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью

Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)

  • Данные:

Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.

  • Материалы:? конс. К.В.)
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм ?
  • Базовый алгоритм ?

3. 2012ThematicHierarchy

  • Название: Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной)
  • Тизер: Построение тематической модели на материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
  • Материалы:? конс. К.В.)
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм ?
  • Базовый алгоритм ?

4. 2012ThematicVisualizing

  • Название: Визуализация иерархической тематических моделей
  • Тизер: На материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
  • Материалы:? конс. К.В.)
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм ?
  • Базовый алгоритм ?

5. 2012FeatureGen

  • Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации

Нзавание2: Определение социальной роли автора текста

  • Данные: *Данные: отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
  • Материалы:
  • Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
  • Предлагаемый алгоритм
  • Базовый алгоритм

6. 2012CoRegression

  • Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
  • Тизер: Построение интегральной оценки эффективности научной деятельности
  • Данные: Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)

Таблица авторы-журналы и число статей выбранных авторов в журналах.

  • Материалы: Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
  • Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
  • Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
  • Базовый алгоритм Ко-кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h-index авторов.

7. 2012StructureRegression

  • Название: Выбор признаков в задачах структурной регрессии
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков
  • Данные: библиографические записи из BibTeX collection on CS.
  • Материалы: работы Jaakkola и его команды, возможно, код.
  • Предлагаемый алгоритм Структурная регрессия
  • Базовый алгоритм возможно у Валентина появится

8. 2012RankClustering

  • Название: Ранговая кластеризация и алгоритмы динамического выравнивания
  • Тизер: Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
  • Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов)
  • Материалы:
  • Ключевые слова: DTW – модификации, k-Means
  • Предлагаемый алгоритм Алгоритм ранговой кластеризации.
  • Базовый алгоритм k-Means и его высокопроизводительные вариации.

9. 2012CovSelection

  • Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации
  • Тизер: Ранжирование поисковых выдач Яндекса
  • Данные: Яндекс – математика
  • Материалы: Бишоп, Стрижов
  • Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов
  • Предлагаемый алгоритм Совместный выбор путем анализа ковариационных матриц
  • Базовый алгоритм SVM.

TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.

10. 2012ExpertRanking

  • Название: Согласование ранговых экспертных оценок
  • Тизер: Методы ранжирования при голосовании (выборе литературных произведений)
  • Данные: Интернет-голосование за список книг

Литература: Нужно будет сделать обзор

  • Предлагаемый алгоритм Нахождение пересечения конусов и оценка эффективной размерности пространства
  • Базовый алгоритм Медиана Кемени и другие алгоритмы

11. 2012TypeDetection

  • Название: Методы извлечение признаков из текстовой информации
  • Тизер: Определение типа произведения (определение научной области произведения)
  • Данные: Книги с УДК, у Антона
  • Литература Найти
  • Предлагаемый алгоритм
  • Базовый алгоритм

Другие темы: Мультимодельный подход при классификации авторефератов Выбор признаков при кластеризации текстов Кластеризация и структурная классификация текстов Многомерное шкалирование и визуализация кластеризованных текстов Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF

Полезные материалы

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities

Личные инструменты