Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012
Материал из MachineLearning.
(Различия между версиями)
Строка 120: | Строка 120: | ||
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки. | *'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки. | ||
*'''Предлагаемый алгоритм:''' | *'''Предлагаемый алгоритм:''' | ||
- | *'''Базовый алгоритм:''' (Использовать | + | *'''Базовый алгоритм:''' (Использовать работы С.Ц. — синтез C-Value и TF-IDF - проверить). |
*'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей. | *'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей. | ||
*'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний. | *'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний. | ||
===2. 2012ThematicClustering=== | ===2. 2012ThematicClustering=== | ||
- | *'''Название:''' Проверка адекватности тематической модели | + | *'''Название:''' Проверка адекватности тематической модели. |
- | *'''Тизер:''' | + | *'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью |
- | Вариант: Иерархическая тематическая кластеризация тезисов. | + | Вариант: Иерархическая тематическая кластеризация тезисов. |
- | *'''Данные:''' | + | *'''Данные:''' Тексты тезисов конференции Евро-2012, 2200 тезисов. |
- | Тексты тезисов конференции Евро-2012 | + | *'''Литература:''' |
- | *'''Литература:''' | + | *'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов. |
- | *'''Ключевые слова:''' иерархическая кластеризация | + | *'''Предлагаемый алгоритм''' |
- | *'''Предлагаемый алгоритм''' | + | *'''Базовый алгоритм''' -- |
- | *'''Базовый алгоритм''' | + | |
===3. 2012ThematicHierarchy=== | ===3. 2012ThematicHierarchy=== | ||
- | *'''Название:''' Построение | + | *'''Название:''' Построение иерархических тематических моделей. |
- | + | *'''Тизер:''' Методы построения тематической модели, сходной с заданной. Построение тематической модели на материалах конференции. | |
- | *'''Тизер:''' Построение тематической модели на материалах конференции | + | *'''Данные:''' Тексты тезисов. |
- | *'''Данные:''' Тексты | + | *'''Литература:''' |
- | *'''Литература:''' | + | *'''Ключевые слова:''' иерархическое тематическое моделирование. |
- | *'''Ключевые слова:''' | + | *'''Предлагаемый алгоритм:''' |
- | *'''Предлагаемый алгоритм''' | + | *'''Базовый алгоритм:''' -- |
- | *'''Базовый алгоритм''' | + | |
===4. 2012ThematicVisualizing=== | ===4. 2012ThematicVisualizing=== | ||
- | *'''Название:''' Визуализация иерархической тематических моделей | + | *'''Название:''' Визуализация иерархической тематических моделей. |
*'''Тизер:''' На материалах конференции EURO. | *'''Тизер:''' На материалах конференции EURO. | ||
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов. | *'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов. | ||
- | *'''Литература:''' | + | *'''Литература:''' [] |
- | *'''Ключевые слова:''' | + | *'''Ключевые слова:''' визуализация графов. |
- | *'''Предлагаемый алгоритм''' | + | *'''Предлагаемый алгоритм:''' |
- | *'''Базовый алгоритм''' | + | *'''Базовый алгоритм:''' -- |
===5. 2012FeatureGen=== | ===5. 2012FeatureGen=== |
Версия 17:15, 4 сентября 2012
Курс называется "Математические методы прогнозирования"
Страница наполняется до 5 сентября 2012. |
Список задач
Название задачи | Автор | Рецензент | Ссылка на работу | Комментарии |
---|---|---|---|---|
Название | Кто | Кто | Surname2012Title | AIPVDTCHSJR[R] |
Расписание
Дата | Что делаем | Результат для обсуждения | Код | |
---|---|---|---|---|
Сентябрь | 5 | Выбрана задача, рецензент | Запись в ML | |
12 | Выбрана задача, найдены базовые публикации. | Аннотация, 600 знаков. | Annotation | |
19 | Собрана литература, она в bib; найдены данные. | Введение, примерно одна страница. | Introduction | |
26 | Поставлена задача, собраны все Литература по работе. Найдены публикации. | Постановка задачи, полстраницы. | Problem | |
Октябрь | 3 | Поставлен вычислительный эксперимент, получены первые результаты. | Визуализация данных. | Visualizing |
10 | Описание алгоритма. | Алгоритмическая часть (третий раздел). | Document | |
17 | Теоретическая часть. | Второй раздел. | Theory | |
24 | Завершение вычислительного эксперимента. | Описание эксперимента и анализ ошибок. | Comp | |
31 | Контрольная точка - показ статьи в целом. | Статья. | cHeck | |
Ноябрь | 7 | Доработка статьи; доклад, первая группа. | Доклад. | Show |
14 | Доклад, вторая группа. | Подача статьи в журнал. | Journal | |
21 | Доклад, третья группа. | Рецензия написана, [r]-рецензенту | Review, [r] | |
28 | Последний день для претендентов на оценки 10,9,8. | Экзамен | (score) |
Черновой список задач
1. 2012ThematicMatching
- Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
- Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
- Данные: Авторефераты диссертаций (ссылка). Паспорта специальностей.
- Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
- Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
- Предлагаемый алгоритм:
- Базовый алгоритм: (Использовать работы С.Ц. — синтез C-Value и TF-IDF - проверить).
- Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
- Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
2. 2012ThematicClustering
- Название: Проверка адекватности тематической модели.
- Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью
Вариант: Иерархическая тематическая кластеризация тезисов.
- Данные: Тексты тезисов конференции Евро-2012, 2200 тезисов.
- Литература:
- Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
- Предлагаемый алгоритм
- Базовый алгоритм --
3. 2012ThematicHierarchy
- Название: Построение иерархических тематических моделей.
- Тизер: Методы построения тематической модели, сходной с заданной. Построение тематической модели на материалах конференции.
- Данные: Тексты тезисов.
- Литература:
- Ключевые слова: иерархическое тематическое моделирование.
- Предлагаемый алгоритм:
- Базовый алгоритм: --
4. 2012ThematicVisualizing
- Название: Визуализация иерархической тематических моделей.
- Тизер: На материалах конференции EURO.
- Данные: Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
- Литература: []
- Ключевые слова: визуализация графов.
- Предлагаемый алгоритм:
- Базовый алгоритм: --
5. 2012FeatureGen
- Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
Нзавание2: Определение социальной роли автора текста
- Данные: *Данные: отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
- Литература:
- Ключевые слова: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
- Предлагаемый алгоритм
- Базовый алгоритм
6. 2012CoRegression
- Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
- Тизер: Построение интегральной оценки эффективности научной деятельности.
- Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
- Литература: К.В.Воронцов «Коллаборативная фильтрация».
- Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
- Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
- Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
- Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
7. 2012StructureRegression
- Название: Выбор признаков в задачах структурной регрессии
- Тизер: Алгоритм структурной регрессии для разметки библиографических списков
- Данные: библиографические записи из BibTeX collection on CS.
- Литература: работы Jaakkola и его команды, возможно, код.
- Предлагаемый алгоритм Структурная регрессия
- Базовый алгоритм возможно у Валентина появится
8. 2012RankClustering
- Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
- Тизер: Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей).
- Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов).
- Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
- Ключевые слова: DTW — модификации, k-Means.
- Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
- Базовый алгоритм: k-Means и его высокопроизводительные вариации.
- Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
9. 2012CovSelection
- Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
- Тизер: Ранжирование поисковых выдач Яндекса.
- Данные: Яндекс – математика.
- Литература: Бишоп, Стрижов.
- Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
- Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
- Базовый алгоритм: SVM.
- Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
10. 2012ExpertRanking
- Название: Согласование ранговых экспертных оценок.
- Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
- Данные: Интернет-голосование за список книг, голосование без кооптации.
- Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
- Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
- Базовый алгоритм: Медиана Кемени и другие алгоритмы.
- Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.
11. 2012TypeDetection
- Название: Методы извлечения признаков из текстовой информации
- Тизер: Определение типа произведения (определение научной области произведения)
- Данные: Книги с УДК, у Антона
- Литература Найти
- Предлагаемый алгоритм
- Базовый алгоритм
Другие темы
- 2012SpareDirichlet Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц., тема К.В.В.)
- 2012HierarchcalThemes Иерархические вероятностные тематические модели (Е.К., тема К.В.В.)
Разное
- Мультимодельный подход при классификации авторефератов
- Выбор признаков при кластеризации текстов
- Кластеризация и структурная классификация текстов
- Многомерное шкалирование и визуализация кластеризованных текстов
- Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF
Полезные Литература
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities