Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Разное)
Строка 113: Строка 113:
=Черновой список задач=
=Черновой список задач=
-
===1. 2012ThematicMatching===
 
-
*'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз.
 
-
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
 
-
*'''Данные:''' Авторефераты диссертаций (ссылка). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
 
-
*'''Литература:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
 
-
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
 
-
*'''Предлагаемый алгоритм:'''
 
-
*'''Базовый алгоритм:''' (Использовать работы С.Ц. — синтез C-Value и TF-IDF - проверить).
 
-
*'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
 
-
*'''Проблема, еще раз:''' Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
 
-
** пополняем паспорт известной специальности новыми ключевыми словами, либо
 
-
** находим ближайший паспорт специальности.
 
-
*'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
 
-
===2. 2012ThematicClustering===
+
===1. 2012CoRegression===
 +
*'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
 +
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
 +
*'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
 +
*'''Литература:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
 +
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
 +
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
 +
*'''Базовый алгоритм:''' Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
 +
*'''Проблема:''' [[Media:Strijov2012SciRating.pdf‎|Описание в файле.]] Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
 +
 
 +
===2. 2012ExpertRanking===
 +
*'''Название:''' Согласование ранговых экспертных оценок.
 +
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
 +
*'''Данные:''' Интернет-голосование за список книг, голосование без кооптации.
 +
*'''Литература:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
 +
*'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
 +
*'''Базовый алгоритм:''' Медиана Кемени и другие алгоритмы.
 +
*'''Проблема:''' Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг ''n'' выбранных кандидатов отличается от рейтинга ''n+k'' выбранных кандидатов, при единственном голосовании с выбором из ''N'' кандидатов. Возможно, требуется осветить парадокс Эрроу.
 +
 
 +
===3. 2012StructureRegression===
 +
*'''Название:''' Выбор признаков в задачах структурной регрессии
 +
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
 +
*'''Данные:''' библиографические записи из BibTeX collection on CS.
 +
*'''Литература:''' работы Jaakkola и его команды, возможно, код.
 +
*'''Предлагаемый алгоритм:''' Структурная регрессия.
 +
*'''Базовый алгоритм:''' описан Валентином.
 +
*'''Требуется:''' сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
 +
 
 +
===4. 2012LogicClassification===
 +
*'''Название:''' Построение логических правил при разметке текстов
 +
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
 +
*'''Данные:''' библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
 +
*'''Литература:''' работы Инякина, Чувилина, Кудинова.
 +
*'''Предлагаемый алгоритм:''' Решающие деревья, тупиковые покрытия.
 +
*'''Базовый алгоритм:''' описан Валентином.
 +
*'''Требуется:''' обучить модель, разметки текста, используя решающие правила над RegExp - строками.
 +
 
 +
=== 5. 2012RankClustering ===
 +
* '''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания.
 +
* '''Тизер:''' Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
 +
* '''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов). [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Более 1000 библиографических записей из статей/книг по анализу данных.]
 +
* '''Литература:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
 +
* '''Ключевые слова:''' DTW — модификации, k-Means.
 +
* '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
 +
* '''Базовый алгоритм:''' k-Means и его высокопроизводительные вариации.
 +
* '''Проблема:''' Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
 +
 
 +
===6. 2012ThematicClustering===
*'''Название:''' Проверка адекватности тематической модели.
*'''Название:''' Проверка адекватности тематической модели.
*'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью
*'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью
Строка 135: Строка 169:
*'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов.
*'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов.
*'''Предлагаемый алгоритм:''' алгоритм иерархической кластеризации k-means + классификация k-NN.
*'''Предлагаемый алгоритм:''' алгоритм иерархической кластеризации k-means + классификация k-NN.
-
*'''Базовый алгоритм:''' -- k-Means
+
*'''Базовый алгоритм:''' k-Means
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
-
===3. 2012ThematicHierarchy===
+
==7. 2012ThematicHierarchy===
*'''Название:''' Построение иерархических тематических моделей.
*'''Название:''' Построение иерархических тематических моделей.
*'''Тизер:''' Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
*'''Тизер:''' Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
Строка 148: Строка 182:
*'''Проблема:''' Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.
*'''Проблема:''' Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.
-
===4. 2012ThematicVisualizing===
+
===8. 2012ThematicVisualizing===
*'''Название:''' Визуализация иерархической тематических моделей.
*'''Название:''' Визуализация иерархической тематических моделей.
*'''Тизер:''' На материалах конференции EURO.
*'''Тизер:''' На материалах конференции EURO.
Строка 160: Строка 194:
** переносе тезиса из одной темы в другую,
** переносе тезиса из одной темы в другую,
** адекватности соответствия модельной и фактический кластеризации.
** адекватности соответствия модельной и фактический кластеризации.
-
 
-
===5. 2012FeatureGen===
 
-
*'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
 
-
Нзавание2: Определение социальной роли автора текста
 
-
*'''Данные:''' *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
 
-
*'''Литература:'''
 
-
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 
-
*'''Предлагаемый алгоритм'''
 
-
*'''Базовый алгоритм'''
 
-
 
-
===6. 2012CoRegression===
 
-
*'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
 
-
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
 
-
*'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
 
-
*'''Литература:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
 
-
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
 
-
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
 
-
*'''Базовый алгоритм:''' Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
 
-
*'''Проблема:''' [[Media:Strijov2012SciRating.pdf‎|Описание в файле.]] Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
 
-
 
-
===7. 2012StructureRegression===
 
-
*'''Название:''' Выбор признаков в задачах структурной регрессии
 
-
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
 
-
*'''Данные:''' библиографические записи из BibTeX collection on CS.
 
-
*'''Литература:''' работы Jaakkola и его команды, возможно, код.
 
-
*'''Предлагаемый алгоритм:''' Структурная регрессия.
 
-
*'''Базовый алгоритм:''' описан Валентином.
 
-
*'''Требуется:''' сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
 
-
 
-
=== 8. 2012RankClustering ===
 
-
* '''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания.
 
-
* '''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей).
 
-
* '''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов). [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Более 1000 библиографических записей из статей/книг по анализу данных.]
 
-
* '''Литература:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
 
-
* '''Ключевые слова:''' DTW — модификации, k-Means.
 
-
* '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
 
-
* '''Базовый алгоритм:''' k-Means и его высокопроизводительные вариации.
 
-
* '''Проблема:''' Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
 
===9. 2012CovSelection===
===9. 2012CovSelection===
Строка 209: Строка 205:
*'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
*'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
-
===10. 2012ExpertRanking===
+
===10. 2012ThematicMatching===
-
*'''Название:''' Согласование ранговых экспертных оценок.
+
*'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз.
-
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
+
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
-
*'''Данные:''' Интернет-голосование за список книг, голосование без кооптации.
+
*'''Данные:''' Авторефераты диссертаций (ссылка). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
-
*'''Литература:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
+
*'''Литература:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
-
*'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
+
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
-
*'''Базовый алгоритм:''' Медиана Кемени и другие алгоритмы.
+
*'''Предлагаемый алгоритм:'''
-
*'''Проблема:''' Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг ''n'' выбранных кандидатов отличается от рейтинга ''n+k'' выбранных кандидатов, при единственном голосовании с выбором из ''N'' кандидатов. Возможно, требуется осветить парадокс Эрроу.
+
*'''Базовый алгоритм:''' C-Value и TF-IDF.
 +
*'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
 +
*'''Проблема, еще раз:''' Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
 +
** пополняем паспорт известной специальности новыми ключевыми словами, либо
 +
** находим ближайший паспорт специальности.
 +
*'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
 +
 
 +
===11. 2012FeatureGen===
 +
*'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
 +
*'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
 +
*'''Данные:''' синтетические, интернет-коллекция.
 +
*'''Литература:''' Стрижов, Рудой.
 +
*'''Ключевые слова:''' порождение признаков, поиск изоморфных моделей.
 +
*'''Предлагаемый алгоритм:''' алгоритм последовательного порождения суперпозиций.
 +
*'''Базовый алгоритм:''' решающие деревья.
 +
*'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст.
-
===11. 2012TypeDetection===
+
===12. 2012TypeDetection===
*'''Название:''' Методы извлечения признаков из текстовой информации
*'''Название:''' Методы извлечения признаков из текстовой информации
-
*'''Тизер:''' Определение типа произведения (определение научной области произведения)
+
*'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
-
*'''Данные:''' Книги с УДК, у Антона
+
*'''Данные:''' синтетические, интернет-коллекция.
-
*'''Литература''' Найти
+
*'''Литература''' Найти.
-
*'''Предлагаемый алгоритм'''
+
*'''Ключевые слова:''' иерархическая кластеризация, structural learning, метрики сходства текстов.
-
*'''Базовый алгоритм'''
+
*'''Предлагаемый алгоритм.'''
 +
*'''Базовый алгоритм.'''
 +
*'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст.
===Темы К.В. Воронцова===
===Темы К.В. Воронцова===
* '''2012SparceDistribution''' Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)
* '''2012SparceDistribution''' Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)
* '''2012HierarchcalThemes''' Иерархические вероятностные тематические модели (Е.К.)
* '''2012HierarchcalThemes''' Иерархические вероятностные тематические модели (Е.К.)
-
 
-
 
== Ссылки ==
== Ссылки ==
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities

Версия 05:44, 10 сентября 2012


Курс называется "Математические методы прогнозирования"


Страница наполняется до 5 сентября 2012.


Список задач

Название задачи Автор Рецензент Ссылка на работу Комментарии
Название Кто Кто Surname2012Title AIPVDTCHSJR[R]


Расписание

Дата Что делаем Результат для обсуждения Код
Сентябрь 5 Выбрана задача, рецензент Запись в ML
12 Выбрана задача, найдены базовые публикации. Аннотация, 600 знаков. Annotation
19 Собрана литература, она в bib; найдены данные. Введение, примерно одна страница. Introduction
26 Поставлена задача, собраны все Литература по работе. Найдены публикации. Постановка задачи, полстраницы. Problem
Октябрь 3 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
10 Описание алгоритма. Алгоритмическая часть (третий раздел). Document
17 Теоретическая часть. Второй раздел. Theory
24 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
31 Контрольная точка - показ статьи в целом. Статья. cHeck
Ноябрь 7 Доработка статьи; доклад, первая группа. Доклад. Show
14 Доклад, вторая группа. Подача статьи в журнал. Journal
21 Доклад, третья группа. Рецензия написана, [r]-рецензенту Review, [r]
28 Последний день для претендентов на оценки 10,9,8. Экзамен (score)

Черновой список задач

1. 2012CoRegression

  • Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
  • Тизер: Построение интегральной оценки эффективности научной деятельности.
  • Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
  • Литература: К.В.Воронцов «Коллаборативная фильтрация».
  • Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
  • Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
  • Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
  • Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

  • Название: Согласование ранговых экспертных оценок.
  • Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
  • Данные: Интернет-голосование за список книг, голосование без кооптации.
  • Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
  • Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
  • Базовый алгоритм: Медиана Кемени и другие алгоритмы.
  • Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

  • Название: Выбор признаков в задачах структурной регрессии
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS.
  • Литература: работы Jaakkola и его команды, возможно, код.
  • Предлагаемый алгоритм: Структурная регрессия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

  • Название: Построение логических правил при разметке текстов
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
  • Литература: работы Инякина, Чувилина, Кудинова.
  • Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

  • Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
  • Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
  • Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
  • Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
  • Ключевые слова: DTW — модификации, k-Means.
  • Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
  • Базовый алгоритм: k-Means и его высокопроизводительные вариации.
  • Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

  • Название: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью

Вариант: Иерархическая тематическая кластеризация тезисов.

  • Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
  • Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
  • Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
  • Базовый алгоритм: k-Means
  • Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy=

  • Название: Построение иерархических тематических моделей.
  • Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
  • Данные: Тексты тезисов.
  • Литература: иерархические модели.
  • Ключевые слова: иерархическое тематическое моделирование.
  • Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
  • Базовый алгоритм: PLSA--LDA.
  • Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

  • Название: Визуализация иерархической тематических моделей.
  • Тизер: На материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012.
  • Литература: многомерное шкалирование, кластеризация.
  • Ключевые слова: визуализация графов.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: --
  • Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
    • корректировки названий тем/подтем конференции,
    • переносе тезиса из одной темы в другую,
    • адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

  • Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
  • Тизер: Ранжирование поисковых выдач Яндекса.
  • Данные: Яндекс – математика.
  • Литература: Бишоп, Стрижов.
  • Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
  • Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
  • Базовый алгоритм: SVM.
  • Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

  • Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
  • Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
  • Данные: Авторефераты диссертаций (ссылка). Паспорта специальностей.
  • Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
  • Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: C-Value и TF-IDF.
  • Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
  • Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
    • пополняем паспорт известной специальности новыми ключевыми словами, либо
    • находим ближайший паспорт специальности.
  • Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

  • Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература: Стрижов, Рудой.
  • Ключевые слова: порождение признаков, поиск изоморфных моделей.
  • Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
  • Базовый алгоритм: решающие деревья.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

  • Название: Методы извлечения признаков из текстовой информации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература Найти.
  • Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
  • Предлагаемый алгоритм.
  • Базовый алгоритм.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

  • 2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)
  • 2012HierarchcalThemes Иерархические вероятностные тематические модели (Е.К.)

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities

Личные инструменты