Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012
Материал из MachineLearning.
(Различия между версиями)
(→Составить) |
м (→Список задач) |
||
(160 промежуточных версий не показаны.) | |||
Строка 2: | Строка 2: | ||
__NOTOC__ | __NOTOC__ | ||
- | '''Курс | + | '''Курс "Математические методы прогнозирования"''' |
+ | |||
+ | {{tip|Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.}} | ||
- | |||
== Список задач == | == Список задач == | ||
{|class="wikitable" | {|class="wikitable" | ||
Строка 10: | Строка 11: | ||
! Название задачи | ! Название задачи | ||
! Автор | ! Автор | ||
- | |||
! Ссылка на работу | ! Ссылка на работу | ||
! Комментарии | ! Комментарии | ||
|- | |- | ||
- | | | + | |Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации |
- | | | + | |Медведникова Мария |
- | + | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Medvednikova2012CoIndicator] | |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/ | + | |Опубликовано |
- | | | + | |
|- | |- | ||
+ | |Иерархическая тематическая кластеризация тезисов и визуализация | ||
+ | |Кузьмин Арсентий | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Kuzmin2012ThematicClustering] | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |Совместный выбор объектов и признаков в задачах многоклассовой классификации. | ||
+ | |Адуенко Александр | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Aduenko2012CovSelection] | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |Построение иерархических тематических моделей | ||
+ | |Цыганова Светлана | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Tsyganova2012TopicIerarhy] | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |Выбор признаков в задачах структурной регрессии | ||
+ | |Варфоломеева Анна | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Varfolomeeva2012StructureLearning] | ||
+ | |Принято | ||
+ | |- | ||
+ | |Статистические критерии однородности и согласия для сильно разреженных дискретных распределений | ||
+ | |Целых Влада | ||
+ | | | ||
+ | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Celyh2012SparceDistribution] | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |Построение логических правил при разметке текстов | ||
+ | |Иванова Алина | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Ivanova2012LogicStructure] | ||
+ | |Принято | ||
+ | |- | ||
+ | |Проверка адекватности тематической модели | ||
+ | |Степан Лобастов | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Lobastov2012LatentModels] | ||
+ | |Редакция | ||
+ | |- | ||
+ | <!-- Нет материалов --> | ||
+ | <!-- | ||
+ | |Определение соответствия документа тематике на основе выделения ключевых фраз. | ||
+ | |Александр Шульга | ||
+ | | | ||
+ | |Неизвестно | ||
+ | |- | ||
+ | |Методы извлечения признаков из текстовой информации | ||
+ | |Егор Клочков | ||
+ | | | ||
+ | |Неизвестно | ||
+ | --> | ||
+ | |} | ||
- | == | + | == Расписание == |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
{|class="wikitable" | {|class="wikitable" | ||
Строка 32: | Строка 76: | ||
! Что делаем | ! Что делаем | ||
! Результат для обсуждения | ! Результат для обсуждения | ||
- | ! | + | ! Код |
|- | |- | ||
- | | | + | |Сентябрь |
- | | | + | |10 |
- | | Выбрана задача, | + | |Выбрана задача, рецензент |
- | | | + | |Запись в ML |
- | + | | | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | | | + | |
|- | |- | ||
- | | | + | | |
- | | | + | |17 |
- | | Поставлен вычислительный эксперимент, получены первые результаты. | + | |Выбрана задача, найдены базовые публикации. |
- | | Визуализация данных. | + | |Аннотация, 600 знаков. |
- | | ''' | + | |'''A'''nnotation |
- | |- | + | |- |
- | | | + | | |
- | | | + | |24 |
- | | Описание алгоритма | + | |Собрана литература, она в bib; найдены данные. |
- | | | + | |Введение, примерно одна страница. |
- | | ''' | + | |'''I'''ntroduction |
- | |- | + | |- |
- | | | + | |Октябрь |
- | | | + | |8 |
- | | | + | |Поставлена задача, собраны или написаны все необходимые алгоритмы. |
- | | | + | |Постановка задачи, полстраницы. |
- | | | + | |'''P'''roblem |
- | |- | + | |- |
- | | | + | | |
- | | | + | |15 |
- | | Завершение вычислительного эксперимента. | + | |Поставлен вычислительный эксперимент, получены первые результаты. |
- | | Контрольная точка - показ статьи в целом. | + | |Визуализация данных. |
- | | ''' | + | |'''V'''isualizing |
- | |- | + | |- |
- | | | + | | |
- | | | + | |22 |
- | | Доработка статьи; доклад, первая группа. | + | |Описание алгоритма. |
- | | Доклад. | + | |Алгоритмическая часть (третий раздел). |
- | | ''' | + | |'''D'''ocument |
- | |- | + | |- |
- | | | + | | |
- | | | + | |29 |
- | | Доклад, вторая группа. | + | |Теоретическая часть. |
- | | Подача статьи в журнал. | + | |Второй раздел. |
- | | ''' | + | |'''T'''heory |
- | |- | + | |- |
- | | | + | |Ноябрь |
- | | 3 | + | |5 |
- | | Доклад, третья группа. | + | |Завершение вычислительного эксперимента. |
- | | Рецензия написана, [r]-рецензенту | + | |Описание эксперимента и анализ ошибок. |
- | | ''' | + | |'''C'''omp |
- | |- | + | |- |
- | | | + | | |
- | | 10 | + | |12 |
- | | | + | |Контрольная точка - показ статьи в целом. |
- | | | + | |Статья. |
- | | | + | |c'''H'''eck |
+ | |- | ||
+ | | | ||
+ | |19 | ||
+ | |Доработка статьи; доклад, первая группа. | ||
+ | |Доклад. | ||
+ | |'''S'''how | ||
+ | |- | ||
+ | | | ||
+ | |26 | ||
+ | |Доклад, вторая группа. | ||
+ | |Подача статьи в журнал. | ||
+ | |'''J'''ournal | ||
+ | |- | ||
+ | |Декабрь | ||
+ | |3 | ||
+ | |Доклад, третья группа. | ||
+ | |Рецензия написана, [r]-рецензенту | ||
+ | |'''R'''eview, [r] | ||
+ | |- | ||
+ | | | ||
+ | |10 | ||
+ | |Последний день для претендентов на оценки 10,9,8. | ||
+ | |Экзамен | ||
+ | |(score) | ||
|- | |- | ||
|} | |} | ||
+ | =Черновой список задач= | ||
- | == | + | ===1. 2012CoRegression=== |
- | + | *'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации. | |
- | + | *'''Тизер:''' Построение интегральной оценки эффективности научной деятельности. | |
- | + | *'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах. | |
- | + | *'''Литература:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]]. | |
- | + | *'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация. | |
- | + | *'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую). | |
- | + | *'''Базовый алгоритм:''' Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится). | |
- | + | *'''Проблема:''' [[Media:Strijov2012SciRating.pdf|Описание в файле.]] Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно). | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | == | + | ===2. 2012ExpertRanking=== |
- | + | *'''Название:''' Согласование ранговых экспертных оценок. | |
- | + | *'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета). | |
- | + | *'''Данные:''' Интернет-голосование за список книг, голосование без кооптации. | |
- | + | *'''Литература:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме. | |
- | + | *'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм. | |
- | + | *'''Базовый алгоритм:''' Медиана Кемени и другие алгоритмы. | |
- | + | *'''Проблема:''' Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг ''n'' выбранных кандидатов отличается от рейтинга ''n+k'' выбранных кандидатов, при единственном голосовании с выбором из ''N'' кандидатов. Возможно, требуется осветить парадокс Эрроу. | |
- | + | ||
- | + | ===3. 2012StructureRegression=== | |
- | + | *'''Название:''' Выбор признаков в задачах структурной регрессии | |
- | + | *'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов. | |
- | + | *'''Данные:''' библиографические записи из BibTeX collection on CS. | |
- | + | *'''Литература:''' работы Jaakkola и его команды, возможно, код. | |
- | + | *'''Предлагаемый алгоритм:''' Структурная регрессия. | |
+ | *'''Базовый алгоритм:''' описан Валентином. | ||
+ | *'''Требуется:''' сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи. | ||
+ | |||
+ | ===4. 2012LogicClassification=== | ||
+ | *'''Название:''' Построение логических правил при разметке текстов | ||
+ | *'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов. | ||
+ | *'''Данные:''' библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты. | ||
+ | *'''Литература:''' работы Инякина, Чувилина, Кудинова. | ||
+ | *'''Предлагаемый алгоритм:''' Решающие деревья, тупиковые покрытия. | ||
+ | *'''Базовый алгоритм:''' описан Валентином. | ||
+ | *'''Требуется:''' обучить модель, разметки текста, используя решающие правила над RegExp - строками. | ||
+ | |||
+ | === 5. 2012RankClustering === | ||
+ | * '''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания. | ||
+ | * '''Тизер:''' Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей. | ||
+ | * '''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов). [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Более 1000 библиографических записей из статей/книг по анализу данных.] | ||
+ | * '''Литература:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means. | ||
+ | * '''Ключевые слова:''' DTW — модификации, k-Means. | ||
+ | * '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации. | ||
+ | * '''Базовый алгоритм:''' k-Means и его высокопроизводительные вариации. | ||
+ | * '''Проблема:''' Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи. | ||
+ | |||
+ | ===6. 2012ThematicClustering=== | ||
+ | *'''Название:''' Проверка адекватности тематической модели. | ||
+ | *'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов. | ||
+ | *'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.] | ||
+ | *'''Литература:''' по кластеризации, и введению расстояний между текстами как мешками слов. | ||
+ | *'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов. | ||
+ | *'''Предлагаемый алгоритм:''' алгоритм иерархической кластеризации k-means + классификация k-NN. | ||
+ | *'''Базовый алгоритм:''' k-Means | ||
+ | *'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме. | ||
+ | |||
+ | ===7. 2012ThematicHierarchy=== | ||
+ | *'''Название:''' Построение иерархических тематических моделей. | ||
+ | *'''Тизер:''' Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции. | ||
+ | *'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов.] | ||
+ | *'''Литература:''' иерархические модели, [http://www.cs.princeton.edu/~mimno/topics.html topic modelling]. | ||
+ | *'''Ключевые слова:''' иерархическое тематическое моделирование. | ||
+ | *'''Предлагаемый алгоритм:''' иерархические модели, оценка распределения по темам. | ||
+ | *'''Базовый алгоритм:''' PLSA--LDA. | ||
+ | *'''Проблема:''' Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам. | ||
+ | |||
+ | ===8. 2012ThematicVisualizing=== | ||
+ | *'''Название:''' Визуализация иерархических тематических моделей. | ||
+ | *'''Тизер:''' На материалах конференции EURO. | ||
+ | *'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012.] | ||
+ | *'''Литература:''' многомерное шкалирование, кластеризация. | ||
+ | *'''Ключевые слова:''' визуализация графов. | ||
+ | *'''Предлагаемый алгоритм:''' | ||
+ | *'''Базовый алгоритм:''' -- | ||
+ | *'''Проблема:''' Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о | ||
+ | ** корректировки названий тем/подтем конференции, | ||
+ | ** переносе тезиса из одной темы в другую, | ||
+ | ** адекватности соответствия модельной и фактический кластеризации. | ||
+ | |||
+ | ===9. 2012CovSelection=== | ||
+ | *'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации. | ||
+ | *'''Тизер:''' Ранжирование поисковых выдач Яндекса. | ||
+ | *'''Данные:''' Яндекс – математика. | ||
+ | *'''Литература:''' Бишоп, Стрижов. | ||
+ | *'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов. | ||
+ | *'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц. | ||
+ | *'''Базовый алгоритм:''' SVM. | ||
+ | *'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели. | ||
+ | |||
+ | ===10. 2012ThematicMatching=== | ||
+ | *'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз. | ||
+ | *'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации? | ||
+ | *'''Данные:''' Авторефераты диссертаций (SugarSync). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей]. | ||
+ | *'''Литература:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить). | ||
+ | *'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки. | ||
+ | *'''Предлагаемый алгоритм:''' | ||
+ | *'''Базовый алгоритм:''' C-Value и TF-IDF. | ||
+ | *'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей. | ||
+ | *'''Проблема, еще раз:''' Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге | ||
+ | ** пополняем паспорт известной специальности новыми ключевыми словами, либо | ||
+ | ** находим ближайший паспорт специальности. | ||
+ | *'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний. | ||
+ | |||
+ | ===11. 2012FeatureGen=== | ||
+ | *'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации | ||
+ | *'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста. | ||
+ | *'''Данные:''' синтетические, интернет-коллекция. | ||
+ | *'''Литература:''' Стрижов, Рудой. | ||
+ | *'''Ключевые слова:''' порождение признаков, поиск изоморфных моделей. | ||
+ | *'''Предлагаемый алгоритм:''' алгоритм последовательного порождения суперпозиций. | ||
+ | *'''Базовый алгоритм:''' решающие деревья. | ||
+ | *'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст. | ||
+ | |||
+ | ===12. 2012TypeDetection=== | ||
+ | *'''Название:''' Методы извлечения признаков из текстовой информации | ||
+ | *'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста. | ||
+ | *'''Данные:''' синтетические, интернет-коллекция. | ||
+ | *'''Литература''' Найти. | ||
+ | *'''Ключевые слова:''' иерархическая кластеризация, structural learning, метрики сходства текстов. | ||
+ | *'''Предлагаемый алгоритм.''' | ||
+ | *'''Базовый алгоритм.''' | ||
+ | *'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст. | ||
+ | |||
+ | ===Темы К.В. Воронцова=== | ||
+ | * '''2012SparceDistribution''' Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.) | ||
+ | |||
+ | === 2012LatentModels=== | ||
+ | *'''Название:''' Проверка адекватности тематической модели. | ||
+ | *'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов. | ||
+ | *'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.] | ||
+ | *'''Литература:''' по латентным моделям. | ||
+ | *'''Ключевые слова:''' мягкая кластеризация, латентные модели. | ||
+ | *'''Предлагаемый алгоритм:''' hHDP. | ||
+ | *'''Базовый алгоритм:''' HDP. | ||
+ | *'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме. | ||
+ | |||
+ | == Ссылки == | ||
+ | https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities | ||
+ | В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами. | ||
+ | |||
+ | ==Литература== | ||
+ | https://www.sugarsync.com | ||
+ | Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме. | ||
+ | |||
+ | |||
+ | ==Публикация работ== | ||
+ | Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер). | ||
+ | {|class="wikitable" | ||
+ | |- | ||
+ | ! Название задачи | ||
+ | ! Автор | ||
+ | ! Ссылка на журнал | ||
+ | ! Исходный текст работы | ||
+ | ! Дата подачи | ||
+ | ! Состояние | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/aduenko_kuzmin_strijov.pdf Выбор признаков и оптимизация метрики при кластеризации коллекции документов] | ||
+ | |Адуенко А.А., Кузьмин А.А., Стрижов В.В. | ||
+ | |[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.tex] | ||
+ | |12.10.2012 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/budnikov_strijov.pdf Оценивание вероятностей появления строк в коллекции документов] | ||
+ | |Будников Е.А., Стрижов В.В. | ||
+ | |[http://novtex.ru/IT/ Информационные технологии] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx] | ||
+ | |24.09.2012 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/kuzmin_strijov.pdf Проверка адекватности тематических моделей коллекции документов] | ||
+ | |Кузьмин А.А., Стрижов В.В. | ||
+ | |[http://novtex.ru/pi.html Программная инженерия] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.tex] | ||
+ | |17.12.2012 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/aduenko_strijov2.pdf Алгоритм оптимального расположения названий коллекции документов] | ||
+ | |Адуенко А.А., Стрижов В.В. | ||
+ | |[http://novtex.ru/pi.html Программная инженерия] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.tex] | ||
+ | |13.11.2012 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/aduenko_strijov1.pdf Визуализация матрицы парных расстояний между документами] | ||
+ | |Адуенко А.А., Стрижов В.В. | ||
+ | |[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.tex] | ||
+ | |29.10.2012 | ||
+ | |Подано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/medvednikova_strijov.pdf Построение интегрального индикатора качества научных публикаций методами ко-кластеризации] | ||
+ | |Медведникова М.М., Стрижов В.В. | ||
+ | |[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.tex] | ||
+ | |15.11.2012 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/aduenko_strijov3.pdf Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов] | ||
+ | |Адуенко А.А., Стрижов В.В. | ||
+ | | [http://ikt.psuti.ru/rules/ Инфокоммуникационные технологии] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.tex] | ||
+ | |18.12.2012 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure/ivanova_aduenko_strijov.pdf Алгоритм построения логических правил при разметке текстов] | ||
+ | |Иванова А.В., Адуенко А.А., Стрижов В.В. | ||
+ | |[http://novtex.ru/pi.html Программная инженерия] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure] | ||
+ | |24.01.2013 | ||
+ | |Принято | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/tsyganova_strijov.pdf Построение иерархических тематических моделей коллекции документов] | ||
+ | |Цыганова С.В., Стрижов В.В. | ||
+ | |[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex] | ||
+ | |27.01.2013 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/varfolomeeva_strijov.pdf Выбор признаков при разметке библиографических списков методами структурного обучения] | ||
+ | |Варфоломеева А.А., Стрижов В.В. | ||
+ | |[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex] | ||
+ | |27.01.2013 | ||
+ | |Отрецензировано | ||
+ | |- | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/celyh_vorontsov.pdf Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании] | ||
+ | |Целых В.Р., Воронцов К.В. | ||
+ | |[http://jmlda.org Машинное обучение и анализ данных] | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.tex] | ||
+ | |17.12.2012 | ||
+ | |Опубликовано | ||
+ | |- | ||
+ | |Проверка адекватности тематической модели | ||
+ | |Степан Лобастов | ||
+ | | | ||
+ | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Lobastov2012LatentModels/Doc/LatentModels.tex] | ||
+ | | | ||
+ | |Редакция | ||
+ | |} | ||
- | == | + | == Список принятых к публикации работ == |
- | * | + | * 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?. |
- | * | + | * 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132. |
+ | * 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25. | ||
+ | * 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4. | ||
+ | * 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4. | ||
+ | * 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1. | ||
+ | * 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2. | ||
+ | * 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5). | ||
+ | * 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1. | ||
+ | * 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013. | ||
+ | * 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442. | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Текущая версия
Курс "Математические методы прогнозирования"
Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013. |
Список задач
Название задачи | Автор | Ссылка на работу | Комментарии |
---|---|---|---|
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации | Медведникова Мария | [1] | Опубликовано |
Иерархическая тематическая кластеризация тезисов и визуализация | Кузьмин Арсентий | [2] | Опубликовано |
Совместный выбор объектов и признаков в задачах многоклассовой классификации. | Адуенко Александр | [3] | Опубликовано |
Построение иерархических тематических моделей | Цыганова Светлана | [4] | Опубликовано |
Выбор признаков в задачах структурной регрессии | Варфоломеева Анна | [5] | Принято |
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений | Целых Влада | Опубликовано | |
Построение логических правил при разметке текстов | Иванова Алина | [7] | Принято |
Проверка адекватности тематической модели | Степан Лобастов | [8] | Редакция |
Расписание
Дата | Что делаем | Результат для обсуждения | Код | |
---|---|---|---|---|
Сентябрь | 10 | Выбрана задача, рецензент | Запись в ML | |
17 | Выбрана задача, найдены базовые публикации. | Аннотация, 600 знаков. | Annotation | |
24 | Собрана литература, она в bib; найдены данные. | Введение, примерно одна страница. | Introduction | |
Октябрь | 8 | Поставлена задача, собраны или написаны все необходимые алгоритмы. | Постановка задачи, полстраницы. | Problem |
15 | Поставлен вычислительный эксперимент, получены первые результаты. | Визуализация данных. | Visualizing | |
22 | Описание алгоритма. | Алгоритмическая часть (третий раздел). | Document | |
29 | Теоретическая часть. | Второй раздел. | Theory | |
Ноябрь | 5 | Завершение вычислительного эксперимента. | Описание эксперимента и анализ ошибок. | Comp |
12 | Контрольная точка - показ статьи в целом. | Статья. | cHeck | |
19 | Доработка статьи; доклад, первая группа. | Доклад. | Show | |
26 | Доклад, вторая группа. | Подача статьи в журнал. | Journal | |
Декабрь | 3 | Доклад, третья группа. | Рецензия написана, [r]-рецензенту | Review, [r] |
10 | Последний день для претендентов на оценки 10,9,8. | Экзамен | (score) |
Черновой список задач
1. 2012CoRegression
- Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
- Тизер: Построение интегральной оценки эффективности научной деятельности.
- Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
- Литература: К.В.Воронцов «Коллаборативная фильтрация».
- Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
- Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
- Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
- Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
2. 2012ExpertRanking
- Название: Согласование ранговых экспертных оценок.
- Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
- Данные: Интернет-голосование за список книг, голосование без кооптации.
- Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
- Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
- Базовый алгоритм: Медиана Кемени и другие алгоритмы.
- Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.
3. 2012StructureRegression
- Название: Выбор признаков в задачах структурной регрессии
- Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
- Данные: библиографические записи из BibTeX collection on CS.
- Литература: работы Jaakkola и его команды, возможно, код.
- Предлагаемый алгоритм: Структурная регрессия.
- Базовый алгоритм: описан Валентином.
- Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
4. 2012LogicClassification
- Название: Построение логических правил при разметке текстов
- Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
- Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
- Литература: работы Инякина, Чувилина, Кудинова.
- Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
- Базовый алгоритм: описан Валентином.
- Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.
5. 2012RankClustering
- Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
- Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
- Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
- Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
- Ключевые слова: DTW — модификации, k-Means.
- Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
- Базовый алгоритм: k-Means и его высокопроизводительные вариации.
- Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
6. 2012ThematicClustering
- Название: Проверка адекватности тематической модели.
- Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
- Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
- Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
- Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
- Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
- Базовый алгоритм: k-Means
- Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
7. 2012ThematicHierarchy
- Название: Построение иерархических тематических моделей.
- Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
- Данные: Тексты тезисов.
- Литература: иерархические модели, topic modelling.
- Ключевые слова: иерархическое тематическое моделирование.
- Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
- Базовый алгоритм: PLSA--LDA.
- Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.
8. 2012ThematicVisualizing
- Название: Визуализация иерархических тематических моделей.
- Тизер: На материалах конференции EURO.
- Данные: Тексты тезисов конференции Евро-2012.
- Литература: многомерное шкалирование, кластеризация.
- Ключевые слова: визуализация графов.
- Предлагаемый алгоритм:
- Базовый алгоритм: --
- Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
- корректировки названий тем/подтем конференции,
- переносе тезиса из одной темы в другую,
- адекватности соответствия модельной и фактический кластеризации.
9. 2012CovSelection
- Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
- Тизер: Ранжирование поисковых выдач Яндекса.
- Данные: Яндекс – математика.
- Литература: Бишоп, Стрижов.
- Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
- Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
- Базовый алгоритм: SVM.
- Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
10. 2012ThematicMatching
- Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
- Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
- Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
- Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
- Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
- Предлагаемый алгоритм:
- Базовый алгоритм: C-Value и TF-IDF.
- Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
- Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
- пополняем паспорт известной специальности новыми ключевыми словами, либо
- находим ближайший паспорт специальности.
- Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
11. 2012FeatureGen
- Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
- Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
- Данные: синтетические, интернет-коллекция.
- Литература: Стрижов, Рудой.
- Ключевые слова: порождение признаков, поиск изоморфных моделей.
- Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
- Базовый алгоритм: решающие деревья.
- Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.
12. 2012TypeDetection
- Название: Методы извлечения признаков из текстовой информации
- Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
- Данные: синтетические, интернет-коллекция.
- Литература Найти.
- Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
- Предлагаемый алгоритм.
- Базовый алгоритм.
- Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.
Темы К.В. Воронцова
- 2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)
2012LatentModels
- Название: Проверка адекватности тематической модели.
- Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
- Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
- Литература: по латентным моделям.
- Ключевые слова: мягкая кластеризация, латентные модели.
- Предлагаемый алгоритм: hHDP.
- Базовый алгоритм: HDP.
- Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
Ссылки
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.
Литература
https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.
Публикация работ
Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).
Список принятых к публикации работ
- 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
- 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
- 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
- 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
- 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
- 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
- 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
- 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
- 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
- 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
- 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.