Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(1. 2012ThematicMatching)
м (Список задач)
 
(138 промежуточных версий не показаны.)
Строка 2: Строка 2:
__NOTOC__
__NOTOC__
-
'''Курс называется "Математические методы прогнозирования"'''
+
'''Курс "Математические методы прогнозирования"'''
 +
 
 +
{{tip|Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.}}
-
{{tip|Страница наполняется до 5 сентября 2012. }}
 
== Список задач ==
== Список задач ==
{|class="wikitable"
{|class="wikitable"
Строка 10: Строка 11:
! Название задачи
! Название задачи
! Автор
! Автор
-
! Рецензент
 
! Ссылка на работу
! Ссылка на работу
! Комментарии
! Комментарии
|-
|-
-
|Название
+
|Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
-
|Кто
+
|Медведникова Мария
-
|Кто
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Medvednikova2012CoIndicator]
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012CMARS/ Surname2012Title]
+
|Опубликовано
-
|AIPVDTCHSJR[R]
+
|-
 +
|Иерархическая тематическая кластеризация тезисов и визуализация
 +
|Кузьмин Арсентий
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Kuzmin2012ThematicClustering]
 +
|Опубликовано
 +
|-
 +
|Совместный выбор объектов и признаков в задачах многоклассовой классификации.
 +
|Адуенко Александр
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Aduenko2012CovSelection]
 +
|Опубликовано
 +
|-
 +
|Построение иерархических тематических моделей
 +
|Цыганова Светлана
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Tsyganova2012TopicIerarhy]
 +
|Опубликовано
 +
|-
 +
|Выбор признаков в задачах структурной регрессии
 +
|Варфоломеева Анна
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Varfolomeeva2012StructureLearning]
 +
|Принято
 +
|-
 +
|Статистические критерии однородности и согласия для сильно разреженных дискретных распределений
 +
|Целых Влада
 +
|
 +
[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Celyh2012SparceDistribution]
 +
|Опубликовано
 +
|-
 +
|Построение логических правил при разметке текстов
 +
|Иванова Алина
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Ivanova2012LogicStructure]
 +
|Принято
 +
|-
 +
|Проверка адекватности тематической модели
 +
|Степан Лобастов
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Lobastov2012LatentModels]
 +
|Редакция
 +
|-
 +
<!-- Нет материалов -->
 +
<!--
 +
|Определение соответствия документа тематике на основе выделения ключевых фраз.
 +
|Александр Шульга
 +
|
 +
|Неизвестно
 +
|-
 +
|Методы извлечения признаков из текстовой информации
 +
|Егор Клочков
 +
|
 +
|Неизвестно
 +
-->
|}
|}
-
 
-
 
== Расписание ==
== Расписание ==
Строка 33: Строка 79:
|-
|-
|Сентябрь
|Сентябрь
-
|5
+
|10
|Выбрана задача, рецензент
|Выбрана задача, рецензент
|Запись в ML
|Запись в ML
Строка 39: Строка 85:
|-
|-
|
|
-
|12
+
|17
|Выбрана задача, найдены базовые публикации.
|Выбрана задача, найдены базовые публикации.
|Аннотация, 600 знаков.
|Аннотация, 600 знаков.
Строка 45: Строка 91:
|-
|-
|
|
-
|19
+
|24
|Собрана литература, она в bib; найдены данные.
|Собрана литература, она в bib; найдены данные.
|Введение, примерно одна страница.
|Введение, примерно одна страница.
|'''I'''ntroduction
|'''I'''ntroduction
|-
|-
-
|
+
|Октябрь
-
|26
+
|8
-
|Поставлена задача, собраны все материалы по работе. Найдены публикации.
+
|Поставлена задача, собраны или написаны все необходимые алгоритмы.
|Постановка задачи, полстраницы.
|Постановка задачи, полстраницы.
|'''P'''roblem
|'''P'''roblem
|-
|-
-
|Октябрь
+
|
-
|3
+
|15
|Поставлен вычислительный эксперимент, получены первые результаты.
|Поставлен вычислительный эксперимент, получены первые результаты.
|Визуализация данных.
|Визуализация данных.
Строка 63: Строка 109:
|-
|-
|
|
-
|10
+
|22
|Описание алгоритма.
|Описание алгоритма.
|Алгоритмическая часть (третий раздел).
|Алгоритмическая часть (третий раздел).
Строка 69: Строка 115:
|-
|-
|
|
-
|17
+
|29
|Теоретическая часть.
|Теоретическая часть.
|Второй раздел.
|Второй раздел.
|'''T'''heory
|'''T'''heory
|-
|-
-
|
+
|Ноябрь
-
|24
+
|5
|Завершение вычислительного эксперимента.
|Завершение вычислительного эксперимента.
|Описание эксперимента и анализ ошибок.
|Описание эксперимента и анализ ошибок.
Строка 81: Строка 127:
|-
|-
|
|
-
|31
+
|12
|Контрольная точка - показ статьи в целом.
|Контрольная точка - показ статьи в целом.
|Статья.
|Статья.
|c'''H'''eck
|c'''H'''eck
|-
|-
-
|Ноябрь
+
|
-
|7
+
|19
|Доработка статьи; доклад, первая группа.
|Доработка статьи; доклад, первая группа.
|Доклад.
|Доклад.
Строка 93: Строка 139:
|-
|-
|
|
-
|14
+
|26
|Доклад, вторая группа.
|Доклад, вторая группа.
|Подача статьи в журнал.
|Подача статьи в журнал.
|'''J'''ournal
|'''J'''ournal
|-
|-
-
|
+
|Декабрь
-
|21
+
|3
|Доклад, третья группа.
|Доклад, третья группа.
|Рецензия написана, [r]-рецензенту
|Рецензия написана, [r]-рецензенту
Строка 105: Строка 151:
|-
|-
|
|
-
|28
+
|10
|Последний день для претендентов на оценки 10,9,8.
|Последний день для претендентов на оценки 10,9,8.
|Экзамен
|Экзамен
Строка 113: Строка 159:
=Черновой список задач=
=Черновой список задач=
-
===1. 2012ThematicMatching===
 
-
*'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз.
 
-
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
 
-
*'''Данные:''' Авторефераты диссертаций (ссылка). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
 
-
*'''Материалы:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
 
-
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
 
-
*'''Предлагаемый алгоритм:'''
 
-
*'''Базовый алгоритм:''' (Использовать работу С.Царькова — синтез C-Value и TF-IDF - проверить).
 
-
*'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
 
-
*'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
 
-
 
-
===2. 2012ThematicClustering===
 
-
*'''Название:''' Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации)
 
-
*'''Тизер:''' Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью
 
-
Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)
 
-
*'''Данные:'''
 
-
Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
 
-
*'''Материалы:'''? конс. К.В.)
 
-
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 
-
*'''Предлагаемый алгоритм''' ?
 
-
*'''Базовый алгоритм''' ?
 
-
 
-
===3. 2012ThematicHierarchy===
 
-
*'''Название:''' Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной)
 
-
 
-
*'''Тизер:''' Построение тематической модели на материалах конференции EURO.
 
-
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
 
-
*'''Материалы:'''? конс. К.В.)
 
-
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 
-
*'''Предлагаемый алгоритм''' ?
 
-
*'''Базовый алгоритм''' ?
 
-
 
-
===4. 2012ThematicVisualizing===
 
-
*'''Название:''' Визуализация иерархической тематических моделей
 
-
*'''Тизер:''' На материалах конференции EURO.
 
-
*'''Данные:''' Тексты тезисов конференции Евро-2012 (?пока нет) порядка 2000 тезисов.
 
-
*'''Материалы:'''? конс. К.В.)
 
-
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 
-
*'''Предлагаемый алгоритм''' ?
 
-
*'''Базовый алгоритм''' ?
 
-
 
-
===5. 2012FeatureGen===
 
-
*'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
 
-
Нзавание2: Определение социальной роли автора текста
 
-
*'''Данные:''' *'''Данные:''' отзывов о книгах в интернет-магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
 
-
*'''Материалы:'''
 
-
*'''Ключевые слова:''' иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
 
-
*'''Предлагаемый алгоритм'''
 
-
*'''Базовый алгоритм'''
 
-
===6. 2012CoRegression===
+
===1. 2012CoRegression===
*'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
*'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
*'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
*'''Данные:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
-
*'''Материалы:''' Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
+
*'''Литература:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
*'''Базовый алгоритм:''' Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
*'''Базовый алгоритм:''' Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
-
*'''Проблема:''' [[Media:Strijov2012SciRating.pdf‎|Описание в файле.]]
+
*'''Проблема:''' [[Media:Strijov2012SciRating.pdf‎|Описание в файле.]] Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
-
===7. 2012StructureRegression===
+
===2. 2012ExpertRanking===
 +
*'''Название:''' Согласование ранговых экспертных оценок.
 +
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
 +
*'''Данные:''' Интернет-голосование за список книг, голосование без кооптации.
 +
*'''Литература:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
 +
*'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
 +
*'''Базовый алгоритм:''' Медиана Кемени и другие алгоритмы.
 +
*'''Проблема:''' Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг ''n'' выбранных кандидатов отличается от рейтинга ''n+k'' выбранных кандидатов, при единственном голосовании с выбором из ''N'' кандидатов. Возможно, требуется осветить парадокс Эрроу.
 +
 
 +
===3. 2012StructureRegression===
*'''Название:''' Выбор признаков в задачах структурной регрессии
*'''Название:''' Выбор признаков в задачах структурной регрессии
-
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков
+
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
*'''Данные:''' библиографические записи из BibTeX collection on CS.
*'''Данные:''' библиографические записи из BibTeX collection on CS.
-
*'''Материалы:''' работы Jaakkola и его команды, возможно, код.
+
*'''Литература:''' работы Jaakkola и его команды, возможно, код.
-
*'''Предлагаемый алгоритм''' Структурная регрессия
+
*'''Предлагаемый алгоритм:''' Структурная регрессия.
-
*'''Базовый алгоритм''' возможно у Валентина появится
+
*'''Базовый алгоритм:''' описан Валентином.
 +
*'''Требуется:''' сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
-
===8. 2012RankClustering===
+
===4. 2012LogicClassification===
-
*'''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания
+
*'''Название:''' Построение логических правил при разметке текстов
-
*'''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
+
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
-
*'''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов)
+
*'''Данные:''' библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
-
*'''Материалы:'''
+
*'''Литература:''' работы Инякина, Чувилина, Кудинова.
-
*'''Ключевые слова:''' DTW – модификации, k-Means
+
*'''Предлагаемый алгоритм:''' Решающие деревья, тупиковые покрытия.
-
*'''Предлагаемый алгоритм''' Алгоритм ранговой кластеризации.
+
*'''Базовый алгоритм:''' описан Валентином.
-
*'''Базовый алгоритм''' k-Means и его высокопроизводительные вариации.
+
*'''Требуется:''' обучить модель, разметки текста, используя решающие правила над RegExp - строками.
 +
 
 +
=== 5. 2012RankClustering ===
 +
* '''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания.
 +
* '''Тизер:''' Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
 +
* '''Данные:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов). [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Более 1000 библиографических записей из статей/книг по анализу данных.]
 +
* '''Литература:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
 +
* '''Ключевые слова:''' DTW — модификации, k-Means.
 +
* '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
 +
* '''Базовый алгоритм:''' k-Means и его высокопроизводительные вариации.
 +
* '''Проблема:''' Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
 +
 
 +
===6. 2012ThematicClustering===
 +
*'''Название:''' Проверка адекватности тематической модели.
 +
*'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
 +
*'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.]
 +
*'''Литература:''' по кластеризации, и введению расстояний между текстами как мешками слов.
 +
*'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов.
 +
*'''Предлагаемый алгоритм:''' алгоритм иерархической кластеризации k-means + классификация k-NN.
 +
*'''Базовый алгоритм:''' k-Means
 +
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
 +
 
 +
===7. 2012ThematicHierarchy===
 +
*'''Название:''' Построение иерархических тематических моделей.
 +
*'''Тизер:''' Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
 +
*'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов.]
 +
*'''Литература:''' иерархические модели, [http://www.cs.princeton.edu/~mimno/topics.html topic modelling].
 +
*'''Ключевые слова:''' иерархическое тематическое моделирование.
 +
*'''Предлагаемый алгоритм:''' иерархические модели, оценка распределения по темам.
 +
*'''Базовый алгоритм:''' PLSA--LDA.
 +
*'''Проблема:''' Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.
 +
 
 +
===8. 2012ThematicVisualizing===
 +
*'''Название:''' Визуализация иерархических тематических моделей.
 +
*'''Тизер:''' На материалах конференции EURO.
 +
*'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012.]
 +
*'''Литература:''' многомерное шкалирование, кластеризация.
 +
*'''Ключевые слова:''' визуализация графов.
 +
*'''Предлагаемый алгоритм:'''
 +
*'''Базовый алгоритм:''' --
 +
*'''Проблема:''' Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
 +
** корректировки названий тем/подтем конференции,
 +
** переносе тезиса из одной темы в другую,
 +
** адекватности соответствия модельной и фактический кластеризации.
===9. 2012CovSelection===
===9. 2012CovSelection===
-
*'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации
+
*'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации.
-
*'''Тизер:''' Ранжирование поисковых выдач Яндекса
+
*'''Тизер:''' Ранжирование поисковых выдач Яндекса.
-
*'''Данные:''' Яндекс – математика
+
*'''Данные:''' Яндекс – математика.
-
*'''Материалы:''' Бишоп, Стрижов
+
*'''Литература:''' Бишоп, Стрижов.
-
*'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов
+
*'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов.
-
*'''Предлагаемый алгоритм''' Совместный выбор путем анализа ковариационных матриц
+
*'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц.
-
*'''Базовый алгоритм''' SVM.
+
*'''Базовый алгоритм:''' SVM.
-
TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и
+
*'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
-
данные Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.
+
-
===10. 2012ExpertRanking===
+
===10. 2012ThematicMatching===
-
*'''Название:''' Согласование ранговых экспертных оценок
+
*'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз.
-
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений)
+
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
-
*'''Данные:''' Интернет-голосование за список книг
+
*'''Данные:''' Авторефераты диссертаций (SugarSync). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
-
Литература: Нужно будет сделать обзор
+
*'''Литература:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
-
*'''Предлагаемый алгоритм''' Нахождение пересечения конусов и оценка эффективной размерности пространства
+
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
-
*'''Базовый алгоритм''' Медиана Кемени и другие алгоритмы
+
*'''Предлагаемый алгоритм:'''
 +
*'''Базовый алгоритм:''' C-Value и TF-IDF.
 +
*'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
 +
*'''Проблема, еще раз:''' Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
 +
** пополняем паспорт известной специальности новыми ключевыми словами, либо
 +
** находим ближайший паспорт специальности.
 +
*'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
-
===11. 2012TypeDetection===
+
===11. 2012FeatureGen===
-
*'''Название:''' Методы извлечение признаков из текстовой информации
+
*'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
-
*'''Тизер:''' Определение типа произведения (определение научной области произведения)
+
*'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
-
*'''Данные:''' Книги с УДК, у Антона
+
*'''Данные:''' синтетические, интернет-коллекция.
-
*'''Литература''' Найти
+
*'''Литература:''' Стрижов, Рудой.
-
*'''Предлагаемый алгоритм'''
+
*'''Ключевые слова:''' порождение признаков, поиск изоморфных моделей.
-
*'''Базовый алгоритм'''
+
*'''Предлагаемый алгоритм:''' алгоритм последовательного порождения суперпозиций.
 +
*'''Базовый алгоритм:''' решающие деревья.
 +
*'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст.
-
Другие темы:
+
===12. 2012TypeDetection===
-
Мультимодельный подход при классификации авторефератов
+
*'''Название:''' Методы извлечения признаков из текстовой информации
-
Выбор признаков при кластеризации текстов
+
*'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
-
Кластеризация и структурная классификация текстов
+
*'''Данные:''' синтетические, интернет-коллекция.
-
Многомерное шкалирование и визуализация кластеризованных текстов
+
*'''Литература''' Найти.
-
Поиск ключевых слов в текстах (на материалах С.Ц.) TF-IDF
+
*'''Ключевые слова:''' иерархическая кластеризация, structural learning, метрики сходства текстов.
 +
*'''Предлагаемый алгоритм.'''
 +
*'''Базовый алгоритм.'''
 +
*'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст.
-
== Полезные материалы ==
+
===Темы К.В. Воронцова===
 +
* '''2012SparceDistribution''' Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)
 +
 
 +
=== 2012LatentModels===
 +
*'''Название:''' Проверка адекватности тематической модели.
 +
*'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
 +
*'''Данные:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.]
 +
*'''Литература:''' по латентным моделям.
 +
*'''Ключевые слова:''' мягкая кластеризация, латентные модели.
 +
*'''Предлагаемый алгоритм:''' hHDP.
 +
*'''Базовый алгоритм:''' HDP.
 +
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
 +
 
 +
== Ссылки ==
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities
 +
В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.
 +
 +
==Литература==
 +
https://www.sugarsync.com
 +
Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.
 +
 +
 +
==Публикация работ==
 +
Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).
 +
{|class="wikitable"
 +
|-
 +
! Название задачи
 +
! Автор
 +
! Ссылка на журнал
 +
! Исходный текст работы
 +
! Дата подачи
 +
! Состояние
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/aduenko_kuzmin_strijov.pdf Выбор признаков и оптимизация метрики при кластеризации коллекции документов]
 +
|Адуенко А.А., Кузьмин А.А., Стрижов В.В.
 +
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.tex]
 +
|12.10.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/budnikov_strijov.pdf Оценивание вероятностей появления строк в коллекции документов]
 +
|Будников Е.А., Стрижов В.В.
 +
|[http://novtex.ru/IT/ Информационные технологии]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx]
 +
|24.09.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/kuzmin_strijov.pdf Проверка адекватности тематических моделей коллекции документов]
 +
|Кузьмин А.А., Стрижов В.В.
 +
|[http://novtex.ru/pi.html Программная инженерия]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.tex]
 +
|17.12.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/aduenko_strijov2.pdf Алгоритм оптимального расположения названий коллекции документов]
 +
|Адуенко А.А., Стрижов В.В.
 +
|[http://novtex.ru/pi.html Программная инженерия]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.tex]
 +
|13.11.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/aduenko_strijov1.pdf Визуализация матрицы парных расстояний между документами]
 +
|Адуенко А.А., Стрижов В.В.
 +
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.tex]
 +
|29.10.2012
 +
|Подано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/medvednikova_strijov.pdf Построение интегрального индикатора качества научных публикаций методами ко-кластеризации]
 +
|Медведникова М.М., Стрижов В.В.
 +
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.tex]
 +
|15.11.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/aduenko_strijov3.pdf Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов]
 +
|Адуенко А.А., Стрижов В.В.
 +
| [http://ikt.psuti.ru/rules/ Инфокоммуникационные технологии]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.tex]
 +
|18.12.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure/ivanova_aduenko_strijov.pdf Алгоритм построения логических правил при разметке текстов]
 +
|Иванова А.В., Адуенко А.А., Стрижов В.В.
 +
|[http://novtex.ru/pi.html Программная инженерия]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure]
 +
|24.01.2013
 +
|Принято
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/tsyganova_strijov.pdf Построение иерархических тематических моделей коллекции документов]
 +
|Цыганова С.В., Стрижов В.В.
 +
|[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex]
 +
|27.01.2013
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/varfolomeeva_strijov.pdf Выбор признаков при разметке библиографических списков методами структурного обучения]
 +
|Варфоломеева А.А., Стрижов В.В.
 +
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex]
 +
|27.01.2013
 +
|Отрецензировано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/celyh_vorontsov.pdf Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании]
 +
|Целых В.Р., Воронцов К.В.
 +
|[http://jmlda.org Машинное обучение и анализ данных]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.tex]
 +
|17.12.2012
 +
|Опубликовано
 +
|-
 +
|Проверка адекватности тематической модели
 +
|Степан Лобастов
 +
|
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Lobastov2012LatentModels/Doc/LatentModels.tex]
 +
|
 +
|Редакция
 +
|}
 +
 +
== Список принятых к публикации работ ==
 +
* 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
 +
* 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
 +
* 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
 +
* 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
 +
* 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
 +
* 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
 +
* 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
 +
* 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
 +
* 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
 +
* 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
 +
* 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
 +
[[Категория:Учебные курсы]]

Текущая версия


Курс "Математические методы прогнозирования"


Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.


Список задач

Название задачи Автор Ссылка на работу Комментарии
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации Медведникова Мария [1] Опубликовано
Иерархическая тематическая кластеризация тезисов и визуализация Кузьмин Арсентий [2] Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации. Адуенко Александр [3] Опубликовано
Построение иерархических тематических моделей Цыганова Светлана [4] Опубликовано
Выбор признаков в задачах структурной регрессии Варфоломеева Анна [5] Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений Целых Влада

[6]

Опубликовано
Построение логических правил при разметке текстов Иванова Алина [7] Принято
Проверка адекватности тематической модели Степан Лобастов [8] Редакция

Расписание

Дата Что делаем Результат для обсуждения Код
Сентябрь 10 Выбрана задача, рецензент Запись в ML
17 Выбрана задача, найдены базовые публикации. Аннотация, 600 знаков. Annotation
24 Собрана литература, она в bib; найдены данные. Введение, примерно одна страница. Introduction
Октябрь 8 Поставлена задача, собраны или написаны все необходимые алгоритмы. Постановка задачи, полстраницы. Problem
15 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
22 Описание алгоритма. Алгоритмическая часть (третий раздел). Document
29 Теоретическая часть. Второй раздел. Theory
Ноябрь 5 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
12 Контрольная точка - показ статьи в целом. Статья. cHeck
19 Доработка статьи; доклад, первая группа. Доклад. Show
26 Доклад, вторая группа. Подача статьи в журнал. Journal
Декабрь 3 Доклад, третья группа. Рецензия написана, [r]-рецензенту Review, [r]
10 Последний день для претендентов на оценки 10,9,8. Экзамен (score)

Черновой список задач

1. 2012CoRegression

  • Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
  • Тизер: Построение интегральной оценки эффективности научной деятельности.
  • Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
  • Литература: К.В.Воронцов «Коллаборативная фильтрация».
  • Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
  • Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
  • Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
  • Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

  • Название: Согласование ранговых экспертных оценок.
  • Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
  • Данные: Интернет-голосование за список книг, голосование без кооптации.
  • Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
  • Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
  • Базовый алгоритм: Медиана Кемени и другие алгоритмы.
  • Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

  • Название: Выбор признаков в задачах структурной регрессии
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS.
  • Литература: работы Jaakkola и его команды, возможно, код.
  • Предлагаемый алгоритм: Структурная регрессия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

  • Название: Построение логических правил при разметке текстов
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
  • Литература: работы Инякина, Чувилина, Кудинова.
  • Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

  • Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
  • Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
  • Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
  • Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
  • Ключевые слова: DTW — модификации, k-Means.
  • Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
  • Базовый алгоритм: k-Means и его высокопроизводительные вариации.
  • Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

  • Название: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
  • Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
  • Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
  • Базовый алгоритм: k-Means
  • Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy

  • Название: Построение иерархических тематических моделей.
  • Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
  • Данные: Тексты тезисов.
  • Литература: иерархические модели, topic modelling.
  • Ключевые слова: иерархическое тематическое моделирование.
  • Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
  • Базовый алгоритм: PLSA--LDA.
  • Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

  • Название: Визуализация иерархических тематических моделей.
  • Тизер: На материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012.
  • Литература: многомерное шкалирование, кластеризация.
  • Ключевые слова: визуализация графов.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: --
  • Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
    • корректировки названий тем/подтем конференции,
    • переносе тезиса из одной темы в другую,
    • адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

  • Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
  • Тизер: Ранжирование поисковых выдач Яндекса.
  • Данные: Яндекс – математика.
  • Литература: Бишоп, Стрижов.
  • Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
  • Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
  • Базовый алгоритм: SVM.
  • Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

  • Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
  • Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
  • Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
  • Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
  • Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: C-Value и TF-IDF.
  • Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
  • Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
    • пополняем паспорт известной специальности новыми ключевыми словами, либо
    • находим ближайший паспорт специальности.
  • Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

  • Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература: Стрижов, Рудой.
  • Ключевые слова: порождение признаков, поиск изоморфных моделей.
  • Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
  • Базовый алгоритм: решающие деревья.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

  • Название: Методы извлечения признаков из текстовой информации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература Найти.
  • Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
  • Предлагаемый алгоритм.
  • Базовый алгоритм.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

  • 2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

  • Название: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • Литература: по латентным моделям.
  • Ключевые слова: мягкая кластеризация, латентные модели.
  • Предлагаемый алгоритм: hHDP.
  • Базовый алгоритм: HDP.
  • Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

Литература

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.


Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).

Название задачи Автор Ссылка на журнал Исходный текст работы Дата подачи Состояние
Выбор признаков и оптимизация метрики при кластеризации коллекции документов Адуенко А.А., Кузьмин А.А., Стрижов В.В. Известия ТулГу [9] 12.10.2012 Опубликовано
Оценивание вероятностей появления строк в коллекции документов Будников Е.А., Стрижов В.В. Информационные технологии [10] 24.09.2012 Опубликовано
Проверка адекватности тематических моделей коллекции документов Кузьмин А.А., Стрижов В.В. Программная инженерия [11] 17.12.2012 Опубликовано
Алгоритм оптимального расположения названий коллекции документов Адуенко А.А., Стрижов В.В. Программная инженерия [12] 13.11.2012 Опубликовано
Визуализация матрицы парных расстояний между документами Адуенко А.А., Стрижов В.В. Научно-технические ведомости С.-Пб.ПГУ [13] 29.10.2012 Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации Медведникова М.М., Стрижов В.В. Известия ТулГу [14] 15.11.2012 Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов Адуенко А.А., Стрижов В.В. Инфокоммуникационные технологии [15] 18.12.2012 Опубликовано
Алгоритм построения логических правил при разметке текстов Иванова А.В., Адуенко А.А., Стрижов В.В. Программная инженерия [16] 24.01.2013 Принято
Построение иерархических тематических моделей коллекции документов Цыганова С.В., Стрижов В.В. Прикладная информатика [17] 27.01.2013 Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения Варфоломеева А.А., Стрижов В.В. Научно-технические ведомости С.-Пб.ПГУ [18] 27.01.2013 Отрецензировано
Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании Целых В.Р., Воронцов К.В. Машинное обучение и анализ данных [19] 17.12.2012 Опубликовано
Проверка адекватности тематической модели Степан Лобастов [20] Редакция

Список принятых к публикации работ

  • 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
  • 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
  • 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
  • 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
  • 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
  • 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
  • 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
  • 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
  • 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
  • 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
  • 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
Личные инструменты