Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Публикация работ)
м (Список задач)
 
(25 промежуточных версий не показаны.)
Строка 3: Строка 3:
'''Курс "Математические методы прогнозирования"'''
'''Курс "Математические методы прогнозирования"'''
 +
 +
{{tip|Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.}}
== Список задач ==
== Список задач ==
Строка 14: Строка 16:
|Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
|Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
|Медведникова Мария
|Медведникова Мария
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Medvednikova2012CoIndicator]
-
|Принято
+
|Опубликовано
|-
|-
|Иерархическая тематическая кластеризация тезисов и визуализация
|Иерархическая тематическая кластеризация тезисов и визуализация
|Кузьмин Арсентий
|Кузьмин Арсентий
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Kuzmin2012ThematicClustering]
-
|Принято
+
|Опубликовано
|-
|-
|Совместный выбор объектов и признаков в задачах многоклассовой классификации.
|Совместный выбор объектов и признаков в задачах многоклассовой классификации.
|Адуенко Александр
|Адуенко Александр
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Aduenko2012CovSelection]
-
|Подано
+
|Опубликовано
|-
|-
|Построение иерархических тематических моделей
|Построение иерархических тематических моделей
|Цыганова Светлана
|Цыганова Светлана
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Tsyganova2012TopicIerarhy]
-
|Подать
+
|Опубликовано
|-
|-
|Выбор признаков в задачах структурной регрессии
|Выбор признаков в задачах структурной регрессии
|Варфоломеева Анна
|Варфоломеева Анна
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Varfolomeeva2012StructureLearning]
-
|Подать
+
|Принято
|-
|-
|Статистические критерии однородности и согласия для сильно разреженных дискретных распределений
|Статистические критерии однородности и согласия для сильно разреженных дискретных распределений
|Целых Влада
|Целых Влада
|
|
-
|Подать
+
[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Celyh2012SparceDistribution]
 +
|Опубликовано
|-
|-
|Построение логических правил при разметке текстов
|Построение логических правил при разметке текстов
|Иванова Алина
|Иванова Алина
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Ivanova2012LogicStructure]
-
|Редакция
+
|Принято
|-
|-
|Проверка адекватности тематической модели
|Проверка адекватности тематической модели
|Степан Лобастов
|Степан Лобастов
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Lobastov2012LatentModels]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Lobastov2012LatentModels]
|Редакция
|Редакция
|-
|-
-
|
+
<!-- Нет материалов -->
 +
<!--
 +
|Определение соответствия документа тематике на основе выделения ключевых фраз.
|Александр Шульга
|Александр Шульга
|
|
Строка 61: Строка 66:
|
|
|Неизвестно
|Неизвестно
 +
-->
|}
|}
Строка 92: Строка 98:
|Октябрь
|Октябрь
|8
|8
-
|Поставлена задача, собраны все Литература по работе. Найдены публикации.
+
|Поставлена задача, собраны или написаны все необходимые алгоритмы.
|Постановка задачи, полстраницы.
|Постановка задачи, полстраницы.
|'''P'''roblem
|'''P'''roblem
Строка 301: Строка 307:
==Публикация работ==
==Публикация работ==
 +
Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).
{|class="wikitable"
{|class="wikitable"
|-
|-
Строка 310: Строка 317:
! Состояние
! Состояние
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.pdf Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/aduenko_kuzmin_strijov.pdf Выбор признаков и оптимизация метрики при кластеризации коллекции документов]
-
|Медведникова М.М.
+
|Адуенко А.А., Кузьмин А.А., Стрижов В.В.
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.tex]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.tex]
-
|15.11.2012
+
|12.10.2012
-
|Принято
+
|Опубликовано
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.pdf Иерархическая тематическая кластеризация тезисов и визуализация]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/budnikov_strijov.pdf Оценивание вероятностей появления строк в коллекции документов]
 +
|Будников Е.А., Стрижов В.В.
 +
|[http://novtex.ru/IT/ Информационные технологии]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx]
 +
|24.09.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/kuzmin_strijov.pdf Проверка адекватности тематических моделей коллекции документов]
|Кузьмин А.А., Стрижов В.В.
|Кузьмин А.А., Стрижов В.В.
|[http://novtex.ru/pi.html Программная инженерия]
|[http://novtex.ru/pi.html Программная инженерия]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.tex]
|17.12.2012
|17.12.2012
-
|Принято
+
|Опубликовано
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.pdf Совместный выбор объектов и признаков в задачах многоклассовой классификации]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/aduenko_strijov2.pdf Алгоритм оптимального расположения названий коллекции документов]
-
|Адуенко Александр
+
|Адуенко А.А., Стрижов В.В.
 +
|[http://novtex.ru/pi.html Программная инженерия]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.tex]
 +
|13.11.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/aduenko_strijov1.pdf Визуализация матрицы парных расстояний между документами]
 +
|Адуенко А.А., Стрижов В.В.
 +
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.tex]
 +
|29.10.2012
 +
|Подано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/medvednikova_strijov.pdf Построение интегрального индикатора качества научных публикаций методами ко-кластеризации]
 +
|Медведникова М.М., Стрижов В.В.
 +
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.tex]
 +
|15.11.2012
 +
|Опубликовано
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/aduenko_strijov3.pdf Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов]
 +
|Адуенко А.А., Стрижов В.В.
| [http://ikt.psuti.ru/rules/ Инфокоммуникационные технологии]
| [http://ikt.psuti.ru/rules/ Инфокоммуникационные технологии]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.tex]
|18.12.2012
|18.12.2012
-
|Подано
+
|Опубликовано
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.pdf Построение иерархических тематических моделей]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure/ivanova_aduenko_strijov.pdf Алгоритм построения логических правил при разметке текстов]
-
|Цыганова Светлана
+
|Иванова А.В., Адуенко А.А., Стрижов В.В.
 +
|[http://novtex.ru/pi.html Программная инженерия]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure]
 +
|24.01.2013
 +
|Принято
 +
|-
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/tsyganova_strijov.pdf Построение иерархических тематических моделей коллекции документов]
 +
|Цыганова С.В., Стрижов В.В.
|[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика]
|[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex]
-
|
+
|27.01.2013
-
|Редакция
+
|Опубликовано
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.pdf Выбор признаков в задачах структурной регрессии]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/varfolomeeva_strijov.pdf Выбор признаков при разметке библиографических списков методами структурного обучения]
-
|Варфоломеева Анна
+
|Варфоломеева А.А., Стрижов В.В.
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex]
-
|
+
|27.01.2013
-
|Редакция
+
|Отрецензировано
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Lobastov2012LatentModels/Doc/LatentModels.pdf Проверка адекватности тематической модели]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/celyh_vorontsov.pdf Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании]
 +
|Целых В.Р., Воронцов К.В.
 +
|[http://jmlda.org Машинное обучение и анализ данных]
 +
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.tex]
 +
|17.12.2012
 +
|Опубликовано
 +
|-
 +
|Проверка адекватности тематической модели
|Степан Лобастов
|Степан Лобастов
|
|
Строка 351: Строка 400:
|
|
|Редакция
|Редакция
-
|-
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.pdf Выбор признаков и оптимизация метрики при кластеризации коллекции документов]
 
-
|Адуенко А.А., Кузьмин А.А., Стрижов В.В.
 
-
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.tex]
 
-
|12.10.2012
 
-
|Опубликовано
 
-
|-
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.pdf Визуализация матрицы парных расстояний между документами]
 
-
|Адуенко А.А., Стрижов В.В.
 
-
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.tex]
 
-
|29.10.2012
 
-
|Принято
 
-
|-
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.pdf Алгоритм оптимального расположения названий коллекции документов]
 
-
|Адуенко А.А., Стрижов В.В.
 
-
|[http://novtex.ru/pi.html Программная инженерия]
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.tex]
 
-
|13.11.2012
 
-
|Принято
 
-
|-
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx Оценивание вероятностей появления строк в коллекции документов]
 
-
|Будников Е.А., Стрижов В.В.
 
-
|[http://novtex.ru/IT/ Информационные технологии]
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx]
 
-
|24.09.2012
 
-
|Принято
 
-
|-
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.pdf Статистические критерии однородности и согласия для сильно разреженных дискретных распределений]
 
-
|Целых Влада
 
-
|
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.tex]
 
-
|
 
-
|Подать
 
-
|-
 
-
|Построение логических правил при разметке текстов
 
-
|Иванова А.В., Адуенко А.А., Стрижов В.В.
 
-
|?
 
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure]
 
-
|
 
-
|Нужно сделать
 
|}
|}
== Список принятых к публикации работ ==
== Список принятых к публикации работ ==
* 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
* 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
-
* 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, 3 — ?
+
* 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
-
* 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. 3 - ?
+
* 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. 3. С.21-25.
-
* 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013.
+
* 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
-
* 5. Медведникова М. М., Стрижов В. В. Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2012, № 3.
+
* 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
 +
* 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
 +
* 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. 2.
 +
* 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
 +
* 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
 +
* 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
 +
* 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
 +
[[Категория:Учебные курсы]]

Текущая версия


Курс "Математические методы прогнозирования"


Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.


Список задач

Название задачи Автор Ссылка на работу Комментарии
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации Медведникова Мария [1] Опубликовано
Иерархическая тематическая кластеризация тезисов и визуализация Кузьмин Арсентий [2] Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации. Адуенко Александр [3] Опубликовано
Построение иерархических тематических моделей Цыганова Светлана [4] Опубликовано
Выбор признаков в задачах структурной регрессии Варфоломеева Анна [5] Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений Целых Влада

[6]

Опубликовано
Построение логических правил при разметке текстов Иванова Алина [7] Принято
Проверка адекватности тематической модели Степан Лобастов [8] Редакция

Расписание

Дата Что делаем Результат для обсуждения Код
Сентябрь 10 Выбрана задача, рецензент Запись в ML
17 Выбрана задача, найдены базовые публикации. Аннотация, 600 знаков. Annotation
24 Собрана литература, она в bib; найдены данные. Введение, примерно одна страница. Introduction
Октябрь 8 Поставлена задача, собраны или написаны все необходимые алгоритмы. Постановка задачи, полстраницы. Problem
15 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
22 Описание алгоритма. Алгоритмическая часть (третий раздел). Document
29 Теоретическая часть. Второй раздел. Theory
Ноябрь 5 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
12 Контрольная точка - показ статьи в целом. Статья. cHeck
19 Доработка статьи; доклад, первая группа. Доклад. Show
26 Доклад, вторая группа. Подача статьи в журнал. Journal
Декабрь 3 Доклад, третья группа. Рецензия написана, [r]-рецензенту Review, [r]
10 Последний день для претендентов на оценки 10,9,8. Экзамен (score)

Черновой список задач

1. 2012CoRegression

  • Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
  • Тизер: Построение интегральной оценки эффективности научной деятельности.
  • Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
  • Литература: К.В.Воронцов «Коллаборативная фильтрация».
  • Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
  • Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
  • Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
  • Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

  • Название: Согласование ранговых экспертных оценок.
  • Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
  • Данные: Интернет-голосование за список книг, голосование без кооптации.
  • Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
  • Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
  • Базовый алгоритм: Медиана Кемени и другие алгоритмы.
  • Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

  • Название: Выбор признаков в задачах структурной регрессии
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS.
  • Литература: работы Jaakkola и его команды, возможно, код.
  • Предлагаемый алгоритм: Структурная регрессия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

  • Название: Построение логических правил при разметке текстов
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
  • Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
  • Литература: работы Инякина, Чувилина, Кудинова.
  • Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
  • Базовый алгоритм: описан Валентином.
  • Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

  • Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
  • Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
  • Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
  • Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
  • Ключевые слова: DTW — модификации, k-Means.
  • Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
  • Базовый алгоритм: k-Means и его высокопроизводительные вариации.
  • Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

  • Название: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
  • Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
  • Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
  • Базовый алгоритм: k-Means
  • Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy

  • Название: Построение иерархических тематических моделей.
  • Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
  • Данные: Тексты тезисов.
  • Литература: иерархические модели, topic modelling.
  • Ключевые слова: иерархическое тематическое моделирование.
  • Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
  • Базовый алгоритм: PLSA--LDA.
  • Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

  • Название: Визуализация иерархических тематических моделей.
  • Тизер: На материалах конференции EURO.
  • Данные: Тексты тезисов конференции Евро-2012.
  • Литература: многомерное шкалирование, кластеризация.
  • Ключевые слова: визуализация графов.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: --
  • Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
    • корректировки названий тем/подтем конференции,
    • переносе тезиса из одной темы в другую,
    • адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

  • Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
  • Тизер: Ранжирование поисковых выдач Яндекса.
  • Данные: Яндекс – математика.
  • Литература: Бишоп, Стрижов.
  • Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
  • Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
  • Базовый алгоритм: SVM.
  • Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

  • Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
  • Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
  • Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
  • Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
  • Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
  • Предлагаемый алгоритм:
  • Базовый алгоритм: C-Value и TF-IDF.
  • Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
  • Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
    • пополняем паспорт известной специальности новыми ключевыми словами, либо
    • находим ближайший паспорт специальности.
  • Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

  • Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература: Стрижов, Рудой.
  • Ключевые слова: порождение признаков, поиск изоморфных моделей.
  • Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
  • Базовый алгоритм: решающие деревья.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

  • Название: Методы извлечения признаков из текстовой информации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Данные: синтетические, интернет-коллекция.
  • Литература Найти.
  • Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
  • Предлагаемый алгоритм.
  • Базовый алгоритм.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

  • 2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

  • Название: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • Литература: по латентным моделям.
  • Ключевые слова: мягкая кластеризация, латентные модели.
  • Предлагаемый алгоритм: hHDP.
  • Базовый алгоритм: HDP.
  • Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

Литература

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.


Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).

Название задачи Автор Ссылка на журнал Исходный текст работы Дата подачи Состояние
Выбор признаков и оптимизация метрики при кластеризации коллекции документов Адуенко А.А., Кузьмин А.А., Стрижов В.В. Известия ТулГу [9] 12.10.2012 Опубликовано
Оценивание вероятностей появления строк в коллекции документов Будников Е.А., Стрижов В.В. Информационные технологии [10] 24.09.2012 Опубликовано
Проверка адекватности тематических моделей коллекции документов Кузьмин А.А., Стрижов В.В. Программная инженерия [11] 17.12.2012 Опубликовано
Алгоритм оптимального расположения названий коллекции документов Адуенко А.А., Стрижов В.В. Программная инженерия [12] 13.11.2012 Опубликовано
Визуализация матрицы парных расстояний между документами Адуенко А.А., Стрижов В.В. Научно-технические ведомости С.-Пб.ПГУ [13] 29.10.2012 Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации Медведникова М.М., Стрижов В.В. Известия ТулГу [14] 15.11.2012 Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов Адуенко А.А., Стрижов В.В. Инфокоммуникационные технологии [15] 18.12.2012 Опубликовано
Алгоритм построения логических правил при разметке текстов Иванова А.В., Адуенко А.А., Стрижов В.В. Программная инженерия [16] 24.01.2013 Принято
Построение иерархических тематических моделей коллекции документов Цыганова С.В., Стрижов В.В. Прикладная информатика [17] 27.01.2013 Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения Варфоломеева А.А., Стрижов В.В. Научно-технические ведомости С.-Пб.ПГУ [18] 27.01.2013 Отрецензировано
Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании Целых В.Р., Воронцов К.В. Машинное обучение и анализ данных [19] 17.12.2012 Опубликовано
Проверка адекватности тематической модели Степан Лобастов [20] Редакция

Список принятых к публикации работ

  • 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
  • 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
  • 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
  • 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
  • 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
  • 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
  • 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
  • 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
  • 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
  • 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
  • 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
Личные инструменты