Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012
Материал из MachineLearning.
(→Черновой cписок задач) |
|||
Строка 113: | Строка 113: | ||
== Черновой cписок задач == | == Черновой cписок задач == | ||
- | + | ===1. 2012ThematicMatching=== | |
*'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз | *'''Название:''' Определение соответствия документа тематике на основе выделения ключевых фраз | ||
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации? | *'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации? | ||
- | *'''Данные:''': Авторефераты диссертаций. Паспорта специальностей (в качестве данных) | + | *'''Данные:''': Авторефераты диссертаций. Паспорта специальностей (в качестве данных) = http://www.aspirantura.spb.ru/pasport/05.html |
*'''Материалы:''' Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» | *'''Материалы:''' Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» | ||
- | *'''Ключевые слова:''': ключевые фразы, тематические модели, N | + | *'''Ключевые слова:''': ключевые фразы, тематические модели, N=граммы, морфологические и статистические признаки. |
- | *'''Предлагаемый алгоритм''': | + | *'''Предлагаемый алгоритм''': = ??? |
- | *'''Базовый алгоритм''': — можно использовать работу С.Царькова — синтез C | + | *'''Базовый алгоритм''': — можно использовать работу С.Царькова — синтез C=Value и TF=IDF. |
- | + | ===2. 2012ThematicClustering=== | |
*'''Название:''' Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации) | *'''Название:''' Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации) | ||
*'''Тизер:''' Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью | *'''Тизер:''' Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью | ||
Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья) | Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья) | ||
*'''Данные:''': | *'''Данные:''': | ||
- | Тексты тезисов конференции Евро | + | Тексты тезисов конференции Евро=2012 (?пока нет) порядка 2000 тезисов. |
*'''Материалы:'''? конс. К.В.) | *'''Материалы:'''? конс. К.В.) | ||
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | *'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | ||
Строка 133: | Строка 133: | ||
*'''Базовый алгоритм''': ? | *'''Базовый алгоритм''': ? | ||
- | + | ===3. 2012ThematicHierarchy=== | |
*'''Название:''' Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной) | *'''Название:''' Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной) | ||
*'''Тизер:''' Построение тематической модели на материалах конференции EURO. | *'''Тизер:''' Построение тематической модели на материалах конференции EURO. | ||
- | *'''Данные:''': Тексты тезисов конференции Евро | + | *'''Данные:''': Тексты тезисов конференции Евро=2012 (?пока нет) порядка 2000 тезисов. |
*'''Материалы:'''? конс. К.В.) | *'''Материалы:'''? конс. К.В.) | ||
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | *'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | ||
Строка 143: | Строка 143: | ||
*'''Базовый алгоритм''': ? | *'''Базовый алгоритм''': ? | ||
- | + | ===4. 2012ThematicVisualizing=== | |
*'''Название:''' Визуализация иерархической тематических моделей *'''Тизер:''' На материалах конференции EURO. | *'''Название:''' Визуализация иерархической тематических моделей *'''Тизер:''' На материалах конференции EURO. | ||
- | *'''Данные:''': Тексты тезисов конференции Евро | + | *'''Данные:''': Тексты тезисов конференции Евро=2012 (?пока нет) порядка 2000 тезисов. |
*'''Материалы:'''? конс. К.В.) | *'''Материалы:'''? конс. К.В.) | ||
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | *'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | ||
Строка 151: | Строка 151: | ||
*'''Базовый алгоритм''': ? | *'''Базовый алгоритм''': ? | ||
- | + | ===5. 2012FeatureGen=== | |
*'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации | *'''Название:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации | ||
Нзавание2: Определение социальной роли автора текста | Нзавание2: Определение социальной роли автора текста | ||
- | *'''Данные:''': *'''Данные:''' отзывов о книгах в интернет | + | *'''Данные:''': *'''Данные:''' отзывов о книгах в интернет=магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой. |
*'''Материалы:''' | *'''Материалы:''' | ||
*'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | *'''Ключевые слова:''': иерархическая кластеризация(?), structural learning, метрики сходности текстов(?). | ||
Строка 160: | Строка 160: | ||
*'''Базовый алгоритм''': | *'''Базовый алгоритм''': | ||
- | + | ===6. 2012CoRegression=== | |
- | *'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко | + | *'''Название:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко=кластеризации |
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности | *'''Тизер:''' Построение интегральной оценки эффективности научной деятельности | ||
*'''Данные:''': Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ) | *'''Данные:''': Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ) | ||
- | Таблица авторы | + | Таблица авторы=журналы и число статей выбранных авторов в журналах. |
*'''Материалы:''' Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация» | *'''Материалы:''' Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация» | ||
- | *'''Ключевые слова:''': индекс Хирша, ко | + | *'''Ключевые слова:''': индекс Хирша, ко=кластеризация, коллаборативная фильтрация. |
*'''Предлагаемый алгоритм''': Совместная регрессия (придумать или найти готовую). | *'''Предлагаемый алгоритм''': Совместная регрессия (придумать или найти готовую). | ||
- | *'''Базовый алгоритм''': Ко | + | *'''Базовый алгоритм''': Ко=кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h=index авторов. |
- | + | ===7. 2012StructureRegression=== | |
*'''Название:''' Выбор признаков в задачах структурной регрессии | *'''Название:''' Выбор признаков в задачах структурной регрессии | ||
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков | *'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков | ||
Строка 178: | Строка 178: | ||
*'''Базовый алгоритм''': возможно у Валентина появится | *'''Базовый алгоритм''': возможно у Валентина появится | ||
- | + | ===8. 2012RankClustering=== | |
*'''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания | *'''Название:''' Ранговая кластеризация и алгоритмы динамического выравнивания | ||
*'''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей) | *'''Тизер:''' Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей) | ||
*'''Данные:''': Испорченные и некорректные библиографические записи (базы студенческих рефератов) | *'''Данные:''': Испорченные и некорректные библиографические записи (базы студенческих рефератов) | ||
*'''Материалы:''' | *'''Материалы:''' | ||
- | *'''Ключевые слова:''': DTW – модификации, k | + | *'''Ключевые слова:''': DTW – модификации, k=Means |
*'''Предлагаемый алгоритм''': Алгоритм ранговой кластеризации. | *'''Предлагаемый алгоритм''': Алгоритм ранговой кластеризации. | ||
- | *'''Базовый алгоритм''': k | + | *'''Базовый алгоритм''': k=Means и его высокопроизводительные вариации. |
- | + | ===9. 2012CovSelection=== | |
*'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации | *'''Название:''' Совместный выбор объектов и признаков в задачах многоклассовой классификации | ||
*'''Тизер:''' Ранжирование поисковых выдач Яндекса | *'''Тизер:''' Ранжирование поисковых выдач Яндекса | ||
Строка 197: | Строка 197: | ||
TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и *'''Данные:''' Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков. | TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и *'''Данные:''' Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков. | ||
- | + | ===10. 2012ExpertRanking=== | |
*'''Название:''' Согласование ранговых экспертных оценок | *'''Название:''' Согласование ранговых экспертных оценок | ||
*'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений) | *'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений) | ||
- | *'''Данные:''': Интернет | + | *'''Данные:''': Интернет=голосование за список книг |
Литература: Нужно будет сделать обзор | Литература: Нужно будет сделать обзор | ||
*'''Предлагаемый алгоритм''': Нахождение пересечения конусов и оценка эффективной размерности пространства | *'''Предлагаемый алгоритм''': Нахождение пересечения конусов и оценка эффективной размерности пространства | ||
*'''Базовый алгоритм''': Медиана Кемени и другие алгоритмы | *'''Базовый алгоритм''': Медиана Кемени и другие алгоритмы | ||
- | + | ===11. 2012TypeDetection=== | |
*'''Название:''' Методы извлечение признаков из текстовой информации | *'''Название:''' Методы извлечение признаков из текстовой информации | ||
*'''Тизер:''' Определение типа произведения (определение научной области произведения) | *'''Тизер:''' Определение типа произведения (определение научной области произведения) | ||
Строка 218: | Строка 218: | ||
Кластеризация и структурная классификация текстов | Кластеризация и структурная классификация текстов | ||
Многомерное шкалирование и визуализация кластеризованных текстов | Многомерное шкалирование и визуализация кластеризованных текстов | ||
- | Поиск ключевых слов в текстах (на материалах С.Ц.) TF | + | Поиск ключевых слов в текстах (на материалах С.Ц.) TF=IDF |
Другие темы: | Другие темы: | ||
Строка 225: | Строка 225: | ||
Кластеризация и структурная классификация текстов | Кластеризация и структурная классификация текстов | ||
Многомерное шкалирование и визуализация кластеризованных текстов | Многомерное шкалирование и визуализация кластеризованных текстов | ||
- | Поиск ключевых слов в текстах (на материалах С.Ц.) TF | + | Поиск ключевых слов в текстах (на материалах С.Ц.) TF=IDF |
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] | ||
== Полезные материалы == | == Полезные материалы == | ||
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities | https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities |
Версия 14:58, 4 сентября 2012
Курс называется "Математические методы прогнозирования"
Страница наполняется до 5 сентября 2012. |
Список задач
Название задачи | Автор | Рецензент | Ссылка на работу | Комментарии |
---|---|---|---|---|
Название | Кто | Кто | Surname2012Title | AIPVDTCHSJR[R] |
Расписание
Дата | Что делаем | Результат для обсуждения | Код | |
---|---|---|---|---|
Сентябрь | 5 | Выбрана задача, рецензент | Запись в ML | |
12 | Выбрана задача, найдены базовые публикации. | Аннотация, 600 знаков. | Annotation | |
19 | Собрана литература, она в bib; найдены данные. | Введение, примерно одна страница. | Introduction | |
26 | Поставлена задача, собраны все материалы по работе. Найдены публикации. | Постановка задачи, полстраницы. | Problem | |
Октябрь | 3 | Поставлен вычислительный эксперимент, получены первые результаты. | Визуализация данных. | Visualizing |
10 | Описание алгоритма. | Алгоритмическая часть (третий раздел). | Document | |
17 | Теоретическая часть. | Второй раздел. | Theory | |
24 | Завершение вычислительного эксперимента. | Описание эксперимента и анализ ошибок. | Comp | |
31 | Контрольная точка - показ статьи в целом. | Статья. | cHeck | |
Ноябрь | 7 | Доработка статьи; доклад, первая группа. | Доклад. | Show |
14 | Доклад, вторая группа. | Подача статьи в журнал. | Journal | |
21 | Доклад, третья группа. | Рецензия написана, [r]-рецензенту | Review, [r] | |
28 | Последний день для претендентов на оценки 10,9,8. | Экзамен | (score) |
Черновой cписок задач
1. 2012ThematicMatching
- Название: Определение соответствия документа тематике на основе выделения ключевых фраз
- Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
- Данные:: Авторефераты диссертаций. Паспорта специальностей (в качестве данных) = http://www.aspirantura.spb.ru/pasport/05.html
- Материалы: Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов»
- Ключевые слова:: ключевые фразы, тематические модели, N=граммы, морфологические и статистические признаки.
- Предлагаемый алгоритм: = ???
- Базовый алгоритм: — можно использовать работу С.Царькова — синтез C=Value и TF=IDF.
2. 2012ThematicClustering
- Название: Проверка адекватности тематической модели (Методы выявления некорректной тематической классификации)
- Тизер: Проверка адекватности тематической модели на материалах конференции EURO. Кластеризация статей и многомерное шкалирование; иерархические тематические модели с тематической интерпретируемостью
Вариант: Иерархическая тематическая кластеризация тезисов. (Возможно, отдельная статья)
- Данные::
Тексты тезисов конференции Евро=2012 (?пока нет) порядка 2000 тезисов.
- Материалы:? конс. К.В.)
- Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
- Предлагаемый алгоритм: ?
- Базовый алгоритм: ?
3. 2012ThematicHierarchy
- Название: Построение иерархическим тематических моделей (Методы построения тематической модели, сходной с заданной)
- Тизер: Построение тематической модели на материалах конференции EURO.
- Данные:: Тексты тезисов конференции Евро=2012 (?пока нет) порядка 2000 тезисов.
- Материалы:? конс. К.В.)
- Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
- Предлагаемый алгоритм: ?
- Базовый алгоритм: ?
4. 2012ThematicVisualizing
- Название: Визуализация иерархической тематических моделей *Тизер: На материалах конференции EURO.
- Данные:: Тексты тезисов конференции Евро=2012 (?пока нет) порядка 2000 тезисов.
- Материалы:? конс. К.В.)
- Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
- Предлагаемый алгоритм: ?
- Базовый алгоритм: ?
5. 2012FeatureGen
- Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
Нзавание2: Определение социальной роли автора текста
- Данные:: *Данные: отзывов о книгах в интернет=магазине. База текстов сообщений из twitter.com различных пользователей (возможно добавления любого их числа), набор ролей с предварительной разметкой.
- Материалы:
- Ключевые слова:: иерархическая кластеризация(?), structural learning, метрики сходности текстов(?).
- Предлагаемый алгоритм:
- Базовый алгоритм:
6. 2012CoRegression
- Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко=кластеризации
- Тизер: Построение интегральной оценки эффективности научной деятельности
- Данные:: Синтетические. ПРНД сотрудников ВЦ (взять у секретаря ВЦ)
Таблица авторы=журналы и число статей выбранных авторов в журналах.
- Материалы: Диплом Солодкина — оценка отдельной работы. К.В.Воронцов «Коллаборативная фильтрация»
- Ключевые слова:: индекс Хирша, ко=кластеризация, коллаборативная фильтрация.
- Предлагаемый алгоритм: Совместная регрессия (придумать или найти готовую).
- Базовый алгоритм: Ко=кластеризация или адаптивная фильтрация (для сравнения на годится). Для сравнения: IF журналов и h=index авторов.
7. 2012StructureRegression
- Название: Выбор признаков в задачах структурной регрессии
- Тизер: Алгоритм структурной регрессии для разметки библиографических списков
- Данные:: библиографические записи из BibTeX collection on CS.
- Материалы: работы Jaakkola и его команды, возможно, код.
- Предлагаемый алгоритм: Структурная регрессия
- Базовый алгоритм: возможно у Валентина появится
8. 2012RankClustering
- Название: Ранговая кластеризация и алгоритмы динамического выравнивания
- Тизер: Поиск повторений в библиографических записях (Динамическое выравнивание при нахождении дубликатов библиографических записей)
- Данные:: Испорченные и некорректные библиографические записи (базы студенческих рефератов)
- Материалы:
- Ключевые слова:: DTW – модификации, k=Means
- Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
- Базовый алгоритм: k=Means и его высокопроизводительные вариации.
9. 2012CovSelection
- Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации
- Тизер: Ранжирование поисковых выдач Яндекса
- Данные:: Яндекс – математика
- Материалы: Бишоп, Стрижов
- Ключевые слова:: логистическая регрессия, выбор признаков, фильтрация объектов
- Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц
- Базовый алгоритм: SVM.
TODO: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и *Данные: Яндекса. Запустить алгоритм SVM на этой же выборке. Сделать многоклассовую классификацию. Связать с выбором признаков.
10. 2012ExpertRanking
- Название: Согласование ранговых экспертных оценок
- Тизер: Методы ранжирования при голосовании (выборе литературных произведений)
- Данные:: Интернет=голосование за список книг
Литература: Нужно будет сделать обзор
- Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства
- Базовый алгоритм: Медиана Кемени и другие алгоритмы
11. 2012TypeDetection
- Название: Методы извлечение признаков из текстовой информации
- Тизер: Определение типа произведения (определение научной области произведения)
- Данные:: Книги с УДК, у Антона
- Литература: Найти
- Предлагаемый алгоритм:
- Базовый алгоритм:
Другие темы: Мультимодельный подход при классификации авторефератов Выбор признаков при кластеризации текстов Кластеризация и структурная классификация текстов Многомерное шкалирование и визуализация кластеризованных текстов Поиск ключевых слов в текстах (на материалах С.Ц.) TF=IDF
Другие темы: Мультимодельный подход при классификации авторефератов Выбор признаков при кластеризации текстов Кластеризация и структурная классификация текстов Многомерное шкалирование и визуализация кластеризованных текстов Поиск ключевых слов в текстах (на материалах С.Ц.) TF=IDF
Полезные материалы
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities