Обсуждение:Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 14:04, 17 февраля 2015

Содержание

1 Задачи от Каневского
- 1.1 Взаимозаменямость товаров
- 1.2 Прогнозирование по группам
2 Задачи вокруг информационного поиска
3 Непараметрическое прогнозирование временных рядов

Задачи от Каневского

Взаимозаменямость товаров

Задача: аналогично задаче о новых товарах. Гипотеза: в продажах наблюдается взаимозаменямость товаров, проявляющаяся в виде:
1. . Эффекта «каннибализации» - при появлении на рынке нового товара продажи аналогичных товаров (по группе, по цене) начинают падать.
2. Снижения продаж аналогичных товаров при проведении промо-акции по данному товару;
3. Повышения продаж аналогичных товаров при проведении-промо-акции по данному товару;

Необходимо проверить гипотезу и повысить качество прогнозов путем учета эффектов взаимозаменяемости.

Решение: Для решения задачи предлагается:
1. Формализовать понятие «аналог» для новых товаров;
2. Повысить качество прогнозирования товара в начале его продаж с помощью привлечения аналогов;
3. Указать период, в течение которого товар следует считать новым и, соответственно, привлекать аналоги для его прогнозирования.

Прогнозирование по группам

Дано: аналогично задаче о жизненном цикле.
Гипотеза: спрос на отдельные товары слишком неустойчив, поэтому прогнозировать непосредственно

временной ряд продаж товара не имеет смысла. Более качественные прогнозы можно получить, предварительно агрегируя продажи по группам товаров и/или по магазинам, прогнозируя ряд группы, после чего распределяя прогнозы обратно по товарам.

Задача: повысить качество прогнозов, подобрав подходящую группировку данных.
Внимание! Для прогнозирования группы может понадобиться другой алгоритм, чем для отдельных товаров.

Задачи вокруг информационного поиска

Порождение ранжирующих моделей методом Насти (ветвей и границ)

Название: Направленный поиск структуры ранжирующей модели.
Задача: Порождение ранжирующих моделей методом Насти (ветвей и границ). Решается задача поиска ранжирующей функции в задачах информационного поиска. В работе [1] поиск осуществляется полным перебором, обеспечивающим оптимальность найденного решения решения. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой G вида: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}.Каждой порождаемой функции выставляется оценка качества, вычисляемая как MAP (mean average precision) на некоторой коллекции документов. На основе этих оценок качества выделяются множества оптимальных ранжирующих структур. Требуется проверить гипотезу о наличии структурных закономерностей среди оптимальных/неоптимальных структур для сокращения полного перебора.
Данные: Списки допустимых сгенерированных функций длины 4-8, список из 100 лучших функций длины 8, список из 500 лучших функций с оценками качества.
Литература
- задачи
- Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [1]
Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.
- P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
Решение: (В рамках гипотезы о наличии набора/наборов структурно-близких оптимальных функций) В исходном методе порождаются все структуры заданной длины k с последовательным увеличением длины. Для сокращения полного перебора и упрощения процедуры их оценки предлагается выделить набор структур некоторой длины k, такой что все оптимальные структуры длины k+1 могут быть получены применением правил грамматики G к некоторой структуре из данного набора.
Новизна:
- На данный момент в [1] был проведен поиск структур длины k до 10. Был обнаружен ряд функций, по качеству соперничающих с применяемыми на практике (например - BM25, ранжирующей функцией длины 25). Проведенные в [1] исследования позволяют предположить, что перебор структур с дальнейшим увеличением их длины выявит функции, существенно превосходящие по качеству обнаруженные ранее. Ограничением становится вычислительная сложность полного перебора при увеличении k. Сокращение процедуры перебора структур позволит увеличить сложность рассматриваемых структур.
- Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

Структурное обучение при порождении моделей

Название: Структурное обучение при порождении моделей
Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
Данные: Подколлекции TREC.
Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [2]
Литература
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
Решение:
Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.

?? Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения

Название: Создание выборки для задачи структурного обучения
Задача: Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения/ расстояние между моделями и коллекциями

Для построения ранжирующей модели методами структурного обучения необходимо собрать выборку: набор коллекций документов и полученных на этих коллекциях ранжирующих функций. Коллекции, на которых происходит обучение ранжирующей структуры, традиционно размечаются вручную, что затрудняет процесс сбора выборки для задачи структурного обучения. Варианты: предложить способ разбиения существующих коллекций на подколлекции. Здесь же можно рассмотреть зависимость построенного набора оптимальных функций от коллекции. воспользоваться методом построения псевдо-коллекций (новизны нет)

Данные:
Литература
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
- Nima Asadi, Donald Metzler, Tamer Elsayed, Jimmy Lin, “Pseudo Test Collections for Learning Web Search Ranking Functions”, 2011. pdf
Базовой алгоритм: ??.
Решение:
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Упрощение суперпозиций, доработка статьи Кулунчакова и Сологуба

Название: Упрощение суперпозиций, доработка статьи Кулунчакова и Сологуба
Задача: Написать обзор по методам упрощения суперпозиции, провести их сравнение (желательно на данных TREC?)
Данные:
Литература
- Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
- Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
- Роман Сологуб. Алгоритмы индуктивного порождения и трансформации моделей. [3]
- Kulunchakov2014IsomorphicStructures.pdf
Базовой алгоритм: .
Решение:
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Непараметрическое прогнозирование временных рядов

Синхронизация рядов

Название: Обнаружение закономерностей в наборах временных рядов
Задача: Разработать метод выявления связей между временными рядами, определяемых структурой фазового пространства. Требуется изучить набор подходов к выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.
Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
Литература
- Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
- Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
- George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
Базовой алгоритм: Алгоритм сходящегося перекрестного отображения (Convergent Cross Mapping, CCM)
Решение:
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Условный прогноз

Название: Про учет экзогенных факторов
Задача: При прогнозировании железнодорожных грузоперевозок предлагается учесть как предысторию самих перевозок, так и экзогенные (внешние) факторы. Для учета экзогенных факторов при прогнозировании железнодорожных грузоперевозок необходимо развить ранее предложенный метод гистограммного прогнозирования Hist, основанный на свертке гистограммы временного ряда с функцией потерь.
Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
Литература
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
- Model Estimation and Validation by Daniel McFadden, Antti Talvitie, and Associates, 1977
- Density forecasting: обзор гистограммных подходов к прогнозированию временных рядов.
- Экспериментальные исследования свойств алгоритма Hist [4], [5]
Базовой алгоритм: Алгоритм Hist.
Решение: Чтобы включить в модель гистограммного прогнозирования экзогенные переменные, необходимо разработать методы оценки многомерных гистограмм/ условных гистограмм временных рядов при небольшой длине истории. (Длина исследуемого временного не очень велика, что при увеличении размерности гистограммы приводит к ее разреженности).
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Выделение тренда и сезонности

Название: Повышение качества пронгозирования путем выявления и учета экзогенных факторов (тренд и сезонность при этом выделяются из временного ряда и учитываются как экзогенные факторы)
Задача: Предлагается рассматривать тренд и сезонность как экзогенные факторы при прогнозировании железнодорожных перевозок.
Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
Литература
- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

временных рядов.

Базовой алгоритм: Метод Грейнджера?
Решение: Для проверки наличия тренда и сезонности используются существующие методы выявления экзогенных факторов. При этом сезонность моделируется тригонометрическими рядами, тренд - экзогенными временными рядами из заданного списка.
Новизна: Новый подход к выделению тренда и сезонности?

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_274%2C_%D0%B2%D0%B5%D1%81%D0%BD%D0%B0_2015»

@@ Строка 113: / Строка 113: @@
 === Выделение тренда и сезонности ===
-* '''Название''': Тренд и сезонность как экзогенные факторы
+* '''Название''': Повышение качества пронгозирования путем выявления и учета экзогенных факторов (тренд и сезонность при этом выделяются из временного ряда и учитываются как экзогенные факторы)
 * '''Задача''': Предлагается рассматривать тренд и сезонность как экзогенные факторы при прогнозировании железнодорожных перевозок.
 * '''Данные''': Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.