Прогнозирование финансовых пузырей (пример)
Материал из MachineLearning.
Содержание |
Аннотация
Рассматривается метод прогнозирования финансовых пузырей на основании информации, данной экспертом о наличии пузырей во временных рядах. Предлагается способ синтеза и отбора признаков, описывающих временной ряд. Алгоритм основан на разметке интервалов роста и падения временного ряда и применении логистической регрессии для настройки параметров линейной модели и оценки ее качества. Проведен вычислительный эксперимент на данных о ценах на сырье с 1995 по 2010 год.
Постановка задачи
Дана выборка - временные ряды, размеченные экспертом. Для простоты будем считать, что длина всех рядов одинакова и равна . Здесь целевая переменная , если в данном ряде есть пузырь, и иначе.
Предполагается, что временной ряд представляет из себя <<историю возникновения>> пузыря и сам пузырь (период раздувания и лопания). Период, который мы считаем историей, фиксируется экспертом или является параметром алгоритма.
Необходимо предложить признаковое описание временного ряда На основании этого описания требуется решить задачу классификации --- построить модель , где - пространство параметров модели.
Задача разбивается на следующие этапы.
1. Порождение множества числовых признаков , описывающих временной ряд.
2. Предложение критерия качества модели.
3. Выбор наилучшей модели.
Пути решения задачи
Временной ряд - это упорядоченная по времени последовательность значений некоторой произвольной переменной величины. Множеством меток называется конечное множество . Множество меток задается экспертом. Пример множества меток: , где “” - метка для обозначения точек возрастания, “” - убывания, “” - метка для обозначения плато.
Фиксируем множество меток . Определим разбиение временного ряда на сегменты : , при , . Разметкой временного ряда назовем пару : , .
Основная рассматриваемая задача: разметка временного ряда и определение на её основании сходства временных рядов, синтез и выбор наиболее информативных признаков.
Предлагается использовать следующие признаки.
1. Бинарные признаки --- наличие в данном временном ряде определенной комбинации повышений и падений цены.
2. Действительный признаки --- суммарное изменение цены на этом интервале.
Предлагается использовать для построения классификатора логистическую регрессию, а для оценки качества модели - площадь под ROC-кривой. Настройка параметров логистической функции производится градиентными методами оптимизации. Для отбора наилучшей модели рассматривается генетический алгоритм.
Смотри также
Литература
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |