Коррелограмма

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

На приведенных графиках представлена — вверху псевдохаотическая выборка из 100 элементов со скрытой синусоидальной зависимостью Внизу – график автокорреляции (Коррелограмма).
На приведенных графиках представлена — вверху псевдохаотическая выборка из 100 элементов со скрытой синусоидальной зависимостью Внизу – график автокорреляции (Коррелограмма).
Пример коррелограммы
Пример коррелограммы

Коррелограмма или график автокорреляции — в анализе временных рядов график зависимости автокорреляции выборки r_h от временной задержки (лага) h.

Если используется кросс-корреляция, то коррелограмму называют кросс-коррелограммой. Коррелограмма — обычно используемый инструмент для того, чтобы проверить хаотичность в наборе данных. Эта хаотичность проверяется вычислением автокорреляций значений данных с переменными временными задержками. Если данные действительно случайны, такие автокорреляции должны быть близки к нулю для любого и каждого значения сдвига по времени. Если они неслучайны (имеется скрытая осциллирующая зависимость), то одна или больше автокорреляций будут значительно отличаться от нуля. Кроме того, коррелограмма часто используется на стадии идентификации моделей в модели Бокса-Дженкинса или (моделей авторегрессии и скользящего среднего. Значение коэффициентов автокорреляции должно быть почти равно нулю для хаотических процессов. Если аналитик не проверяет выборку на хаотичность, то законность многих его статистических заключений ставится под сомнение. Коррелограммы — превосходный способ проверки хаотичности (или напротив — взаимосвязанности измерений).

Вопросы

Коррелограммы предназначены для того, чтобы обеспечить ответы на следующие вопросы:

  • Действительно ли данные случайны?
  • Наблюдение связано со смежным наблюдением? Наблюдение связано с вдвое удаленным наблюдением? (и т.д).
  • Имеет ли наблюдаемый временной ряд белый шум?
  • Действительно ли наблюдаемый временной ряд является синусоидальным?
  • Действительно ли наблюдаемыйвременной ряд авторегрессивен?
  • Какова соответствующая модель для наблюдаемого временного ряда?
  • Является ли модель Y = \mathrm{constant} + \mathrm{error } надежной и достаточной?
  • Является ли формула s_{\bar{Y}}=s/\sqrt{N} правильной?

Важность

Хаотичность (наряду с неподвижной моделью, установленным изменением, и установленным распределением) является одним из четырех предположений, которые типично лежат в основе всех процессов измерения. Предположение хаотичности критически важно по следующим трем причинам:

1. Большинство стандартных статистических тестов зависит от хаотичности. Законность испытательных заключений непосредственно связана с законностью предположения хаотичности.

2. Многие обычно используемые статистические формулы зависят от предположения хаотичности. Самая общая формула стандартного отклонения серии измерений есть

s_{\bar{Y}}=s/\sqrt{N}

где s — стандартное отклонение единичного измерения данных. Хотя следствия из этой формулы повсеместно используются, проведенный анализ не будет представлять никакой ценности, если предположение о хаотичности не доказано.

3. Для одномерных данных модель «по умолчанию» — Y = \mathrm{constant} + \mathrm{error }. Если данные не случайны, эта модель является неправильной и недействительной, и оценки для параметров (таких как константа) тоже становятся бессмысленными и недействительными.

Оценка автокорреляций

Коэффициент автокорреляции для временной задержки h дается формулой:

r_h = c_h/c_0,

где ch — функция автоковариации

c_h = \frac{1}{N}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right),

и c0 — функция вариации

c_0 = \frac{1}{N}\sum_{t=1}^{N} \left(Y_t - \bar{Y}\right)^2.

Примечания:

  • Коэффициент автокорреляции rh всегда находится между –1 и +1.
  • Некоторые источники могут использовать следующую формулу для функции автоковариации:
c_h = \frac{1}{N-h}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right).

Хотя в формуле этого определения вычисляется меньший наклон (или как еще говорят — покатость), (1/N) формулировка имеет некоторые желательные статистические свойства и является формой, обычно используемой в статистической литературе.

Статистический вывод коррелограмм

На одном и том же графике можно «покачать» верхнюю и нижнюю границы автокорреляции с помощью параметра уровня значимости \alpha\,:

B=\pm z_{1-\alpha/2} SE(r_h),

где r_h\, есть оценка автокорреляции для временного лага h\,.

Если автокорреляция оказывается выше (ниже) чем это верхнее (нижнее) граничное значение, нуль-гипотеза, что якобы нет никакой автокорреляции для данной временной задержки и вне ее, такая гипотеза должна быть отклонена на уровне значимости \alpha\,.

Этот тест — приблизительный, и предполагает, что временной ряд является Гауссовским. В вышеупомянутом случае z_{1-α/2}–квантиль нормального распределения; SE — стандартная ошибка, которая может быть вычислена по формуле Бартлетта:

SE(r_1)=\frac {1} {N};
 SE(r_h)=\sqrt\frac{1+2\sum_{i=1}^{h-1} r^2_i}{N} для h>1.

На вышеприведенных графиках мы можем отклонить нуль-гипотезу, что нет никакой автокорреляции между соседними по времени точками (для смежных точек lag=1). На других периодахв нельзя отклонить нуль-гипотезу об отсутствии автокорреляции.

Отметим, что есть две отличных формулы для вычисления доверительных интервалов: 1. Если коррелограмма используется для проверки на хаотичность (то есть, нет никакой временной зависимости в данных), рекомендуется следующая формула:

\pm \frac{z_{1-\alpha/2}}{\sqrt{N}},

где N — размер выборки, z — функция квантиля стандартного нормального распределения, и \alpha — уровень значимости. В этом случае, доверительный интервал имеет фиксированную ширину, которая зависит от размера выборки.

2. Коррелограммы также используются на стадии идентификации моделей при подгонке с использованием метода скользящего среднего (например, модель ARIMA). В этом случае доверительный интервал увеличивается по мере увеличения задержки (лага) k:

\pm z_{1-\alpha/2}\sqrt{\frac{1}{N}\left(1+2\sum_{i=1}^{k} y_i^2\right)}.

Внешние ссылки

Литература

  • Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall.
  • Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day.
  • Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall.
Личные инструменты