Коррелограмма

Материал из MachineLearning.

Перейти к: навигация, поиск
На приведенных графиках представлена – вверху псевдохаотическая выборка из 100 элементов со скрытой синусоидальной зависимостью Внизу – график автокорреляции (Коррелограмма).
На приведенных графиках представлена – вверху псевдохаотическая выборка из 100 элементов со скрытой синусоидальной зависимостью Внизу – график автокорреляции (Коррелограмма).
Пример коррелограммы
Пример коррелограммы

В анализе временных рядов коррелограмма, также известная как график автокорреляции, является графиком автокорреляций выборки r_h\, , от h (временная задержка).

Если используется кросс-корреляция , то ее называют кросс-коррелограммой. Коррелограмма - обычно используемый инструмент для того, чтобы проверить хаотичность в наборе данных. Эта хаотичность проверяется вычислением автокорреляций значений данных с переменными временными задержками. Если данные действительно случайны, такие автокорреляции должны быть близки к нулю для любого и каждого значения сдвига по времени. Если неслучайны (имеется скрытая осциллирующая зависимость), то одна или больше автокорреляций будут значительно отличаться от нуля. Кроме того, используются на стадии идентификации моделей в методе Box-Jenkins для авторегрессивных моделей временных рядов со скользящим средним значением. Значение коэффициентов автокорреляции должно быть почти равно нулю для хаотических процессов; если аналитик не проверяет выборку на хаотичность, то законность многих его статистических заключений ставится под подозрение. Коррелограммы - превосходный способ проверки хаотичности (или напротив – взаимосвязанности измерений).

Содержание

Вопросы

Коррелограммы предназначены для того . чтобы обеспечить ответы на следующие вопросы:

  • Действительно ли данные случайны?
  • Yаблюдение связано со смежным наблюдением? наблюдение связано с вдвое удаленным наблюдением? (и т.д).
  • Имеет ли наблюдаемый временной ряд белый шум?
  • Действительно ли наблюдаемый временной ряд является синусоидальным?
  • Действительно ли наблюдаемыйвременной ряд авторегрессивен?
  • Какова соответствующая модель для наблюдаемого временного ряда?
  • Является ли модель Y = \mathrm{constant} + \mathrm{error } надежной и достаточной?
  • Является ли формула s_{\bar{Y}}=s/\sqrt{N} правильной?

Важность

Хаотичность (наряду с неподвижной моделью, установленным изменением, и установленным распределением) является одним из четырех предположений, которые типично лежат в основе всех процессов измерения. Предположение хаотичности критически важно по следующим трем причинам: 1.Большинство стандартных статистических тестов зависит от хаотичности. Законность испытательных заключений непосредственно связана с законностью предположения хаотичности. 2.Многие обычно используемые статистические формулы зависят от предположения хаотичности. Самая общая формула стандартного отклонения серии измерений есть s_{\bar{Y}}=s/\sqrt{N} где s - стандартное отклонение единичного измерения данных. Хотя следствия из этой формулы повсеместно используются, проведенный анализ не будет представлять никакой ценности, если предположение о хаотичности не доказано. 3.Для одномерных данных модель «по умолчанию» - Y = \mathrm{constant} + \mathrm{error }. Если данные не случайны, эта модель является неправильной и недействительной, и оценки для параметров (таких как константа) тоже становятся бессмысленными и недействительными.

Оценка автокорреляций

Коэффициент автокорреляции для временной задержки h дается формулой:

r_h = c_h/c_0

где ch - функция автоковариации

c_h = \frac{1}{N}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)

и c0 – функция вариации

c_0 = \frac{1}{N}\sum_{t=1}^{N} \left(Y_t - \bar{Y}\right)^2

Примечания:

  • Коэффициент автокорреляции rh всегда находится между -1 и +1.
  • Некоторые источники могут использовать следующую формулу для функции автоковариации:
c_h = \frac{1}{N-h}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)

Хотя в формуле этого определения вычисляется меньший наклон (или как еще говорят - покатость), (1/N) формулировка имеет некоторые желательные статистические свойства и является формой, обычно используемой в статистической литературе.

Статистический вывод коррелограмм

На одном и том же графике можно «покачать» верхнюю и нижнюю границы автокорреляции с помощью параметра уровня значимости \alpha\,</tx>: 
</dd></dl>
<dl><dd><tex>B=\pm z_{1-\alpha/2} SE(r_h) где r_h\, есть оценка автокорреляции для временного лага h\,.

Если автокорреляция оказывается выше (ниже) чем это верхнее (нижнее) граничное значение, нуль-гипотеза, что якобы нет никакой автокорреляции для данной временной задержки и вне ее, такая гипотеза должна быть отклонена на уровне значимости \alpha\,.

Этот тест - приблизительный и предполагает, что временной ряд является Гауссовским. В вышеупомянутом случае z1-α/2 - квантиль нормального распределения; SE - стандартная ошибка, которая может быть вычислена по формуле Bartlett’а:

SE(r_1)=\frac {1} {N}
 SE(r_h)=\sqrt\frac{1+2\sum_{i=1}^{h-1} r^2_i}{N} for h>1\,

На вышеприведенных графиках мы можем отклонить нуль-гипотезу, что нет никакой автокорреляции между соседними по времени точками (для смежных точек lag=1). В течение других периодов нельзя отклонить нуль-гипотезу об отсутствии автокорреляции.

Отметим, что есть две отличных формулы для вычисления доверительных интервалов: 1.Если коррелограмма используется для проверки на хаотичность (то есть, нет никакой временной зависимости в данных), рекомендуется следующая формула:

\pm \frac{z_{1-\alpha/2}}{\sqrt{N}}

где N – размер выборки, z - функция квантиля стандартного нормального распределения, и α - уровень значимости. В этом случае, доверительный интервал имеет фиксированную ширину, которая зависит от размера выборки.

2.Коррелограммы также используются на стадии идентификации моделей при подгонке с использованием метода скользящего среднего (например, модель ARIMA). В этом случае доверительный интервал увеличивается по мере увеличения задержки (лага) k:

\pm z_{1-\alpha/2}\sqrt{\frac{1}{N}\left(1+2\sum_{i=1}^{k} y_i^2\right)}

Внешние ссылки

Литература

  • Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall.
  • Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day.
  • Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall.
Личные инструменты