Коррелограмма
Материал из MachineLearning.
(Новая: здесь будет статья про корелограмму) |
|||
Строка 1: | Строка 1: | ||
- | + | [[Image:Acf.png|thumb|right|На приведенных графиках представлена – вверху псевдохаотическая выборка из 100 элементов со скрытой синусоидальной зависимостью Внизу – график автокорреляции (Коррелограмма).]] | |
+ | [[Image:Correlogram.png|thumb|Пример коррелограммы]] | ||
+ | В анализе временных рядов коррелограмма, также известная как график автокорреляции, является графиком автокорреляций выборки <tex>r_h\,</tex> , от h (временная задержка). | ||
+ | |||
+ | Если используется кросс-корреляция , то ее называют кросс-коррелограммой. Коррелограмма - обычно используемый инструмент для того, чтобы проверить хаотичность в наборе данных. Эта хаотичность проверяется вычислением автокорреляций значений данных с переменными временными задержками. Если данные действительно случайны, такие автокорреляции должны быть близки к нулю для любого и каждого значения сдвига по времени. Если неслучайны (имеется скрытая осциллирующая зависимость), то одна или больше автокорреляций будут значительно отличаться от нуля. Кроме того, используются на стадии идентификации моделей в методе Box-Jenkins для авторегрессивных моделей временных рядов со скользящим средним значением. Значение коэффициентов автокорреляции должно быть почти равно нулю для хаотических процессов; если аналитик не проверяет выборку на хаотичность, то законность многих его статистических заключений ставится под подозрение. Коррелограммы - превосходный способ проверки хаотичности (или напротив – взаимосвязанности измерений). | ||
+ | |||
+ | ==Вопросы== | ||
+ | |||
+ | Коррелограммы предназначены для того . чтобы обеспечить ответы на следующие вопросы: | ||
+ | *Действительно ли данные случайны? | ||
+ | *Yаблюдение связано со смежным наблюдением? наблюдение связано с вдвое удаленным наблюдением? (и т.д). | ||
+ | *Имеет ли наблюдаемый временной ряд белый шум? | ||
+ | *Действительно ли наблюдаемый временной ряд является синусоидальным? | ||
+ | *Действительно ли наблюдаемыйвременной ряд авторегрессивен? | ||
+ | *Какова соответствующая модель для наблюдаемого временного ряда? | ||
+ | *Является ли модель <tex>Y = \mathrm{constant} + \mathrm{error }</tex> надежной и достаточной? | ||
+ | *Является ли формула <tex>s_{\bar{Y}}=s/\sqrt{N}</tex> правильной? | ||
+ | |||
+ | ==Важность== | ||
+ | |||
+ | Хаотичность (наряду с неподвижной моделью, установленным изменением, и установленным распределением) является одним из четырех предположений, которые типично лежат в основе всех процессов измерения. | ||
+ | Предположение хаотичности критически важно по следующим трем причинам: | ||
+ | 1.Большинство стандартных статистических тестов зависит от хаотичности. Законность испытательных заключений непосредственно связана с законностью предположения хаотичности. | ||
+ | 2.Многие обычно используемые статистические формулы зависят от предположения хаотичности. Самая общая формула стандартного отклонения серии измерений есть | ||
+ | <tex>s_{\bar{Y}}=s/\sqrt{N}</tex> | ||
+ | где s - стандартное отклонение единичного измерения данных. Хотя следствия из этой формулы повсеместно используются, проведенный анализ не будет представлять никакой ценности, если предположение о хаотичности не доказано. | ||
+ | 3.Для одномерных данных модель «по умолчанию» - <tex>Y = \mathrm{constant} + \mathrm{error }</tex>. Если данные не случайны, эта модель является неправильной и недействительной, и оценки для параметров (таких как константа) тоже становятся бессмысленными и недействительными. | ||
+ | |||
+ | ==Оценка автокорреляций== | ||
+ | Коэффициент автокорреляции для временной задержки h дается формулой: | ||
+ | :<tex>r_h = c_h/c_0</tex> | ||
+ | где ''c<sub>h</sub>'' - функция автоковариации | ||
+ | :<tex>c_h = \frac{1}{N}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)</tex> | ||
+ | и ''c<sub>0</sub>'' – функция вариации | ||
+ | :<tex>c_0 = \frac{1}{N}\sum_{t=1}^{N} \left(Y_t - \bar{Y}\right)^2</tex> | ||
+ | Примечания: | ||
+ | *Коэффициент автокорреляции ''r<sub>h</sub>'' всегда находится между -1 и +1. | ||
+ | *Некоторые источники могут использовать следующую формулу для функции автоковариации: | ||
+ | :<tex>c_h = \frac{1}{N-h}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)</tex> | ||
+ | |||
+ | Хотя в формуле этого определения вычисляется меньший наклон (или как еще говорят - покатость), (1/N) формулировка имеет некоторые желательные статистические свойства и является формой, обычно используемой в статистической литературе. | ||
+ | |||
+ | ==Статистический вывод коррелограмм== | ||
+ | На одном и том же графике можно «покачать» верхнюю и нижнюю границы автокорреляции с помощью параметра уровня значимости <tex>\alpha\,</tx>: | ||
+ | |||
+ | :<tex>B=\pm z_{1-\alpha/2} SE(r_h)</tex> где <tex>r_h\,</tex> есть оценка автокорреляции для временного лага <tex>h\,</tex>. | ||
+ | |||
+ | Если автокорреляция оказывается выше (ниже) чем это верхнее (нижнее) граничное значение, нуль-гипотеза, что якобы нет никакой автокорреляции для данной временной задержки и вне ее, такая гипотеза должна быть отклонена на уровне значимости <tex>\alpha\,</tex>. | ||
+ | |||
+ | Этот тест - приблизительный и предполагает, что временной ряд является Гауссовским. В вышеупомянутом случае z<sub>1-α/2</sub> - квантиль нормального распределения; SE - стандартная ошибка, которая может быть вычислена по формуле Bartlett’а: | ||
+ | |||
+ | :<tex>SE(r_1)=\frac {1} {N} </tex> | ||
+ | :<tex> SE(r_h)=\sqrt\frac{1+2\sum_{i=1}^{h-1} r^2_i}{N}</tex> for <tex>h>1\,</tex> | ||
+ | |||
+ | На вышеприведенных графиках мы можем отклонить нуль-гипотезу, что нет никакой автокорреляции между соседними по времени точками (для смежных точек lag=1). В течение других периодов нельзя отклонить нуль-гипотезу об отсутствии автокорреляции. | ||
+ | |||
+ | Отметим, что есть две отличных формулы для вычисления доверительных интервалов: | ||
+ | 1.Если коррелограмма используется для проверки на хаотичность (то есть, нет никакой временной зависимости в данных), рекомендуется следующая формула: | ||
+ | |||
+ | :<tex>\pm \frac{z_{1-\alpha/2}}{\sqrt{N}} </tex> | ||
+ | |||
+ | где N – размер выборки, z - функция квантиля стандартного нормального распределения, и α - уровень значимости. В этом случае, доверительный интервал имеет фиксированную ширину, которая зависит от размера выборки. | ||
+ | |||
+ | 2.Коррелограммы также используются на стадии идентификации моделей при подгонке с использованием метода скользящего среднего (например, модель ARIMA). В этом случае доверительный интервал увеличивается по мере увеличения задержки (лага) k: | ||
+ | |||
+ | :<tex>\pm z_{1-\alpha/2}\sqrt{\frac{1}{N}\left(1+2\sum_{i=1}^{k} y_i^2\right)}</tex> | ||
+ | |||
+ | ==Внешние ссылки== | ||
+ | *[http://www.itl.nist.gov/div898/handbook/eda/section3/eda331.htm Автокорреляционный график] | ||
+ | |||
+ | ==Литература== | ||
+ | * Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall. | ||
+ | * Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day. | ||
+ | * Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall. |
Версия 06:28, 10 января 2009
В анализе временных рядов коррелограмма, также известная как график автокорреляции, является графиком автокорреляций выборки , от h (временная задержка).
Если используется кросс-корреляция , то ее называют кросс-коррелограммой. Коррелограмма - обычно используемый инструмент для того, чтобы проверить хаотичность в наборе данных. Эта хаотичность проверяется вычислением автокорреляций значений данных с переменными временными задержками. Если данные действительно случайны, такие автокорреляции должны быть близки к нулю для любого и каждого значения сдвига по времени. Если неслучайны (имеется скрытая осциллирующая зависимость), то одна или больше автокорреляций будут значительно отличаться от нуля. Кроме того, используются на стадии идентификации моделей в методе Box-Jenkins для авторегрессивных моделей временных рядов со скользящим средним значением. Значение коэффициентов автокорреляции должно быть почти равно нулю для хаотических процессов; если аналитик не проверяет выборку на хаотичность, то законность многих его статистических заключений ставится под подозрение. Коррелограммы - превосходный способ проверки хаотичности (или напротив – взаимосвязанности измерений).
Содержание |
Вопросы
Коррелограммы предназначены для того . чтобы обеспечить ответы на следующие вопросы:
- Действительно ли данные случайны?
- Yаблюдение связано со смежным наблюдением? наблюдение связано с вдвое удаленным наблюдением? (и т.д).
- Имеет ли наблюдаемый временной ряд белый шум?
- Действительно ли наблюдаемый временной ряд является синусоидальным?
- Действительно ли наблюдаемыйвременной ряд авторегрессивен?
- Какова соответствующая модель для наблюдаемого временного ряда?
- Является ли модель надежной и достаточной?
- Является ли формула правильной?
Важность
Хаотичность (наряду с неподвижной моделью, установленным изменением, и установленным распределением) является одним из четырех предположений, которые типично лежат в основе всех процессов измерения. Предположение хаотичности критически важно по следующим трем причинам: 1.Большинство стандартных статистических тестов зависит от хаотичности. Законность испытательных заключений непосредственно связана с законностью предположения хаотичности. 2.Многие обычно используемые статистические формулы зависят от предположения хаотичности. Самая общая формула стандартного отклонения серии измерений есть где s - стандартное отклонение единичного измерения данных. Хотя следствия из этой формулы повсеместно используются, проведенный анализ не будет представлять никакой ценности, если предположение о хаотичности не доказано. 3.Для одномерных данных модель «по умолчанию» - . Если данные не случайны, эта модель является неправильной и недействительной, и оценки для параметров (таких как константа) тоже становятся бессмысленными и недействительными.
Оценка автокорреляций
Коэффициент автокорреляции для временной задержки h дается формулой:
где ch - функция автоковариации
и c0 – функция вариации
Примечания:
- Коэффициент автокорреляции rh всегда находится между -1 и +1.
- Некоторые источники могут использовать следующую формулу для функции автоковариации:
Хотя в формуле этого определения вычисляется меньший наклон (или как еще говорят - покатость), (1/N) формулировка имеет некоторые желательные статистические свойства и является формой, обычно используемой в статистической литературе.
Статистический вывод коррелограмм
На одном и том же графике можно «покачать» верхнюю и нижнюю границы автокорреляции с помощью параметра уровня значимости где есть оценка автокорреляции для временного лага .
Если автокорреляция оказывается выше (ниже) чем это верхнее (нижнее) граничное значение, нуль-гипотеза, что якобы нет никакой автокорреляции для данной временной задержки и вне ее, такая гипотеза должна быть отклонена на уровне значимости .
Этот тест - приблизительный и предполагает, что временной ряд является Гауссовским. В вышеупомянутом случае z1-α/2 - квантиль нормального распределения; SE - стандартная ошибка, которая может быть вычислена по формуле Bartlett’а:
- for
На вышеприведенных графиках мы можем отклонить нуль-гипотезу, что нет никакой автокорреляции между соседними по времени точками (для смежных точек lag=1). В течение других периодов нельзя отклонить нуль-гипотезу об отсутствии автокорреляции.
Отметим, что есть две отличных формулы для вычисления доверительных интервалов: 1.Если коррелограмма используется для проверки на хаотичность (то есть, нет никакой временной зависимости в данных), рекомендуется следующая формула:
где N – размер выборки, z - функция квантиля стандартного нормального распределения, и α - уровень значимости. В этом случае, доверительный интервал имеет фиксированную ширину, которая зависит от размера выборки.
2.Коррелограммы также используются на стадии идентификации моделей при подгонке с использованием метода скользящего среднего (например, модель ARIMA). В этом случае доверительный интервал увеличивается по мере увеличения задержки (лага) k:
Внешние ссылки
Литература
* Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall. * Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day. * Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall.