Объединённая модель панельных данных
Материал из MachineLearning.
(Новая: == Литература == == См. также == == Ссылки == {{Stub|}} Категория: Прикладная статистика) |
|||
Строка 1: | Строка 1: | ||
+ | == Введение == | ||
+ | === Панельные данные (''Panel data'') === | ||
+ | Имеется множество объектов (индивидуумы, домашние хозяйства, фирмы, регионы, страны и т.п.), занумерованных индексами <tex>i=1,...,n </tex>. Они наблюдаются в моменты времени <tex>t=1,...,T </tex>. Каждый рассматриваемый объект характеризуется <tex>k </tex> переменными (признаками): | ||
+ | ::<tex> x_{it}=(x_{it}^1,...,x_{it}^k) \in \mathbb{R}^k</tex>. | ||
+ | |||
+ | Для большинства баз панельных данных характерно, что они содержат наблюдения о большом количестве объектов за относительно короткий промежуток времени. | ||
+ | |||
+ | === Обозначения === | ||
+ | Введем обозначения: | ||
+ | * <tex> x_{it}</tex> – набор независимых переменных (вектор размерности <tex>k </tex>) | ||
+ | * <tex> y_{it}</tex> – зависимая переменная для экономической единицы <tex>i</tex> в момент времени <tex>t</tex> | ||
+ | * <tex> \varepsilon_{it}</tex> – соответствующая ошибка. | ||
+ | * Обозначим также: | ||
+ | ::<tex> \begin{equation*} y_i= \left[y_{i1} \\ ...\\ y_{iT} \right] \text{,} \quad X_i= \left[ x'_{i1} \\ ...\\ x'_{iT} \right] \text{,} \quad \varepsilon_i= \left[ \varepsilon_{i1} \\ ...\\ \varepsilon_{iT} \right]. \end{equation*} </tex> | ||
+ | |||
+ | *Введем также «объединенные» наблюдения и ошибки: | ||
+ | ::<tex> \begin{equation*} y= \left[ y_1 \\ ...\\ y_n \right] \text{,} \quad X= \left[ X_1 \\ ...\\ X_n \right] \text{,} \quad \varepsilon= \left[ \varepsilon_1 \\ ...\\ \varepsilon_n \right]. \end{equation*}</tex> | ||
+ | |||
+ | Здесь <tex>y, \varepsilon</tex> – <tex>nT \times 1</tex> векторы, <tex>X</tex> – <tex>nT \times k</tex> матрица. | ||
+ | |||
+ | === Преимущества анализа панельных данных перед другими методами === | ||
+ | Благодаря специальной структуре панельные данные позволяют строить более гибкие и содержательные модели и получать ответы на вопросы, которые недоступны только в рамках, например, моделей, основанных на пространственных данных. | ||
+ | |||
+ | * Возникает возможность учитывать и анализировать индивидуальные отличия между экономическими единицами, что нельзя сделать в рамках стандартных регрессионных моделей. | ||
+ | * Часто ненаблюдаемые факторы коррелированны с другими переменными. В рамках моделей регрессии это означает, что ненаблюдаемый фактор является существенной переменной в модели и ее исключение приводит к смещенным оценкам остальных параметров. Иными словами, модели с панельными данными позволяют получать более точные оценки параметров. | ||
+ | |||
+ | |||
+ | === Основные модели анализа панельных данных === | ||
+ | # Объединенная модель панельных данных (Pooled model) | ||
+ | # [[Модель панельных данных с фиксированными эффектами]] (Fixed effect model) | ||
+ | # [[Модель панельных данных со случайными эффектами]] (Random effect model) | ||
+ | |||
+ | == Описание объединенной модели == | ||
+ | Простейшая модель – это обычная линейная модель регрессии | ||
+ | ::<tex> \widehat{y}_{it} = x'_{it} \cdot \beta + \mu = \sum_{j=1}^k {x_{it}^j \cdot \beta_j} + \mu </tex> | ||
+ | или в матричной форме | ||
+ | ::<tex> \widehat{y} = X \cdot \beta + \mu</tex>, | ||
+ | которая, по существу, не учитывает панельную структуру данных. | ||
+ | (Здесь <tex>\beta</tex> – неизвестный вектор размера <tex>k \times 1</tex>.) | ||
+ | Считается, что зависимая переменная линейно зависит от всех переменных в тот же момент времени. | ||
+ | |||
+ | В эконометрической литературе данная модель носит название '''объединенной модели регрессии ''' ('''''pooled model'''''). | ||
+ | |||
+ | Параметры модели: <tex>\beta \in \mathbb{R}^k, \mu \in \mathbb{R}</tex>. Для настройки параметров можно использовать [[метод наименьших квадратов]]: | ||
+ | ::<tex>\sum_{i=1}^n \sum_{t=1}^T (\widehat{y}_{it} - y_{it})^2 \rightarrow \min_{\beta, \mu}</tex>, | ||
+ | |||
+ | |||
== Литература == | == Литература == | ||
+ | # {{книга | ||
+ | |автор = Магнус Я. Р., Катышев П. К., Пересецкий А. А. | ||
+ | |заглавие = Эконометрика. Начальный курс | ||
+ | |издательство = М.: Дело | ||
+ | |год = 2004 | ||
+ | |страниц = 576 | ||
+ | }} | ||
== См. также == | == См. также == | ||
+ | * [[Модель панельных данных с фиксированными эффектами]] | ||
+ | * [[Модель панельных данных со случайными эффектами]] | ||
+ | * [[Модель панельных данных с временны́ми эффектами]] | ||
+ | * [[Ротационная панель]] | ||
== Ссылки == | == Ссылки == | ||
+ | * [http://en.wikipedia.org/wiki/Panel_data Panel data] (Wikipedia) | ||
+ | * [http://en.wikipedia.org/wiki/Panel_analysis Panel analysis] (Wikipedia) | ||
+ | * [http://en.wikipedia.org/wiki/Random_effects_model Random effects model] (Wikipedia) | ||
+ | * [http://en.wikipedia.org/wiki/Fixed_effects_estimator Fixed effects estimation] (Wikipedia) | ||
- | |||
[[Категория: Прикладная статистика]] | [[Категория: Прикладная статистика]] |
Версия 22:43, 7 января 2009
Содержание |
Введение
Панельные данные (Panel data)
Имеется множество объектов (индивидуумы, домашние хозяйства, фирмы, регионы, страны и т.п.), занумерованных индексами . Они наблюдаются в моменты времени . Каждый рассматриваемый объект характеризуется переменными (признаками):
- .
Для большинства баз панельных данных характерно, что они содержат наблюдения о большом количестве объектов за относительно короткий промежуток времени.
Обозначения
Введем обозначения:
- – набор независимых переменных (вектор размерности )
- – зависимая переменная для экономической единицы в момент времени
- – соответствующая ошибка.
- Обозначим также:
- Введем также «объединенные» наблюдения и ошибки:
Здесь – векторы, – матрица.
Преимущества анализа панельных данных перед другими методами
Благодаря специальной структуре панельные данные позволяют строить более гибкие и содержательные модели и получать ответы на вопросы, которые недоступны только в рамках, например, моделей, основанных на пространственных данных.
- Возникает возможность учитывать и анализировать индивидуальные отличия между экономическими единицами, что нельзя сделать в рамках стандартных регрессионных моделей.
- Часто ненаблюдаемые факторы коррелированны с другими переменными. В рамках моделей регрессии это означает, что ненаблюдаемый фактор является существенной переменной в модели и ее исключение приводит к смещенным оценкам остальных параметров. Иными словами, модели с панельными данными позволяют получать более точные оценки параметров.
Основные модели анализа панельных данных
- Объединенная модель панельных данных (Pooled model)
- Модель панельных данных с фиксированными эффектами (Fixed effect model)
- Модель панельных данных со случайными эффектами (Random effect model)
Описание объединенной модели
Простейшая модель – это обычная линейная модель регрессии
или в матричной форме
- ,
которая, по существу, не учитывает панельную структуру данных. (Здесь – неизвестный вектор размера .) Считается, что зависимая переменная линейно зависит от всех переменных в тот же момент времени.
В эконометрической литературе данная модель носит название объединенной модели регрессии (pooled model).
Параметры модели: . Для настройки параметров можно использовать метод наименьших квадратов:
- ,
Литература
- Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с.
См. также
- Модель панельных данных с фиксированными эффектами
- Модель панельных данных со случайными эффектами
- Модель панельных данных с временны́ми эффектами
- Ротационная панель
Ссылки
- Panel data (Wikipedia)
- Panel analysis (Wikipedia)
- Random effects model (Wikipedia)
- Fixed effects estimation (Wikipedia)