Объединённая модель панельных данных

Материал из MachineLearning.

Панельные данные состоят из наблюдений одних и тех же экономических единиц, которые осуществляются в последовательные периоды времени. Панельные данные насчитывают три измерения: признаки (переменные) – объекты – время. Для них разработаны специальные методы анализа.

Введение

Панельные данные (Panel data)

Имеется множество объектов (индивидуумы, домашние хозяйства, фирмы, регионы, страны и т.п.), занумерованных индексами $i=1,...,n$ . Они наблюдаются в моменты времени $t=1,...,T$ . Каждый рассматриваемый объект характеризуется $k$ переменными (признаками):

$x_{it}=(x_{it}^1,...,x_{it}^k) \in \mathbb{R}^k$ .

Для большинства баз панельных данных характерно, что они содержат наблюдения о большом количестве объектов за относительно короткий промежуток времени.

Панельные данные ценны для экономистов тем, что при правильном их анализе можно избавиться от влияния индивидуальных особенностей объектов (individual heterogeneity), которые, как правило, являются одной из серьезнейших проблем анализа однократных данных.

Примеры использования моделей панельных данных

Пример 1. Макроэкономика. Объекты – страны; $x_j$ – характеристики (например, инфляция, объем инвестиций, объем экспорта, импорта); $y_j$ – показатель ВВП на душу населения. Хотим выяснить, как он зависит от приведенных показателей.

Пример 2. Микроэкономика. Объекты – домашние хозяйства; $x_j$ – доход, число человек в семье, недвижимость, количество иждивенцев в семье, образование, возраст, пол; $y_j$ – структура расходов. Данная задача часто возникает в маркетинге, когда необходимо выяснить каков рынок тех или иных товаров.

Пример 3. Объекты – выборка телезрителей ; $x_j$ – доход, образование, возраст, пол; $y_j$ – структура просмотров:

часы – необходимо выяснить для каких групп населения выгодно проводить в данное время передачу или рекламу
в каком отношении делятся по популярности передачи: развлечения/новости/спорт/…
доля не попущения рекламы.

Пример 4. Объекты – коммерческие фирмы; $x_j$ – оборот, прибыль, число сотрудников, отрасль; $y_j$ – рыночная стоимость.

Пример 5. (См. Экономика преступления: теоретическое и эмпирическое исследование определяющих факторов преступности) Методы анализа панельных данных эффективны для мониторинга и анализа преступлений. Приведем одну из постановок задач в данном контексте. Объекты – регионы; $x_j$ – уровень жизни, среда и ресурсы, демография и миграции, политика, экономика и социальная сфера, культура, образование, внешние условия; $y_j$ – индекс конфликтов.

Обозначения

Введем обозначения:

$x_{it}$ – набор независимых переменных (вектор размерности $k$ )
$y_{it}$ – зависимая переменная для экономической единицы $i$ в момент времени $t$
$\varepsilon_{it}$ – соответствующая ошибка.
Обозначим также:

$\begin{equation*} y_i= \left[y_{i1} \\ ...\\ y_{iT} \right] \text{,} \quad X_i= \left[ x'_{i1} \\ ...\\ x'_{iT} \right] \text{,} \quad \varepsilon_i= \left[ \varepsilon_{i1} \\ ...\\ \varepsilon_{iT} \right]. \end{equation*}$

Введем также «объединенные» наблюдения и ошибки:

$\begin{equation*} y= \left[ y_1 \\ ...\\ y_n \right] \text{,} \quad X= \left[ X_1 \\ ...\\ X_n \right] \text{,} \quad \varepsilon= \left[ \varepsilon_1 \\ ...\\ \varepsilon_n \right]. \end{equation*}$

Здесь $y,\; \varepsilon$ – $nT \times 1$ векторы, $X$ – $nT \times k$ матрица.

Преимущества анализа панельных данных перед другими методами

Благодаря специальной структуре панельные данные позволяют строить более гибкие и содержательные модели и получать ответы на вопросы, которые недоступны только в рамках, например, моделей, основанных на пространственных данных.

Возникает возможность учитывать и анализировать индивидуальные отличия между экономическими единицами, что нельзя сделать в рамках стандартных регрессионных моделей.
Часто ненаблюдаемые факторы коррелированны с другими переменными. В рамках моделей регрессии это означает, что ненаблюдаемый фактор является существенной переменной в модели и ее исключение приводит к смещенным оценкам остальных параметров. Иными словами, модели с панельными данными позволяют получать более точные оценки параметров.

Основные модели анализа панельных данных

Объединенная модель панельных данных (Pooled model)
Модель панельных данных с фиксированными эффектами (Fixed effect model)
Модель панельных данных со случайными эффектами (Random effect model)

Описание объединенной модели

Простейшая модель – это обычная линейная модель регрессии

$\widehat{y}_{it} = x'_{it} \cdot \beta + \mu = \sum_{j=1}^k {x_{it}^j \cdot \beta_j} + \mu$

или в матричной форме

$\widehat{y} = X \cdot \beta + \mu$ ,

которая, по существу, не учитывает панельную структуру данных. (Здесь $\beta$ – неизвестный вектор размера $k \times 1$ .) Считается, что зависимая переменная линейно зависит от всех переменных в тот же момент времени.

В эконометрической литературе данная модель носит название объединенной модели регрессии (pooled model).

Параметры модели: $\beta \in \mathbb{R}^k, \mu \in \mathbb{R}$ . Для настройки параметров можно использовать метод наименьших квадратов:

$\sum_{i=1}^n \sum_{t=1}^T (\widehat{y}_{it} - y_{it})^2 \rightarrow \min_{\beta, \mu}$ .

Литература

Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с.
Коленков С.О. Прикладной эконометрический анализ в статистическом пакете Stata. — 2003.

См. также

Ссылки

Panel data (Wikipedia)
Panel analysis (Wikipedia)
Random effects model (Wikipedia)
Fixed effects estimation (Wikipedia)
Экономика преступления: теоретическое и эмпирическое исследование определяющих факторов преступности

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%8A%D0%B5%D0%B4%D0%B8%D0%BD%D1%91%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%BF%D0%B0%D0%BD%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85»

Категории: Прикладная статистика | Регрессионный анализ | Энциклопедия анализа данных