Объединённая модель панельных данных

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Введение

Панельные данные (Panel data)

Имеется множество объектов (индивидуумы, домашние хозяйства, фирмы, регионы, страны и т.п.), занумерованных индексами i=1,...,n . Они наблюдаются в моменты времени t=1,...,T . Каждый рассматриваемый объект характеризуется k переменными (признаками):

 x_{it}=(x_{it}^1,...,x_{it}^k) \in \mathbb{R}^k.

Для большинства баз панельных данных характерно, что они содержат наблюдения о большом количестве объектов за относительно короткий промежуток времени.

Обозначения

Введем обозначения:

  •  x_{it} – набор независимых переменных (вектор размерности k )
  •  y_{it} – зависимая переменная для экономической единицы i в момент времени t
  •  \varepsilon_{it} – соответствующая ошибка.
  • Обозначим также:
 \begin{equation*} y_i= \left[y_{i1} \\ ...\\  y_{iT} \right] \text{,} \quad X_i= \left[ x'_{i1} \\ ...\\ x'_{iT}  \right] \text{,} \quad \varepsilon_i= \left[ \varepsilon_{i1} \\ ...\\ \varepsilon_{iT} \right]. \end{equation*}
  • Введем также «объединенные» наблюдения и ошибки:
 \begin{equation*} y= \left[ y_1 \\ ...\\ y_n \right] \text{,} \quad X= \left[  X_1 \\ ...\\ X_n \right] \text{,} \quad \varepsilon= \left[  \varepsilon_1 \\ ...\\ \varepsilon_n  \right]. \end{equation*}

Здесь y, \varepsilonnT \times 1 векторы, XnT \times k матрица.

Преимущества анализа панельных данных перед другими методами

Благодаря специальной структуре панельные данные позволяют строить более гибкие и содержательные модели и получать ответы на вопросы, которые недоступны только в рамках, например, моделей, основанных на пространственных данных.

  • Возникает возможность учитывать и анализировать индивидуальные отличия между экономическими единицами, что нельзя сделать в рамках стандартных регрессионных моделей.
  • Часто ненаблюдаемые факторы коррелированны с другими переменными. В рамках моделей регрессии это означает, что ненаблюдаемый фактор является существенной переменной в модели и ее исключение приводит к смещенным оценкам остальных параметров. Иными словами, модели с панельными данными позволяют получать более точные оценки параметров.


Основные модели анализа панельных данных

  1. Объединенная модель панельных данных (Pooled model)
  2. Модель панельных данных с фиксированными эффектами (Fixed effect model)
  3. Модель панельных данных со случайными эффектами (Random effect model)

Описание объединенной модели

Простейшая модель – это обычная линейная модель регрессии

 \widehat{y}_{it} = x'_{it} \cdot \beta + \mu = \sum_{j=1}^k {x_{it}^j \cdot \beta_j} + \mu

или в матричной форме

 \widehat{y} = X  \cdot \beta + \mu,

которая, по существу, не учитывает панельную структуру данных. (Здесь \beta – неизвестный вектор размера k \times 1.) Считается, что зависимая переменная линейно зависит от всех переменных в тот же момент времени.

В эконометрической литературе данная модель носит название объединенной модели регрессии (pooled model).

Параметры модели: \beta \in \mathbb{R}^k, \mu \in \mathbb{R}. Для настройки параметров можно использовать метод наименьших квадратов:

\sum_{i=1}^n \sum_{t=1}^T (\widehat{y}_{it} -  y_{it})^2  \rightarrow  \min_{\beta, \mu},


Литература

  1. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с.

См. также

Ссылки

Личные инструменты