Участник:EvgSokolov/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 3: Строка 3:
Рассматривается следующая модель уровня экспрессии:
Рассматривается следующая модель уровня экспрессии:
-
::<tex> Y_{ijkn} = \theta_{in} + \phi_{jn} + \gamma_{jkn} + \epsilon_{ijkn} </tex>
+
{{eqno|1}}
 +
::<tex> Y_{ijkn} = \theta_{in} + \phi_{jn} + \gamma_{jkn} + \varepsilon_{ijkn} </tex>
Здесь используются следующие обозначения:
Здесь используются следующие обозначения:
-
::<tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>. Говорят, что два чипа принадлежат одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
+
* <tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>. Говорят, что два чипа принадлежат одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
-
::<tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>.
+
* <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>.
-
::<tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex> мы будем обозначать номер гена, соответствующего <tex>n</tex>-му набору проб.
+
* <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex> мы будем обозначать номер гена, соответствующего <tex>n</tex>-му набору проб.
-
::<tex>j</tex> — номер пробы <tex> i \in 1, \dots, J_n </tex>.
+
* <tex>j</tex> — номер пробы <tex> i \in 1, \dots, J_n </tex>.
-
::<tex>Y_{ijkn}</tex> — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы <tex>j</tex> из набора проб <tex>n</tex> микрочипа <tex>i</tex> из партии микрочипов <tex>k</tex>.
+
* <tex>Y_{ijkn}</tex> — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы <tex>j</tex> из набора проб <tex>n</tex> микрочипа <tex>i</tex> из партии микрочипов <tex>k</tex>.
-
::<tex>\theta_{in}</tex> — экспрессия гена <tex>n</tex> на <tex>i</tex>-м микрочипе.
+
* <tex>\theta_{in}</tex> — экспрессия гена <tex>n</tex> на <tex>i</tex>-м микрочипе.
-
::<tex>\phi_{jn}</tex> — коэффициент сродства пробы <tex>j</tex> гену <tex>n</tex>.
+
* <tex>\phi_{jn}</tex> — коэффициент сродства пробы <tex>j</tex> гену <tex>n</tex>.
-
::<tex>\gamma_{jkn}</tex> — величина, отвечающая за разницу интенсивностей между разными партиями проб.
+
* <tex>\gamma_{jkn}</tex> — поправка к коэффициенту сродства, учитывающая различия между партиями проб.
-
::<tex>\epsilon_{ijkn}</tex> — случайная ошибка с нулевым средним.
+
* <tex>\varepsilon_{ijkn}</tex> — случайная ошибка с нулевым средним.
 +
 
 +
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: <tex>\mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2</tex>.
 +
Также делается предположение, что <tex>\gamma_{jkn}</tex> — это случайная величина, дисперсия которой не зависит от партии чипов: <tex>\mathbb{D} \gamma_{jkn} = \tau_{jn}^2</tex>.
 +
 
 +
=== Обучение модели ===
 +
 
 +
Для обучения необходимы данные с большого числа микрочипов.
 +
 
 +
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.
 +
В дальнейшем мы будем называть это распределение <<представительным>>.
 +
 
 +
Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.
 +
Рассмотрим упрощенную модель
 +
::<tex> Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} </tex>
 +
 
 +
Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров <tex>\hat \theta_{in} </tex> и <tex> \hat \phi_{jn} </tex>.
 +
Затем вычисляются остатки <tex>r_{ijkn} = Y_{ijkn} - \left( \hat \theta_{in} + \hat \phi_{jn} \right) </tex>, с помощью которых оцениваются дисперсии <tex>\sigma_{jn}^2</tex> и <tex>\tau_{jn}^n</tex>:
 +
::<tex> \hat \sigma_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \left( \bar r_{.jkn} - \bar r_{.j.n} \right)^2</tex>;
 +
::<tex> \hat \tau_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} \left( r_{ijkn} - \bar r_{.jkn} \right)^2</tex>,
 +
 
 +
где <tex>\bar r_{.jkn} = \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn},\; \bar r_{.j.n} = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn} </tex>.

Версия 16:28, 22 октября 2011

fRMA (Frozen Robust Multi-Array Analysis)

Рассматривается следующая модель уровня экспрессии:

(1)
 Y_{ijkn} = \theta_{in} + \phi_{jn} + \gamma_{jkn} + \varepsilon_{ijkn}

Здесь используются следующие обозначения:

  • k — номер партии микрочипов  k \in 1, \dots, K . Говорят, что два чипа принадлежат одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
  • i — номер микрочипа  i \in 1, \dots, I_k .
  • n — номер набора проб  n \in 1, \dots, N . Также через n мы будем обозначать номер гена, соответствующего n-му набору проб.
  • j — номер пробы  i \in 1, \dots, J_n .
  • Y_{ijkn} — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы j из набора проб n микрочипа i из партии микрочипов k.
  • \theta_{in} — экспрессия гена n на i-м микрочипе.
  • \phi_{jn} — коэффициент сродства пробы j гену n.
  • \gamma_{jkn} — поправка к коэффициенту сродства, учитывающая различия между партиями проб.
  • \varepsilon_{ijkn} — случайная ошибка с нулевым средним.

В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: \mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2. Также делается предположение, что \gamma_{jkn} — это случайная величина, дисперсия которой не зависит от партии чипов: \mathbb{D} \gamma_{jkn} = \tau_{jn}^2.

Обучение модели

Для обучения необходимы данные с большого числа микрочипов.

Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем мы будем называть это распределение <<представительным>>.

Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассмотрим упрощенную модель

 Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn}

Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров \hat \theta_{in} и  \hat \phi_{jn} . Затем вычисляются остатки r_{ijkn} = Y_{ijkn} - \left( \hat \theta_{in} + \hat \phi_{jn} \right) , с помощью которых оцениваются дисперсии \sigma_{jn}^2 и \tau_{jn}^n:

 \hat \sigma_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \left( \bar r_{.jkn} - \bar r_{.j.n} \right)^2;
 \hat \tau_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} \left( r_{ijkn} - \bar r_{.jkn} \right)^2,

где \bar r_{.jkn} = \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn},\; \bar r_{.j.n} = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn} .

Личные инструменты