Участник:EvgSokolov/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 26: Строка 26:
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.
-
В дальнейшем мы будем называть это распределение «представительным».
+
В дальнейшем будем называть это распределение «представительным».
Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.
Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.

Версия 19:48, 23 октября 2011

Содержание

fRMA (Frozen Robust Multi-Array Analysis)

Рассматривается следующая модель уровня экспрессии:

(1)
 Y_{ijkn} = \theta_{in} + \phi_{jn} + \gamma_{jkn} + \varepsilon_{ijkn}

Здесь используются следующие обозначения:

  • k — номер партии микрочипов  k \in 1, \dots, K . Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
  • i — номер микрочипа  i \in 1, \dots, I_k .
  • n — номер набора проб  n \in 1, \dots, N . Также через n мы будем обозначать номер гена, соответствующего n-му набору проб.
  • j — номер пробы  i \in 1, \dots, J_n .
  • Y_{ijkn} — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы j из набора проб n микрочипа i из партии микрочипов k.
  • \theta_{in} — экспрессия гена n на i-м микрочипе.
  • \phi_{jn} — коэффициент сродства пробы j гену n.
  • \gamma_{jkn} — случайная ошибка, вызывающая различия между партиями проб.
  • \varepsilon_{ijkn} — случайная ошибка, вызывающая различия между пробами на чипах одной партии.

В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: \mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2. Также делается предположение, что \gamma_{jkn} — это случайная величина, дисперсия которой не зависит от партии чипов: \mathbb{D} \gamma_{jkn} = \tau_{jn}^2.

Обучение модели

Для обучения необходимы данные с большого числа микрочипов.

Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем будем называть это распределение «представительным».

Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассматривается упрощенная модель

 Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} .

По обучающей выборке находятся робастные оценки параметров \hat \theta_{in} и  \hat \phi_{jn} для данной модели. Затем вычисляются остатки r_{ijkn} = Y_{ijkn} - \left( \hat \theta_{in} + \hat \phi_{jn} \right) , с помощью которых оцениваются дисперсии \sigma_{jn}^2 и \tau_{jn}^n:

 \hat \tau_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \left( \bar r_{.jkn} - \bar r_{.j.n} \right)^2;
 \hat \sigma_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} \left( r_{ijkn} - \bar r_{.jkn} \right)^2,

где \bar r_{.jkn} = \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn},\; \bar r_{.j.n} = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn} .

Обработка новых чипов

Рассмотрим процесс обработки новых чипов. Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.

В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:

 Y_{ijln}^* = Y_{ijln} - \hat \phi_{jn} \approx \theta_{in} + \gamma_{jln} + \varepsilon_{ijln}

(здесь l — это индекс новой партии микрочипов).

Далее из скорректированных интенсивностей нужно получить робастную оценку для \theta. Это делается разными способами в зависимости от того, из скольких чипов состоит партия.

Один микрочип

В данном случае индексы i и l могут быть опущены опущены, так как обрабатывается один микрочип и одна партия.

Логарифмированная концентрация оценивается следующим образом:

 \hat \theta_n = \frac{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}} Y_{jn}^*}{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}}} ,

где  v_{jn} = \hat \tau_{jn}^2 + \hat \sigma_{jn}^2 — оценка дисперсии скорректированной интенсивности Y_{jn}^*, а  w_{jn} — веса, соответствующие некоторой M-оценке.

Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие w_{jn}) и пробы с большой дисперсией шума.

Партия микрочипов

В данном случае индекс l может быть опущен, так как обрабатывается одна партия микрочипов.

Личные инструменты