Участник:EvgSokolov/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
-
== fRMA (Frozen Robust Multi-Array Analysis) ==
+
== Вычисление концентрации с помощью контрольных проб ==
-
Рассматривается следующая модель уровня экспрессии:
+
Известно, что пробы на днк-микрочипах бывают двух типов: целевые, предназначенные для определения концентрации РНК определенных генов в растворе, и «spike-in»-пробы, комплементарные к последовательностям, отсутствующим в ДНК исследуемого организма. Как правило, «spike-in»-РНК добавляется в раствор в известных концентрациях, и эту информацию можно использовать для настройки модели интенсивности.
-
{{eqno|1}}
+
Для использования данного метода необходимо несколько чипов с одинаковыми концентрациями целевой РНК, но
-
::<tex> Y_{ijkn} = \theta_{in} + \phi_{jn} + \gamma_{jkn} + \varepsilon_{ijkn} </tex>
+
-
Здесь используются следующие обозначения:
+
Рассматривается модель Ленгмюра, описывающая зависимость интенсивности свечения пробы от концентрации РНК:
 +
::<tex> I_{spi} = \left( \frac{a_{sp} c_{si}}{c_{si} + b_{sp}} + d_{sp} \right) \varepsilon_{spi} </tex>,
-
* <tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
+
где <tex>i</tex> — номер микрочипа, <tex>s</tex> — номер набора проб, <tex>p</tex> — номер пробы в наборе, <tex>I_{spi}</tex> — интенсивность свечения пробы, <tex>c_{si}</tex> — абсолютная концентрация РНК, соответствующей <tex>s</tex>-му гену <tex>i</tex>-го микрочипа, <tex>\varepsilon_{spi}</tex> — логарифмически нормальная случайная величина с нулевым средним; <tex>a_{sp}, b_{sp}, d_{sp}</tex> — параметры модели.
-
* <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>.
+
-
* <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex> мы будем обозначать номер гена, соответствующего <tex>n</tex>-му набору проб.
+
-
* <tex>j</tex> — номер пробы <tex> i \in 1, \dots, J_n </tex>.
+
-
* <tex>Y_{ijkn}</tex> — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы <tex>j</tex> из набора проб <tex>n</tex> микрочипа <tex>i</tex> из партии микрочипов <tex>k</tex>.
+
-
* <tex>\theta_{in}</tex> — экспрессия гена <tex>n</tex> на <tex>i</tex>-м микрочипе.
+
-
* <tex>\phi_{jn}</tex> — коэффициент сродства пробы <tex>j</tex> гену <tex>n</tex>.
+
-
* <tex>\gamma_{jkn}</tex> — случайная ошибка, вызывающая различия между партиями проб.
+
-
* <tex>\varepsilon_{ijkn}</tex> — случайная ошибка, вызывающая различия между пробами на чипах одной партии.
+
-
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: <tex>\mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2</tex>.
+
Предполагается, что параметры описываются следующей линейной моделью:
-
Также делается предположение, что <tex>\gamma_{jkn}</tex> — это случайная величина, дисперсия которой не зависит от партии чипов: <tex>\mathbb{D} \gamma_{jkn} = \tau_{jn}^2</tex>.
+
::<tex> \begin{bmatrix} \log a_{sp} \\ \log b_{sb} \\ \log d_{sp} \end{bmatrix} = \begin{bmatrix} \gamma_A^a & \gamma_C^a & \gamma_G^a \\ \gamma_A^b & \gamma_C^b & \gamma_G^b \\ \gamma_A^d & \gamma_C^d & \gamma_G^d \end{bmatrix} * \begin{bmatrix} n_{A, sp} \\ n_{C, sp} \\ n_{G, sp} \end{bmatrix} + \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \end{bmatrix} </tex>,
-
=== Обучение модели ===
+
где <tex>n_{A, sp}, n_{C, sp}, n_{G, sp}</tex> — число нуклеотидов типа A, C и G соответственно на пробе <tex>p</tex> набора <tex>s</tex>.
-
 
+
-
Для обучения необходимы данные с большого числа микрочипов.
+
-
 
+
-
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.
+
-
В дальнейшем будем называть это распределение «представительным».
+
-
 
+
-
Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.
+
-
Рассматривается упрощенная модель
+
-
::<tex> Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} </tex>.
+
-
 
+
-
По обучающей выборке находятся робастные оценки параметров <tex>\hat \theta_{in} </tex> и <tex> \hat \phi_{jn} </tex> для данной модели.
+
-
Затем вычисляются остатки <tex>r_{ijkn} = Y_{ijkn} - \left( \hat \theta_{in} + \hat \phi_{jn} \right) </tex>, с помощью которых оцениваются дисперсии <tex>\sigma_{jn}^2</tex> и <tex>\tau_{jn}^n</tex>:
+
-
::<tex> \hat \tau_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \left( \bar r_{.jkn} - \bar r_{.j.n} \right)^2</tex>;
+
-
::<tex> \hat \sigma_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} \left( r_{ijkn} - \bar r_{.jkn} \right)^2</tex>,
+
-
 
+
-
где <tex>\bar r_{.jkn} = \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn},\; \bar r_{.j.n} = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn} </tex>.
+
-
 
+
-
=== Обработка новых чипов ===
+
-
 
+
-
Рассмотрим процесс обработки новых чипов.
+
-
Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.
+
-
 
+
-
В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:
+
-
{{eqno|2}}
+
-
::<tex> Y_{ijln}^* = Y_{ijln} - \hat \phi_{jn} \approx \theta_{in} + \gamma_{jln} + \varepsilon_{ijln} </tex>
+
-
 
+
-
(здесь <tex>l</tex> — это индекс новой партии микрочипов).
+
-
 
+
-
Далее из скорректированных интенсивностей нужно получить робастную оценку для <tex>\theta</tex>.
+
-
Это делается разными способами в зависимости от того, из скольких чипов состоит партия.
+
-
 
+
-
==== Один микрочип ====
+
-
 
+
-
В данном случае индексы <tex>i</tex> и <tex>l</tex> могут быть опущены опущены, так как обрабатывается один микрочип и одна партия.
+
-
 
+
-
Логарифмированная концентрация оценивается следующим образом:
+
-
::<tex> \hat \theta_n = \frac{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}} Y_{jn}^*}{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}}} </tex>,
+
-
где <tex> v_{jn} = \hat \tau_{jn}^2 + \hat \sigma_{jn}^2 </tex> — оценка дисперсии скорректированной интенсивности <tex>Y_{jn}^*</tex>, а <tex> w_{jn} </tex> — веса, соответствующие некоторой [[М-оценка|M-оценке]].
+
-
 
+
-
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие <tex>w_{jn}</tex>) и пробы с большой дисперсией шума.
+
-
 
+
-
==== Партия микрочипов ====
+
-
 
+
-
В данном случае индекс <tex>l</tex> может быть опущен, так как обрабатывается одна партия микрочипов. Число чипов в новой партии будем обозначать через <tex>I</tex>
+
-
 
+
-
Введем следующие обозначения:
+
-
* <tex> {\mathbf X} = 1_{J_n \times 1} \otimes \mathbf{E}_{I \times I} </tex> — индикаторная матрица (<tex> 1_{m \times n} </tex> — матрица из единиц размера <tex> m \times n </tex>; <tex> {\mathbf E}_{n \times n} </tex> — единичная матрица размера <tex> n \times n </tex>; <tex> \otimes </tex> — [http://ru.wikipedia.org/wiki/Произведение_Кронекера произведение Кронекера]).
+
-
* <tex> {\mathbf \theta} = \left( \theta_{1 n}, \dots, \theta_{I n} \right) </tex> — вектор экспрессий.
+
-
* <tex> {\mathbf Y_{jn}^*} = \left( Y_{ijn}^* \right)_{i = 1}^{I} \in \mathbb{R}^I </tex> — вектор интенсивностей пробы <tex>j</tex> набора <tex>n</tex> на всех чипах партии.
+
-
* <tex> {\mathbf Y_n^*} = \left( {\mathbf Y_{1,n}^*, \dots, Y_{J_n, n}^* } \right)^T \in \mathbb{R}^{I J_n}</tex> — вектор интенсивностей всех проб к гену <tex>n</tex> на всех чипах партии.
+
-
* <tex> {\mathbf \delta} \in \mathbb{R}^{I J_n} </tex> — вектор случайных ошибок, соответствующих интенсивностям из <tex> {\mathbf Y_n^*} </tex>.
+
-
 
+
-
Тогда модель {{eqref|2}} можно записать в матричном виде:
+
-
::<tex> \mathbf Y_n^* = X \theta + \delta </tex>
+
-
 
+
-
Матрица ковариации вектора случайных ошибок <tex> \mathbf \delta </tex> задается следующим образом:
+
-
::<tex> {\mathbf \delta}_{i_1 j_1, i_2 j_2} = cov \left( Y_{i_1 j_1 n}^*,\; Y_{i_2 j_2 n}^* \right) = \begin{cases} \tau_{jn}^2 + \sigma_{jn}^2, & \text{if } j_1 = j_2 = j, \; i_1 = i_2, \\ \tau_{jn}^2, & \text{if } j_1 = j_2 = j, \; i_1 \neq i_2, \\ 0, & \text{otherwise} \end{cases} </tex>
+
-
 
+
-
С учетом данного выражения ковариационную матрицу вектора <tex> \mathbf \delta </tex> можно записать следующим образом:
+
-
::<tex> {\mathbf \Sigma} = diag \left( \tau_{1n}^2, \dots, \tau_{J_n, n}^2 \right) \otimes 1_{I \times I} + diag \left( \sigma_{1n}^2, \dots, \sigma_{J_n, n}^2 \right) \otimes {\mathbf E}_{I \times I} </tex>
+
-
 
+
-
Для параметров <tex> \tau_{jn}^2 </tex> И <tex> \sigma_{jn}^2 </tex> уже получены оценки, поэтому матрицу <tex> \mathbf \Sigma </tex> можно считать известной.
+
-
Значит, с помощью преобразования <tex> \mathbf Z_n^* = \Sigma^{-\frac{1}{2}} Y_n^* </tex> можно добиться независимости случайных ошибок.
+
-
Тогда робастную оценку для <tex> \mathbf \theta </tex> можно получить из следующей задачи взвешенных наименьших квадратов:
+
-
::<tex> \left\| {\mathbf W \left( \Sigma^{-\frac{1}{2}} Y_n^* - \Sigma^{-\frac{1}{2}} X \theta \right) } \right\|^2 \rightarrow \min_{\mathbf \theta} </tex>,
+
-
где <tex> \mathbf W </tex> — диагональная матрица весов, соответствующих некоторой [[М-оценка|M-оценке]].
+
-
 
+
-
Решение записывается следующим образом:
+
-
::<tex> {\mathbf \hat \theta} = \left( {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} X} \right)^{-1} {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} Y_n^* } </tex>.
+

Версия 09:12, 3 ноября 2011

Вычисление концентрации с помощью контрольных проб

Известно, что пробы на днк-микрочипах бывают двух типов: целевые, предназначенные для определения концентрации РНК определенных генов в растворе, и «spike-in»-пробы, комплементарные к последовательностям, отсутствующим в ДНК исследуемого организма. Как правило, «spike-in»-РНК добавляется в раствор в известных концентрациях, и эту информацию можно использовать для настройки модели интенсивности.

Для использования данного метода необходимо несколько чипов с одинаковыми концентрациями целевой РНК, но

Рассматривается модель Ленгмюра, описывающая зависимость интенсивности свечения пробы от концентрации РНК:

 I_{spi} = \left( \frac{a_{sp} c_{si}}{c_{si} + b_{sp}} + d_{sp} \right) \varepsilon_{spi} ,

где i — номер микрочипа, s — номер набора проб, p — номер пробы в наборе, I_{spi} — интенсивность свечения пробы, c_{si} — абсолютная концентрация РНК, соответствующей s-му гену i-го микрочипа, \varepsilon_{spi} — логарифмически нормальная случайная величина с нулевым средним; a_{sp}, b_{sp}, d_{sp} — параметры модели.

Предполагается, что параметры описываются следующей линейной моделью:

 \begin{bmatrix} \log a_{sp} \\ \log b_{sb} \\ \log d_{sp} \end{bmatrix} = \begin{bmatrix} \gamma_A^a & \gamma_C^a & \gamma_G^a \\ \gamma_A^b & \gamma_C^b & \gamma_G^b \\ \gamma_A^d & \gamma_C^d & \gamma_G^d \end{bmatrix} * \begin{bmatrix} n_{A, sp} \\ n_{C, sp} \\ n_{G, sp} \end{bmatrix} + \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \end{bmatrix} ,

где n_{A, sp}, n_{C, sp}, n_{G, sp} — число нуклеотидов типа A, C и G соответственно на пробе p набора s.