Участник:EvgSokolov/Песочница

Материал из MachineLearning.

Версия от 09:34, 3 ноября 2011; EvgSokolov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Вычисление концентрации с помощью контрольных проб

Известно, что пробы на днк-микрочипах бывают двух типов: целевые, предназначенные для определения концентрации РНК определенных генов в растворе, и «spike-in»-пробы, комплементарные к последовательностям, отсутствующим в ДНК исследуемого организма. Как правило, «spike-in»-РНК добавляется в раствор в известных концентрациях, и эту информацию можно использовать для настройки модели интенсивности.

Для использования данного метода необходимо несколько чипов с одинаковыми концентрациями целевой РНК и различными известными концентрациями «spike-in»-РНК.

Рассматривается модель Ленгмюра, описывающая зависимость интенсивности свечения пробы от концентрации РНК:

(1)

$I_{spi} = \left( \frac{a_{sp} C_{si}}{C_{si} + b_{sp}} + d_{sp} \right) \varepsilon_{spi}$ ,

где $i$ — номер микрочипа, $s$ — номер набора проб, $p$ — номер пробы в наборе, $I_{spi}$ — интенсивность свечения пробы, $C_{si}$ — абсолютная концентрация РНК, соответствующей $s$ -му гену $i$ -го микрочипа (концентрация зависит от номера чипа только в том случае, если рассматривается «spike-in»-проба), $\varepsilon_{spi}$ — логарифмически нормальная случайная величина с нулевым средним; $a_{sp}, b_{sp}, d_{sp}$ — параметры модели.

Предполагается, что параметры описываются следующей линейной моделью:

(2)

$\begin{bmatrix} \log a_{sp} \\ \log b_{sb} \\ \log d_{sp} \end{bmatrix} = \begin{bmatrix} \gamma_A^a & \gamma_C^a & \gamma_G^a \\ \gamma_A^b & \gamma_C^b & \gamma_G^b \\ \gamma_A^d & \gamma_C^d & \gamma_G^d \end{bmatrix} * \begin{bmatrix} n_{A, sp} \\ n_{C, sp} \\ n_{G, sp} \end{bmatrix} + \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \end{bmatrix}$ ,

где $n_{A, sp}, n_{C, sp}, n_{G, sp}$ — число нуклеотидов типа A, C и G соответственно на пробе $p$ набора $s$ .

Концентрации РНК восстанавливаются следующим образом:

Так как для «spike-in»-проб известны и интенсивности $I_{spi}$ , и концентрации $C_{si}$ , то с их помощью можно найти оценки $\hat a_{sp}, \hat b_{sp}, \hat d_{sp}$ для параметров модели. Это делается с помощью нелинейной регрессии, минимизирующей сумму квадратов ошибок модели (1).
Полученные оценки $\hat a_{sp}, \hat b_{sp}, \hat d_{sp}$ подставляются в модель (2), после чего с помощью линейной регрессии оцениваются параметры $\gamma$ и $\beta$ .
Найденные на предыдущем шаге оценки для параметров $\gamma$ и $\beta$ используются для вычисления $\hat a_{sp}, \hat b_{sp}, \hat d_{sp}$ для целевых проб (на шаге 1 эти параметры были найдены только для «spike-in»-проб).
Концентрация $s$ -го целевого гена восстанавливается путем минимизации функционала

$J_s = \sum_i \sum_p \left( \log I_{spi} - \log \left( \frac{ \hat a_{sp} C_{s}}{C_{s} + \hat b_{sp}} + \hat d_{sp} \right) \right)^2$

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:EvgSokolov/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

Участник:EvgSokolov/Песочница

Материал из MachineLearning.

Вычисление концентрации с помощью контрольных проб

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты