Участник:EvgSokolov/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 6: Строка 6:
Рассматривается модель Ленгмюра, описывающая зависимость интенсивности свечения пробы от концентрации РНК:
Рассматривается модель Ленгмюра, описывающая зависимость интенсивности свечения пробы от концентрации РНК:
-
::<tex> I_{spi} = \left( \frac{a_{sp} c_{si}}{c_{si} + b_{sp}} + d_{sp} \right) \varepsilon_{spi} </tex>,
+
{{eqno|1}}
 +
::<tex> I_{spi} = \left( \frac{a_{sp} C_{si}}{C_{si} + b_{sp}} + d_{sp} \right) \varepsilon_{spi} </tex>,
-
где <tex>i</tex> — номер микрочипа, <tex>s</tex> — номер набора проб, <tex>p</tex> — номер пробы в наборе, <tex>I_{spi}</tex> — интенсивность свечения пробы, <tex>c_{si}</tex> — абсолютная концентрация РНК, соответствующей <tex>s</tex>-му гену <tex>i</tex>-го микрочипа, <tex>\varepsilon_{spi}</tex> — логарифмически нормальная случайная величина с нулевым средним; <tex>a_{sp}, b_{sp}, d_{sp}</tex> — параметры модели.
+
где <tex>i</tex> — номер микрочипа, <tex>s</tex> — номер набора проб, <tex>p</tex> — номер пробы в наборе, <tex>I_{spi}</tex> — интенсивность свечения пробы, <tex>C_{si}</tex> — абсолютная концентрация РНК, соответствующей <tex>s</tex>-му гену <tex>i</tex>-го микрочипа (концентрация зависит от номера чипа только в том случае, если рассматривается «spike-in»-проба), <tex>\varepsilon_{spi}</tex> — логарифмически нормальная случайная величина с нулевым средним; <tex>a_{sp}, b_{sp}, d_{sp}</tex> — параметры модели.
Предполагается, что параметры описываются следующей линейной моделью:
Предполагается, что параметры описываются следующей линейной моделью:
 +
{{eqno|2}}
::<tex> \begin{bmatrix} \log a_{sp} \\ \log b_{sb} \\ \log d_{sp} \end{bmatrix} = \begin{bmatrix} \gamma_A^a & \gamma_C^a & \gamma_G^a \\ \gamma_A^b & \gamma_C^b & \gamma_G^b \\ \gamma_A^d & \gamma_C^d & \gamma_G^d \end{bmatrix} * \begin{bmatrix} n_{A, sp} \\ n_{C, sp} \\ n_{G, sp} \end{bmatrix} + \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \end{bmatrix} </tex>,
::<tex> \begin{bmatrix} \log a_{sp} \\ \log b_{sb} \\ \log d_{sp} \end{bmatrix} = \begin{bmatrix} \gamma_A^a & \gamma_C^a & \gamma_G^a \\ \gamma_A^b & \gamma_C^b & \gamma_G^b \\ \gamma_A^d & \gamma_C^d & \gamma_G^d \end{bmatrix} * \begin{bmatrix} n_{A, sp} \\ n_{C, sp} \\ n_{G, sp} \end{bmatrix} + \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \end{bmatrix} </tex>,
где <tex>n_{A, sp}, n_{C, sp}, n_{G, sp}</tex> — число нуклеотидов типа A, C и G соответственно на пробе <tex>p</tex> набора <tex>s</tex>.
где <tex>n_{A, sp}, n_{C, sp}, n_{G, sp}</tex> — число нуклеотидов типа A, C и G соответственно на пробе <tex>p</tex> набора <tex>s</tex>.
 +
 +
Концентрации РНК восстанавливаются следующим образом:
 +
# Так как для «spike-in»-проб известны и интенсивности <tex>I_{spi}</tex>, и концентрации <tex>C_{si}</tex>, то с их помощью можно найти оценки <tex>\hat a_{sp}, \hat b_{sp}, \hat d_{sp}</tex> для параметров модели. Это делается с помощью нелинейной регрессии, минимизирующей сумму квадратов ошибок модели {{eqref|1}}.
 +
# Полученные оценки <tex>\hat a_{sp}, \hat b_{sp}, \hat d_{sp}</tex> подставляются в модель {{eqref|2}}, после чего с помощью линейной регрессии оцениваются параметры <tex>\gamma</tex> и <tex>\beta</tex>.
 +
# Найденные на предыдущем шаге оценки для параметров <tex>\gamma</tex> и <tex>\beta</tex> используются для вычисления <tex>\hat a_{sp}, \hat b_{sp}, \hat d_{sp}</tex> для целевых проб (на шаге 1 эти параметры были найдены только для «spike-in»-проб).
 +
# Концентрация <tex>s</tex>-го целевого гена восстанавливается путем минимизации функционала
 +
::<tex> J_s = \sum_i \sum_p \left( \log I_{spi} - \log \left( \frac{ \hat a_{sp} C_{s}}{C_{s} + \hat b_{sp}} + \hat d_{sp} \right) \right)^2 </tex>

Версия 09:34, 3 ноября 2011

Вычисление концентрации с помощью контрольных проб

Известно, что пробы на днк-микрочипах бывают двух типов: целевые, предназначенные для определения концентрации РНК определенных генов в растворе, и «spike-in»-пробы, комплементарные к последовательностям, отсутствующим в ДНК исследуемого организма. Как правило, «spike-in»-РНК добавляется в раствор в известных концентрациях, и эту информацию можно использовать для настройки модели интенсивности.

Для использования данного метода необходимо несколько чипов с одинаковыми концентрациями целевой РНК и различными известными концентрациями «spike-in»-РНК.

Рассматривается модель Ленгмюра, описывающая зависимость интенсивности свечения пробы от концентрации РНК:

(1)
 I_{spi} = \left( \frac{a_{sp} C_{si}}{C_{si} + b_{sp}} + d_{sp} \right) \varepsilon_{spi} ,

где i — номер микрочипа, s — номер набора проб, p — номер пробы в наборе, I_{spi} — интенсивность свечения пробы, C_{si} — абсолютная концентрация РНК, соответствующей s-му гену i-го микрочипа (концентрация зависит от номера чипа только в том случае, если рассматривается «spike-in»-проба), \varepsilon_{spi} — логарифмически нормальная случайная величина с нулевым средним; a_{sp}, b_{sp}, d_{sp} — параметры модели.

Предполагается, что параметры описываются следующей линейной моделью:

(2)
 \begin{bmatrix} \log a_{sp} \\ \log b_{sb} \\ \log d_{sp} \end{bmatrix} = \begin{bmatrix} \gamma_A^a & \gamma_C^a & \gamma_G^a \\ \gamma_A^b & \gamma_C^b & \gamma_G^b \\ \gamma_A^d & \gamma_C^d & \gamma_G^d \end{bmatrix} * \begin{bmatrix} n_{A, sp} \\ n_{C, sp} \\ n_{G, sp} \end{bmatrix} + \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \end{bmatrix} ,

где n_{A, sp}, n_{C, sp}, n_{G, sp} — число нуклеотидов типа A, C и G соответственно на пробе p набора s.

Концентрации РНК восстанавливаются следующим образом:

  1. Так как для «spike-in»-проб известны и интенсивности I_{spi}, и концентрации C_{si}, то с их помощью можно найти оценки \hat a_{sp}, \hat b_{sp}, \hat d_{sp} для параметров модели. Это делается с помощью нелинейной регрессии, минимизирующей сумму квадратов ошибок модели (1).
  2. Полученные оценки \hat a_{sp}, \hat b_{sp}, \hat d_{sp} подставляются в модель (2), после чего с помощью линейной регрессии оцениваются параметры \gamma и \beta.
  3. Найденные на предыдущем шаге оценки для параметров \gamma и \beta используются для вычисления \hat a_{sp}, \hat b_{sp}, \hat d_{sp} для целевых проб (на шаге 1 эти параметры были найдены только для «spike-in»-проб).
  4. Концентрация s-го целевого гена восстанавливается путем минимизации функционала
 J_s = \sum_i \sum_p \left( \log I_{spi} - \log \left( \frac{ \hat a_{sp} C_{s}}{C_{s} + \hat b_{sp}} + \hat d_{sp} \right) \right)^2
Личные инструменты