Фоновая поправка в анализе ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Фоновая поправка — важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.

Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность — было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб^[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.

Ниже рассмотрены алгоритмы следующих поколений, делающие более изощрённую фоновую поправку.

Содержание

1 Ideal mismatch
2 RMA (Robust Multichip Average)
3 DFCM (Distribution Free Convolution Model)
4 MAS 5.0 (Affymetrix Micro Array Suite 5.0)
5 LESN (Low End Signal is Noise)
6 Примечания

Ideal mismatch

Чтобы нейтрализовать эффект отрицательных значений экспрессии при вычитании интенсивности MM-проб, компанией Affymetrix была разработана концепция Ideal Mismatch^[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности $SB$ , представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если $i$ — номер пробы, а $k$ — номер подмножества проб, то фоновый эффект оценивается следующим выражением:

$IM_i^{(k)} = \left\{MM_i^{(k)}, \:\:\: MM_i^{(k)}<PM_i^{(k)},\\ \frac{PM_i^{(k)}}{2^{SB_k}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k>\tau_c, \\ \frac{PM_i^{(k)}}{2^{\tau_c/(1+(\tau_c-SB_k)/\tau_s)}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k\leq\tau_c, \right.$

$SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).$

Здесь $\tau_c$ и $\tau_s$ — настраиваемые параметры: $\tau_c$ — константа различия со значением по умолчанию 0.03, $\tau_s$ — константа масштабирования со значением по умолчанию 10, $T_{bk}$ — одношаговое взвешенное среднее Тьюки с параметрами $c=5, \eps=0.0001.$
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины $IM$ .

RMA (Robust Multichip Average)

Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов^[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности $Y$ представляется в виде суммы нормально распределённого шума $B$ со средним $\mu$ и дисперсией $\sigma^2$ и экспоненциально распределённого сигнала $S$ со средним значением $\alpha$ . Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:

$\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},$

где $a=y-\mu-\sigma^2\alpha,\:$ $b=\sigma,\:$ $\Phi$ и $\phi$ — соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть $f(x)$ — эмпирическая плотность распределения интенсивностей на микрочипе, тогда

$\hat{\mu}=\arg\max\left(f\left(x\right)\right)$ — среднее шума оценивается как мода распределения интенсивностей;

$\hat{\sigma^2}$ выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество $x< \hat{\mu}$ );

$\hat{\alpha}$ выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество $x > \hat{\mu}$ ).

Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, EM-алгоритм работает слишком медленно из-за большого объёма данных^[1]. В то же время, в работе McGee, Chen, 2006^[1] показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано.

DFCM (Distribution Free Convolution Model)

В рамках данной модели, как и в модели алгоритма RMA, предполагается, что наблюдаемая интенсивность является суммой сигнала и шума: $Y=S+B$ ; однако, в отличие от RMA, не делается никаких предположений о распределениях компонент^[1]. Алгоритм учёта фоновой поправки следующий.

Выделяются наименьшие $q_1$ процентов значений PM-интенсивностей (обычно доля $q_1$ достаточно мала и не превышает 30%).
Выделяются наименьшие $q_2$ процентов (обычно 90% или 95%) значений MM-интенсивностей проб, соответствующих PM-пробам, отобранным на предыдущем шаге. Отобранные значения интенсивностей MM-проб далее служат мерой фонового шума.
С использованием непараметрической оценки плотности распределения шума (как правило, ядерной оценки Епачечникова), ищется мода распределения шума $\hat{\mu}$ .
Оценкой стандартного отклонения шума служит $\hat{\sigma}$ — выборочное стандартное отклонения шума со значениями интенсивностей, меньших $\hat{\mu}$ , умноженное на $\sqrt{2}$ .
Значение интенсивности $k$ -й пробы в $i$ -м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:

$s_{ki}=\left\{y_{ki}-\hat{\mu}, \:\:\: y_{ki}\geq\hat{\mu}+3\hat{\sigma}, \\ 1 + \left(y_{ki}-min\right) \left( \frac{3\hat{\sigma}-1}{\hat{\mu}+3\hat{\sigma}-min}\right), \:\:\: y_{ki}<\hat{\mu}+3\hat{\sigma}, \right.$

где $min$ — минимальное значение интенсивности (PM или MM проб).

Выбирая значения параметров $q_1$ и $q_2$ , мы хотим отобрать те значения PM-интенсивностей, которые достаточно малы для того, чтобы пренебречь неспецифической гибридизацией MM-фрагментов к PM-зондам, а затем отобрать такие соответствующие им MM-пробы, которые, скорее всего, не подвержены кросс-гибридизации. Параметр $q_1$ может рассматриваться как мера доли PM-проб, соответствующим не экспрессированным генам. Любой MM-сигнал, соответствующий таким пробам, не может быть результатом неспецифической гибридизации, поскольку ген не экспрессирован. Значение параметра $q_1$ выбирается таким, чтобы доля MM-проб с интенсивностью большей, чем у соответствующих им PM-проб для наименьших $q_1$ % данных была примерно равна 50%.

MAS 5.0 (Affymetrix Micro Array Suite 5.0)

Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0

Данный метод делит каждый ДНК-микрочип на $K$ (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности $b_k;$ оценивается также дисперсия наименьших 2% значений интенсивности $n_k$ . Затем фоновая поправка для каждой пробы с координатами $\left(x,y\right)$ рассчитывается как взвешенное среднее всех $k$ оценок:

$b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k$ .

По аналогичной формуле с заменой $b_k$ на $n_k$ рассчитывается дисперсия фоновой поправки для каждой пробы.

Веса зависят от расстояния между пробой и центрами прямоугольных областей:

$\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},$

где $d_k\left(x,y\right)$ — евклидово расстояние между пробой и центром $k$ -й ячейки, $s_0$ — сглаживающий коэффициент (значение по умолчанию 100).

Скорректированное значение интенсивности рассчитывается по формуле

$A\left(x,y\right)=\max(I(x,y)-b(x,y),\:NoiseFrac\ast n(x,y)),$

где $I(x,y)$ — исходное значение интенсивности, $NoiseFrac$ — параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).

LESN (Low End Signal is Noise)

Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка^[1].

Обозначим через $p_{\min}$ наименьшее значение интенсивности пробы на чипе. Пусть $w\left(P\right)$ — невозрастающая весовая функция, принимающая значения из $[0, 1]$ и такая, что $w\left(p_{\min}\right) = 1$ . Тогда если $P_i$ — интенсивность $i$ -й пробы, то поправка вычисляется по следующей формуле:

$P_i' = P_i - w\left(P_i\right)\left(p_{\min} - p_0\right)$ .

Здесь $p_0$ — некоторая маленькая константа, необходимая для того, чтобы интенсивности не обращались в ноль.

В качестве весовой функции предлагается использовать экспоненциальную или гауссову:

$w_E\left(P\right) = \exp\left(- \frac{P - p_{\min}}{\theta}\right)$ ,

$w_G\left(P\right) = \exp\left(- \frac{\left(P - p_{\min}\right)^2}{\theta^2}\right)$ .

Отметим, что авторы рекомендуют перед вычислением поправок перейти к логарифмической шкале.

Примечания

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A4%D0%BE%D0%BD%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BF%D0%BE%D0%BF%D1%80%D0%B0%D0%B2%D0%BA%D0%B0_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D0%94%D0%9D%D0%9A-%D0%BC%D0%B8%D0%BA%D1%80%D0%BE%D1%87%D0%B8%D0%BF%D0%BE%D0%B2»

Категории: Биоинформатика | Незавершённые статьи

@@ Строка 11: / Строка 11: @@
 ::<tex>SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).</tex>
-Здесь <tex>\tau_c</tex> и <tex>\tau_s</tex> — настраиваемые параметры: <tex>\tau_c</tex> — константа различия со значением по умолчанию 0.03, <tex>\tau_s</tex> — константа масштабирования со значением по умолчанию 10, <tex>T_{bk}</tex> - одношаговое [[Взвешенное среднее Тьюки|взвешенное среднее Тьюки]] с параметрами <tex>c=5, \eps=0.0001.</tex><br />
+Здесь <tex>\tau_c</tex> и <tex>\tau_s</tex> — настраиваемые параметры: <tex>\tau_c</tex> — константа различия со значением по умолчанию 0.03, <tex>\tau_s</tex> — константа масштабирования со значением по умолчанию 10, <tex>T_{bk}</tex> — одношаговое [[Взвешенное среднее Тьюки|взвешенное среднее Тьюки]] с параметрами <tex>c=5, \eps=0.0001.</tex><br />
 Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины <tex>IM</tex>.
@@ Строка 19: / Строка 19: @@
 ::<tex>\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex>
-где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть <tex> f(x)</tex> — плотность распределения интенсивностей на микрочипе, тогда
+где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть <tex> f(x)</tex> — эмпирическая плотность распределения интенсивностей на микрочипе, тогда
-::<tex> x_m=\arg\max(f(x))</tex> — мода распределения интенсивностей;
+::<tex> \hat{\mu}=\arg\max\left(f\left(x\right)\right)</tex> — среднее шума оценивается как мода распределения интенсивностей;
-::<tex>\hat{\mu}=\arg\max\left[f\left(x\left|x<x_m\right.\right)\right]</tex> — мода интенсивностей, меньших <tex>x_m</tex>;
+::<tex>\hat{\sigma^2}</tex> выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество <tex>x< \hat{\mu}</tex>);
-::<tex>\hat{\sigma^2}</tex> — выборочное стандартное отклонение интенсивностей, меньших <tex>\hat{\mu}</tex>, умноженное на <tex>\sqrt{2}</tex>;
+::<tex>\hat{\alpha}</tex> выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество <tex>x > \hat{\mu}</tex>).
-::<tex>\hat{\alpha}=1/\arg\max\left[f\left(x\left|x>x_m\right.\right)\right]</tex>.
-Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок.
+Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано.
 == DFCM (Distribution Free Convolution Model) ==
@@ Строка 48: / Строка 47: @@
 Веса зависят от расстояния между пробой и центрами прямоугольных областей:
 ::<tex>\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},</tex>
-где <tex>d_k\left(x,y\right)</tex> - евклидово расстояние между пробой и центром <tex>k</tex>-й ячейки, <tex>s_0</tex> - сглаживающий коэффициент (значение по умолчанию 100).
+где <tex>d_k\left(x,y\right)</tex> — евклидово расстояние между пробой и центром <tex>k</tex>-й ячейки, <tex>s_0</tex> — сглаживающий коэффициент (значение по умолчанию 100).
 Скорректированное значение интенсивности рассчитывается по формуле
-::<tex>A\left(x,y\right)=\max(\max(I(x,y),0.5)-b(x,y),\:NoiseFrac\ast n(x,y)),</tex>
+::<tex>A\left(x,y\right)=\max(I(x,y)-b(x,y),\:NoiseFrac\ast n(x,y)),</tex>
-где <tex>I(x,y)</tex> - исходное значение интенсивности, <tex>NoiseFrac</tex> - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).
+где <tex>I(x,y)</tex> — исходное значение интенсивности, <tex>NoiseFrac</tex> — параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).
+== LESN (Low End Signal is Noise) ==
+Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка<ref name="bolstad" />.
+Обозначим через <tex>p_{\min}</tex> наименьшее значение интенсивности пробы на чипе.
+Пусть <tex>w\left(P\right)</tex> — невозрастающая весовая функция, принимающая значения из <tex>[0, 1]</tex> и такая, что <tex>w\left(p_{\min}\right) = 1</tex>.
+Тогда если <tex>P_i</tex> — интенсивность <tex>i</tex>-й пробы, то поправка вычисляется по следующей формуле:
+::<tex>P_i' = P_i - w\left(P_i\right)\left(p_{\min} - p_0\right)</tex>.
+Здесь <tex>p_0</tex> — некоторая маленькая константа, необходимая для того, чтобы интенсивности не обращались в ноль.
+В качестве весовой функции предлагается использовать экспоненциальную или гауссову:
+::<tex>w_E\left(P\right) = \exp\left(- \frac{P - p_{\min}}{\theta}\right)</tex>,
+::<tex>w_G\left(P\right) = \exp\left(- \frac{\left(P - p_{\min}\right)^2}{\theta^2}\right)</tex>.
+Отметим, что авторы рекомендуют перед вычислением поправок перейти к логарифмической шкале.
 == Примечания ==

Фоновая поправка в анализе ДНК-микрочипов

Материал из MachineLearning.

Текущая версия

Содержание

Ideal mismatch

RMA (Robust Multichip Average)

DFCM (Distribution Free Convolution Model)

MAS 5.0 (Affymetrix Micro Array Suite 5.0)

LESN (Low End Signal is Noise)

Примечания

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты