Фоновая поправка в анализе ДНК-микрочипов

Материал из MachineLearning.

Фоновая поправка — важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.

Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность — было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб^[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.

Ниже рассмотрены алгоритмы следующих поколений, делающие более изощрённую фоновую поправку.

Содержание

1 Ideal mismatch
2 RMA (Robust Multichip Average)
3 DFCM (Distribution Free Convolution Model)
4 MAS 5.0 (Affymetrix Micro Array Suite 5.0)
5 LESN (Low End Signal is Noise)
6 Примечания

Ideal mismatch

Чтобы нейтрализовать эффект отрицательных значений экспрессии при вычитании интенсивности MM-проб, компанией Affymetrix была разработана концепция Ideal Mismatch^[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности $SB$ , представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если $i$ — номер пробы, а $k$ — номер подмножества проб, то фоновый эффект оценивается следующим выражением:

$IM_i^{(k)} = \left\{MM_i^{(k)}, \:\:\: MM_i^{(k)}<PM_i^{(k)},\\ \frac{PM_i^{(k)}}{2^{SB_k}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k>\tau_c, \\ \frac{PM_i^{(k)}}{2^{\tau_c/(1+(\tau_c-SB_k)/\tau_s)}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k\leq\tau_c, \right.$

$SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).$

Здесь $\tau_c$ и $\tau_s$ — настраиваемые параметры: $\tau_c$ — константа различия со значением по умолчанию 0.03, $\tau_s$ — константа масштабирования со значением по умолчанию 10, $T_{bk}$ — одношаговое взвешенное среднее Тьюки с параметрами $c=5, \eps=0.0001.$
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины $IM$ .

RMA (Robust Multichip Average)

Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов^[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности $Y$ представляется в виде суммы нормально распределённого шума $B$ со средним $\mu$ и дисперсией $\sigma^2$ и экспоненциально распределённого сигнала $S$ со средним значением $\alpha$ . Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:

$\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},$

где $a=y-\mu-\sigma^2\alpha,\:$ $b=\sigma,\:$ $\Phi$ и $\phi$ — соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть $f(x)$ — эмпирическая плотность распределения интенсивностей на микрочипе, тогда

$\hat{\mu}=\arg\max\left(f\left(x\right)\right)$ — среднее шума оценивается как мода распределения интенсивностей;

$\hat{\sigma^2}$ выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество $x< \hat{\mu}$ );

$\hat{\alpha}$ выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество $x > \hat{\mu}$ ).

Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, EM-алгоритм работает слишком медленно из-за большого объёма данных^[1]. В то же время, в работе McGee, Chen, 2006^[1] показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано.

DFCM (Distribution Free Convolution Model)

В рамках данной модели, как и в модели алгоритма RMA, предполагается, что наблюдаемая интенсивность является суммой сигнала и шума: $Y=S+B$ ; однако, в отличие от RMA, не делается никаких предположений о распределениях компонент^[1]. Алгоритм учёта фоновой поправки следующий.

Выделяются наименьшие $q_1$ процентов значений PM-интенсивностей (обычно доля $q_1$ достаточно мала и не превышает 30%).
Выделяются наименьшие $q_2$ процентов (обычно 90% или 95%) значений MM-интенсивностей проб, соответствующих PM-пробам, отобранным на предыдущем шаге. Отобранные значения интенсивностей MM-проб далее служат мерой фонового шума.
С использованием непараметрической оценки плотности распределения шума (как правило, ядерной оценки Епачечникова), ищется мода распределения шума $\hat{\mu}$ .
Оценкой стандартного отклонения шума служит $\hat{\sigma}$ — выборочное стандартное отклонения шума со значениями интенсивностей, меньших $\hat{\mu}$ , умноженное на $\sqrt{2}$ .
Значение интенсивности $k$ -й пробы в $i$ -м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:

$s_{ki}=\left\{y_{ki}-\hat{\mu}, \:\:\: y_{ki}\geq\hat{\mu}+3\hat{\sigma}, \\ 1 + \left(y_{ki}-min\right) \left( \frac{3\hat{\sigma}-1}{\hat{\mu}+3\hat{\sigma}-min}\right), \:\:\: y_{ki}<\hat{\mu}+3\hat{\sigma}, \right.$

где $min$ — минимальное значение интенсивности (PM или MM проб).

Выбирая значения параметров $q_1$ и $q_2$ , мы хотим отобрать те значения PM-интенсивностей, которые достаточно малы для того, чтобы пренебречь неспецифической гибридизацией MM-фрагментов к PM-зондам, а затем отобрать такие соответствующие им MM-пробы, которые, скорее всего, не подвержены кросс-гибридизации. Параметр $q_1$ может рассматриваться как мера доли PM-проб, соответствующим не экспрессированным генам. Любой MM-сигнал, соответствующий таким пробам, не может быть результатом неспецифической гибридизации, поскольку ген не экспрессирован. Значение параметра $q_1$ выбирается таким, чтобы доля MM-проб с интенсивностью большей, чем у соответствующих им PM-проб для наименьших $q_1$ % данных была примерно равна 50%.

MAS 5.0 (Affymetrix Micro Array Suite 5.0)

Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0

Данный метод делит каждый ДНК-микрочип на $K$ (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности $b_k;$ оценивается также дисперсия наименьших 2% значений интенсивности $n_k$ . Затем фоновая поправка для каждой пробы с координатами $\left(x,y\right)$ рассчитывается как взвешенное среднее всех $k$ оценок:

$b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k$ .

По аналогичной формуле с заменой $b_k$ на $n_k$ рассчитывается дисперсия фоновой поправки для каждой пробы.

Веса зависят от расстояния между пробой и центрами прямоугольных областей:

$\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},$

где $d_k\left(x,y\right)$ — евклидово расстояние между пробой и центром $k$ -й ячейки, $s_0$ — сглаживающий коэффициент (значение по умолчанию 100).

Скорректированное значение интенсивности рассчитывается по формуле

$A\left(x,y\right)=\max(I(x,y)-b(x,y),\:NoiseFrac\ast n(x,y)),$

где $I(x,y)$ — исходное значение интенсивности, $NoiseFrac$ — параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).

LESN (Low End Signal is Noise)

Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка^[1].

Обозначим через $p_{\min}$ наименьшее значение интенсивности пробы на чипе. Пусть $w\left(P\right)$ — невозрастающая весовая функция, принимающая значения из $[0, 1]$ и такая, что $w\left(p_{\min}\right) = 1$ . Тогда если $P_i$ — интенсивность $i$ -й пробы, то поправка вычисляется по следующей формуле: