Фоновая поправка в анализе ДНК-микрочипов

Материал из MachineLearning.

Перейти к: навигация, поиск

Фоновая поправка - важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.

Ideal mismatch

Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность - было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.

Чтобы нейтрализовать этот эффект, компанией Affymetrix была разработана концепция Ideal Mismatch[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности SB, представляющее собой устойчивое к выбросам среднее по каждой паре проб в множестве логарифмов отношений PM-интенсивностей к MM-интенсивностям. Если i - номер пробы, а k - номер подмножества проб, то фоновый эффект оценивается следующим выражением:

IM_i^{(k)} = \left\{MM_i^{(k)}, \:\:\: MM_i^{(k)}<PM_i^{(k)},\\ \frac{PM_i^{(k)}}{2^{SB_k}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k>\tau_c, \\ \frac{PM_i^{(k)}}{2^{\tau_c/(1+(\tau_c-SB_k)/\tau_s)}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k\leq\tau_c. \right.
Здесь \tau_c и \tau_s - настраиваемые параметры: \tau_c - константа различия со значением по умолчанию 0.03, \tau_s - константа масштабирования со значением по умолчанию 10. Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины IM.

RMA-свёртка

Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов [1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности Y представляется в виде суммы нормально распределённого шума B со средним \mu и дисперсией \sigma^2 и экспоненциально распределённого сигнала S со средним значением \alpha. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения. Корректировка производится согласно следующей формуле:
E\left(S\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},
где a=s-\mu-\sigma^2\alpha, b=\sigma, \Phi и \phi - соответственно функция распределения и плотность стандартного нормального распределения.

MAS 5.0

Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0
Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0

Данный метод делит каждый ДНК-микрочип на K (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности b_k; оценивается также дисперсия наименьших 2% значений интенсивности n_k. Затем фоновая поправка для каждой пробы с координатами \left(x,y\right) рассчитывается как взвешенное среднее всех k оценок:
b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k.
По аналогичной формуле с заменой b_k на n_k рассчитывается дисперсия фоновой поправки для каждой пробы.

Веса зависят от расстояния между пробой и центрами прямоугольных областей:
\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},
где d_k\left(x.y\right) - евклидово расстояние между пробой и центром k-й ячейки, s_0 - сглаживающий коэффициент (значение по умолчанию 100).

Скорректированное значение интенсивности рассчитывается по формуле A\left(x,y\right)=\max(\max(I(x,y),0.5)-b(x,y),\:NoiseFrac\prod n(x,y)), где I(x,y) - исходное значение интенсивности, NoiseFrac - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).

Личные инструменты