Фоновая поправка в анализе ДНК-микрочипов
Материал из MachineLearning.
м |
м (→LESN (Low End Signal is Noise)) |
||
(6 промежуточных версий не показаны.) | |||
Строка 11: | Строка 11: | ||
::<tex>SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).</tex> | ::<tex>SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).</tex> | ||
- | Здесь <tex>\tau_c</tex> и <tex>\tau_s</tex> — настраиваемые параметры: <tex>\tau_c</tex> — константа различия со значением по умолчанию 0.03, <tex>\tau_s</tex> — константа масштабирования со значением по умолчанию 10, <tex>T_{bk}</tex> | + | Здесь <tex>\tau_c</tex> и <tex>\tau_s</tex> — настраиваемые параметры: <tex>\tau_c</tex> — константа различия со значением по умолчанию 0.03, <tex>\tau_s</tex> — константа масштабирования со значением по умолчанию 10, <tex>T_{bk}</tex> — одношаговое [[Взвешенное среднее Тьюки|взвешенное среднее Тьюки]] с параметрами <tex>c=5, \eps=0.0001.</tex><br /> |
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины <tex>IM</tex>. | Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины <tex>IM</tex>. | ||
Строка 19: | Строка 19: | ||
::<tex>\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex> | ::<tex>\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex> | ||
- | где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть <tex> f(x)</tex> — плотность распределения интенсивностей на микрочипе, тогда | + | где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть <tex> f(x)</tex> — эмпирическая плотность распределения интенсивностей на микрочипе, тогда |
- | + | ::<tex> \hat{\mu}=\arg\max\left(f\left(x\right)\right)</tex> — среднее шума оценивается как мода распределения интенсивностей; | |
- | ::<tex>\hat{\mu}=\arg\max\left | + | ::<tex>\hat{\sigma^2}</tex> выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество <tex>x< \hat{\mu}</tex>); |
- | ::<tex>\hat{\sigma^2}</tex> | + | ::<tex>\hat{\alpha}</tex> выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество <tex>x > \hat{\mu}</tex>). |
- | ::<tex>\hat{\alpha} | + | |
- | Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. | + | Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано. |
== DFCM (Distribution Free Convolution Model) == | == DFCM (Distribution Free Convolution Model) == | ||
Строка 48: | Строка 47: | ||
Веса зависят от расстояния между пробой и центрами прямоугольных областей: | Веса зависят от расстояния между пробой и центрами прямоугольных областей: | ||
::<tex>\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},</tex> | ::<tex>\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},</tex> | ||
- | где <tex>d_k\left(x,y\right)</tex> | + | где <tex>d_k\left(x,y\right)</tex> — евклидово расстояние между пробой и центром <tex>k</tex>-й ячейки, <tex>s_0</tex> — сглаживающий коэффициент (значение по умолчанию 100). |
Скорректированное значение интенсивности рассчитывается по формуле | Скорректированное значение интенсивности рассчитывается по формуле | ||
- | ::<tex>A\left(x,y\right)= | + | ::<tex>A\left(x,y\right)=\max(I(x,y)-b(x,y),\:NoiseFrac\ast n(x,y)),</tex> |
- | где <tex>I(x,y)</tex> | + | где <tex>I(x,y)</tex> — исходное значение интенсивности, <tex>NoiseFrac</tex> — параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5). |
+ | |||
+ | == LESN (Low End Signal is Noise) == | ||
+ | Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка<ref name="bolstad" />. | ||
+ | |||
+ | Обозначим через <tex>p_{\min}</tex> наименьшее значение интенсивности пробы на чипе. | ||
+ | Пусть <tex>w\left(P\right)</tex> — невозрастающая весовая функция, принимающая значения из <tex>[0, 1]</tex> и такая, что <tex>w\left(p_{\min}\right) = 1</tex>. | ||
+ | Тогда если <tex>P_i</tex> — интенсивность <tex>i</tex>-й пробы, то поправка вычисляется по следующей формуле: | ||
+ | ::<tex>P_i' = P_i - w\left(P_i\right)\left(p_{\min} - p_0\right)</tex>. | ||
+ | Здесь <tex>p_0</tex> — некоторая маленькая константа, необходимая для того, чтобы интенсивности не обращались в ноль. | ||
+ | |||
+ | В качестве весовой функции предлагается использовать экспоненциальную или гауссову: | ||
+ | ::<tex>w_E\left(P\right) = \exp\left(- \frac{P - p_{\min}}{\theta}\right)</tex>, | ||
+ | |||
+ | ::<tex>w_G\left(P\right) = \exp\left(- \frac{\left(P - p_{\min}\right)^2}{\theta^2}\right)</tex>. | ||
+ | |||
+ | Отметим, что авторы рекомендуют перед вычислением поправок перейти к логарифмической шкале. | ||
== Примечания == | == Примечания == |
Текущая версия
Фоновая поправка — важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.
Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность — было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.
Ниже рассмотрены алгоритмы следующих поколений, делающие более изощрённую фоновую поправку.
Содержание |
Ideal mismatch
Чтобы нейтрализовать эффект отрицательных значений экспрессии при вычитании интенсивности MM-проб, компанией Affymetrix была разработана концепция Ideal Mismatch[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности , представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если — номер пробы, а — номер подмножества проб, то фоновый эффект оценивается следующим выражением:
Здесь и — настраиваемые параметры: — константа различия со значением по умолчанию 0.03, — константа масштабирования со значением по умолчанию 10, — одношаговое взвешенное среднее Тьюки с параметрами
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины .
RMA (Robust Multichip Average)
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности представляется в виде суммы нормально распределённого шума со средним и дисперсией и экспоненциально распределённого сигнала со средним значением . Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:
где и — соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть — эмпирическая плотность распределения интенсивностей на микрочипе, тогда
- — среднее шума оценивается как мода распределения интенсивностей;
- выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество );
- выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество ).
Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, EM-алгоритм работает слишком медленно из-за большого объёма данных[1]. В то же время, в работе McGee, Chen, 2006[1] показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано.
DFCM (Distribution Free Convolution Model)
В рамках данной модели, как и в модели алгоритма RMA, предполагается, что наблюдаемая интенсивность является суммой сигнала и шума: ; однако, в отличие от RMA, не делается никаких предположений о распределениях компонент[1]. Алгоритм учёта фоновой поправки следующий.
- Выделяются наименьшие процентов значений PM-интенсивностей (обычно доля достаточно мала и не превышает 30%).
- Выделяются наименьшие процентов (обычно 90% или 95%) значений MM-интенсивностей проб, соответствующих PM-пробам, отобранным на предыдущем шаге. Отобранные значения интенсивностей MM-проб далее служат мерой фонового шума.
- С использованием непараметрической оценки плотности распределения шума (как правило, ядерной оценки Епачечникова), ищется мода распределения шума .
- Оценкой стандартного отклонения шума служит — выборочное стандартное отклонения шума со значениями интенсивностей, меньших , умноженное на .
- Значение интенсивности -й пробы в -м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:
где — минимальное значение интенсивности (PM или MM проб).
Выбирая значения параметров и , мы хотим отобрать те значения PM-интенсивностей, которые достаточно малы для того, чтобы пренебречь неспецифической гибридизацией MM-фрагментов к PM-зондам, а затем отобрать такие соответствующие им MM-пробы, которые, скорее всего, не подвержены кросс-гибридизации. Параметр может рассматриваться как мера доли PM-проб, соответствующим не экспрессированным генам. Любой MM-сигнал, соответствующий таким пробам, не может быть результатом неспецифической гибридизации, поскольку ген не экспрессирован. Значение параметра выбирается таким, чтобы доля MM-проб с интенсивностью большей, чем у соответствующих им PM-проб для наименьших % данных была примерно равна 50%.
MAS 5.0 (Affymetrix Micro Array Suite 5.0)
Данный метод делит каждый ДНК-микрочип на (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности оценивается также дисперсия наименьших 2% значений интенсивности . Затем фоновая поправка для каждой пробы с координатами рассчитывается как взвешенное среднее всех оценок:
- .
По аналогичной формуле с заменой на рассчитывается дисперсия фоновой поправки для каждой пробы.
Веса зависят от расстояния между пробой и центрами прямоугольных областей:
где — евклидово расстояние между пробой и центром -й ячейки, — сглаживающий коэффициент (значение по умолчанию 100).
Скорректированное значение интенсивности рассчитывается по формуле
где — исходное значение интенсивности, — параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).
LESN (Low End Signal is Noise)
Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка[1].
Обозначим через наименьшее значение интенсивности пробы на чипе. Пусть — невозрастающая весовая функция, принимающая значения из и такая, что . Тогда если — интенсивность -й пробы, то поправка вычисляется по следующей формуле:
- .
Здесь — некоторая маленькая константа, необходимая для того, чтобы интенсивности не обращались в ноль.
В качестве весовой функции предлагается использовать экспоненциальную или гауссову:
- ,
- .
Отметим, что авторы рекомендуют перед вычислением поправок перейти к логарифмической шкале.