Предобработка данных ДНК-микрочипов
Материал из MachineLearning.
(Добавлено описание алгоритма сумаризации FARMS, дополнение) |
м (→Ссылки: ссылки) |
||
(3 промежуточные версии не показаны) | |||
Строка 18: | Строка 18: | ||
Обозначим <tex>x</tex> нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) <tex>logPM</tex>, а <tex>z</tex> - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида | Обозначим <tex>x</tex> нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) <tex>logPM</tex>, а <tex>z</tex> - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида | ||
+ | {{eqno|1}} | ||
::<tex>x = \lambda z + \eps </tex>, где <tex> x, \lambda \in \R^n</tex> | ::<tex>x = \lambda z + \eps </tex>, где <tex> x, \lambda \in \R^n</tex> | ||
Строка 30: | Строка 31: | ||
Следовательно, интенсивности (PM проб) логарифмически нормально распределены. <tex>\lambda_j</tex> это параметры формы логарифмически нормального распределения для каждой пробы <tex>PM_j</tex>. | Следовательно, интенсивности (PM проб) логарифмически нормально распределены. <tex>\lambda_j</tex> это параметры формы логарифмически нормального распределения для каждой пробы <tex>PM_j</tex>. | ||
- | Теперь рассмотрим отдельный ген, <tex>\{i \ | + | Теперь рассмотрим отдельный ген, множество микрочипов <tex>\{i\}_{i=1}^N</tex>, на каждом из которых <tex>n</tex> проб <tex>\{PM_{ij}\}_{j=1}^n</tex>, соответствующих этому гену. Обозначим <tex>s_i</tex> - истинный сигнал на микрочипе <tex>i</tex>, то есть логарифм концентрации РНК рассматриваемого гена в препарате. Пусть <tex>z_i</tex> - сигнал <tex>s_i</tex>, нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть |
::<tex> s_i = z_i \sigma + \mu, \; \sigma > 0 </tex>. | ::<tex> s_i = z_i \sigma + \mu, \; \sigma > 0 </tex>. | ||
Строка 38: | Строка 39: | ||
::<tex>S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j </tex>, | ::<tex>S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j </tex>, | ||
- | где предполагается, что <tex>\tau_j</tex> и <tex>\gamma_j</tex> распределены с нулевым матожиданием. Величина <tex> \sigma + \ | + | где предполагается, что <tex>\tau_j</tex> и <tex>\gamma_j</tex> распределены с нулевым матожиданием. Величина <tex> \sigma + \tau_j </tex> определяет дисперсию <tex>j</tex>-го измерения <tex>PM_{*j}</tex>, а <tex> \mu + \gamma_j </tex> - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий <tex>PM_j</tex>, имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям <tex>S_{ij}</tex> шум <tex>\eps</tex>, получим |
::<tex> \log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij} </tex>, | ::<tex> \log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij} </tex>, | ||
- | где <tex>\eps_{ij}</tex> - гауссовский шум с нулевым матожиданием | + | где <tex>\eps_{ij}</tex> - гауссовский шум с нулевым матожиданием. Значения <tex>\tau_j, \; \gamma_j </tex> и стандартного отклонения <tex>\eps_{ij}</tex> могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность экспрессии генов. |
Если мы обозначим <tex> \lambda_j = \sigma + \tau_j </tex> и нормализуем наблюдение <tex>x</tex>, чтобы оно имело нулевое матожидание, вычитая | Если мы обозначим <tex> \lambda_j = \sigma + \tau_j </tex> и нормализуем наблюдение <tex>x</tex>, чтобы оно имело нулевое матожидание, вычитая | ||
Строка 49: | Строка 50: | ||
::<tex> \frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j </tex>, | ::<tex> \frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j </tex>, | ||
- | где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях <tex>z_i</tex> и <tex>\eps_{ij}</tex>, мы придём к базовой модели. | + | где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях <tex>z_i</tex> и <tex>\eps_{ij}</tex>, мы придём к базовой модели {{eqref|1}}. |
- | Согласно модели, <tex>z \sim \textit{N}(0,1)</tex>, поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими <tex>\sigma</tex>). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений <tex>z</tex>, потому что ненормальность <tex>z</tex> имеет сравнительно небольшое влияние на правдоподобность модели. | + | Согласно модели, <tex>z \sim \textit{N}(0,1)</tex>, поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими <tex>\sigma</tex>). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений <tex>z</tex>, потому что ненормальность <tex>z</tex> имеет сравнительно небольшое влияние на правдоподобность модели. |
- | + | ||
====Оценка параметров модели и сигнала==== | ====Оценка параметров модели и сигнала==== | ||
Строка 65: | Строка 65: | ||
::<tex>p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi)</tex>. | ::<tex>p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi)</tex>. | ||
- | Для априорной плотности вероятности мы предполагаем, что <tex>p(\lambda, \Psi) = p(\lambda)</tex>, то есть что априорная вероятность параметра <tex>\lambda</tex> не зависит от параметра <tex>\Psi</tex> и что последняя неинформативна. Априорная плотность вероятности для <tex>\lambda</tex> вычисляется по формуле <tex>\lambda = \prod_{j=1}^N{p(\lambda_j)}</tex>, где <tex>\lambda_j</tex> из исправленного нормального распределения <tex>\textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda})</tex>, для которого | + | Для априорной плотности вероятности мы предполагаем, что <tex>p(\lambda, \Psi) = p(\lambda)</tex>, то есть что априорная вероятность параметра <tex>\lambda</tex> не зависит от параметра <tex>\Psi</tex> и что последняя неинформативна. Априорная плотность вероятности для <tex>\lambda</tex> вычисляется по формуле <tex>p(\lambda) = \prod_{j=1}^N{p(\lambda_j)}</tex>, где <tex>\lambda_j</tex> из исправленного нормального распределения <tex>\textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda})</tex>, для которого |
::<tex>\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).</tex> | ::<tex>\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).</tex> | ||
Строка 80: | Строка 80: | ||
Два гиперпараметра <tex>\rho</tex> и <tex>\mu_{\lambda}</tex> позволяют определить разные аспекты априорных знаний. Например, значение <tex>\mu_{\lambda}</tex> около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений <tex>\lambda</tex> к нулю. | Два гиперпараметра <tex>\rho</tex> и <tex>\mu_{\lambda}</tex> позволяют определить разные аспекты априорных знаний. Например, значение <tex>\mu_{\lambda}</tex> около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений <tex>\lambda</tex> к нулю. | ||
- | Второй | + | Второй множитель апостериорной плотности - это правдоподобие, которое вычисляется как |
::<tex> p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},</tex> | ::<tex> p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},</tex> | ||
Строка 86: | Строка 86: | ||
где <tex>\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)</tex> это плотность распределения, измеренная в <tex>x_i</tex>. | где <tex>\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)</tex> это плотность распределения, измеренная в <tex>x_i</tex>. | ||
- | Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм | + | Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оценивает параметры <tex>\lambda,\;\Psi</tex> и апостериорные значения плотности вероятности для <tex>z</tex> для каждого <tex>x</tex>. Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов |
- | ::<tex> -\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) + \frac{nN}{2}\log{2\pi} - \frac{N}{2}\log{\|\Psi|} - \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),</tex> | + | ::<tex> -\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) \; + \; \frac{nN}{2}\log{2\pi} \; - \; \frac{N}{2}\log{\|\Psi|} \; - \; \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),</tex> |
- | + | где <tex>x</tex> уже нормализован и имеет нулевое матожидание и | |
::<tex> z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),</tex> | ::<tex> z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),</tex> | ||
Строка 96: | Строка 96: | ||
::<tex> \sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.</tex> | ::<tex> \sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.</tex> | ||
- | Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна <tex>\lambda \lambda^T + \Psi</tex>, поэтому увеличение диагональных элементов <tex>\Psi</tex> приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью <tex>\lambda \lambda^T</tex> (отметим, что при приведении ненормального распределения к единичной дисперсии <tex>\lambda</tex> увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения <tex>n</tex> собственных значений ковариационной матрицы. | + | Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна <tex>\lambda \lambda^T + \Psi</tex>, поэтому увеличение диагональных элементов <tex>\Psi</tex> приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью <tex>\lambda \lambda^T</tex> (отметим, что при приведении ненормального распределения к единичной дисперсии <tex>\lambda</tex> увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения <tex>n</tex> собственных значений ковариационной матрицы. |
=====3. Оценка действительной интенсивности===== | =====3. Оценка действительной интенсивности===== | ||
- | Наша задача - определить действительную интенсивность <tex>s_i</tex> с помощью оцененного значения <tex> | + | Наша задача - определить действительную интенсивность <tex>s_i</tex> с помощью оцененного значения <tex>z_i</tex>, то есть нужно оценить <tex>\sigma</tex> и <tex>\mu</tex>. Для каждой пробы мы имеем |
::<tex>\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j. </tex> | ::<tex>\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j. </tex> | ||
- | Мы определяем <tex>\sigma</tex> и <tex>\mu</tex> методом наименьших квадратов | + | Мы определяем <tex>\sigma</tex> и <tex>\mu</tex> методом наименьших квадратов. Учитывая, что и <tex>\tau_i</tex> и <tex>\gamma_i</tex> взяты из распределения с нулевым матожиданием, получаем: |
::<tex>\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},</tex> | ::<tex>\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},</tex> | ||
Строка 117: | Строка 117: | ||
---- | ---- | ||
- | === | + | ===[[Сравнение методов предобработки данных ДНК-микрочипов]]=== |
+ | ===Литература=== | ||
{{книга | {{книга | ||
|автор = Hochreiter, S.; Clevert, D.-A.; Obermayer, K. | |автор = Hochreiter, S.; Clevert, D.-A.; Obermayer, K. |
Текущая версия
Предобработка данных - необходимый этап анализа данных, полученных в ходе эксперимента с ДНК-микрочипом. Выделяют три основных подэтапа предобработки:
- Фоновая поправка
Фоновая поправка в анализе ДНК-микрочипов
- Нормализация
- Суммаризация
Суммаризация - этап предобработки данных, в ходе которого суммируются интенсивности нескольких ДНК-микрочипов, использованных на одной стадии эксперимента, с целью получить финальные значения интенсивностей проб. Как правило, суммаризация является составной частью алгоритма, реализующего комплекс методов предобработки данных.
Содержание |
Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))
Данный подход к суммаризации интенсивностей микрочипов базируется на линейной модели с гауссовским шумом.
Модель
Обозначим нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) , а - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида
- , где
и
- .
это многомерное нормальное распределение с вектором матожидания и ковариационной матрицей . обычно называют фактором. это диагональная матрица ковариаций шума. и статистически независимы. Согласно принятой модели, наблюдаемый вектор распределён нормально со следующими параметрами:
Следовательно, интенсивности (PM проб) логарифмически нормально распределены. это параметры формы логарифмически нормального распределения для каждой пробы .
Теперь рассмотрим отдельный ген, множество микрочипов , на каждом из которых проб , соответствующих этому гену. Обозначим - истинный сигнал на микрочипе , то есть логарифм концентрации РНК рассматриваемого гена в препарате. Пусть - сигнал , нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть
- .
Теперь предположим, что для каждой пробы сигнал отклоняется на и от истинных значений и соответственно. Таким образом,
- ,
где предполагается, что и распределены с нулевым матожиданием. Величина определяет дисперсию -го измерения , а - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий , имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям шум , получим
- ,
где - гауссовский шум с нулевым матожиданием. Значения и стандартного отклонения могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность экспрессии генов.
Если мы обозначим и нормализуем наблюдение , чтобы оно имело нулевое матожидание, вычитая
- ,
где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях и , мы придём к базовой модели (1). Согласно модели, , поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими ). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений , потому что ненормальность имеет сравнительно небольшое влияние на правдоподобность модели.
Оценка параметров модели и сигнала
Оценка настоящей интенсивности (сигнала) состоит из трёх шагов:
1. Нормализация наблюдений
Чтобы наблюдаемые значения соответствовали сделанным в модели предположением, нормализуем их, вычитая , оцениваемое с помощью уравнения (*). Таким образом, они будут иметь нулевое матожидание.
2. Максимальный апостериорный факторный анализ
Пусть - исходные данные. Тогда байесовская апостериорная плотность вероятности параметров пропорциональна произведению правдоподобия и априорной плотности вероятности :
- .
Для априорной плотности вероятности мы предполагаем, что , то есть что априорная вероятность параметра не зависит от параметра и что последняя неинформативна. Априорная плотность вероятности для вычисляется по формуле , где из исправленного нормального распределения , для которого
выбрана пропорционально матожиданию вариации наблюдений, чтобы фактор отражал вариацию данных, то есть
Априорная плотность вероятности отражает следующие факты:
- наблюдаемые вариации в данных часто небольшие, поэтому большие значения маловероятны,
- микрочип обычно содержит во много раз больше генов с постоянным сигналом (), чем генов с меняющимся сигналом (большие значения ),
- отрицательные значения неправдоподобны, так как это значит, что интенсивность сигналов убывает с увеличением концентрации РНК.
Два гиперпараметра и позволяют определить разные аспекты априорных знаний. Например, значение около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений к нулю.
Второй множитель апостериорной плотности - это правдоподобие, которое вычисляется как
где это плотность распределения, измеренная в .
Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оценивает параметры и апостериорные значения плотности вероятности для для каждого . Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов
где уже нормализован и имеет нулевое матожидание и
Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна , поэтому увеличение диагональных элементов приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью (отметим, что при приведении ненормального распределения к единичной дисперсии увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения собственных значений ковариационной матрицы.
3. Оценка действительной интенсивности
Наша задача - определить действительную интенсивность с помощью оцененного значения , то есть нужно оценить и . Для каждой пробы мы имеем
Мы определяем и методом наименьших квадратов. Учитывая, что и и взяты из распределения с нулевым матожиданием, получаем:
Действительная интенсивность в таком случае представляется в виде
где это фактор, который компенсирует уменьшение вариации данных в ходе предобработки и факторного анализа (вариация данных в некоторой степени рассматривается как шум). Значение эмпирически определено на модельных данных для разных методов нормализации: для квантильной нормализации и для циклической сглаживающей кривой.
Сравнение методов предобработки данных ДНК-микрочипов
Литература
Hochreiter, S.; Clevert, D.-A.; Obermayer, K. A new summarization method for Affymetrix probe level data // Bioinformatics. — (Oxford, England): 2006 T. 22. — С. 943-9.
Kogadeeva 02:45, 4 декабря 2010 (MSK)