Предобработка данных ДНК-микрочипов
Материал из MachineLearning.
м (→3. Оценка действительной интенсивности: уточнение) |
м (→Модель: уточнение, формулы) |
Версия 09:18, 4 декабря 2010
Предобработка данных - необходимый этап анализа данных, полученных в ходе эксперимента с ДНК-микрочипом. Выделяют три основных подэтапа предобработки:
- Фоновая поправка
Фоновая поправка в анализе ДНК-микрочипов
- Нормализация
- Суммаризация
Суммаризация - этап предобработки данных, в ходе которого суммируются интенсивности нескольких ДНК-микрочипов, использованных на одной стадии эксперимента, с целью получить финальные значения интенсивностей проб. Как правило, суммаризация является составной частью алгоритма, реализующего комплекс методов предобработки данных.
Содержание |
Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))
Данный подход к суммаризации интенсивностей микрочипов базируется на линейной модели с гауссовским шумом.
Модель
Обозначим нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) , а - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида
- , где
и
- .
это многомерное нормальное распределение с вектором матожидания и ковариационной матрицей . обычно называют фактором. это диагональная матрица ковариаций шума. и статистически независимы. Согласно принятой модели, наблюдаемый вектор распределён нормально со следующими параметрами:
Следовательно, интенсивности (PM проб) логарифмически нормально распределены. это параметры формы логарифмически нормального распределения для каждой пробы .
Теперь рассмотрим отдельный ген, множество микрочипов , на каждом из которых проб , соответствующих этому гену. Обозначим - истинный сигнал на микрочипе , то есть логарифм концентрации РНК рассматриваемого гена в препарате. Пусть - сигнал , нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть
- .
Теперь предположим, что для каждой пробы сигнал отклоняется на и от истинных значений и соответственно. Таким образом,
- ,
где предполагается, что и распределены с нулевым матожиданием. Величина определяет дисперсию -го измерения , а - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий , имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям шум , получим
- ,
где - гауссовский шум с нулевым матожиданием. Значения и стандартного отклонения могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность экспрессии генов.
Если мы обозначим и нормализуем наблюдение , чтобы оно имело нулевое матожидание, вычитая
- ,
где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях и , мы придём к базовой модели (1). Согласно модели, , поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими ). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений , потому что ненормальность имеет сравнительно небольшое влияние на правдоподобность модели.
Оценка параметров модели и сигнала
Оценка настоящей интенсивности (сигнала) состоит из трёх шагов:
1. Нормализация наблюдений
Чтобы наблюдаемые значения соответствовали сделанным в модели предположением, нормализуем их, вычитая , оцениваемое с помощью уравнения (*). Таким образом, они будут иметь нулевое матожидание.
2. Максимальный апостериорный факторный анализ
Пусть - исходные данные. Тогда байесовская апостериорная плотность вероятности параметров пропорциональна произведению правдоподобия и априорной плотности вероятности :
- .
Для априорной плотности вероятности мы предполагаем, что , то есть что априорная вероятность параметра не зависит от параметра и что последняя неинформативна. Априорная плотность вероятности для вычисляется по формуле , где из исправленного нормального распределения , для которого
выбрана пропорционально матожиданию вариации наблюдений, чтобы фактор отражал вариацию данных, то есть
Априорная плотность вероятности отражает следующие факты:
- наблюдаемые вариации в данных часто небольшие, поэтому большие значения маловероятны,
- микрочип обычно содержит во много раз больше генов с постоянным сигналом (), чем генов с меняющимся сигналом (большие значения ),
- отрицательные значения неправдоподобны, так как это значит, что интенсивность сигналов убывает с увеличением концентрации РНК.
Два гиперпараметра и позволяют определить разные аспекты априорных знаний. Например, значение около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений к нулю.
Второй фактор апостериорной плотности - это правдоподобие, которое вычисляется как
где это плотность распределения, измеренная в .
Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оенивает параметры и апостериорные значения для каждого . Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов
гдк уже нормализован и имеет нулевое матожидание и
Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна , поэтому увеличение диагональных элементов приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью (отметим, что при приведении ненормального распределения к единичной дисперсии увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения собственных значений ковариационной матрицы.
3. Оценка действительной интенсивности
Наша задача - определить действительную интенсивность с помощью оцененного значения , то есть нужно оценить и . Для каждой пробы мы имеем
Мы определяем и методом наименьших квадратов. Учитывая, что и и взяты из распределения с нулевым матожиданием, получаем:
Действительная интенсивность в таком случае представляется в виде
где это фактор, который компенсирует уменьшение вариации данных в ходе предобработки и факторного анализа (вариация данных в некоторой степени рассматривается как шум). Значение эмпирически определено на модельных данных для разных методов нормализации: для квантильной нормализации и для циклической сглаживающей кривой.
Ссылки
Hochreiter, S.; Clevert, D.-A.; Obermayer, K. A new summarization method for Affymetrix probe level data // Bioinformatics. — (Oxford, England): 2006 T. 22. — С. 943-9.
Kogadeeva 02:45, 4 декабря 2010 (MSK)