Сравнение методов предобработки данных ДНК-микрочипов

Материал из MachineLearning.

Перейти к: навигация, поиск

В задаче анализа ДНК-микрочипов очень важным является этап предобработки данных. На сегодняшний день существует много методов предобработки, и появляются и развиваются новые. Однако определить, какой из методов работает лучше в той или иной ситуации, оказывается не так просто: экспериментальных данных немного и для них неизвестен конечный результат, поэтому напрямую оценить правильность работы алгоритма не представляется возможным. Обычно для сравнения методов предобработки данных используются модельные препараты, для которых известно, например, изменение уровня экспрессии генов. Критерии качества алгоритмов тоже могут быть разные в зависимости от эксперимента.

Содержание

Методы предобработки данных

В следующей таблице приведено сравнение наиболее распространенных методов для предобработки данных:

Метод Фоновая поправка Шкала Суммаризация
vsn глобальная glog множественная
RMA глобальная log множественная
gcRMA локальная log множественная
PLIER локальная glog множественная
dChip локальная lin множественная
MAS 5.0 локальная log одиночная
hook локальная glog одиночная

Виды фоновой поправки:

  • Глобальная — считается, что все пробы на одном чипе имеют одинаковый фон.
  • Локальная — фон каждой пробы оценивается по отдельности. Как правило, это делается с помощью интенсивностей MM-проб.

Виды шкал:

  • lin — линейная
  • log — логарифмическая
  • glog — обобщенно-логарифмическая,  glog(x) = log\left[ \frac{x + \sqrt{x^2 + c^2}}{2} \right], где c — параметр.

Виды методов суммаризации:

  • Одиночная — используются данные только одного чипа. Примером может служить взвешенное среднее Тьюки по набору проб, соответствующих одному гену.
  • Множественная — одновременно используются данные нескольких чипов. Пример такого метода — median polish.

Методы сравнения алгоритмов

  • Дисперсионный анализ
    Дисперсионный анализ используется для оценки способности метода уменьшать систематические ошибки, возникающие в ходе измерений. Если метод даёт большую дисперсию интенсивностей, то на этапе анализа возникнет больше ошибок в определении изменения уровня экспрессии генов. Этот подход базируется на двух критериях точности:
    • Способность метода минимизировать разницу при попарном сравнении данных с нескольких микрочипов
      Теоретически, экспрессия генов не отличается для препаратов на одной стадии эксперимента, поэтому уровень экспрессии на нескольких микрочипах должен быть одинаков. Для попарного сравнения данных используются MA-графики, так как они наглядно иллюстрируют распределение интенсивностей и отношение логарифмов интенсивностей экспрессии. На MA-графике методы, для которых сглаживающая прямая ближе к оси абсцисс, считаются оптимальными, так как в этом случае гены с меньшей вероятностью будут неверно определены как меняющие уровень экспрессии.
    • Точность измерения уровня экспрессии, оцениваемая с помощью стандартного отклонения по данным с разных микрочипов
      Для визуализации строится график стандартного отклонения и матожидания экспрессии для каждого метода и гена в каждый момент времени. Сглаживающая прямая оптимального алгоритма должна быть близка к диагонали (оси соответствуют разным микрочипам).
  • False Positive Analysis[1]
    Эксперименты на микрочипах выявляют уровень экспрессии тысяч генов одновременно. Многие из них на самом деле не экспрессируются, но статистические тесты (с уровнем значимости \alpha \sim 0.05) могут привести к большому числу неверно отвергнутых гипотез (False Positives). Число неверно отвергнутых гипотез после предобработки данных используется в качестве критерия сравнения алгоритмов и измеряет специфичность метода предобработки данных[1]. Так, можно построить график зависимости числа отвергнутых гипотез от достигаемого уровня значимости: чем выше будет число отвергнутых гипотез, тем меньше вероятность неверно принять гипотезу, следовательно, тем лучше алгоритм.
    см. Проверка статистических гипотез
  • Построение ROC-кривой
    В качестве сравнительного критерия качества алгоритмов часто используют площадь под ROC-кривой (AUC, area under curve). При построении ROC-кривой по оси абсцисс откладывается доля неверно принятых гипотез (FPR, false positive rate), а по оси ординат - доля верно принятых гипотез (TPR, true positive rate). Чем выше ROC-кривая и чем больше AUC - площадь под кривой, тем лучше считается алгоритм.

Сравнение некоторых алгоритмов предобработки данных

MAS5, LWPM, LWMM, RMA [1]

Данные

Авторы эксперимента провели сравнение четырёх алгоритмов предобработки данных ДНК-микрочипов: MAS5, LWPM, LWMM и RMA. Эксперимент был проведён на Affymetrix GenechipTM на лабораторных модельных данных человеческого генома (HG-U133A). Целью было выявление изменения экспрессии генов DLKP-клеток (deep laminar keratoplasty), обработанных аналогом тимидина (5-бромо-2-дезоксиуридином, BrdU), в течении трёх моментов времени: 0(исходные данные), 3 и 7 дней.

Результаты эксперимента

  • Дисперсионный анализ

По результатам дисперсионного анализа лучшими оказались алгоритмы RMA и LWPM: для них сглаженная кривая на MA-графике приближалась к оси абсцисс, что означает небольшие изменения экспрессии в зависимости от концентрации генов, а значит потенциально меньший уровень неверно принятых гипотез. Метод RMA лучше остальных методов минимизировал различия в данных на разных микрочипах на одной стадии эксперимента (в один момент времени). Авторы также посчитали R^2 - коэффициент смешанной корреляции для каждого метода (статистический показатель, суммирующий объяснительную способность теста).

Средние значения R^2 для разных методов
MAS 5.0 LWPM LWMM RMA
0 дней 0.9265326 0.9904766 0.9724816 0.9952248
3 дня 0.9165260 0.9857380 0.9603595 0.9930388
7 дней 0.9080216 0.9649691 0.9434947 0.9850423
Среднее 0.9170267 0.9803946 0.9587786 0.9911020

Таким образом, алгоритмы RMA и LWPM по сравнению с MAS5 и LWMM более обоснованно выявляют изменение в уровне экспрессии генов.

  • False Positive Analysis

Целью сравнения было выявлить алгоритмы, неверно принимающих меньшее количество гипотез для заданного количества генов, изменивших уровень экспрессии. В качестве меры ошибки первого рода используются FDR и FWER. FDR даёт большее число отвергнутых гипотез, чем FWER, что подтверждает тот факт, что FWER более консервативна. Тем не менее, FWER позволяет лучше разделить алгоритмы по качеству: RMA и LWMM, согласно FWER, выделяют больше генов с различным уровнем экспрессии, чем MAS5 и LWPM (для заданной пи-величины). Мера FDR практически не позволяет различить качество методом MAS5 и RMA, в то время как LWMM работает немного лучше, чем LWPM. Сравнивая результаты параметрических и непараметрических подходов к множественной проверке гипотез, авторы эксперимента сделали вывод, что непараметрический критерий не позволяет различить качество алгоритмов предобработки данных, особенно по мере FWER.

Вывод: согласно дисперсионному анализу, алгоритмы RMA и LWPM превосходят остальные по качеству; согласно False Positive Analysis - алгоритмы LWMM и RMA принимают меньше неверных гипотез (замечание: в алгоритме LWMM используются пары проб PM(perfect match) и MM(miss match), в то время как в современных Affymetrix-чипах проб MM может не быть).

FARMS, MAS5, MBEI, RMA [2]

Авторы алгоритма FARMS провели сравнение этого метода с другими алгоритмами предобработки данных - MAS5, MBEI, RMA.

Данные

Для сравнения алгоритмов были использованы четыре модельных выборки:

  • Выборка A. Выборка состоит из двух подвыборок генов человека HGU95A: spike-in и dilution.
    • Для первой подвыборки, A1(spike-in), концентрация РНК для 14 генов (так называемых spike-in генов) контролировалась путём добавления в препарат РНК в заранее известной концентрации. "Латинский квадрат" ("latin square design")[1] состоял из 20 экспериментов с разными концентрациями РНК 14 spike-in генов: {0.0, 0.25, 0.5, 1.0, 2.0, 4.0, 8.0, 16.0, 32.0, 64.0, 128.0, 256.0, 512.0, 1024.0} pM. Выборка состоит из 59 массивов с данными ДНК-микрочипов.
    • Для второй подвыборки A2(dilution) использовались два препарата, клетки печени (HL, human liver) и клетки ЦНС (CNS, central nervous system), из которых были выделены РНК для 75 массивов HGU95A_v2. Выборка базируется на изменении концентрации и комбинации РНК, взятых из двух разных препаратов: в исследуемом препарате РНК из HL и CNS присутствуют в разных количествах: {1.25, 2.5, 5.0, 7.5, 10.0, 20.0} μg. Каждый эксперимент был повторён 5 раз.
  • Выборка B. Выборка идентична выборке A1.
  • Выборка C. Выборка базируется на "латинском квадрате" ("latin square design") экспериментов и состоит из 42 массивов HGU133A с 42 spike-in генами с концентрациями РНК из множества {0.0, 0.0125, 0.25, 0.5, 1.0, 2.0, 4.0, 8.0, 16.0, 32.0, 64.0, 128.0, 256.0, 512.0} pM. Три spike-in гена в одинаковой концентрации были скомбинированы для создания трех образцов препаратов для каждого эксперимента.
  • Выборка D. Выборка состоит из 6 ДНК-микрочипов, моделируя ситуацию, когда необходимо определить изменение уровня экспрессии генов в ходе эксперимента. В массиве содержится информация о 3860 РНК из которых 2551 РНК - фоновые (контрольные), их концентрация не меняется в ходе эксперимента. Остальные 1309 РНК, для которых изменился уровень экспрессии, были разделены на 8 подмножеств, в каждом из которых содержалось от 80 до 180 РНК. Подмножества отличались от контрольных генов относительным изменением концентрации: {1.2, 1.5, 1.7, 2.0, 2.5, 3.0, 3.5, 4.0} раз.

Данные можно найти на странице конкурса Affymetrix AffyComp II.

Результаты эксперимента

В качестве критерия качества алгоритмов авторы выбрали площадь под ROC-кривой (AUC). ROC-кривая строилась при проверке гипотезы об изменении уровня экспрессии генов больше, чем в определённое (пороговое) число раз. Авторы выбрали этот критерий, так как он не зависит от представления данных (по обычной или логарифмической шкале). Кроме того, AUC-критерий оценивает одновременно чувствительность и специфичность алгоритма.

Выборка D больше всего подходит для построения ROC-кривой, так как содержит большое число РНК.

Площадь под кривой (AUC) была посчитана для разных пороговых значений изменения уровня экспрессии генов (гипотеза о том, что ген изменил экспрессию, принималась при условии, что уровень экспрессии изменился больше, чем в пороговое число раз). Алгоритм FARMS также сравнивался с 43 алгоритмами-участниками конкурса AffyComp II. На выборках B,C,D алгоритм FARMS показал лучшие результаты по критерию AUC, чем все остальные методы. Метод FARMS с использованием квантильной нормализации оказался лучше на выборках A и B, в то время как FARMS с циклической loess-нормализацией был лучше на выборке D. Однако обе модификации метода FARMS показали гораздо лучшие результаты, чем методы RMA, MAS5 и MBEI.

AUC для разного изменения уровня экспрессии в выборках A-D
FARMS (q) FARMS (l) RMA MAS 5.0 MBEI I place AffyComp II place AffyComp mean
Dataset A
all 0.89 0.85 0.82 0.36 0.67 0.91 0.86 0.71
Treshold=2 0.84 0.78 0.54 0.07 0.17 0.91 0.69 0.42
Dataset B
Low 0.89 0.80 0.51 0.07 0.21 0.74 0.68 0.44
Med 0.97 0.95 0.91 0.00 0.43 0.98 0.97 0.65
High 0.97 0.94 0.64 0.00 0.16 0.95 0.94 0.48
Mean 0.91 0.84 0.60 0.05 0.26 0.79 0.75 0.49
Dataset C
Low 0.94 0.91 0.57 0.09 - 0.76 0.61 0.48
Med 0.99 0.91 0.57 0.09 - 0.76 0.61 0.48
High 1.00 1.00 0.96 0.00 - 0.99 0.99 0.61
Mean 0.95 0.93 0.65 0.06 - 0.81 0.66 0.44
Dataset D
≥ 1.2 0.72 0.74 0.70 0.52 0.49 - - -
≥ 1.7 0.90 0.91 0.88 0.64 0.59 - - -

Авторы эксперимента также построили ROC-кривую для проверки гипотезы об изменении уровня экспрессии генов, основанной на модифицированном t-критерии (уровень значимости \alpha = 0.05, добавочная константа составляет 90% от стандартного отклонения всех значений экспрессии).

AUC для пи-значений, выборки B-D
FARMS (q) FARMS (l) RMA MAS 5.0 MBEI
Dataset B (171 experiments, 6 arrays each)
AUC 0.955 0.955 0.948 0.772 0.670
Dataset C (91 experiments, 6 arrays each)
AUC 0.975 0.974 0.981 0.892 0.875
Dataset D (1 experiment, 6 arrays)
AUC 0.802 0.823 0.767 0.286 0.397

Выводы: эксперименты показали, что метод FARMS превосходит RMA, MBEI и MAS5 по критерию AUC, учитывающему специфичность и чувствительность методов. Для выборки B значение AUC для метода RMA оказалось больше, чем для FARMS, но отличие было несущественно, как показал критерий Уилкоксона (P=0.19). На выборке C FARMS показал существенно лушчие результаты (P=0.00027), чем RMA. Для выборки D, самой надежной для проверки статистических гипотез,был проведён только 1 эксперимент, поэтому критерий Уилкоксона неприменим и вместо него был применён критерий McNemar. Он показал, что FARMS дал существенно лучшие результаты (P=0.000002), чем другие алгоритмы.

Примечания


Литература

[1] Shakya K., Ruskin H. J., Kerr G. et al. Comparison of Microarray Preprocessing Methods // Advances in Experimental Medicine and Biology. — 2010 T. 680. — С. 139-147.

[2] Hochreiter S., Clevert D.-A., Obermayer K. A new summarization method for Affymetrix probe level data // Bioinformatics (Oxford, England). — 2006 T. 22. — С. 943-949.

Kogadeeva 01:33, 5 декабря 2010 (MSK)

Личные инструменты