Суммаризация в анализе ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)

Riabenko (Обсуждение | вклад)
(Новая: [[Изображение:Probes_to_genes_number_dist.png|thumb|250px|Распределение генов по числу проб к ним на микрочипе Affymetrix Human Gen...)
К следующему изменению →

Версия 13:04, 19 октября 2011

Распределение генов по числу проб к ним на микрочипе Affymetrix Human Gene 1.0 ST.

Суммаризация — этап предобработки при анализе ДНК-микрочипов, в ходе которого интенсивности флуоресценции проб, соответствующих одному гену, обобщаются в оценку его экспрессии.

Для обеспечения устойчивости оценки уровня экспрессии к каждому гену на микрочипе имеется несколько проб; их последовательности комплементарны разным участкам последовательности их гена.

Усреднение интенсивностей

В комплексе методов предобработки MAS 5.0^[1] для суммаризации используется взвешенное среднее Тьюки, вычисленное одношаговым методом. Усреднение выполняется независимо для каждого гена на каждом микрочипе и применяется к логарифмам интенсивностей флуоресценции проб.

Учёт особенностей проб

Интенсивности флуоресценции проб к одному и тому же гену в логарифмической шкале, каждая линия — один микрочип.

Интенсивности флуоресценции разных проб к одному и тому же гену могут отличаться на порядки, причём отличия между ними имеют в основном систематический характер. В комплексе методов предобработки RMA^[1] делается попытка учесть эти различия в рамках следующей модели:

$Y_{ijn}=\mu_{in}+\alpha_{jn}+\varepsilon_{ijn}.$

Здесь $Y_{ijn}$ — предобработанная (с вычтенным фоном и нормализованная) логирифмированная интенсивность флуоресценции пробы $j$ к гену $n$ на микрочипе $i$ , $\mu_{in}$ — оценка экспрессии гена $n$ на микрочипе $i$ в логарифмической шкале, $\alpha_{jn}$ — коэффициент аффинитивности $j$ -й пробы $n$ -му гену, $\varepsilon_{ijn}$ — случайная ошибка с нулевым средним. Для однозначности определения параметров предполагается дополнительно $\sum_j \alpha_j=0$ для каждого гена.