Нормализация ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Квантильная нормализация)
Строка 32: Строка 32:
[[Изображение:Quantile-quantile normalization.png|thumb|300px|Метод квантильной нормализации преобразует распределения интенсивностей]]
[[Изображение:Quantile-quantile normalization.png|thumb|300px|Метод квантильной нормализации преобразует распределения интенсивностей]]
=== Квантильная нормализация ===
=== Квантильная нормализация ===
-
Цель квантильной нормализации - сделать эмпирические распределения интенсивностей всех микрочипов одинаковыми. Для этого используется преобразование вида <tex>x'_i=F^(-1)\left[G\left(x_i\right)\right],</tex> где <tex>G</tex> - эмпирическое распределение интенсивностей каждого чипа, <tex>F</tex> - эмпирическое распределение интенсивностей усреднённого чипа. Можно модифицировать метод, оценивая <tex>F^(-1)</tex> и <tex>G</tex> более гладкими функциями. Однако, для данных большой размерности на практике достаточно и грубой оценки.
+
Цель квантильной нормализации - сделать одинаковыми эмпирические распределения интенсивностей всех микрочипов. Для этого используется преобразование вида <tex>x'_i=F^(-1)\left[G\left(x_i\right)\right],</tex> где <tex>G</tex> - эмпирическое распределение интенсивностей каждого чипа, <tex>F</tex> - эмпирическое распределение интенсивностей усреднённого чипа. Можно модифицировать метод, оценивая <tex>F^(-1)</tex> и <tex>G</tex> более гладкими функциями. Однако, для данных большой размерности на практике достаточно и грубой оценки.
 +
 
=====Схема выполнения квантильной нормализации=====
=====Схема выполнения квантильной нормализации=====
Имея <tex>n</tex> микрочипов размерности <tex>p</tex>, построить матрицу <tex>X</tex> размерности <tex>p\times n</tex>, где в каждом столбце находятся значения интенсивности по каждому чипу.
Имея <tex>n</tex> микрочипов размерности <tex>p</tex>, построить матрицу <tex>X</tex> размерности <tex>p\times n</tex>, где в каждом столбце находятся значения интенсивности по каждому чипу.
Строка 38: Строка 39:
Взять среднее по каждой строке матрицы <tex>X_s</tex> и создать <tex>X'_s</tex> - матрицу той же размерности, что и <tex>X</tex>, в каждой строке которой все значения равны среднему по строке <tex>X_s</tex>.
Взять среднее по каждой строке матрицы <tex>X_s</tex> и создать <tex>X'_s</tex> - матрицу той же размерности, что и <tex>X</tex>, в каждой строке которой все значения равны среднему по строке <tex>X_s</tex>.
Получить матрицу <tex>X_n</tex>, переставив значения в столбцах <tex>X'_s</tex> в том порядке, в каком они стояли в исходной матрице <tex>X</tex>.
Получить матрицу <tex>X_n</tex>, переставив значения в столбцах <tex>X'_s</tex> в том порядке, в каком они стояли в исходной матрице <tex>X</tex>.
 +
 +
Описанный метод квантильной нормализации - не единственный способ нормализации, основанный на квантилях.
=== Циклическая нормализация при помощи локальной регрессии ===
=== Циклическая нормализация при помощи локальной регрессии ===

Версия 05:56, 8 мая 2010

Нормализация - важный этап предобработки ДНК-микрочипов, позволяющий сделать несколько рассматриваемых в эксперименте чипов пригодными к сравнению между собой. Основная цель анализа на этом этапе - исключить влияние систематических небиологических различий между микрочипами. Источников таких различий множество: вариации эффективности обратной транскрипции, маркировки красителями, гибридизации, физические различия между чипами (повреждения, царапины), небольшие различия в концентрации реагентов, вариация лабораторных условий.

Содержание

Парадигмы нормализации

Нормализация на все гены, нормализация на гены домашнего хозяйства, нормализация на стабильные гены[1]

Методы нормализации

Масштабирование

Один из ДНК-микрочипов выбирается в качестве базового, затем все остальные масштабируются таким образом, чтобы их средняя интенсивность равнялась средней интенсивности базового (этот способ эквивалентен построению линейной регрессии каждого чипа на базовый и последующей нормализации при помощи регрессионной функции).

Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по 2% наибольших и наименьших значений интенсивности. Другая модификация — масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.

Affymetrix предлагает использовать масштабирование на последнем этапе предобработки, применяя его непосредственно к матрицам экспрессии, однако, возможно и применение к матрицам интенсивности.

Схема выполнения масштабирования
     Выбрать столбец j матрицы X в качестве базового.
     Вычислить (усечённое) среднее \tilde{X}_j по столбцу j
     Для всех остальных столбцов матрицы X: вычислить (усечённое) среднее \tilde{X}_i по столбцу i; вычислить \beta_i=\tilde{X}_j/\tilde{X}_i; каждый элемент столбца i умножить на \beta_i.

Нелинейные методы

Предложено большое количество нелинейных способов нормализации данных, использующих различные настраиваемые функции, заменяющие линейную регрессию из предыдущего примера. Среди таких функций cross-validated splines[1], running median lines[1], loess smoothers[1], и т.д. В типичном случае нелинейная нормализация проводится по множеству рангово-инвариантных проб, то есть, проб, имеющих один и тот же ранг во всех микрочипах.

Схема выполнения нелинейной нормализации
     Выбрать столбец j матрицы X в качестве базового.
     Для всех столбцов i\neq\j матрицы настроить параметры нелинейной функции f, отображающей столбец i на столбец j. Пусть \hat{f}_i - полученное отображение.
     Нормализованные значения в столбце j определяются как \hat{f}_i\left(X_j\right)
Метод квантильной нормализации преобразует распределения интенсивностей
Метод квантильной нормализации преобразует распределения интенсивностей

Квантильная нормализация

Цель квантильной нормализации - сделать одинаковыми эмпирические распределения интенсивностей всех микрочипов. Для этого используется преобразование вида x'_i=F^(-1)\left[G\left(x_i\right)\right], где G - эмпирическое распределение интенсивностей каждого чипа, F - эмпирическое распределение интенсивностей усреднённого чипа. Можно модифицировать метод, оценивая F^(-1) и G более гладкими функциями. Однако, для данных большой размерности на практике достаточно и грубой оценки.

Схема выполнения квантильной нормализации
     Имея n микрочипов размерности p, построить матрицу X размерности p\times n, где в каждом столбце находятся значения интенсивности по каждому чипу.
     Отсортировать все столбцы X независимо друг от друга, сформировав матрицу X_s.
     Взять среднее по каждой строке матрицы X_s и создать X'_s - матрицу той же размерности, что и X, в каждой строке которой все значения равны среднему по строке X_s.
     Получить матрицу X_n, переставив значения в столбцах X'_s в том порядке, в каком они стояли в исходной матрице X.

Описанный метод квантильной нормализации - не единственный способ нормализации, основанный на квантилях.

Циклическая нормализация при помощи локальной регрессии

Алгоритм LOWESS

Примечания

Личные инструменты