Нормализация ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Парадигмы нормализации)
(Методы нормализации)
Строка 5: Строка 5:
== Методы нормализации ==
== Методы нормализации ==
 +
=== Масштабирование ===
=== Масштабирование ===
Один из ДНК-микрочипов выбирается в качестве базового, затем все остальные масштабируются таким образом, чтобы их средняя интенсивность равнялась средней интенсивности базового (этот способ эквивалентен построению линейной регрессии каждого чипа на базовый и последующей нормализации при помощи регрессионной функции).
Один из ДНК-микрочипов выбирается в качестве базового, затем все остальные масштабируются таким образом, чтобы их средняя интенсивность равнялась средней интенсивности базового (этот способ эквивалентен построению линейной регрессии каждого чипа на базовый и последующей нормализации при помощи регрессионной функции).
-
Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по 2% наибольших и наименьших значений интенсивности. Другая модификация - масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.
+
Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по % наибольших и наименьших значений интенсивности. Другая модификация — масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.
Affymetrix предлагает использовать этот вид нормализации на последнем этапе предобработки, применяя масштабирование непосредственно к матрицам экспрессии, однако, возможно и его применение к матрицам интенсивности.
Affymetrix предлагает использовать этот вид нормализации на последнем этапе предобработки, применяя масштабирование непосредственно к матрицам экспрессии, однако, возможно и его применение к матрицам интенсивности.
-
=== Нелинейные методы===
+
1. Выбрать столбец <tex>j</tex> матрицы <tex>X</tex> в качестве базового.
 +
 
 +
2. Вычислить (усечённое) среднее <tex>\tilde{X}_j</tex> по столбцу <tex>j</tex>
 +
 
 +
3. Для всех остальных столбцов матрицы <tex>X</tex>: вычислить (усечённое) среднее <tex>\tilde{X}_i</tex> по столбцу <tex>i</tex>; вычислить <tex>\beta_i=\tilde{X}_j/\tilde{X}_i</tex>; каждый элемент столбца <tex>i</tex> умножить на <tex>\beta_i</tex>.
 +
 
 +
=== Нелинейные методы ===
 +
Предложено большое количество нелинейных способов
cross-validated splines<ref name="splines">Schadt EE, Li C, Ellis B. Feature extraction and normalization algorithms for high-density oligonucleotide gene expression array data. Journal of Cellular Biochemistry, Suppl. 2001;37:120-125. http://www.hsph.harvard.edu/~cli/pdf/Schadt_01.pdf</ref>,
cross-validated splines<ref name="splines">Schadt EE, Li C, Ellis B. Feature extraction and normalization algorithms for high-density oligonucleotide gene expression array data. Journal of Cellular Biochemistry, Suppl. 2001;37:120-125. http://www.hsph.harvard.edu/~cli/pdf/Schadt_01.pdf</ref>,
running median lines<ref name="mlines">Li C, Wong WH. Model-based analysis of oligonucleotide arrays: model validation, design issues and standard error application. Genome Biology. 2001;2(8):RESEARCH0032. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC55329/</ref>,
running median lines<ref name="mlines">Li C, Wong WH. Model-based analysis of oligonucleotide arrays: model validation, design issues and standard error application. Genome Biology. 2001;2(8):RESEARCH0032. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC55329/</ref>,
loess smoothers<ref name="smoothers">Bolstad BM, Irizarry RA, Astrand M, Speed TP. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 2003;19(2):185-193. http://www.ncbi.nlm.nih.gov/pubmed/12538238</ref>
loess smoothers<ref name="smoothers">Bolstad BM, Irizarry RA, Astrand M, Speed TP. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 2003;19(2):185-193. http://www.ncbi.nlm.nih.gov/pubmed/12538238</ref>
-
=== Квантильная нормализация===
+
=== Квантильная нормализация ===
 +
 
=== Циклическая нормализация при помощи локальной регрессии ===
=== Циклическая нормализация при помощи локальной регрессии ===
[[Алгоритм LOWESS]]
[[Алгоритм LOWESS]]

Версия 14:43, 6 мая 2010

Нормализация - важный этап предобработки ДНК-микрочипов, позволяющий сделать несколько рассматриваемых в эксперименте чипов пригодными к сравнению между собой. Основная цель анализа на этом этапе - исключить влияние систематических небиологических различий между микрочипами. Источников таких различий множество: вариации эффективности обратной транскрипции, маркировки красителями, гибридизации, физические различия между чипами (повреждения, царапины), небольшие различия в концентрации реагентов, вариация лабораторных условий.

Содержание

Парадигмы нормализации

Нормализация на все гены, нормализация на гены домашнего хозяйства, нормализация на стабильные гены[1]

Методы нормализации

Масштабирование

Один из ДНК-микрочипов выбирается в качестве базового, затем все остальные масштабируются таким образом, чтобы их средняя интенсивность равнялась средней интенсивности базового (этот способ эквивалентен построению линейной регрессии каждого чипа на базовый и последующей нормализации при помощи регрессионной функции).

Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по 2 % наибольших и наименьших значений интенсивности. Другая модификация — масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.

Affymetrix предлагает использовать этот вид нормализации на последнем этапе предобработки, применяя масштабирование непосредственно к матрицам экспрессии, однако, возможно и его применение к матрицам интенсивности.

1. Выбрать столбец j матрицы X в качестве базового.

2. Вычислить (усечённое) среднее \tilde{X}_j по столбцу j

3. Для всех остальных столбцов матрицы X: вычислить (усечённое) среднее \tilde{X}_i по столбцу i; вычислить \beta_i=\tilde{X}_j/\tilde{X}_i; каждый элемент столбца i умножить на \beta_i.

Нелинейные методы

Предложено большое количество нелинейных способов cross-validated splines[1], running median lines[1], loess smoothers[1]

Квантильная нормализация

Циклическая нормализация при помощи локальной регрессии

Алгоритм LOWESS

Примечания

Личные инструменты