Нормализация ДНК-микрочипов
Материал из MachineLearning.
(→Схема выполнения масштабирования) |
м (→Нелинейные методы) |
||
Строка 19: | Строка 19: | ||
=== Нелинейные методы === | === Нелинейные методы === | ||
- | Предложено большое количество нелинейных способов | + | Предложено большое количество нелинейных способов нормализации данных, использующих различные настраиваемые функции, заменяющие линейную регрессию из предыдущего примера. Среди таких функций |
cross-validated splines<ref name="splines">Schadt EE, Li C, Ellis B. Feature extraction and normalization algorithms for high-density oligonucleotide gene expression array data. Journal of Cellular Biochemistry, Suppl. 2001;37:120-125. http://www.hsph.harvard.edu/~cli/pdf/Schadt_01.pdf</ref>, | cross-validated splines<ref name="splines">Schadt EE, Li C, Ellis B. Feature extraction and normalization algorithms for high-density oligonucleotide gene expression array data. Journal of Cellular Biochemistry, Suppl. 2001;37:120-125. http://www.hsph.harvard.edu/~cli/pdf/Schadt_01.pdf</ref>, | ||
running median lines<ref name="mlines">Li C, Wong WH. Model-based analysis of oligonucleotide arrays: model validation, design issues and standard error application. Genome Biology. 2001;2(8):RESEARCH0032. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC55329/</ref>, | running median lines<ref name="mlines">Li C, Wong WH. Model-based analysis of oligonucleotide arrays: model validation, design issues and standard error application. Genome Biology. 2001;2(8):RESEARCH0032. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC55329/</ref>, | ||
- | loess smoothers<ref name="smoothers">Bolstad BM, Irizarry RA, Astrand M, Speed TP. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 2003;19(2):185-193. http://www.ncbi.nlm.nih.gov/pubmed/12538238</ref> | + | loess smoothers<ref name="smoothers">Bolstad BM, Irizarry RA, Astrand M, Speed TP. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 2003;19(2):185-193. http://www.ncbi.nlm.nih.gov/pubmed/12538238</ref>, |
+ | и т.д. В типичном случае нелинейная нормализация проводится по множеству рангово-инвариантных проб, то есть, проб, имеющих один и тот же ранг во всех микрочипах. | ||
+ | |||
+ | =====Схема выполнения нелинейной нормализации===== | ||
+ | # Выбрать столбец <tex>j</tex> матрицы <tex>X</tex> в качестве базового. | ||
+ | # Для всех столбцов <tex>i\neq\j</tex> матрицы настроить параметры нелинейной функции <tex>f</tex>, отображающей столбец <tex>i</tex> на столбец <tex>j</tex>. Пусть <tex>\hat{f}_i</tex> - полученное отображение. | ||
+ | # Нормализованные значения в столбце <tex>j</tex> определяются как <tex>\hat{f}_i\left(X_j\right)</tex> | ||
=== Квантильная нормализация === | === Квантильная нормализация === |
Версия 15:01, 6 мая 2010
Нормализация - важный этап предобработки ДНК-микрочипов, позволяющий сделать несколько рассматриваемых в эксперименте чипов пригодными к сравнению между собой. Основная цель анализа на этом этапе - исключить влияние систематических небиологических различий между микрочипами. Источников таких различий множество: вариации эффективности обратной транскрипции, маркировки красителями, гибридизации, физические различия между чипами (повреждения, царапины), небольшие различия в концентрации реагентов, вариация лабораторных условий.
Содержание |
Парадигмы нормализации
Нормализация на все гены, нормализация на гены домашнего хозяйства, нормализация на стабильные гены[1]
Методы нормализации
Масштабирование
Один из ДНК-микрочипов выбирается в качестве базового, затем все остальные масштабируются таким образом, чтобы их средняя интенсивность равнялась средней интенсивности базового (этот способ эквивалентен построению линейной регрессии каждого чипа на базовый и последующей нормализации при помощи регрессионной функции).
Для большей устойчивости можно использовать усечённое среднее. Так, в стандартном программном обеспечении производителя микрочипов Affymetrix перед подсчётом среднего отбрасываются по 2 % наибольших и наименьших значений интенсивности. Другая модификация — масштабирование к средней интенсивности не по всему базовому чипу, а по каждому подмножеству его проб, соответствующих одному гену.
Affymetrix предлагает использовать этот вид нормализации на последнем этапе предобработки, применяя масштабирование непосредственно к матрицам экспрессии, однако, возможно и его применение к матрицам интенсивности.
Схема выполнения масштабирования
- Выбрать столбец матрицы в качестве базового.
- Вычислить (усечённое) среднее по столбцу
- Для всех остальных столбцов матрицы : вычислить (усечённое) среднее по столбцу ; вычислить ; каждый элемент столбца умножить на .
Нелинейные методы
Предложено большое количество нелинейных способов нормализации данных, использующих различные настраиваемые функции, заменяющие линейную регрессию из предыдущего примера. Среди таких функций cross-validated splines[1], running median lines[1], loess smoothers[1], и т.д. В типичном случае нелинейная нормализация проводится по множеству рангово-инвариантных проб, то есть, проб, имеющих один и тот же ранг во всех микрочипах.
Схема выполнения нелинейной нормализации
- Выбрать столбец матрицы в качестве базового.
- Для всех столбцов матрицы настроить параметры нелинейной функции , отображающей столбец на столбец . Пусть - полученное отображение.
- Нормализованные значения в столбце определяются как