Суммаризация в анализе ДНК-микрочипов
Материал из MachineLearning.
м (терминология) |
|||
Строка 30: | Строка 30: | ||
Здесь используются следующие обозначения: | Здесь используются следующие обозначения: | ||
- | * <tex>k</tex> — номер | + | * <tex>k</tex> — номер серии микрочипов <tex> k \in 1, \dots, K </tex>. Два чипа относятся к одной серии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время. |
* <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>. | * <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>. | ||
- | * <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex> | + | * <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex> обозначается номер гена, соответствующего <tex>n</tex>-му набору проб. |
* <tex>j</tex> — номер пробы <tex> i \in 1, \dots, J_n </tex>. | * <tex>j</tex> — номер пробы <tex> i \in 1, \dots, J_n </tex>. | ||
* <tex>Y_{ijkn}</tex> — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы <tex>j</tex> из набора проб <tex>n</tex> микрочипа <tex>i</tex> из партии микрочипов <tex>k</tex>. | * <tex>Y_{ijkn}</tex> — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы <tex>j</tex> из набора проб <tex>n</tex> микрочипа <tex>i</tex> из партии микрочипов <tex>k</tex>. | ||
Строка 41: | Строка 41: | ||
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: <tex>\mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2</tex>. | В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: <tex>\mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2</tex>. | ||
- | Также делается предположение, что <tex>\gamma_{jkn}</tex> — это случайная величина, дисперсия которой не зависит от | + | Также делается предположение, что <tex>\gamma_{jkn}</tex> — это случайная величина, дисперсия которой не зависит от серии чипов: <tex>\mathbb{D} \gamma_{jkn} = \tau_{jn}^2</tex>. |
==== Обучение модели ==== | ==== Обучение модели ==== | ||
Строка 73: | Строка 73: | ||
Далее из скорректированных интенсивностей нужно получить робастную оценку для <tex>\theta</tex>. | Далее из скорректированных интенсивностей нужно получить робастную оценку для <tex>\theta</tex>. | ||
- | Это делается разными способами в зависимости от того, из скольких чипов состоит | + | Это делается разными способами в зависимости от того, из скольких чипов состоит серия. |
===== Один микрочип ===== | ===== Один микрочип ===== | ||
- | В данном случае индексы <tex>i</tex> и <tex>l</tex> могут быть опущены опущены, так как обрабатывается один микрочип и одна | + | В данном случае индексы <tex>i</tex> и <tex>l</tex> могут быть опущены опущены, так как обрабатывается один микрочип и одна серия. |
Логарифмированная концентрация оценивается следующим образом: | Логарифмированная концентрация оценивается следующим образом: | ||
Строка 85: | Строка 85: | ||
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие <tex>w_{jn}</tex>) и пробы с большой дисперсией шума. | Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие <tex>w_{jn}</tex>) и пробы с большой дисперсией шума. | ||
- | ===== | + | ===== Серия микрочипов ===== |
- | В данном случае индекс <tex>l</tex> может быть опущен, так как обрабатывается одна | + | В данном случае индекс <tex>l</tex> может быть опущен, так как обрабатывается одна серия микрочипов. Число чипов в новой серии будем обозначать через <tex>I</tex> |
Введем следующие обозначения: | Введем следующие обозначения: |
Версия 08:38, 24 октября 2011
Суммаризация — этап предобработки при анализе ДНК-микрочипов, в ходе которого интенсивности флуоресценции проб, соответствующих одному гену, обобщаются в оценку его экспрессии.
Для обеспечения устойчивости оценки уровня экспрессии к каждому гену на микрочипе имеется несколько проб; их последовательности комплементарны разным участкам последовательности их гена.
Содержание |
Одиночная суммаризация
В данном классе методов оценки экспрессии вычисляются для всех микрочипов независимо друг от друга.
В комплексе методов предобработки MAS 5.0[1] для суммаризации используется взвешенное среднее Тьюки, вычисленное одношаговым методом. Усреднение применяется к логарифмам интенсивностей флуоресценции проб и выполняется независимо для каждого гена на каждом микрочипе.
Множественная суммаризация
К данному классу методов относятся такие, которые для получения оценки экспрессии используют несколько микрочипов.
Интенсивности флуоресценции разных проб к одному и тому же гену могут отличаться на порядки, причём отличия между ними имеют в основном систематический характер. В комплексе методов предобработки RMA[1] делается попытка учесть эти различия в рамках следующей модели:
Здесь — предобработанная (с вычтенным фоном и нормализованная) логирифмированная интенсивность флуоресценции пробы
к гену
на микрочипе
,
— оценка экспрессии гена
на микрочипе
в логарифмической шкале,
— коэффициент аффинитивности
-й пробы
-му гену,
— случайная ошибка с нулевым средним. Для однозначности определения параметров предполагается дополнительно
для каждого гена.
В RMA значения коэффициентов оцениваются при помощи алгоритма median polish[1].
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии[1]:
Здесь используются следующие обозначения:
-
— номер серии микрочипов
. Два чипа относятся к одной серии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
-
— номер микрочипа
.
-
— номер набора проб
. Также через
обозначается номер гена, соответствующего
-му набору проб.
-
— номер пробы
.
-
— предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы
из набора проб
микрочипа
из партии микрочипов
.
-
— экспрессия гена
на
-м микрочипе.
-
— коэффициент сродства пробы
гену
.
-
— случайная ошибка, вызывающая различия между партиями проб.
-
— случайная ошибка, вызывающая различия между пробами на чипах одной партии.
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: .
Также делается предположение, что
— это случайная величина, дисперсия которой не зависит от серии чипов:
.
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассматривается упрощенная модель
.
По обучающей выборке находятся робастные оценки параметров и
для данной модели.
Затем вычисляются остатки
, с помощью которых оцениваются дисперсии
и
:
;
,
где .
Обработка новых чипов
Рассмотрим процесс обработки новых чипов. Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.
В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:
(здесь — это индекс новой партии микрочипов).
Далее из скорректированных интенсивностей нужно получить робастную оценку для .
Это делается разными способами в зависимости от того, из скольких чипов состоит серия.
Один микрочип
В данном случае индексы и
могут быть опущены опущены, так как обрабатывается один микрочип и одна серия.
Логарифмированная концентрация оценивается следующим образом:
,
где — оценка дисперсии скорректированной интенсивности
, а
— веса, соответствующие некоторой M-оценке.
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие ) и пробы с большой дисперсией шума.
Серия микрочипов
В данном случае индекс может быть опущен, так как обрабатывается одна серия микрочипов. Число чипов в новой серии будем обозначать через
Введем следующие обозначения:
-
— индикаторная матрица (
— матрица из единиц размера
;
— единичная матрица размера
;
— произведение Кронекера).
-
— вектор экспрессий.
-
— вектор интенсивностей пробы
набора
на всех чипах партии.
-
— вектор интенсивностей всех проб к гену
на всех чипах партии.
-
— вектор случайных ошибок, соответствующих интенсивностям из
.
Тогда модель (2) можно записать в матричном виде:
Матрица ковариации вектора случайных ошибок задается следующим образом:
С учетом данного выражения ковариационную матрицу вектора можно записать следующим образом:
Для параметров И
уже получены оценки, поэтому матрицу
можно считать известной.
Значит, с помощью преобразования
можно добиться независимости случайных ошибок.
Тогда робастную оценку для
можно получить из следующей задачи взвешенных наименьших квадратов:
,
где — диагональная матрица весов, соответствующих некоторой M-оценке.
Решение записывается следующим образом:
.