Участник:EvgSokolov/Песочница
Материал из MachineLearning.
Строка 46: | Строка 46: | ||
В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства: | В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства: | ||
::<tex> Y_{ijln}^* = Y_{ijln} - \hat \phi_{jn} \approx \theta_{in} + \gamma_{jkn} + \varepsilon_{ijkn} </tex> | ::<tex> Y_{ijln}^* = Y_{ijln} - \hat \phi_{jn} \approx \theta_{in} + \gamma_{jkn} + \varepsilon_{ijkn} </tex> | ||
+ | |||
+ | (здесь <tex>l</tex> — это индекс новой партии микрочипов). | ||
Далее из скорректированных интенсивностей нужно получить робастную оценку для <tex>\theta</tex>. | Далее из скорректированных интенсивностей нужно получить робастную оценку для <tex>\theta</tex>. | ||
- | Это делается разными способами в зависимости от того, | + | Это делается разными способами в зависимости от того, из скольких чипов состоит партия. |
+ | |||
+ | ==== Один микрочип ==== | ||
+ | |||
+ | В данном случае индексы <tex>i</tex> и <tex>l</tex> могут быть опущены опущены, так как обрабатывается один микрочип и одна партия. | ||
+ | |||
+ | Логарифмированная концентрация оценивается следующим образом: | ||
+ | ::<tex> \hat \theta_n = \frac{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}} Y_{jn}^*}{\sum_{j = 1}^{J_n} \frac{w_{jn}}{v_{jn}}} </tex>, | ||
+ | где <tex> v_{jn} = \hat \tau_{jn}^2 + \hat \sigma_{jn}^2 </tex> — оценка дисперсии скорректированной интенсивности <tex>Y_{jn}^*</tex>, а <tex> w_{jn} </tex> — веса, соответствующие некоторой M-оценке. | ||
+ | |||
+ | Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие <tex>w_{jn}</tex>) и пробы с большой дисперсией шума. | ||
+ | |||
+ | ==== Партия микрочипов ==== | ||
+ | |||
+ | В данном случае индекс <tex>l</tex> может быть опущен, так как обрабатывается одна партия микрочипов. |
Версия 18:14, 23 октября 2011
Содержание |
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии:
Здесь используются следующие обозначения:
- — номер партии микрочипов . Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
- — номер микрочипа .
- — номер набора проб . Также через мы будем обозначать номер гена, соответствующего -му набору проб.
- — номер пробы .
- — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы из набора проб микрочипа из партии микрочипов .
- — экспрессия гена на -м микрочипе.
- — коэффициент сродства пробы гену .
- — случайная ошибка, вызывающая различия между партиями проб.
- — случайная ошибка, вызывающая различия между пробами на чипах одной партии.
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: . Также делается предположение, что — это случайная величина, дисперсия которой не зависит от партии чипов: .
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем мы будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассматривается упрощенная модель
- .
По обучающей выборке находятся робастные оценки параметров и для данной модели. Затем вычисляются остатки , с помощью которых оцениваются дисперсии и :
- ;
- ,
где .
Обработка новых чипов
Рассмотрим процесс обработки новых чипов. Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.
В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:
(здесь — это индекс новой партии микрочипов).
Далее из скорректированных интенсивностей нужно получить робастную оценку для . Это делается разными способами в зависимости от того, из скольких чипов состоит партия.
Один микрочип
В данном случае индексы и могут быть опущены опущены, так как обрабатывается один микрочип и одна партия.
Логарифмированная концентрация оценивается следующим образом:
- ,
где — оценка дисперсии скорректированной интенсивности , а — веса, соответствующие некоторой M-оценке.
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие ) и пробы с большой дисперсией шума.
Партия микрочипов
В данном случае индекс может быть опущен, так как обрабатывается одна партия микрочипов.