Участник:EvgSokolov/Песочница
Материал из MachineLearning.
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии:
Здесь используются следующие обозначения:
- — номер партии микрочипов . Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
- — номер микрочипа .
- — номер набора проб . Также через мы будем обозначать номер гена, соответствующего -му набору проб.
- — номер пробы .
- — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы из набора проб микрочипа из партии микрочипов .
- — экспрессия гена на -м микрочипе.
- — коэффициент сродства пробы гену .
- — поправка к коэффициенту сродства, учитывающая различия между партиями проб.
- — случайная ошибка с нулевым средним.
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: . Также делается предположение, что — это случайная величина, дисперсия которой не зависит от партии чипов: .
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем мы будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассмотрим упрощенную модель
- .
Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров и . Затем вычисляются остатки , с помощью которых оцениваются дисперсии и :
- ;
- ,
где .