Контроль качества в анализе ДНК-микрочипов

Материал из MachineLearning.

Перейти к: навигация, поиск

Важным этапом анализа ДНК-микрочипов является контроль качетва изображений, полученных при сканировании чипов. На изображениях чипов могут появляться различные "пятна" или неоднородности, вызванными, например, пылью или неравномерным распределением свечения. Такие "пятна" достаточно трудно разглядеть невооруженным глазом на микрочипе в силу большого разброса значений интенсивностей свечения проб. Их обнаружение можно добиться путем сравнения интенсивности свечения пробы с каким-нибудь контрольным значением или с помощью моделирования значений в некотором наборе массивов.

Выбор контрольных значений

Важным вопросом является определение того, что считать выбросом или нетипичностью. Значение интенсивности выбросов не должно встречаться слишком редко, так это может быть обусловлено случайным распределением интенсивностей, а должно встречаться относительно часто вследствие некой достаточно заметной неоднородности. Необходимо найти способ определения выбросов с высокой чувствительностью и с высокой специфичностью. Для увеличения специфичности всегда можно использовать второй проход, в котором выбросы, которые окружены пикселями, не являщимися выбросами, перестают считаться выбросами. Это основано на том, что выбросы представляют собой не отдельно взятые пробы, а некоторые области на чипе с нетипичным поведением. При исследовании технических репликат контрольным значением может быть выбрано медианное значение интенсивности пробы по всем репликатам, как это сделано в алгоритме Harshlight. Также контрольное значение может быть оценено по большой выборке чипов одного типа, например, средним, медианой или другими более устойчивыми способами.

Алгоритмы нахождения нетипичностей

Harshlight

Harshlight - это программа, доступная в свободном доступе, предназначенная для поиска на изображении чипа нетипичностей трех видов: сильные дефекты("extended defects"), компактные дефекты("compact defects") и диффузные дефекты("diffuse defects"). Сильные дефекты - это большие области на изображении чипа, которые сильно отличаются от остального части чипа по интенсивности свечения. Компактные дефекты - области небольшого размера либо слишком ярких, либо слишком темных проб. Диффузные дефекты - области чипа, плотности распределения ярких или темных проб в которых, значительно отличаются от их плотности в остальонй части чипа. Сначала алгоритм ищет сильные дефекты, а потом компактные и диффузные дефекты. При обнаружении сильных дефектов, авторы алгоритма настоятельно рекомендуют исключить чип из исследования. Алгоритм начинает работу с построения изображения ошибок ("error image") E, которое представляет собой отклонение логарифмированных интенсивностей кокретного чипа от других в эксперименте. Это изображение представляется следующим образом: E = B_E+\nu_E, где B_E - фон изображения E, а \nu_E локальные вариации, которые при незагрязненном изображении, явяляются индикаторм экспрессии генов. Предположив, что фон и локальные вариации являются некоррелированными величинами, то можно записать, что \sigma^2_E = \sigma^2_{B_E}+\sigma^2_{\nu_E}. Для оценки \sigma^2_{B_E}, используются изображение \widetilde E, полученное из E путем медианной фильтрации. Далее считается \sigma^2_{B_E}/\sigma^2_E. Если оно превышает заданный порог, тогда считается, что сильный дефект обнаружен. Для обнаружения компактных дефектов применяется следующий подход: мы строим бинарные изображения по изображению E, в котором 1 соответствуют пиксели, с интенсивностью, либо меньшей α-перцентили (темные выбросы), либо большей (1-α)-перцентили (яркие выбросы). Для этих двух изображений применяется алгоритм нахождения связанных областей FloodFill. Если размер обнаруженного связной области превышает заданного порога, то считается, что обнаружен компактный дефект. Для обнаружения диффузных дефектов опять определяются темные и яркие выбросы. Темный выбросом считается пиксель с интенсивностью E_i \le - log_2(x+1), x - некоторый процент от ожидаемого значения интенсивности. Изображения темных и ярких выбросов сканируются окном и определяется локальная плотность выбросов в области, ограниченной этим окном. Далее ко всему изображению применяется процедура закрытия, для более точного определения области диффузного дефекта. Обнаружены дефекты маскируются либо пропущенными значениями либо медианой по остальным чипам в эксперименте.

Личные инструменты