Контроль качества в анализе ДНК-микрочипов
Материал из MachineLearning.
м («Контроль качества в анализе ДНК-микрочипов» переименована в «Контроль качества чипов в анализе ДНК-микрочипов») |
Версия 12:39, 20 октября 2011
Важным этапом анализа ДНК-микрочипов является контроль качетва изображений, полученных при сканировании чипов. На изображениях чипов могут появляться различные "пятна" или неоднородности, вызванными, например, пылью или неравномерным распределением свечения. Такие "пятна" достаточно трудно разглядеть невооруженным глазом на микрочипе в силу большого разброса значений интенсивностей свечения проб. Их обнаружение можно добиться путем сравнения интенсивности свечения пробы с каким-нибудь контрольным значением или с помощью моделирования значений в некотором наборе массивов.
Содержание |
Выбор контрольных значений
Важным вопросом является определение того, что считать выбросом или нетипичностью. Значение интенсивности выбросов не должно встречаться слишком редко, так это может быть обусловлено случайным распределением интенсивностей, а должно встречаться относительно часто вследствие некой достаточно заметной неоднородности. Необходимо найти способ определения выбросов с высокой чувствительностью и с высокой специфичностью. Для увеличения специфичности всегда можно использовать второй проход, в котором выбросы, которые окружены пикселями, не являщимися выбросами, перестают считаться выбросами. Это основано на том, что выбросы представляют собой не отдельно взятые пробы, а некоторые области на чипе с нетипичным поведением. При исследовании технических репликат контрольным значением может быть выбрано медианное значение интенсивности пробы по всем репликатам, как это сделано в алгоритме Harshlight. Также контрольное значение может быть оценено по большой выборке чипов одного типа, например, средним, медианой или другими более устойчивыми способами.
Алгоритмы нахождения нетипичностей
Harshlight
Harshlight - это программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипа нетипичностей трех видов: сильные дефекты("extended defects"), компактные дефекты("compact defects") и диффузные дефекты("diffuse defects"). Сильные дефекты - это большие области на изображении чипа, которые сильно отличаются от остального части чипа по интенсивности свечения. Компактные дефекты - области небольшого размера либо слишком ярких, либо слишком темных проб. Диффузные дефекты - области чипа, плотности распределения ярких или темных проб в которых, значительно отличаются от их плотности в остальонй части чипа. Сначала алгоритм ищет сильные дефекты, а потом компактные и диффузные дефекты. При обнаружении сильных дефектов, авторы алгоритма настоятельно рекомендуют исключить чип из исследования. Алгоритм начинает работу с построения изображения ошибок ("error image") , которое представляет собой отклонение логарифмированных интенсивностей кокретного чипа от других в эксперименте. Это изображение представляется следующим образом: , где - фон изображения , а локальные вариации, которые при незагрязненном изображении, явяляются индикаторм экспрессии генов. Предположив, что фон и локальные вариации являются некоррелированными величинами, то можно записать, что . Для оценки , используются изображение , полученное из путем медианной фильтрации. Далее считается . Если оно превышает заданный порог, тогда считается, что сильный дефект обнаружен. Для обнаружения компактных дефектов применяется следующий подход: мы строим бинарные изображения по изображению , в котором 1 соответствуют пиксели, с интенсивностью, либо меньшей α-перцентили (темные выбросы), либо большей (1-α)-перцентили (яркие выбросы). Для этих двух изображений применяется алгоритм нахождения связанных областей FloodFill. Если размер обнаруженного связной области превышает заданного порога, то считается, что обнаружен компактный дефект. Для обнаружения диффузных дефектов опять определяются темные и яркие выбросы. Темный выбросом считается пиксель с интенсивностью , где - некоторый процент от ожидаемого значения интенсивности. Изображения темных и ярких выбросов сканируются окном и определяется локальная плотность выбросов в области внутри этого окна. Далее ко всему изображению применяется процедура закрытия, для более точного определения области диффузного дефекта. Обнаружены дефекты маскируются либо пропущенными значениями либо медианой по остальным чипам в эксперименте.
MBR
Microarray Blob Remover (MBR) - программа, распространяемая в свободном доступе, предназначенная для поиска на изображении чипов так называемых "блобов". "Блоб" - большая связная область пикселей с высокой интенсивностью свечения, возникшая в результате внешних источников и не связанная с уровнем транскрипции. Алгоритм MBR состоит из двух шагов. На первом шаге изображение сканируется квадратным окном 100×100. Окно двигается по вертикали и горизонтали на 50 проб. В каждом окне считается количество проб, интенсивность которых больше k-ой квантили, по умолчанию k выбирается равным 90. Если количество таких проб в окне превышает 50% от общего числа проб в окне, то выполняется следующий шаг. Квадратное окно сканируется круглым, с радиусом 20. Если процент проб в этом окне, интенсивность которых больше (k-5)-ой квантили, превышает p%, то все пробы внутри окошка объявляются принадлежащим "блобу". По умолчанию p равно 90. MBR обнаруживает "блобы", но не исправляет дефекты сам. Пробы, принадлежащие найденным "блобам" MBR записывает в .CEL файл на место секции "Outlier entries", полученной при рaботе Affymetrix GCOS.