Биоинформатика

Материал из MachineLearning.

(Различия между версиями)

Версия 19:43, 7 мая 2010

Биоинформа́тика или вычисли́тельная биоло́гия — в настоящее время, данным термином обозначаются любые попытки биологов ввести обобщения эвристического толка на гигантские массивы биологических данных. До недавнего времени (2005г), под биоинформатикой подразумевалось, в большинстве случаев, использование процедур сравнения символьных последовательностей (аминокислотные последовательности белков, нуклеотидные последовательности ДНК и РНК). Сейчас, происходит разворот в сторону более широкого понимания биоинформатики как области биологии, занимающейся "менеджментом разнородных биологических данных".

Терминология

Лексический анализ слова "биоинформатика" указывает на приставку "био-" (от греч. "жизнь") и слово "информатика" (термин, вполне понятный для посетителей сайта machinelearning.ru). Однако, как это не парадоксально, "биоинформатика" (англ. bioinformatics), до недавнего времени, не имела практически ничего общего с "информатикой" (англ. "computer science"). В среде биологов, под биоинформатикой понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул белков и нуклеиновых кислот с целью получения биологически значимой информации. Основные усилия исследователей в этой области направлены на изучение геномов, анализ и распознавание (менее приемлемый термин "предсказание") структуры белков, анализ и распознавание ("предсказание") взаимодействий молекул белков различных типов друг с другом и др.

Термины биоинформатика и «вычислительная биология» часто употребляются как синонимы, хотя каждый автор в данной области придумывает, как правило, свои собственные определения для каждого. Иногда считают, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.

Основные области исследований

Анализ генетических последовательностей

Начиная с середины 1970-х, было поределено более 100 млн нуклеотидных последовательностей генов различных организмов. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить («выровнять») похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenzae) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

Аннотация геномов

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК.

Основные программы сравнения аминокислотных и нуклеотидных последовательностей

ACT (Artemis Comparison Tool) — геномный анализ
Arlequin — анализ популяционно-генетических данных
BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
BioNumerics — коммерческий универсальный пакет программ
BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
ClustalW — множественное выравнивание нуклеотидных и аминокислотных последовательностей
ClustalX — множественное выравнивание нуклеотидных и аминокислотных последовательностей
FASTA — набор алгоритмов определения схожести нуклеотидных и аминокислотных последовательностей
JalView — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
Mesquite — программа для сравнительной биологии на языке Java
Muscle — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
PopGene — анализ генетического разнообразия популяций
Populations — популяционно-генетический анализ

Ссылки

См. также

Вычислительная биология — статья из Википедии, свободной энциклопедии.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%91%D0%B8%D0%BE%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%B8%D0%BA%D0%B0»

Категория: Биоинформатика

@@ Строка 28: / Строка 28: @@
 * [[ClustalW]] — множественное выравнивание нуклеотидных и аминокислотных последовательностей
 * [[ClustalX]] — множественное выравнивание нуклеотидных и аминокислотных последовательностей
+* [http://www.ebi.ac.uk/Tools/fasta/index.html FASTA] — набор алгоритмов определения схожести нуклеотидных и аминокислотных последовательностей
 * [http://www.jalview.org JalView] — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
 * [http://mesquiteproject.org Mesquite] — программа для сравнительной биологии на языке Java

Биоинформатика

Материал из MachineLearning.

Версия 19:43, 7 мая 2010

Содержание

Терминология

Основные области исследований

Анализ генетических последовательностей

Аннотация геномов

Основные программы сравнения аминокислотных и нуклеотидных последовательностей

Ссылки

См. также

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты