Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк)
(Лекция 4. Задачи 1D-1D: сравнение символьных последовательностей)
Строка 33: Строка 33:
=== Лекция 4. Задачи 1D-1D: сравнение символьных последовательностей ===
=== Лекция 4. Задачи 1D-1D: сравнение символьных последовательностей ===
-
Экспериментальные методы секвенирования. Алгоритмы выравнивания и сравнения символьных последовательностей. Верификация данных из разных уровней иерархии клеточных процессов. Классификация последовательностей как подход к решению задач 1D>…
+
'''Макромолекулы как текстовые строки.''' Экспериментальные методы секвенирования. Алгоритмы выравнивания и сравнения символьных последовательностей. Верификация данных из разных уровней иерархии клеточных процессов. Классификация последовательностей как подход к решению задач 1D>…
=== Лекция 5. Задачи 1Dднк. Лексический анализ символьных последовательностей ===
=== Лекция 5. Задачи 1Dднк. Лексический анализ символьных последовательностей ===

Версия 14:15, 11 сентября 2010

Содержание

Московский физико-технический институт, Факультет управления и прикладной математики

Курс читается студентам 6-го курса кафедры "Интеллектуальные системы"

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обощений. При такой ситуации в проблемной области, методы интеллектуального анализа данных являются основным инструментом исследователя. Поэтому, биология является очень хорошим примером реальной прикладной области, в которую приходится вникать математику.

Задачей лектора является донесение до студентов принципиально важных особенностей рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу и сформулировать возможные подходы к её решению.

В курсе лекций рассмотрены уникальные особенности биологических данных, приводящие к задачам распознавания и классификации неизвестным в физике и химии. Следует отметить, что ни для одной из рассматриваемых в курсе задач так и не было предложено точного и математически обоснованного решения. В этом смысле, курс представляет обширное поле для самостоятельной научной деятельности студентов. В ходе лекций предполагается, что студент сам выбирает математически интересную задачу и, к концу курса, предлагает решение этой задачи.

Особое внимание уделяется биомедицинским приложениям результатов интеллектуального анализа биологических данных. Формулируется система задач распознавания, отражающая структуру биологических систем. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики и основанного на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс лекций НЕ является только "общеобразовательным курсом" а, скорее, примером самостоятельного решения практических задач, которые студенты самостоятельно выбирают слушая лекции и решают в течение семестра.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего студента, так что студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче из области биологии.


План лекций

Лекция 1. Проблемная область - биология

Биология - проблемная область. О данных и методах из области биологии. Уровни биологических систем и уровни данных. Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации

Лекция 2. От клеточной биологии к задачам распознавания

Клетка. Методы исследований клеток. Основные компоненты и процессы в клетках, их биологические роли и взаимодействия. ДНК. РНК. Аминокислоты и белки. Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

Биологические объекты и их описания. Объемы данных и степень их интеграции (связности). Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D-1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Экспериментальные методы секвенирования. Алгоритмы выравнивания и сравнения символьных последовательностей. Верификация данных из разных уровней иерархии клеточных процессов. Классификация последовательностей как подход к решению задач 1D>…

Лекция 5. Задачи 1Dднк. Лексический анализ символьных последовательностей

Что такое ген? От гена к белку. эукариоты, прокариоты.Транскрипция, сплайсинг, деградация, трансляция Задача распознавания гена. Промотер. Задача 1Dднк>1Dрнк (сайты сплайсинга, экзоны). Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Суперскручивание ДНК. Сайты нуклеосом. Структура генома: последовательность и ориентация генов. Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации. Генетика и эпигенетика.CpG и сайты метилирования ДНК

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. ДНК и РНК. Распознавание классов РНК. 1Dрнк>1Dб: альтернативный сплайсинг. 1Dрнк>2Dрнк: вторичная структура РНК. 1Dрнк, 2Dрнк >3Dрнк. 1Dрнк, 2Dрнк >Фрнк.

Лекция 8. Рентгено- структурный анализ и ЯМР белков, задачи 3Dб-3Dб и 3Dб-2Dб

Анализ и классификация трехмерных объектов. Химическое строение молекул белка. Уровни структуры белка. Рентгеноструктурный анализ белков. Белковый ЯМР. Задачи 3D>3D. Задачи 3D>2D.

Лекция 9. Задачи 1Dб-1Dб

Лексический анализ символьных последовательностей. Распознавание сигнальных пептидов. Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации. Установление функциональных сайтов и «функционально-значимых участков». О 1D детерминантах стабильности белка

Лекция 10. Задача распознавания вторичной структуры- основы формализма

Перекодировка символьных последовательностей. Задачи 1Dб>2Dб. Задача 1Dб>2Dб как перевод символьных последовательностей. Постановка, данные. Основы формализма проблемно-ориентированной теории. О задачах 1D>3D

Лекция 11. Задачи 1Dб-Ф и 3D-Ф и задача аннотации генома

Классификация символьных последовательностей. Задачи 3D>Л и 3D>Ф: биофизический анализ структуры белка. Задача 1D>Л и о «случайных» последовательностях. 1D>Ф – задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Молекулярные сети клетки. Функциональная геномика, задача синтеза сетей и... ловушки. Транскриптомика, протеомика, метаболомика. Исследования «стимул-отклик» в масштабе клетки. Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но...Физико-химическое моделирование и хемоинформатика. Формула > 3Dл. Задачи 3Dл - 3Dл . 3Dл >физ.-хим. свойства. 3Dл >белки-рецепторы. 3Dл >константы взаимодействия. Хемоинформатика, задачи формула>...

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Главная последовательность (генетика>экспрессия, экспрессия>уровни/акт белков, генетика> уровни/акт белков, уровни белков>метаболиты, метаболиты>симптоматика, симптоматика>симптоматика, симптоматика>заболевание). Генетика (генетика>метаболиты, генетика>симптоматика, генетика>заболевание). Поиск биомаркеров (пост-геномная диагностика): экспрессия>заболевание, уровни белков>заболевание, метаболиты>заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. Биомедицина. Нахождение надежных диагностических исследований. Извлечение информации о генетических ассоциациях. Выяснение диагноза по заключению врача. Информатика («вычислительная лингвистика»). Контекст-зависимая расшифровка аббревиатур. Концептуализация абстрактов с использованием онтологий терминов. Установление значимости соотношений терминов. Установление функциональных взаимоотношений между белками и генами. Замечание о научной этике. Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

Коллектив – индивид - коллектив. Нейроны и их реальные сети – избегая редукционизм. «Генетические алгоритмы» и генетика. Клетка и ... экономическая система. Artificial life – living and artificial. Клетки и ... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако, данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...

Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.

Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.

Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.

Личные инструменты