Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
Строка 5: Строка 5:
== Аннотация ==
== Аннотация ==
Современную биологию отличает накопление огромных массивов разнородных данных (т.н. [http://bigdata-mining.ru "большие данные"]) при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
Современную биологию отличает накопление огромных массивов разнородных данных (т.н. [http://bigdata-mining.ru "большие данные"]) при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
-
Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере задач из области биоинформатики, [http://chemoinformatics хемоинформатики] и [http://pharmacoinformatics.ru фармакоинформатики] иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
+
Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере задач из тесно взаимосвязанных областей биоинформатики, [http://chemoinformatics.ru хемоинформатики] и [http://pharmacoinformatics.ru фармакоинформатики] иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач.

Текущая версия

Содержание

Курс читается студентам 5-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных (т.н. "большие данные") при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере задач из тесно взаимосвязанных областей биоинформатики, хемоинформатики и фармакоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.

Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.

Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики и других плохо-формализованных задач из области перспективных биомедицинских исследований. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (отчет-презентация) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.

Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова (Отчет_о_выполнении_исследовательского_проекта_(практика,_В.В._Стрижов)). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, описание данных, сравнительный анализ известных подходов), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.

Примеры задач для исследовательской работы студентов

  • Количественные оценки "размывания" корреляций по уровням иерархии биологических систем
  • "Метрические" и "бинарные" подходы к постановке и решению плохо-формализованных задач
  • Порождение проблемно-ориентированных метрик и анализ метрических конфигураций
  • Развитие комбинаторной теории разрешимости
  • Ранжировка задач биоинформатики по "сложности" на основе множеств прецедентов
  • Задачи обработки и анализа биомедицинских и молекулярно-клеточных изображений
  • Общая теория алгоритмов выравнивания символьных последовательностей
  • Функции расстояния (метрики) на множестве аминокислот («20х20»)
  • Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
  • Задача инициации транскрипции (сайты факторов транскрипции)
  • Вариабельность длин транскриптов
  • Распознавание сайтов нуклеосом
  • CpG и сайты метилирования ДНК
  • Анализ "изогнутости" ДНК
  • Распознавание классов биологических ролей РНК
  • 1Dрнк→1Dб: альтернативный сплайсинг
  • 1Dрнк→2Dрнк: распознавание вторичной структуры РНК
  • Выравнивание и классификация пространственных структур белков
  • Задачи "морфинга" структур белков и РНК
  • Установление вторичной структуры белка по его третичной структуре
  • Разбиение пространственной структуры белка на домены
  • Описание структуры белка набором геометрических примитивов
  • Распознавание сигнальных пептидов
  • Распознавание трансмембранных спиралей
  • Задача распознавания вторичной структуры белка
  • 1D→3D: задача распознавания класса пространственной структуры белка
  • 1D→Ф — задача аннотации генома
  • Задача поиска "биомаркеров" для медицинской диагностики.
  • Формула→3Dл
  • Сравнение химических формул
  • Задача поиска генетических ассоциаций: генетика→заболевание
  • "Циклический" отбор признаков в генетических ассоциациях
  • Нахождение надежных диагностических исследований.
  • Концептуализация абстрактов публикаций (в т.ч. данных MEDLINE и результатов поиска по интернету) с использованием онтологий терминов
  • Порождение и анализ временных рядов на основе анализа текстов
  • Установление значимости соотношений терминов на основе анализа абстрактов (MEDLINE)
  • Поиск научных публикаций на основе заданной выборки абстрактов (в т.ч. «чем занимается биоинформатика?»)
  • Установление тематики заданной выборки абстрактов/текстов (MEDLINE)
  • Разработка эффективных систем параллельных вычислений для решения задач из области биоинформатики
  • Задачи анализа изоморфизма полных взвешенных графов
  • Задачи анализа размеченных графов

План лекций

NB: При проблемах с чтением PDF используйте FoxIt PDF Reader, новый Acrobat Reader, и др.

Лекция 1. Проблемная область - биология

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

Конспект

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→...

Лекция 5. Задачи 1Dднк

Лексический анализ символьных последовательностей биомакромолекул.

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Лексический анализ текстовых строк. Об анализе представительных наборов в задачах генетики

  • Суперскручивание ДНК. Сайты нуклеосом.
  • Структура генома: последовательность и ориентация генов.
  • Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
  • Генетика и эпигенетика.
  • CpG и сайты метилирования ДНК.

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб

Анализ и классификация трехмерных структур биологических макромолекул. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.


Лекция 9. Разработка проблемно-ориентированной теории на примере задачи распознавания вторичной структуры

Мета-задача перекодировки символьных последовательностей

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы комбинаторной теории разрешимости/регулярности.
  • О задачах 1D→3D.

Лекция 10. Задачи 1Dб→1Dб

Лексический анализ символьных последовательностей. Базы данных NCBI.

  • Распознавание сигнальных пептидов.
  • Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
  • Установление функциональных сайтов и «функционально-значимых участков».
  • О 1D детерминантах стабильности белка.

Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Мета-задача классификации символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и... ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→...

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность
    • генетика→экспрессия,
    • экспрессия→уровни/акт белков,
    • генетика→уровни/акт белков,
    • уровни белков→метаболиты,
    • метаболиты→симптоматика,
    • симптоматика→симптоматика,
    • симптоматика→заболевание.
  • Генетика
    • генетика→метаболиты,
    • генетика→симптоматика,
    • генетика→заболевание.
  • Поиск биомаркеров (пост-геномная диагностика):
    • экспрессия→заболевание,
    • уровни белков→заболевание,
    • метаболиты→заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети – избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и... идеальная экономика?
  • Artificial life — living and artificial.
  • Клетка и... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются, как правило, биологи, специалисты в области биостатистики и врачи. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций (и, конечно же, сохранение адекватного уровня внимания и понимания во время лекции)...

  1. Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
  2. Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
  3. Dudoit S, van der Laan M. Multiple Testing Procedures with Applications to Genomics, 2007. Springer, ISBN 978-0-387-49316-9
  4. Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
  5. Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
  6. Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
  7. Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
  8. Torshin I.Yu. Sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
  9. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
  10. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006, Nova Biomedical Books, NY, ISBN 1-60021-048-1.
  11. Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0
Личные инструменты