Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(План лекций)
(Лекция 3. Биологические данные, объекты и подходы к формализации задач)
Строка 46: Строка 46:
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
-
*'''Биологические объекты и их описания. Базы данных в биологии.'''
+
*Биологические объекты и их описания. Базы данных в биологии.
-
 
+
*Объемы данных и степень их интеграции (связности).
*Объемы данных и степень их интеграции (связности).
*Противоречивость множеств прецедентов.
*Противоречивость множеств прецедентов.

Версия 15:25, 13 сентября 2010

Содержание

Курс читается студентам 6-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.

Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе здач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.

Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче.


План лекций

Лекция 1. Проблемная область - биология

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и ... система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→ххх.

Лекция 5. Задачи 1Dднк.

Лексический анализ символьных последовательностей.

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Лексический анализ текстовых строк.

  • Суперскручивание ДНК. Сайты нуклеосом.
  • Структура генома: последовательность и ориентация генов.
  • Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
  • Генетика и эпигенетика.
  • CpG и сайты метилирования ДНК.

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб

Анализ и классификация трехмерных объектов. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.

Лекция 9. Задачи 1Dб→1Dб

Лексический анализ символьных последовательностей. Базы данных NCBI.

  • Распознавание сигнальных пептидов.
  • Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
  • Установление функциональных сайтов и «функционально-значимых участков».
  • О 1D детерминантах стабильности белка.

Лекция 10. Задача распознавания вторичной структуры — основы формализма

Перекодировка символьных последовательностей. База данных PDB.

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы формализма проблемно-ориентированной теории.
  • О задачах 1D→3D.

Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Классификация символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и... ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→ххх.

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание).
  • Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание).
  • Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети – избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и... экономическая система.
  • Artificial life — living and artificial.
  • Клетки и... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...

  1. Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
  2. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
  3. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
Личные инструменты