Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома)
(План лекций)
Строка 34: Строка 34:
=== Лекция 1. Проблемная область - биология ===
=== Лекция 1. Проблемная область - биология ===
-
Биология как проблемная область.
+
*Биология как проблемная область.
-
О данных и методах из области биологии.
+
*О данных и методах из области биологии.
-
Уровни биологических систем и уровни данных.
+
*Уровни биологических систем и уровни данных.
-
Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
+
*Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
=== Лекция 2. От клеточной биологии к задачам распознавания ===
=== Лекция 2. От клеточной биологии к задачам распознавания ===
-
Клетка. Методы исследований клеток.
+
*Клетка. Методы исследований клеток.
-
Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
+
*Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
-
ДНК. РНК. Аминокислоты и белки.
+
*ДНК. РНК. Аминокислоты и белки.
-
Клеточная биология и система задач распознавания.
+
*Клеточная биология и ... система задач распознавания.
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
-
'''Биологические объекты и их описания. Базы данных в биологии.'''
+
*'''Биологические объекты и их описания. Базы данных в биологии.'''
-
Объемы данных и степень их интеграции (связности). Противоречивость множеств прецедентов.
+
*Объемы данных и степень их интеграции (связности).
 +
*Противоречивость множеств прецедентов.
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
-
Экспериментальные методы секвенирования.
+
*Экспериментальные методы секвенирования.
-
Алгоритмы выравнивания и сравнения символьных последовательностей.
+
*Алгоритмы выравнивания и сравнения символьных последовательностей.
-
Верификация данных из разных уровней иерархии клеточных процессов.
+
*Верификация данных из разных уровней иерархии клеточных процессов.
-
Классификация последовательностей как подход к решению задач 1D→ххх.
+
*Классификация последовательностей как подход к решению задач 1D→ххх.
=== Лекция 5. Задачи 1Dднк. ===
=== Лекция 5. Задачи 1Dднк. ===
'''Лексический анализ символьных последовательностей.'''
'''Лексический анализ символьных последовательностей.'''
-
Что такое ген? От гена к белку. Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
+
*Что такое ген? От гена к белку.
-
Задача распознавания гена. Промотер. Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
+
*Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
-
Задача инициации транскрипции. Сайты факторов транскрипции.
+
*Задача распознавания гена. Промотер.
 +
*Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
 +
*Задача инициации транскрипции. Сайты факторов транскрипции.
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
'''Лексический анализ текстовых строк.'''
'''Лексический анализ текстовых строк.'''
-
Суперскручивание ДНК. Сайты нуклеосом.
+
*Суперскручивание ДНК. Сайты нуклеосом.
-
Структура генома: последовательность и ориентация генов.
+
*Структура генома: последовательность и ориентация генов.
-
Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
+
*Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
-
Генетика и эпигенетика.
+
*Генетика и эпигенетика.
-
CpG и сайты метилирования ДНК.
+
*CpG и сайты метилирования ДНК.
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
'''Классификация символьных последовательностей. База данных PDB.'''
'''Классификация символьных последовательностей. База данных PDB.'''
-
ДНК и РНК. Распознавание классов РНК.
+
*ДНК и РНК. Распознавание классов РНК.
-
Задача 1Dрнк→1Dб: альтернативный сплайсинг.
+
*Задача 1Dрнк→1Dб: альтернативный сплайсинг.
-
Задача 1Dрнк→2Dрнк: вторичная структура РНК.
+
*Задача 1Dрнк→2Dрнк: вторичная структура РНК.
-
Задачи 1Dрнк, 2Dрнк →3Dрнк.
+
*Задачи 1Dрнк, 2Dрнк →3Dрнк.
-
Задачи 1Dрнк, 2Dрнк →Фрнк.
+
*Задачи 1Dрнк, 2Dрнк →Фрнк.
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
'''Анализ и классификация трехмерных объектов. База данных PDB.'''
'''Анализ и классификация трехмерных объектов. База данных PDB.'''
-
Химическое строение молекул белка. Уровни структуры белка.
+
*Химическое строение молекул белка. Уровни структуры белка.
-
Рентгеноструктурный анализ белков.
+
*Рентгеноструктурный анализ белков.
-
Белковый ЯМР.
+
*Белковый ЯМР.
-
Задачи 3D→3D.
+
*Задачи 3D→3D.
-
Задачи 3D→2D.
+
*Задачи 3D→2D.
=== Лекция 9. Задачи 1Dб→1Dб ===
=== Лекция 9. Задачи 1Dб→1Dб ===
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
-
Распознавание сигнальных пептидов.
+
*Распознавание сигнальных пептидов.
-
Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
+
*Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
-
Установление функциональных сайтов и «функционально-значимых участков».
+
*Установление функциональных сайтов и «функционально-значимых участков».
-
О 1D детерминантах стабильности белка.
+
*О 1D детерминантах стабильности белка.
=== Лекция 10. Задача распознавания вторичной структуры — основы формализма ===
=== Лекция 10. Задача распознавания вторичной структуры — основы формализма ===
'''Перекодировка символьных последовательностей. База данных PDB.'''
'''Перекодировка символьных последовательностей. База данных PDB.'''
-
Задачи 1Dб→2Dб.
+
*Задачи 1Dб→2Dб.
-
Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
+
*Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
-
Основы формализма проблемно-ориентированной теории.
+
*Основы формализма проблемно-ориентированной теории.
-
О задачах 1D→3D.
+
*О задачах 1D→3D.
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
'''Классификация символьных последовательностей.'''
'''Классификация символьных последовательностей.'''
-
Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
+
*Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
-
Задача 1D→Л и о «случайных» последовательностях.
+
*Задача 1D→Л и о «случайных» последовательностях.
-
1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
+
*1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
=== Лекция 12. Анализ и синтез биологических сетей ===
=== Лекция 12. Анализ и синтез биологических сетей ===
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.'''
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.'''
-
Молекулярные сети клетки.
+
*Молекулярные сети клетки.
-
Функциональная геномика, задача синтеза сетей и... ловушки.
+
*Функциональная геномика, задача синтеза сетей и... ловушки.
-
Транскриптомика, протеомика, метаболомика.
+
*Транскриптомика, протеомика, метаболомика.
-
Исследования «стимул-отклик» в масштабе клетки.
+
*Исследования «стимул-отклик» в масштабе клетки.
-
Задача поиска «биомаркеров» для медицинской диагностики.
+
*Задача поиска «биомаркеров» для медицинской диагностики.
=== Лекция 13. Молекулярная фармакология и хемоинформатика ===
=== Лекция 13. Молекулярная фармакология и хемоинформатика ===
'''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.'''
'''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.'''
-
Физико-химическое моделирование и хемоинформатика.
+
*Физико-химическое моделирование и хемоинформатика.
-
Формула→3Dл.
+
*Формула→3Dл.
-
Задачи 3Dл→3Dл.
+
*Задачи 3Dл→3Dл.
-
3Dл→физ.-хим. свойства.
+
*3Dл→физ.-хим. свойства.
-
3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
+
*3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
-
Хемоинформатика, задачи формула→ххх.
+
*Хемоинформатика, задачи формула→ххх.
=== Лекция 14. Биомедицинские и генетические исследования ===
=== Лекция 14. Биомедицинские и генетические исследования ===
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).'''
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).'''
-
Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание).
+
*Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание).
-
Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание).
+
*Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание).
-
Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.
+
*Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.
=== Лекция 15. Анализ текстов, использование баз данных ===
=== Лекция 15. Анализ текстов, использование баз данных ===
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.'''
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.'''
-
Биомедицина.
+
*Биомедицина.
-
Нахождение надежных диагностических исследований.
+
**Нахождение надежных диагностических исследований.
-
Извлечение информации о генетических ассоциациях.
+
**Извлечение информации о генетических ассоциациях.
-
Выяснение диагноза по заключению врача.
+
**Выяснение диагноза по заключению врача.
-
Информатика («вычислительная лингвистика»).
+
*Информатика («вычислительная лингвистика»).
-
Контекст-зависимая расшифровка аббревиатур.
+
**Контекст-зависимая расшифровка аббревиатур.
-
Концептуализация абстрактов с использованием онтологий терминов.
+
**Концептуализация абстрактов с использованием онтологий терминов.
-
Установление значимости соотношений терминов.
+
**Установление значимости соотношений терминов.
-
Установление функциональных взаимоотношений между белками и генами.
+
**Установление функциональных взаимоотношений между белками и генами.
-
Замечание о научной этике.
+
*Замечание о научной этике.
-
Экспертный анализ.
+
*Экспертный анализ.
=== Лекция 16. Био-логика и алгоритмы ===
=== Лекция 16. Био-логика и алгоритмы ===
'''О поиске новых принципов построения алгоритмов.'''
'''О поиске новых принципов построения алгоритмов.'''
-
Коллектив — индивид — коллектив.
+
*Коллектив — индивид — коллектив.
-
Нейроны и их реальные сети – избегая редукционизм.
+
*Нейроны и их реальные сети – избегая редукционизм.
-
«Генетические алгоритмы» и генетика.
+
*«Генетические алгоритмы» и генетика.
-
Клетка и... экономическая система.
+
*Клетка и... экономическая система.
-
Artificial life — living and artificial.
+
*Artificial life — living and artificial.
-
Клетки и... теория электрических цепей?
+
*Клетки и... теория электрических цепей?
== Литература ==
== Литература ==

Версия 15:25, 13 сентября 2010

Содержание

Курс читается студентам 6-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.

Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе здач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.

Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче.


План лекций

Лекция 1. Проблемная область - биология

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и ... система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→ххх.

Лекция 5. Задачи 1Dднк.

Лексический анализ символьных последовательностей.

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Лексический анализ текстовых строк.

  • Суперскручивание ДНК. Сайты нуклеосом.
  • Структура генома: последовательность и ориентация генов.
  • Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
  • Генетика и эпигенетика.
  • CpG и сайты метилирования ДНК.

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб

Анализ и классификация трехмерных объектов. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.

Лекция 9. Задачи 1Dб→1Dб

Лексический анализ символьных последовательностей. Базы данных NCBI.

  • Распознавание сигнальных пептидов.
  • Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
  • Установление функциональных сайтов и «функционально-значимых участков».
  • О 1D детерминантах стабильности белка.

Лекция 10. Задача распознавания вторичной структуры — основы формализма

Перекодировка символьных последовательностей. База данных PDB.

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы формализма проблемно-ориентированной теории.
  • О задачах 1D→3D.

Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Классификация символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и... ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→ххх.

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание).
  • Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание).
  • Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети – избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и... экономическая система.
  • Artificial life — living and artificial.
  • Клетки и... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...

  1. Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
  2. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
  3. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
Личные инструменты