Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Примеры задач для исследовательской работы студентов)
(40 промежуточных версий не показаны.)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
Курс читается студентам 6-го курса кафедры «[[Интеллектуальные системы (кафедра МФТИ)|Интеллектуальные системы]]» [[ФУПМ]] [[МФТИ]].
+
Курс читается студентам 5-го курса кафедры «[[Интеллектуальные системы (кафедра МФТИ)|Интеллектуальные системы]]» [[ФУПМ]] [[МФТИ]].
== Аннотация ==
== Аннотация ==
-
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
+
Современную биологию отличает накопление огромных массивов разнородных данных (т.н. [http://bigdata-mining.ru "большие данные"]) при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
-
Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
+
Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере задач из тесно взаимосвязанных областей биоинформатики, [http://chemoinformatics.ru хемоинформатики] и [http://pharmacoinformatics.ru фармакоинформатики] иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач.
Строка 14: Строка 14:
В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
-
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики.
+
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики и других плохо-формализованных задач из области [http://trace-elements.ru перспективных биомедицинских исследований]. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
-
Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию.
+
-
Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
+
== Организационная часть ==
== Организационная часть ==
Строка 27: Строка 25:
Студенты могут сами формулировать темы исследовательских задач.
Студенты могут сами формулировать темы исследовательских задач.
После выбора задачи, обсуждаются требования к работе.
После выбора задачи, обсуждаются требования к работе.
-
До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.
+
До начала устного экзамена (отчет-презентация) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.
-
Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова ([[%D0%9E%D1%82%D1%87%D0%B5%D1%82_%D0%BE_%D0%B2%D1%8B%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8_%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B0_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29]]). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, обоснование, описание данных), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.
+
Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова ([[%D0%9E%D1%82%D1%87%D0%B5%D1%82_%D0%BE_%D0%B2%D1%8B%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8_%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B0_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29]]). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, описание данных, сравнительный анализ известных подходов), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.
=== Примеры задач для исследовательской работы студентов ===
=== Примеры задач для исследовательской работы студентов ===
-
*«Размывание» корреляций по уровням иерархии биологических систем
+
*Количественные оценки "размывания" корреляций по уровням иерархии биологических систем
 +
*"Метрические" и "булевы" подходы к постановке и решению плохо-формализованных задач
 +
*Порождение проблемно-ориентированных метрик и анализ метрических конфигураций
 +
*Развитие комбинаторной теории разрешимости
 +
*Ранжировка задач биоинформатики по "сложности" на основе множеств прецедентов
 +
*Задачи обработки и анализа биомедицинских и молекулярно-клеточных изображений
*Общая теория алгоритмов выравнивания символьных последовательностей
*Общая теория алгоритмов выравнивания символьных последовательностей
 +
*Функции расстояния (метрики) на множестве аминокислот («20х20»)
*Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
*Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
*Задача инициации транскрипции (сайты факторов транскрипции)
*Задача инициации транскрипции (сайты факторов транскрипции)
Строка 40: Строка 44:
*Распознавание сайтов нуклеосом
*Распознавание сайтов нуклеосом
*CpG и сайты метилирования ДНК
*CpG и сайты метилирования ДНК
 +
*Анализ "изогнутости" ДНК
 +
*Распознавание классов биологических ролей РНК
*1Dрнк→1Dб: альтернативный сплайсинг
*1Dрнк→1Dб: альтернативный сплайсинг
*1Dрнк→2Dрнк: распознавание вторичной структуры РНК
*1Dрнк→2Dрнк: распознавание вторичной структуры РНК
*Выравнивание и классификация пространственных структур белков
*Выравнивание и классификация пространственных структур белков
 +
*Задачи "морфинга" структур белков и РНК
*Установление вторичной структуры белка по его третичной структуре
*Установление вторичной структуры белка по его третичной структуре
*Разбиение пространственной структуры белка на домены
*Разбиение пространственной структуры белка на домены
 +
*Описание структуры белка набором геометрических примитивов
*Распознавание сигнальных пептидов
*Распознавание сигнальных пептидов
-
*Распознавание трансмембранных спиралей
+
*Распознавание трансмембранных спиралей
*Задача распознавания вторичной структуры белка
*Задача распознавания вторичной структуры белка
*1D→3D: задача распознавания класса пространственной структуры белка
*1D→3D: задача распознавания класса пространственной структуры белка
*1D→Ф — задача аннотации генома
*1D→Ф — задача аннотации генома
-
*Задача поиска «биомаркеров» для медицинской диагностики.
+
*Задача поиска "биомаркеров" для медицинской диагностики.
*Формула→3Dл
*Формула→3Dл
*Сравнение химических формул
*Сравнение химических формул
*Задача поиска генетических ассоциаций: генетика→заболевание
*Задача поиска генетических ассоциаций: генетика→заболевание
 +
*"Циклический" отбор признаков в генетических ассоциациях
*Нахождение надежных диагностических исследований.
*Нахождение надежных диагностических исследований.
-
*Концептуализация абстрактов публикаций с использованием онтологий терминов
+
*Концептуализация абстрактов публикаций (в т.ч. данных MEDLINE и результатов поиска по интернету) с использованием онтологий терминов
-
*Установление значимости соотношений терминов на основе анализа абстрактов
+
*Порождение и анализ временных рядов на основе анализа текстов
-
*Поиск научных публикаций на основе заданной выборки абстрактов
+
*Установление значимости соотношений терминов на основе анализа абстрактов (MEDLINE)
 +
*Поиск научных публикаций на основе заданной выборки абстрактов (в т.ч. «чем занимается биоинформатика?»)
 +
*Установление тематики заданной выборки абстрактов/текстов (MEDLINE)
 +
*Разработка эффективных систем параллельных вычислений для решения задач из области биоинформатики
 +
*Задачи анализа изоморфизма полных взвешенных графов
 +
*Задачи анализа размеченных графов
== План лекций ==
== План лекций ==
Строка 64: Строка 78:
''
''
=== Лекция 1. Проблемная область - биология ===
=== Лекция 1. Проблемная область - биология ===
-
[[Медиа:tiy-L1-short.pdf|Конспект (PDF)]]
+
 
*Биология как проблемная область.
*Биология как проблемная область.
*О данных и методах из области биологии.
*О данных и методах из области биологии.
Строка 71: Строка 85:
=== Лекция 2. От клеточной биологии к задачам распознавания ===
=== Лекция 2. От клеточной биологии к задачам распознавания ===
-
[[Медиа:tiy-L2-short.pdf|Конспект (PDF)]]
+
 
*Клетка. Методы исследований клеток.
*Клетка. Методы исследований клеток.
*Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
*Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
Строка 78: Строка 92:
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
-
[[Медиа:Tiy-L3-short.pdf|Конспект (PDF)]]
+
[[Media:bioinf_mipt_L3.pdf|Конспект]]
*Биологические объекты и их описания. Базы данных в биологии.
*Биологические объекты и их описания. Базы данных в биологии.
*Объемы данных и степень их интеграции (связности).
*Объемы данных и степень их интеграции (связности).
Строка 84: Строка 98:
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
-
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
 
-
[[Медиа:Tiy-L4-short.pdf|Конспект (PDF)]]
+
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
*Экспериментальные методы секвенирования.
*Экспериментальные методы секвенирования.
Строка 94: Строка 107:
=== Лекция 5. Задачи 1Dднк ===
=== Лекция 5. Задачи 1Dднк ===
-
'''Лексический анализ символьных последовательностей.'''
 
-
[[Медиа:Tiy-L5-short.pdf|Конспект (PDF)]]
+
'''Лексический анализ символьных последовательностей биомакромолекул.'''
*Что такое ген? От гена к белку.
*Что такое ген? От гена к белку.
Строка 105: Строка 117:
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
-
'''Лексический анализ текстовых строк.'''
+
'''Лексический анализ текстовых строк. Об анализе представительных наборов в задачах генетики'''
-
 
+
-
[[Медиа:Tiy-L6-short.pdf|Конспект (PDF)]]
+
*Суперскручивание ДНК. Сайты нуклеосом.
*Суперскручивание ДНК. Сайты нуклеосом.
Строка 117: Строка 127:
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
'''Классификация символьных последовательностей. База данных PDB.'''
'''Классификация символьных последовательностей. База данных PDB.'''
-
 
-
[[Медиа:Tiy-L7-short.pdf|Конспект (PDF)]]
 
*ДНК и РНК. Распознавание классов РНК.
*ДНК и РНК. Распознавание классов РНК.
Строка 127: Строка 135:
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
-
'''Анализ и классификация трехмерных объектов. База данных PDB.'''
 
-
[[Медиа:tiy-L8-short.pdf|Конспект (PDF)]]
+
'''Анализ и классификация трехмерных структур биологических макромолекул. База данных PDB.'''
*Химическое строение молекул белка. Уровни структуры белка.
*Химическое строение молекул белка. Уровни структуры белка.
Строка 137: Строка 144:
*Задачи 3D→2D.
*Задачи 3D→2D.
-
=== Лекция 9. Задачи 1Dб→1Dб ===
+
 
 +
=== Лекция 9. Разработка проблемно-ориентированной теории на примере задачи распознавания вторичной структуры ===
 +
 
 +
'''Мета-задача перекодировки символьных последовательностей'''
 +
 
 +
*Задачи 1Dб→2Dб.
 +
*Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
 +
*Основы комбинаторной теории разрешимости/регулярности.
 +
*О задачах 1D→3D.
 +
 
 +
=== Лекция 10. Задачи 1Dб→1Dб ===
 +
 
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
-
 
-
[[Медиа:tiy-L9-short.pdf|Конспект (PDF)]]
 
*Распознавание сигнальных пептидов.
*Распознавание сигнальных пептидов.
Строка 146: Строка 162:
*Установление функциональных сайтов и «функционально-значимых участков».
*Установление функциональных сайтов и «функционально-значимых участков».
*О 1D детерминантах стабильности белка.
*О 1D детерминантах стабильности белка.
-
 
-
=== Лекция 10. Задача распознавания вторичной структуры — основы формализма ===
 
-
'''Перекодировка символьных последовательностей. База данных PDB.'''
 
-
 
-
[[Медиа:tiy-L10-short.pdf|Конспект (PDF)]]
 
-
 
-
*Задачи 1Dб→2Dб.
 
-
*Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
 
-
*Основы формализма проблемно-ориентированной теории.
 
-
*О задачах 1D→3D.
 
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
-
'''Классификация символьных последовательностей.'''
+
'''Мета-задача классификации символьных последовательностей.'''
-
 
+
-
[[Медиа:tiy-L11-short.pdf|Конспект (PDF)]]
+
*Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
*Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
Строка 226: Строка 230:
*Нейроны и их реальные сети – избегая редукционизм.
*Нейроны и их реальные сети – избегая редукционизм.
*«Генетические алгоритмы» и генетика.
*«Генетические алгоритмы» и генетика.
-
*Клетка и... экономика?
+
*Клетка и... идеальная экономика?
*Artificial life — living and artificial.
*Artificial life — living and artificial.
*Клетка и... теория электрических цепей?
*Клетка и... теория электрических цепей?
Строка 234: Строка 238:
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса.
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса.
Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса.
Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса.
-
Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии лектора.
+
Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии.
-
Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины.
+
Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются, как правило, биологи, специалисты в области биостатистики и врачи. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций (и, конечно же, сохранение адекватного уровня внимания и понимания во время лекции)...
-
Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...
+
# Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
# Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
# Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
# Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
 +
# Dudoit S, van der Laan M. Multiple Testing Procedures with Applications to Genomics, 2007. Springer, ISBN 978-0-387-49316-9
# Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
# Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
# Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
# Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3

Версия 13:58, 6 мая 2020

Содержание

Курс читается студентам 5-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных (т.н. "большие данные") при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере задач из тесно взаимосвязанных областей биоинформатики, хемоинформатики и фармакоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.

Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.

Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики и других плохо-формализованных задач из области перспективных биомедицинских исследований. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (отчет-презентация) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.

Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова (Отчет_о_выполнении_исследовательского_проекта_(практика,_В.В._Стрижов)). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, описание данных, сравнительный анализ известных подходов), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.

Примеры задач для исследовательской работы студентов

  • Количественные оценки "размывания" корреляций по уровням иерархии биологических систем
  • "Метрические" и "булевы" подходы к постановке и решению плохо-формализованных задач
  • Порождение проблемно-ориентированных метрик и анализ метрических конфигураций
  • Развитие комбинаторной теории разрешимости
  • Ранжировка задач биоинформатики по "сложности" на основе множеств прецедентов
  • Задачи обработки и анализа биомедицинских и молекулярно-клеточных изображений
  • Общая теория алгоритмов выравнивания символьных последовательностей
  • Функции расстояния (метрики) на множестве аминокислот («20х20»)
  • Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
  • Задача инициации транскрипции (сайты факторов транскрипции)
  • Вариабельность длин транскриптов
  • Распознавание сайтов нуклеосом
  • CpG и сайты метилирования ДНК
  • Анализ "изогнутости" ДНК
  • Распознавание классов биологических ролей РНК
  • 1Dрнк→1Dб: альтернативный сплайсинг
  • 1Dрнк→2Dрнк: распознавание вторичной структуры РНК
  • Выравнивание и классификация пространственных структур белков
  • Задачи "морфинга" структур белков и РНК
  • Установление вторичной структуры белка по его третичной структуре
  • Разбиение пространственной структуры белка на домены
  • Описание структуры белка набором геометрических примитивов
  • Распознавание сигнальных пептидов
  • Распознавание трансмембранных спиралей
  • Задача распознавания вторичной структуры белка
  • 1D→3D: задача распознавания класса пространственной структуры белка
  • 1D→Ф — задача аннотации генома
  • Задача поиска "биомаркеров" для медицинской диагностики.
  • Формула→3Dл
  • Сравнение химических формул
  • Задача поиска генетических ассоциаций: генетика→заболевание
  • "Циклический" отбор признаков в генетических ассоциациях
  • Нахождение надежных диагностических исследований.
  • Концептуализация абстрактов публикаций (в т.ч. данных MEDLINE и результатов поиска по интернету) с использованием онтологий терминов
  • Порождение и анализ временных рядов на основе анализа текстов
  • Установление значимости соотношений терминов на основе анализа абстрактов (MEDLINE)
  • Поиск научных публикаций на основе заданной выборки абстрактов (в т.ч. «чем занимается биоинформатика?»)
  • Установление тематики заданной выборки абстрактов/текстов (MEDLINE)
  • Разработка эффективных систем параллельных вычислений для решения задач из области биоинформатики
  • Задачи анализа изоморфизма полных взвешенных графов
  • Задачи анализа размеченных графов

План лекций

NB: При проблемах с чтением PDF используйте FoxIt PDF Reader, новый Acrobat Reader, и др.

Лекция 1. Проблемная область - биология

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

Конспект

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→...

Лекция 5. Задачи 1Dднк

Лексический анализ символьных последовательностей биомакромолекул.

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Лексический анализ текстовых строк. Об анализе представительных наборов в задачах генетики

  • Суперскручивание ДНК. Сайты нуклеосом.
  • Структура генома: последовательность и ориентация генов.
  • Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
  • Генетика и эпигенетика.
  • CpG и сайты метилирования ДНК.

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб

Анализ и классификация трехмерных структур биологических макромолекул. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.


Лекция 9. Разработка проблемно-ориентированной теории на примере задачи распознавания вторичной структуры

Мета-задача перекодировки символьных последовательностей

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы комбинаторной теории разрешимости/регулярности.
  • О задачах 1D→3D.

Лекция 10. Задачи 1Dб→1Dб

Лексический анализ символьных последовательностей. Базы данных NCBI.

  • Распознавание сигнальных пептидов.
  • Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
  • Установление функциональных сайтов и «функционально-значимых участков».
  • О 1D детерминантах стабильности белка.

Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Мета-задача классификации символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и... ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→...

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность
    • генетика→экспрессия,
    • экспрессия→уровни/акт белков,
    • генетика→уровни/акт белков,
    • уровни белков→метаболиты,
    • метаболиты→симптоматика,
    • симптоматика→симптоматика,
    • симптоматика→заболевание.
  • Генетика
    • генетика→метаболиты,
    • генетика→симптоматика,
    • генетика→заболевание.
  • Поиск биомаркеров (пост-геномная диагностика):
    • экспрессия→заболевание,
    • уровни белков→заболевание,
    • метаболиты→заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети – избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и... идеальная экономика?
  • Artificial life — living and artificial.
  • Клетка и... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются, как правило, биологи, специалисты в области биостатистики и врачи. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций (и, конечно же, сохранение адекватного уровня внимания и понимания во время лекции)...

  1. Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
  2. Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
  3. Dudoit S, van der Laan M. Multiple Testing Procedures with Applications to Genomics, 2007. Springer, ISBN 978-0-387-49316-9
  4. Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
  5. Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
  6. Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
  7. Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
  8. Torshin I.Yu. Sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
  9. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
  10. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006, Nova Biomedical Books, NY, ISBN 1-60021-048-1.
  11. Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0
Личные инструменты