Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома)
Текущая версия (08:57, 21 февраля 2024) (править) (отменить)
(Лекция 2. От клеточной биологии к задачам распознавания)
 
(99 промежуточных версий не показаны.)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
Курс читается студентам 6-го курса кафедры «[[Интеллектуальные системы (кафедра МФТИ)|Интеллектуальные системы]]» [[ФУПМ]] [[МФТИ]].
+
Курс читается студентам 5-го курса кафедры «[[Интеллектуальные системы (кафедра МФТИ)|Интеллектуальные системы]]» [[ФУПМ]] [[МФТИ]].
== Аннотация ==
== Аннотация ==
-
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
+
Современную биологию отличает накопление огромных массивов разнородных данных (т.н. [http://bigdata-mining.ru "большие данные"]) при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
-
Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
+
Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере задач из тесно взаимосвязанных областей биоинформатики, [http://chemoinformatics.ru хемоинформатики] и [http://pharmacoinformatics.ru фармакоинформатики] иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач.
Строка 11: Строка 11:
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации.
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации.
-
Следует отметить, что практически для всех рассматриваемых в курсе здач пока еще не было предложено точных и математически обоснованных решений.
+
Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений.
В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
-
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики.
+
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики и других плохо-формализованных задач из области [http://trace-elements.ru перспективных биомедицинских исследований] и [http://antifake-news.ru сентимент-анализа]. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
-
Данный формализм основан на теории универсальных и локальных органичений в рамках алгебраического подхода к распознаванию.
+
-
Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
+
== Организационная часть ==
== Организационная часть ==
Строка 27: Строка 25:
Студенты могут сами формулировать темы исследовательских задач.
Студенты могут сами формулировать темы исследовательских задач.
После выбора задачи, обсуждаются требования к работе.
После выбора задачи, обсуждаются требования к работе.
-
До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-4 стр), проведенной по выбранной задаче.
+
До начала устного экзамена (отчет-презентация) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.
-
<!-- 32 часа практических занятий. -->
+
Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова ([[%D0%9E%D1%82%D1%87%D0%B5%D1%82_%D0%BE_%D0%B2%D1%8B%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8_%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B0_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29]]). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, описание данных, сравнительный анализ известных подходов), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.
 +
 
 +
=== Примеры задач для исследовательской работы студентов ===
 +
 
 +
*Количественные оценки "размывания" корреляций по уровням иерархии биологических систем
 +
*"Метрические" и "булевы" подходы к постановке и решению плохо-формализованных задач
 +
*Порождение проблемно-ориентированных метрик и анализ метрических конфигураций
 +
*Развитие комбинаторной теории разрешимости
 +
*Ранжировка задач биоинформатики по "сложности" на основе множеств прецедентов
 +
*Задачи обработки и анализа биомедицинских и молекулярно-клеточных изображений
 +
*Общая теория алгоритмов выравнивания символьных последовательностей
 +
*Функции расстояния (метрики) на множестве аминокислот («20х20»)
 +
*Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
 +
*Задача инициации транскрипции (сайты факторов транскрипции)
 +
*Вариабельность длин транскриптов
 +
*Распознавание сайтов нуклеосом
 +
*CpG и сайты метилирования ДНК
 +
*Анализ "изогнутости" ДНК
 +
*Распознавание классов биологических ролей РНК
 +
*1Dрнк→1Dб: альтернативный сплайсинг
 +
*1Dрнк→2Dрнк: распознавание вторичной структуры РНК
 +
*Выравнивание и классификация/кластеризация пространственных структур белков
 +
*Задачи "морфинга" структур белков и РНК
 +
*Установление вторичной структуры белка по его третичной структуре
 +
*Разбиение пространственной структуры белка на домены
 +
*Описание структуры белка набором геометрических примитивов
 +
*Распознавание сигнальных пептидов
 +
*Распознавание трансмембранных спиралей
 +
*Задача распознавания вторичной структуры белка
 +
*1D→3D: задача распознавания класса пространственной структуры белка
 +
*1D→Ф — задача аннотации генома
 +
*Задача поиска "биомаркеров" для медицинской диагностики.
 +
*Формула→3Dл
 +
*Сравнение химических формул
 +
*Задача поиска генетических ассоциаций: генетика→заболевание
 +
*"Циклический" отбор признаков в генетических ассоциациях
 +
*Нахождение надежных диагностических исследований.
 +
*Концептуализация абстрактов публикаций (в т.ч. данных MEDLINE и результатов поиска по интернету) с использованием онтологий терминов
 +
*Порождение и анализ временных рядов на основе анализа текстов
 +
*Установление значимости соотношений терминов на основе анализа абстрактов (MEDLINE)
 +
*Поиск научных публикаций на основе заданной выборки абстрактов (в т.ч. «чем занимается биоинформатика?»)
 +
*Установление тематики заданной выборки абстрактов/текстов (MEDLINE)
 +
*Динамический сентимент-анализ контента (англоязычных) сайтов
 +
*Разработка эффективных систем параллельных вычислений для решения задач из области биоинформатики
 +
*Задачи анализа изоморфизма полных взвешенных графов
 +
*Задачи анализа размеченных графов
== План лекций ==
== План лекций ==
 +
''NB: При проблемах с чтением PDF используйте FoxIt PDF Reader, новый Acrobat Reader, и др.
 +
''
=== Лекция 1. Проблемная область - биология ===
=== Лекция 1. Проблемная область - биология ===
-
Биология как проблемная область.
+
[[Media:bioinf_mipt_L1.pdf|Конспект]]
-
О данных и методах из области биологии.
+
 
-
Уровни биологических систем и уровни данных.
+
*Биология как проблемная область.
-
Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
+
*О данных и методах из области биологии.
 +
*Уровни биологических систем и уровни данных.
 +
*Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
=== Лекция 2. От клеточной биологии к задачам распознавания ===
=== Лекция 2. От клеточной биологии к задачам распознавания ===
-
Клетка. Методы исследований клеток.
+
[[Media:bioinf_mipt_L2.pdf|Конспект]]
-
Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
+
 
-
ДНК. РНК. Аминокислоты и белки.
+
*Клетка. Методы исследований клеток.
-
Клеточная биология и система задач распознавания.
+
*Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
 +
*ДНК. РНК. Аминокислоты и белки.
 +
*Клеточная биология и система задач распознавания.
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
-
'''Биологические объекты и их описания. Базы данных в биологии.'''
+
[[Media:bioinf_mipt_L3.pdf|Конспект]]
-
 
+
*Биологические объекты и их описания. Базы данных в биологии.
-
Объемы данных и степень их интеграции (связности). Противоречивость множеств прецедентов.
+
*Объемы данных и степень их интеграции (связности).
 +
*Противоречивость множеств прецедентов.
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
 +
<!-- [[Media:bioinf_mipt_L4.pdf|Конспект]] -->
 +
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
-
Экспериментальные методы секвенирования.
+
*Экспериментальные методы секвенирования.
-
Алгоритмы выравнивания и сравнения символьных последовательностей.
+
*Алгоритмы выравнивания и сравнения символьных последовательностей.
-
Верификация данных из разных уровней иерархии клеточных процессов.
+
*Верификация данных из разных уровней иерархии клеточных процессов.
-
Классификация последовательностей как подход к решению задач 1D→ххх.
+
*Классификация последовательностей как подход к решению задач 1D→...
-
=== Лекция 5. Задачи 1Dднк. ===
+
=== Лекция 5. Задачи 1Dднк ===
-
'''Лексический анализ символьных последовательностей.'''
+
<!-- [[Media:bioinf_mipt_L5.pdf|Конспект]] -->
-
Что такое ген? От гена к белку. Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
+
'''Лексический анализ символьных последовательностей биомакромолекул.'''
-
Задача распознавания гена. Промотер. Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
+
 
-
Задача инициации транскрипции. Сайты факторов транскрипции.
+
*Что такое ген? От гена к белку.
 +
*Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
 +
*Задача распознавания гена. Промотер.
 +
*Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
 +
*Задача инициации транскрипции. Сайты факторов транскрипции.
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
-
'''Лексический анализ текстовых строк.'''
+
<!-- [[Media:bioinf_mipt_L6.pdf|Конспект]] -->
-
Суперскручивание ДНК. Сайты нуклеосом.
+
'''Лексический анализ текстовых строк. Об анализе представительных наборов в задачах генетики'''
-
Структура генома: последовательность и ориентация генов.
+
 
-
Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
+
*Суперскручивание ДНК. Сайты нуклеосом.
-
Генетика и эпигенетика.
+
*Структура генома: последовательность и ориентация генов.
-
CpG и сайты метилирования ДНК.
+
*Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
 +
*Генетика и эпигенетика.
 +
*CpG и сайты метилирования ДНК.
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
'''Классификация символьных последовательностей. База данных PDB.'''
'''Классификация символьных последовательностей. База данных PDB.'''
-
ДНК и РНК. Распознавание классов РНК.
+
<!-- [[Media:bioinf_mipt_L7.pdf|Конспект]] -->
-
Задача 1Dрнк→1Dб: альтернативный сплайсинг.
+
*ДНК и РНК. Распознавание классов РНК.
-
Задача 1Dрнк→2Dрнк: вторичная структура РНК.
+
*Задача 1Dрнк→1Dб: альтернативный сплайсинг.
-
Задачи 1Dрнк, 2Dрнк →3Dрнк.
+
*Задача 1Dрнк→2Dрнк: вторичная структура РНК.
-
Задачи 1Dрнк, 2Dрнк →Фрнк.
+
*Задачи 1Dрнк, 2Dрнк →3Dрнк.
 +
*Задачи 1Dрнк, 2Dрнк →Фрнк.
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
-
'''Анализ и классификация трехмерных объектов. База данных PDB.'''
 
-
Химическое строение молекул белка. Уровни структуры белка.
+
'''Анализ и классификация трехмерных структур биологических макромолекул. База данных PDB.'''
-
Рентгеноструктурный анализ белков.
+
-
Белковый ЯМР.
+
-
Задачи 3D→3D.
+
-
Задачи 3D→2D.
+
-
=== Лекция 9. Задачи 1Dб→1Dб ===
+
<!-- [[Media:bioinf_mipt_L8.pdf|Конспект]] -->
-
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
+
*Химическое строение молекул белка. Уровни структуры белка.
 +
*Рентгеноструктурный анализ белков.
 +
*Белковый ЯМР.
 +
*Задачи 3D→3D.
 +
*Задачи 3D→2D.
-
Распознавание сигнальных пептидов.
+
=== Лекция 9. Разработка проблемно-ориентированной теории на примере задачи распознавания вторичной структуры ===
-
Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
+
-
Установление функциональных сайтов и «функционально-значимых участков».
+
-
О 1D детерминантах стабильности белка.
+
-
=== Лекция 10. Задача распознавания вторичной структуры — основы формализма ===
+
'''Мета-задача перекодировки символьных последовательностей'''
-
'''Перекодировка символьных последовательностей. База данных PDB.'''
+
 
 +
<!-- [[Media:bioinf_mipt_L9.pdf|Конспект]] -->
 +
*Задачи 1Dб→2Dб.
 +
*Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
 +
*Основы комбинаторной теории разрешимости/регулярности.
 +
*О задачах 1D→3D.
 +
 
 +
=== Лекция 10. Задачи 1Dб→1Dб ===
 +
 
 +
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
-
Задачи 1Dб→2Dб.
+
<!-- [[Media:bioinf_mipt_L10.pdf|Конспект]] -->
-
Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
+
*Распознавание сигнальных пептидов.
-
Основы формализма проблемно-ориентированной теории.
+
*Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
-
О задачах 1D→3D.
+
*Установление функциональных сайтов и «функционально-значимых участков».
 +
*О 1D детерминантах стабильности белка.
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
-
'''Классификация символьных последовательностей.'''
+
'''Мета-задача классификации символьных последовательностей.'''
-
Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
+
*Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
-
Задача 1D→Л и о «случайных» последовательностях.
+
*Задача 1D→Л и о «случайных» последовательностях.
-
1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
+
*1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
=== Лекция 12. Анализ и синтез биологических сетей ===
=== Лекция 12. Анализ и синтез биологических сетей ===
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.'''
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.'''
-
Молекулярные сети клетки.
+
*Молекулярные сети клетки.
-
Функциональная геномика, задача синтеза сетей и... ловушки.
+
*Функциональная геномика, задача синтеза сетей и... ловушки.
-
Транскриптомика, протеомика, метаболомика.
+
*Транскриптомика, протеомика, метаболомика.
-
Исследования «стимул-отклик» в масштабе клетки.
+
*Исследования «стимул-отклик» в масштабе клетки.
-
Задача поиска «биомаркеров» для медицинской диагностики.
+
*Задача поиска «биомаркеров» для медицинской диагностики.
=== Лекция 13. Молекулярная фармакология и хемоинформатика ===
=== Лекция 13. Молекулярная фармакология и хемоинформатика ===
'''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.'''
'''Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.'''
-
Физико-химическое моделирование и хемоинформатика.
+
*Физико-химическое моделирование и хемоинформатика.
-
Формула→3Dл.
+
*Формула→3Dл.
-
Задачи 3Dл→3Dл.
+
*Задачи 3Dл→3Dл.
-
3Dл→физ.-хим. свойства.
+
*3Dл→физ.-хим. свойства.
-
3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
+
*3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
-
Хемоинформатика, задачи формула→ххх.
+
*Хемоинформатика, задачи формула→...
=== Лекция 14. Биомедицинские и генетические исследования ===
=== Лекция 14. Биомедицинские и генетические исследования ===
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).'''
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).'''
-
Главная последовательность (генетика→экспрессия, экспрессия→уровни/акт белков, генетика→уровни/акт белков, уровни белков→метаболиты, метаболиты→симптоматика, симптоматика→симптоматика, симптоматика→заболевание).
+
*Главная последовательность
-
Генетика (генетика→метаболиты, генетика→симптоматика, генетика→заболевание).
+
**генетика→экспрессия,
-
Поиск биомаркеров (пост-геномная диагностика): экспрессия→заболевание, уровни белков→заболевание, метаболиты→заболевание.
+
**экспрессия→уровни/акт белков,
 +
**генетика→уровни/акт белков,
 +
**уровни белков→метаболиты,
 +
**метаболиты→симптоматика,
 +
**симптоматика→симптоматика,
 +
**симптоматика→заболевание.
 +
*Генетика
 +
**генетика→метаболиты,
 +
**генетика→симптоматика,
 +
**генетика→заболевание.
 +
*Поиск биомаркеров (пост-геномная диагностика):
 +
**экспрессия→заболевание,
 +
**уровни белков→заболевание,
 +
**метаболиты→заболевание.
=== Лекция 15. Анализ текстов, использование баз данных ===
=== Лекция 15. Анализ текстов, использование баз данных ===
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.'''
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.'''
-
Биомедицина.
+
*Биомедицина.
-
Нахождение надежных диагностических исследований.
+
**Нахождение надежных диагностических исследований.
-
Извлечение информации о генетических ассоциациях.
+
**Извлечение информации о генетических ассоциациях.
-
Выяснение диагноза по заключению врача.
+
**Выяснение диагноза по заключению врача.
-
Информатика («вычислительная лингвистика»).
+
*Информатика («вычислительная лингвистика»).
-
Контекст-зависимая расшифровка аббревиатур.
+
**Контекст-зависимая расшифровка аббревиатур.
-
Концептуализация абстрактов с использованием онтологий терминов.
+
**Концептуализация абстрактов с использованием онтологий терминов.
-
Установление значимости соотношений терминов.
+
**Установление значимости соотношений терминов.
-
Установление функциональных взаимоотношений между белками и генами.
+
**Установление функциональных взаимоотношений между белками и генами.
-
Замечание о научной этике.
+
*Замечание о научной этике.
-
Экспертный анализ.
+
*Экспертный анализ.
=== Лекция 16. Био-логика и алгоритмы ===
=== Лекция 16. Био-логика и алгоритмы ===
'''О поиске новых принципов построения алгоритмов.'''
'''О поиске новых принципов построения алгоритмов.'''
-
Коллектив — индивид — коллектив.
+
*Коллектив — индивид — коллектив.
-
Нейроны и их реальные сети – избегая редукционизм.
+
*Нейроны и их реальные сети – избегая редукционизм.
-
«Генетические алгоритмы» и генетика.
+
*«Генетические алгоритмы» и генетика.
-
Клетка и... экономическая система.
+
*Клетка и... идеальная экономика?
-
Artificial life — living and artificial.
+
*Artificial life — living and artificial.
-
Клетки и... теория электрических цепей?
+
*Клетка и... теория электрических цепей?
== Литература ==
== Литература ==
Строка 170: Строка 248:
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса.
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса.
Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса.
Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса.
-
Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора.
+
Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии.
-
Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины.
+
Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются, как правило, биологи, специалисты в области биостатистики и врачи. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций (и, конечно же, сохранение адекватного уровня внимания и понимания во время лекции)...
-
Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...
+
-
#''Torshin I.Yu.'' '''Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine.''' Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
+
# Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
-
#''Torshin I.Yu.'' '''Bioinformatics in the post-genomic era: physiology and medicine.''' Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
+
# Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
-
#''Torshin I.Yu.'' '''Bioinformatics in the Post-Genomic Era: The Role of Biophysics''', 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
+
# Dudoit S, van der Laan M. Multiple Testing Procedures with Applications to Genomics, 2007. Springer, ISBN 978-0-387-49316-9
 +
# Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
 +
# Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
 +
# Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
 +
# Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
 +
# Torshin I.Yu.''' Sensing the change from molecular genetics to personalized medicine.''' Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
 +
# Torshin I.Yu.''' Bioinformatics in the post-genomic era: physiology and medicine.''' Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
 +
# Torshin I.Yu.''' Bioinformatics in the Post-Genomic Era: The Role of Biophysics''', 2006, Nova Biomedical Books, NY, ISBN 1-60021-048-1.
 +
# Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0
 +
# Стефанов В. Е., Тулуб А. А., Мавропуло-Столяренко Г. Р. - Биоинформатика-Юрайт (2021)
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]
 +
[[Категория:Биоинформатика]]

Текущая версия

Содержание

Курс читается студентам 5-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.

Аннотация

Современную биологию отличает накопление огромных массивов разнородных данных (т.н. "большие данные") при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере задач из тесно взаимосвязанных областей биоинформатики, хемоинформатики и фармакоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.

Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.

Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики и других плохо-формализованных задач из области перспективных биомедицинских исследований и сентимент-анализа. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.

Организационная часть

Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.

Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (отчет-презентация) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.

Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова (Отчет_о_выполнении_исследовательского_проекта_(практика,_В.В._Стрижов)). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, описание данных, сравнительный анализ известных подходов), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.

Примеры задач для исследовательской работы студентов

  • Количественные оценки "размывания" корреляций по уровням иерархии биологических систем
  • "Метрические" и "булевы" подходы к постановке и решению плохо-формализованных задач
  • Порождение проблемно-ориентированных метрик и анализ метрических конфигураций
  • Развитие комбинаторной теории разрешимости
  • Ранжировка задач биоинформатики по "сложности" на основе множеств прецедентов
  • Задачи обработки и анализа биомедицинских и молекулярно-клеточных изображений
  • Общая теория алгоритмов выравнивания символьных последовательностей
  • Функции расстояния (метрики) на множестве аминокислот («20х20»)
  • Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
  • Задача инициации транскрипции (сайты факторов транскрипции)
  • Вариабельность длин транскриптов
  • Распознавание сайтов нуклеосом
  • CpG и сайты метилирования ДНК
  • Анализ "изогнутости" ДНК
  • Распознавание классов биологических ролей РНК
  • 1Dрнк→1Dб: альтернативный сплайсинг
  • 1Dрнк→2Dрнк: распознавание вторичной структуры РНК
  • Выравнивание и классификация/кластеризация пространственных структур белков
  • Задачи "морфинга" структур белков и РНК
  • Установление вторичной структуры белка по его третичной структуре
  • Разбиение пространственной структуры белка на домены
  • Описание структуры белка набором геометрических примитивов
  • Распознавание сигнальных пептидов
  • Распознавание трансмембранных спиралей
  • Задача распознавания вторичной структуры белка
  • 1D→3D: задача распознавания класса пространственной структуры белка
  • 1D→Ф — задача аннотации генома
  • Задача поиска "биомаркеров" для медицинской диагностики.
  • Формула→3Dл
  • Сравнение химических формул
  • Задача поиска генетических ассоциаций: генетика→заболевание
  • "Циклический" отбор признаков в генетических ассоциациях
  • Нахождение надежных диагностических исследований.
  • Концептуализация абстрактов публикаций (в т.ч. данных MEDLINE и результатов поиска по интернету) с использованием онтологий терминов
  • Порождение и анализ временных рядов на основе анализа текстов
  • Установление значимости соотношений терминов на основе анализа абстрактов (MEDLINE)
  • Поиск научных публикаций на основе заданной выборки абстрактов (в т.ч. «чем занимается биоинформатика?»)
  • Установление тематики заданной выборки абстрактов/текстов (MEDLINE)
  • Динамический сентимент-анализ контента (англоязычных) сайтов
  • Разработка эффективных систем параллельных вычислений для решения задач из области биоинформатики
  • Задачи анализа изоморфизма полных взвешенных графов
  • Задачи анализа размеченных графов

План лекций

NB: При проблемах с чтением PDF используйте FoxIt PDF Reader, новый Acrobat Reader, и др.

Лекция 1. Проблемная область - биология

Конспект

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

Конспект

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

Конспект

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→...

Лекция 5. Задачи 1Dднк

Лексический анализ символьных последовательностей биомакромолекул.

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dднк и 3Dднк

Лексический анализ текстовых строк. Об анализе представительных наборов в задачах генетики

  • Суперскручивание ДНК. Сайты нуклеосом.
  • Структура генома: последовательность и ориентация генов.
  • Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
  • Генетика и эпигенетика.
  • CpG и сайты метилирования ДНК.

Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб

Анализ и классификация трехмерных структур биологических макромолекул. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.

Лекция 9. Разработка проблемно-ориентированной теории на примере задачи распознавания вторичной структуры

Мета-задача перекодировки символьных последовательностей

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы комбинаторной теории разрешимости/регулярности.
  • О задачах 1D→3D.

Лекция 10. Задачи 1Dб→1Dб

Лексический анализ символьных последовательностей. Базы данных NCBI.

  • Распознавание сигнальных пептидов.
  • Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
  • Установление функциональных сайтов и «функционально-значимых участков».
  • О 1D детерминантах стабильности белка.

Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Мета-задача классификации символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 12. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и... ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 13. Молекулярная фармакология и хемоинформатика

Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→...

Лекция 14. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность
    • генетика→экспрессия,
    • экспрессия→уровни/акт белков,
    • генетика→уровни/акт белков,
    • уровни белков→метаболиты,
    • метаболиты→симптоматика,
    • симптоматика→симптоматика,
    • симптоматика→заболевание.
  • Генетика
    • генетика→метаболиты,
    • генетика→симптоматика,
    • генетика→заболевание.
  • Поиск биомаркеров (пост-геномная диагностика):
    • экспрессия→заболевание,
    • уровни белков→заболевание,
    • метаболиты→заболевание.

Лекция 15. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 16. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети – избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и... идеальная экономика?
  • Artificial life — living and artificial.
  • Клетка и... теория электрических цепей?

Литература

По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются, как правило, биологи, специалисты в области биостатистики и врачи. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций (и, конечно же, сохранение адекватного уровня внимания и понимания во время лекции)...

  1. Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
  2. Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
  3. Dudoit S, van der Laan M. Multiple Testing Procedures with Applications to Genomics, 2007. Springer, ISBN 978-0-387-49316-9
  4. Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
  5. Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
  6. Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
  7. Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
  8. Torshin I.Yu. Sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
  9. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
  10. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006, Nova Biomedical Books, NY, ISBN 1-60021-048-1.
  11. Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0
  12. Стефанов В. Е., Тулуб А. А., Мавропуло-Столяренко Г. Р. - Биоинформатика-Юрайт (2021)
Личные инструменты