Задачи распознавания в биоинформатике (ВМК МГУ, К. В. Рудаков, И. Ю.Торшин)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Текущая версия (20:34, 22 декабря 2011) (править) (отменить)
(План лекций)
 
(29 промежуточных версий не показаны.)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
 +
* Спецкурс кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования ВМиК МГУ]].
 +
* Авторы программы: чл. корр. РАН К.В. Рудаков, к.ф.-м.н. И.Ю. Торшин
 +
* Предполагается ознакомление студентов с кафедральным курсом [[Машинное обучение (курс лекций, К.В.Воронцов)|«Машинное обучение»]] (д.ф.-м.н. К.В. Воронцов).
 +
* Лекции — 32 часа
 +
* Экзамен
 +
* Оригинальные исследовательские задачи для студентов
-
----
+
== Аннотация ==
-
----
+
Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере биоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы суметь успешно приспособить известные ему методы для решения прикладных и исследовательских задач. Отметим, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений.
-
----
+
== Краткое содержание ==
-
 
+
-
ЧЕРНОВИК!!!!
+
-
----
+
-
 
+
-
----
+
-
 
+
-
----
+
-
 
+
-
Спецкурс читается студентам кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования ВМиК МГУ]]. Предполагается ознакомление студентов с кафедральным курсом [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]] (К.В. Воронцов).
+
-
 
+
-
== Аннотация ==
+
-
Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
+
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы [[интеллектуальный анализ данных|интеллектуального анализа данных]] являются основным инструментом исследователя.
-
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации.
+
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию.
-
Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений.
+
-
В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
+
-
 
+
-
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики.
+
-
Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию.
+
-
Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
+
== Организационная часть ==
== Организационная часть ==
-
Данный курс следует расматривать как область практического приложения знания методов машинного обучения. Курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.
+
Данный курс следует расматривать как область практического приложения знания методов машинного обучения. Курс является не только общеобразовательным, но и научно-исследовательским. В ходе лекций будут объявляться практические задания. Выбрав наиболее интересную для себя задачу, студенту необходимо сформулировать возможные подходы к её решению и предложить оптимальный вариант решения.
-
 
+
-
Задача лектора — наиболее полно отразить принципиально важные особенности рассматриваемых задач.
+
-
Задача студента — выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.
+
-
 
+
-
Семестровый курс содержит 32 часа лекций.
+
-
В ходе лекций будут объявляться практические задания.
+
-
Курс ориентирован на активно воспринимающего материал студента.
+
-
Студенты могут сами формулировать темы исследовательских задач.
+
-
После выбора задачи, обсуждаются требования к работе.
+
До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.
До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.
Форма отчета — произвольная. Студенты могут использовать [[%D0%9E%D1%82%D1%87%D0%B5%D1%82_%D0%BE_%D0%B2%D1%8B%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8_%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B0_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29 |следующий формат отчета]]. Обязательно присутствие внятно читаемых разделов «Описание проекта» (цели проекта, обоснование, описание данных), «Математическая постановка задачи», «Описание алгоритмов» (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и «Отчет о результатах вычислительных экспериментов». Использование среды Matlab для проведения экспериментов желательно, но не обязательно.
Форма отчета — произвольная. Студенты могут использовать [[%D0%9E%D1%82%D1%87%D0%B5%D1%82_%D0%BE_%D0%B2%D1%8B%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8_%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B0_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29 |следующий формат отчета]]. Обязательно присутствие внятно читаемых разделов «Описание проекта» (цели проекта, обоснование, описание данных), «Математическая постановка задачи», «Описание алгоритмов» (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и «Отчет о результатах вычислительных экспериментов». Использование среды Matlab для проведения экспериментов желательно, но не обязательно.
-
=== Примеры задач для исследовательской работы студентов ===
+
== Примеры задач для исследовательской работы студентов ==
* «Размывание» корреляций по уровням иерархии биологических систем
* «Размывание» корреляций по уровням иерархии биологических систем
Строка 60: Строка 39:
* Установление вторичной структуры белка по его третичной структуре
* Установление вторичной структуры белка по его третичной структуре
* Разбиение пространственной структуры белка на домены
* Разбиение пространственной структуры белка на домены
 +
* Описание структуры белка набором геометрических примитивов
* Распознавание сигнальных пептидов
* Распознавание сигнальных пептидов
* Распознавание трансмембранных спиралей
* Распознавание трансмембранных спиралей
Строка 69: Строка 49:
* Сравнение химических формул
* Сравнение химических формул
* Задача поиска генетических ассоциаций: генетика→заболевание
* Задача поиска генетических ассоциаций: генетика→заболевание
 +
* "Циклический" отбор признаков в генетических ассоциациях
* Нахождение надежных диагностических исследований.
* Нахождение надежных диагностических исследований.
* Концептуализация абстрактов публикаций с использованием онтологий терминов
* Концептуализация абстрактов публикаций с использованием онтологий терминов
Строка 75: Строка 56:
== План лекций ==
== План лекций ==
 +
<!-- ''NB: При проблемах с чтением PDF используйте FoxIt PDF Reader, новый Acrobat Reader, и др. -->
=== Лекция 1. Проблемная область — биология ===
=== Лекция 1. Проблемная область — биология ===
 +
<!-- Комментарий [[Медиа:tiy-L1-short1.pdf|Конспект&nbsp;(PDF)]] -->
* Биология как проблемная область.
* Биология как проблемная область.
* О данных и методах из области биологии.
* О данных и методах из области биологии.
Строка 83: Строка 66:
=== Лекция 2. От клеточной биологии к задачам распознавания ===
=== Лекция 2. От клеточной биологии к задачам распознавания ===
 +
* Клетка. Методы исследований клеток.
* Клетка. Методы исследований клеток.
* Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
* Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
Строка 89: Строка 73:
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
=== Лекция 3. Биологические данные, объекты и подходы к формализации задач ===
 +
* Биологические объекты и их описания. Базы данных в биологии.
* Биологические объекты и их описания. Базы данных в биологии.
* Объемы данных и степень их интеграции (связности).
* Объемы данных и степень их интеграции (связности).
Строка 94: Строка 79:
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
=== Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей ===
 +
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
'''Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.'''
* Экспериментальные методы секвенирования.
* Экспериментальные методы секвенирования.
Строка 101: Строка 87:
=== Лекция 5. Задачи 1Dднк ===
=== Лекция 5. Задачи 1Dднк ===
 +
'''Лексический анализ символьных последовательностей.'''
'''Лексический анализ символьных последовательностей.'''
* Что такое ген? От гена к белку.
* Что такое ген? От гена к белку.
Строка 108: Строка 95:
* Задача инициации транскрипции. Сайты факторов транскрипции.
* Задача инициации транскрипции. Сайты факторов транскрипции.
-
=== Лекция 6. Задачи 1Dднк и 3Dднк ===
+
=== Лекция 6. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
-
'''Лексический анализ текстовых строк.'''
+
-
* Суперскручивание ДНК. Сайты нуклеосом.
+
-
* Структура генома: последовательность и ориентация генов.
+
-
* Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
+
-
* Генетика и эпигенетика.
+
-
* CpG и сайты метилирования ДНК.
+
-
=== Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк ===
 
'''Классификация символьных последовательностей. База данных PDB.'''
'''Классификация символьных последовательностей. База данных PDB.'''
* ДНК и РНК. Распознавание классов РНК.
* ДНК и РНК. Распознавание классов РНК.
Строка 124: Строка 104:
* Задачи 1Dрнк, 2Dрнк →Фрнк.
* Задачи 1Dрнк, 2Dрнк →Фрнк.
-
=== Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб ===
+
=== Лекция 7. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→... ===
 +
 
'''Анализ и классификация трехмерных объектов. База данных PDB.'''
'''Анализ и классификация трехмерных объектов. База данных PDB.'''
* Химическое строение молекул белка. Уровни структуры белка.
* Химическое строение молекул белка. Уровни структуры белка.
Строка 132: Строка 113:
* Задачи 3D→2D.
* Задачи 3D→2D.
-
=== Лекция 9. Задачи 1Dб→1Dб ===
+
=== Лекция 8. Задача распознавания вторичной структуры — основы формализма ===
-
'''Лексический анализ символьных последовательностей. Базы данных NCBI.'''
+
-
* Распознавание сигнальных пептидов.
+
-
* Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
+
-
* Установление функциональных сайтов и «функционально-значимых участков».
+
-
* О 1D детерминантах стабильности белка.
+
-
=== Лекция 10. Задача распознавания вторичной структуры — основы формализма ===
 
'''Перекодировка символьных последовательностей. База данных PDB.'''
'''Перекодировка символьных последовательностей. База данных PDB.'''
* Задачи 1Dб→2Dб.
* Задачи 1Dб→2Dб.
Строка 146: Строка 121:
* О задачах 1D→3D.
* О задачах 1D→3D.
-
=== Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
+
=== Лекция 9. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома ===
 +
 
'''Классификация символьных последовательностей.'''
'''Классификация символьных последовательностей.'''
* Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
* Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
* Задача 1D→Л и о «случайных» последовательностях.
* Задача 1D→Л и о «случайных» последовательностях.
-
* 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
+
* Задачи 1Dб→1Dб: сигнальные пептиды, трансмембранные спирали, домены, пост-трансляционные модификации,«функционально-значимые участки», 1D детерминанты стабильности
 +
* 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
-
=== Лекция 12. Анализ и синтез биологических сетей ===
+
=== Лекция 10. Анализ и синтез биологических сетей ===
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.'''
'''Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.'''
Строка 161: Строка 138:
* Задача поиска «биомаркеров» для медицинской диагностики.
* Задача поиска «биомаркеров» для медицинской диагностики.
-
=== Лекция 13. Молекулярная фармакология и хемоинформатика ===
+
=== Лекция 11. Молекулярная фармакология и хемоинформатика ===
'''Молекулы — связные графы, но… Базы данных PUBCHEM, PDB, CSD.'''
'''Молекулы — связные графы, но… Базы данных PUBCHEM, PDB, CSD.'''
Строка 171: Строка 148:
* Хемоинформатика, задачи формула→…
* Хемоинформатика, задачи формула→…
-
=== Лекция 14. Биомедицинские и генетические исследования ===
+
=== Лекция 12. Биомедицинские и генетические исследования ===
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).'''
'''Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).'''
Строка 191: Строка 168:
** метаболиты→заболевание.
** метаболиты→заболевание.
-
=== Лекция 15. Анализ текстов, использование баз данных ===
+
=== Лекция 13. Анализ текстов, использование баз данных ===
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.'''
'''Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.'''
Строка 206: Строка 183:
* Экспертный анализ.
* Экспертный анализ.
-
=== Лекция 16. Био-логика и алгоритмы ===
+
=== Лекция 14. Био-логика и алгоритмы ===
'''О поиске новых принципов построения алгоритмов.'''
'''О поиске новых принципов построения алгоритмов.'''
Строка 218: Строка 195:
== Литература ==
== Литература ==
-
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса.
+
В настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам настоящего курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для разностороннего ознакомления с проблемной областью, могут быть использованы приводимые ниже работы.
-
Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса.
+
-
Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора.
+
-
Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины.
+
-
Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции…
+
-
# ''Torshin I.Yu.'' '''Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine.''' Nova Biomedical Books, NY, USA, 2009, In «Bioinformatics in the Post-Genomic Era» series, ISBN: 978-1-60692-217-0.
+
# Журавлев Ю. И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов, части I-III. // Кибернетика, 1977. № 4. С. 5–17, № 6. С. 21–27, 1978. № 2. С. 35–43.
-
# ''Torshin I.Yu.'' '''Bioinformatics in the post-genomic era: physiology and medicine.''' Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
+
# Журавлев Ю. И., Рудаков К. В. Об алгебраической коррекции процедур обработки (преобразования) информации // Проблемы прикладной математики и информатики. – М.: Наука, 1987. С. 187–198.
-
# ''Torshin I.Yu.'' '''Bioinformatics in the Post-Genomic Era: The Role of Biophysics''', 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.
+
# Рудаков К. В. О применении универсальных ограничений при исследовании алгоритмов классификации // Кибернетика, 1988. № 1. С. 1–5.
 +
# Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
 +
# Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
 +
# Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
 +
# Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
 +
# Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
 +
# Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
 +
# Torshin I.Yu. Sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
 +
# Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
 +
# Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN 1-60021-048-1.
 +
# Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Текущая версия

Содержание

Аннотация

Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере биоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы суметь успешно приспособить известные ему методы для решения прикладных и исследовательских задач. Отметим, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений.

Краткое содержание

Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя.

В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию.

Организационная часть

Данный курс следует расматривать как область практического приложения знания методов машинного обучения. Курс является не только общеобразовательным, но и научно-исследовательским. В ходе лекций будут объявляться практические задания. Выбрав наиболее интересную для себя задачу, студенту необходимо сформулировать возможные подходы к её решению и предложить оптимальный вариант решения. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.

Форма отчета — произвольная. Студенты могут использовать следующий формат отчета. Обязательно присутствие внятно читаемых разделов «Описание проекта» (цели проекта, обоснование, описание данных), «Математическая постановка задачи», «Описание алгоритмов» (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и «Отчет о результатах вычислительных экспериментов». Использование среды Matlab для проведения экспериментов желательно, но не обязательно.

Примеры задач для исследовательской работы студентов

  • «Размывание» корреляций по уровням иерархии биологических систем
  • Общая теория алгоритмов выравнивания символьных последовательностей
  • Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга, распознавание экзонов)
  • Задача инициации транскрипции (сайты факторов транскрипции)
  • Вариабельность длин транскриптов
  • Распознавание сайтов нуклеосом
  • CpG и сайты метилирования ДНК
  • 1Dрнк→1Dб: альтернативный сплайсинг
  • 1Dрнк→2Dрнк: распознавание вторичной структуры РНК
  • Выравнивание и классификация пространственных структур белков
  • Установление вторичной структуры белка по его третичной структуре
  • Разбиение пространственной структуры белка на домены
  • Описание структуры белка набором геометрических примитивов
  • Распознавание сигнальных пептидов
  • Распознавание трансмембранных спиралей
  • Задача распознавания вторичной структуры белка
  • 1D→3D: задача распознавания класса пространственной структуры белка
  • 1D→Ф — задача аннотации генома
  • Задача поиска «биомаркеров» для медицинской диагностики.
  • Формула→3Dл
  • Сравнение химических формул
  • Задача поиска генетических ассоциаций: генетика→заболевание
  • "Циклический" отбор признаков в генетических ассоциациях
  • Нахождение надежных диагностических исследований.
  • Концептуализация абстрактов публикаций с использованием онтологий терминов
  • Установление значимости соотношений терминов на основе анализа абстрактов
  • Поиск научных публикаций на основе заданной выборки абстрактов

План лекций

Лекция 1. Проблемная область — биология

  • Биология как проблемная область.
  • О данных и методах из области биологии.
  • Уровни биологических систем и уровни данных.
  • Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.

Лекция 2. От клеточной биологии к задачам распознавания

  • Клетка. Методы исследований клеток.
  • Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
  • ДНК. РНК. Аминокислоты и белки.
  • Клеточная биология и система задач распознавания.

Лекция 3. Биологические данные, объекты и подходы к формализации задач

  • Биологические объекты и их описания. Базы данных в биологии.
  • Объемы данных и степень их интеграции (связности).
  • Противоречивость множеств прецедентов.

Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей

Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.

  • Экспериментальные методы секвенирования.
  • Алгоритмы выравнивания и сравнения символьных последовательностей.
  • Верификация данных из разных уровней иерархии клеточных процессов.
  • Классификация последовательностей как подход к решению задач 1D→…

Лекция 5. Задачи 1Dднк

Лексический анализ символьных последовательностей.

  • Что такое ген? От гена к белку.
  • Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
  • Задача распознавания гена. Промотер.
  • Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
  • Задача инициации транскрипции. Сайты факторов транскрипции.

Лекция 6. Задачи 1Dрнк, 2Dрнк, 3Dрнк

Классификация символьных последовательностей. База данных PDB.

  • ДНК и РНК. Распознавание классов РНК.
  • Задача 1Dрнк→1Dб: альтернативный сплайсинг.
  • Задача 1Dрнк→2Dрнк: вторичная структура РНК.
  • Задачи 1Dрнк, 2Dрнк →3Dрнк.
  • Задачи 1Dрнк, 2Dрнк →Фрнк.

Лекция 7. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→...

Анализ и классификация трехмерных объектов. База данных PDB.

  • Химическое строение молекул белка. Уровни структуры белка.
  • Рентгеноструктурный анализ белков.
  • Белковый ЯМР.
  • Задачи 3D→3D.
  • Задачи 3D→2D.

Лекция 8. Задача распознавания вторичной структуры — основы формализма

Перекодировка символьных последовательностей. База данных PDB.

  • Задачи 1Dб→2Dб.
  • Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
  • Основы формализма проблемно-ориентированной теории.
  • О задачах 1D→3D.

Лекция 9. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома

Классификация символьных последовательностей.

  • Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
  • Задача 1D→Л и о «случайных» последовательностях.
  • Задачи 1Dб→1Dб: сигнальные пептиды, трансмембранные спирали, домены, пост-трансляционные модификации,«функционально-значимые участки», 1D детерминанты стабильности
  • 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.

Лекция 10. Анализ и синтез биологических сетей

Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.

  • Молекулярные сети клетки.
  • Функциональная геномика, задача синтеза сетей и… ловушки.
  • Транскриптомика, протеомика, метаболомика.
  • Исследования «стимул-отклик» в масштабе клетки.
  • Задача поиска «биомаркеров» для медицинской диагностики.

Лекция 11. Молекулярная фармакология и хемоинформатика

Молекулы — связные графы, но… Базы данных PUBCHEM, PDB, CSD.

  • Физико-химическое моделирование и хемоинформатика.
  • Формула→3Dл.
  • Задачи 3Dл→3Dл.
  • 3Dл→физ.-хим. свойства.
  • 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
  • Хемоинформатика, задачи формула→…

Лекция 12. Биомедицинские и генетические исследования

Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).

  • Главная последовательность
    • генетика→экспрессия,
    • экспрессия→уровни/акт белков,
    • генетика→уровни/акт белков,
    • уровни белков→метаболиты,
    • метаболиты→симптоматика,
    • симптоматика→симптоматика,
    • симптоматика→заболевание.
  • Генетика
    • генетика→метаболиты,
    • генетика→симптоматика,
    • генетика→заболевание.
  • Поиск биомаркеров (пост-геномная диагностика):
    • экспрессия→заболевание,
    • уровни белков→заболевание,
    • метаболиты→заболевание.

Лекция 13. Анализ текстов, использование баз данных

Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.

  • Биомедицина.
    • Нахождение надежных диагностических исследований.
    • Извлечение информации о генетических ассоциациях.
    • Выяснение диагноза по заключению врача.
  • Информатика («вычислительная лингвистика»).
    • Контекст-зависимая расшифровка аббревиатур.
    • Концептуализация абстрактов с использованием онтологий терминов.
    • Установление значимости соотношений терминов.
    • Установление функциональных взаимоотношений между белками и генами.
  • Замечание о научной этике.
  • Экспертный анализ.

Лекция 14. Био-логика и алгоритмы

О поиске новых принципов построения алгоритмов.

  • Коллектив — индивид — коллектив.
  • Нейроны и их реальные сети — избегая редукционизм.
  • «Генетические алгоритмы» и генетика.
  • Клетка и… экономика?
  • Artificial life — living and artificial.
  • Клетка и… теория электрических цепей?

Литература

В настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам настоящего курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для разностороннего ознакомления с проблемной областью, могут быть использованы приводимые ниже работы.

  1. Журавлев Ю. И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов, части I-III. // Кибернетика, 1977. № 4. С. 5–17, № 6. С. 21–27, 1978. № 2. С. 35–43.
  2. Журавлев Ю. И., Рудаков К. В. Об алгебраической коррекции процедур обработки (преобразования) информации // Проблемы прикладной математики и информатики. – М.: Наука, 1987. С. 187–198.
  3. Рудаков К. В. О применении универсальных ограничений при исследовании алгоритмов классификации // Кибернетика, 1988. № 1. С. 1–5.
  4. Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
  5. Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
  6. Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
  7. Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
  8. Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
  9. Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
  10. Torshin I.Yu. Sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
  11. Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
  12. Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN 1-60021-048-1.
  13. Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0
Личные инструменты