Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)
Материал из MachineLearning.
(→Литература) |
|||
Строка 234: | Строка 234: | ||
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. | По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. | ||
Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. | Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. | ||
- | Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии | + | Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии. |
- | Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. | + | Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются, как правило, врачи, биологи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций (и, конечно же, сохранение внимания во время лекции)... |
- | Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции... | + | |
# Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series) | # Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series) |
Версия 21:10, 19 января 2011
Курс читается студентам 6-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.
Аннотация
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
Организационная часть
Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.
Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче.
Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова (Отчет_о_выполнении_исследовательского_проекта_(практика,_В.В._Стрижов)). Обязательно присутствие внятно читаемых разделов "Описание проекта" (цели проекта, обоснование, описание данных), "Математическая постановка задачи", "Описание алгоритмов" (базовые предположения на которых основан предлагаемый алгоритм, его полное математическое описание) и "Отчет о результатах вычислительных экспериментов". Использование среды Matlab для проведения экспериментов желательно, но не обязательно.
Примеры задач для исследовательской работы студентов
- «Размывание» корреляций по уровням иерархии биологических систем
- Общая теория алгоритмов выравнивания символьных последовательностей
- Распознавание гена (распознавание промотеров, распознавание сайтов сплайсинга,распознавание экзонов)
- Задача инициации транскрипции (сайты факторов транскрипции)
- Вариабельность длин транскриптов
- Распознавание сайтов нуклеосом
- CpG и сайты метилирования ДНК
- 1Dрнк→1Dб: альтернативный сплайсинг
- 1Dрнк→2Dрнк: распознавание вторичной структуры РНК
- Выравнивание и классификация пространственных структур белков
- Установление вторичной структуры белка по его третичной структуре
- Разбиение пространственной структуры белка на домены
- Распознавание сигнальных пептидов
- Распознавание трансмембранных спиралей
- Задача распознавания вторичной структуры белка
- 1D→3D: задача распознавания класса пространственной структуры белка
- 1D→Ф — задача аннотации генома
- Задача поиска «биомаркеров» для медицинской диагностики.
- Формула→3Dл
- Сравнение химических формул
- Задача поиска генетических ассоциаций: генетика→заболевание
- Нахождение надежных диагностических исследований.
- Концептуализация абстрактов публикаций с использованием онтологий терминов
- Установление значимости соотношений терминов на основе анализа абстрактов
- Поиск научных публикаций на основе заданной выборки абстрактов
План лекций
NB: При проблемах с чтением PDF используйте FoxIt PDF Reader, новый Acrobat Reader, и др.
Лекция 1. Проблемная область - биология
- Биология как проблемная область.
- О данных и методах из области биологии.
- Уровни биологических систем и уровни данных.
- Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
Лекция 2. От клеточной биологии к задачам распознавания
- Клетка. Методы исследований клеток.
- Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
- ДНК. РНК. Аминокислоты и белки.
- Клеточная биология и система задач распознавания.
Лекция 3. Биологические данные, объекты и подходы к формализации задач
- Биологические объекты и их описания. Базы данных в биологии.
- Объемы данных и степень их интеграции (связности).
- Противоречивость множеств прецедентов.
Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей
Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.
- Экспериментальные методы секвенирования.
- Алгоритмы выравнивания и сравнения символьных последовательностей.
- Верификация данных из разных уровней иерархии клеточных процессов.
- Классификация последовательностей как подход к решению задач 1D→...
Лекция 5. Задачи 1Dднк
Лексический анализ символьных последовательностей.
- Что такое ген? От гена к белку.
- Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
- Задача распознавания гена. Промотер.
- Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
- Задача инициации транскрипции. Сайты факторов транскрипции.
Лекция 6. Задачи 1Dднк и 3Dднк
Лексический анализ текстовых строк.
- Суперскручивание ДНК. Сайты нуклеосом.
- Структура генома: последовательность и ориентация генов.
- Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
- Генетика и эпигенетика.
- CpG и сайты метилирования ДНК.
Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк
Классификация символьных последовательностей. База данных PDB.
- ДНК и РНК. Распознавание классов РНК.
- Задача 1Dрнк→1Dб: альтернативный сплайсинг.
- Задача 1Dрнк→2Dрнк: вторичная структура РНК.
- Задачи 1Dрнк, 2Dрнк →3Dрнк.
- Задачи 1Dрнк, 2Dрнк →Фрнк.
Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб
Анализ и классификация трехмерных объектов. База данных PDB.
- Химическое строение молекул белка. Уровни структуры белка.
- Рентгеноструктурный анализ белков.
- Белковый ЯМР.
- Задачи 3D→3D.
- Задачи 3D→2D.
Лекция 9. Задачи 1Dб→1Dб
Лексический анализ символьных последовательностей. Базы данных NCBI.
- Распознавание сигнальных пептидов.
- Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
- Установление функциональных сайтов и «функционально-значимых участков».
- О 1D детерминантах стабильности белка.
Лекция 10. Задача распознавания вторичной структуры — основы формализма
Перекодировка символьных последовательностей. База данных PDB.
- Задачи 1Dб→2Dб.
- Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
- Основы формализма проблемно-ориентированной теории.
- О задачах 1D→3D.
Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома
Классификация символьных последовательностей.
- Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
- Задача 1D→Л и о «случайных» последовательностях.
- 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
Лекция 12. Анализ и синтез биологических сетей
Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.
- Молекулярные сети клетки.
- Функциональная геномика, задача синтеза сетей и... ловушки.
- Транскриптомика, протеомика, метаболомика.
- Исследования «стимул-отклик» в масштабе клетки.
- Задача поиска «биомаркеров» для медицинской диагностики.
Лекция 13. Молекулярная фармакология и хемоинформатика
Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.
- Физико-химическое моделирование и хемоинформатика.
- Формула→3Dл.
- Задачи 3Dл→3Dл.
- 3Dл→физ.-хим. свойства.
- 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
- Хемоинформатика, задачи формула→...
Лекция 14. Биомедицинские и генетические исследования
Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).
- Главная последовательность
- генетика→экспрессия,
- экспрессия→уровни/акт белков,
- генетика→уровни/акт белков,
- уровни белков→метаболиты,
- метаболиты→симптоматика,
- симптоматика→симптоматика,
- симптоматика→заболевание.
- Генетика
- генетика→метаболиты,
- генетика→симптоматика,
- генетика→заболевание.
- Поиск биомаркеров (пост-геномная диагностика):
- экспрессия→заболевание,
- уровни белков→заболевание,
- метаболиты→заболевание.
Лекция 15. Анализ текстов, использование баз данных
Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.
- Биомедицина.
- Нахождение надежных диагностических исследований.
- Извлечение информации о генетических ассоциациях.
- Выяснение диагноза по заключению врача.
- Информатика («вычислительная лингвистика»).
- Контекст-зависимая расшифровка аббревиатур.
- Концептуализация абстрактов с использованием онтологий терминов.
- Установление значимости соотношений терминов.
- Установление функциональных взаимоотношений между белками и генами.
- Замечание о научной этике.
- Экспертный анализ.
Лекция 16. Био-логика и алгоритмы
О поиске новых принципов построения алгоритмов.
- Коллектив — индивид — коллектив.
- Нейроны и их реальные сети – избегая редукционизм.
- «Генетические алгоритмы» и генетика.
- Клетка и... экономика?
- Artificial life — living and artificial.
- Клетка и... теория электрических цепей?
Литература
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы цитируемые ниже монографии. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются, как правило, врачи, биологи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций (и, конечно же, сохранение внимания во время лекции)...
- Aluru, Srinivas, ed. Handbook of Computational Molecular Biology. Chapman & Hall/Crc, 2006. ISBN 1584884061 (Chapman & Hall/Crc Computer and Information Science Series)
- Baldi, P and Brunak, S, Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press, 2001. ISBN 0-262-02506-X
- Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4
- Durbin, R., S. Eddy, A. Krogh and G. Mitchison, Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3
- Keedwell, E., Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems. Wiley, 2005. ISBN 0-470-02175-6
- Pachter, Lior and Sturmfels, Bernd. "Algebraic Statistics for Computational Biology" Cambridge University Press, 2005. ISBN 0-521-85700-7
- Torshin I.Yu. Sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN 1-60692-217-0.
- Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN 1-60021-752-4.
- Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006, Nova Biomedical Books, NY, ISBN 1-60021-048-1.
- Waterman M, Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press, 1995. ISBN 0-412-99391-0