Биоинформатика и задачи распознавания в современной биологии (курс лекций, И.Ю. Торшин)
Материал из MachineLearning.
(→Лекция 16. Био-логика и алгоритмы) |
(→Организационная часть) |
||
Строка 27: | Строка 27: | ||
Студенты могут сами формулировать темы исследовательских задач. | Студенты могут сами формулировать темы исследовательских задач. | ||
После выбора задачи, обсуждаются требования к работе. | После выбора задачи, обсуждаются требования к работе. | ||
- | До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче. | + | До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче. Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова [[%D0%9E%D1%82%D1%87%D0%B5%D1%82_%D0%BE_%D0%B2%D1%8B%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8_%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B0_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29]] |
- | + | ||
- | + | ||
== План лекций == | == План лекций == |
Версия 21:25, 7 октября 2010
Курс читается студентам 6-го курса кафедры «Интеллектуальные системы» ФУПМ МФТИ.
Аннотация
Современную биологию отличает накопление огромных массивов разнородных данных при практически полном отсутствии каких-либо фундаментальных теоретических обобщений. В такой ситуации методы интеллектуального анализа данных являются основным инструментом исследователя. Данный курс рассчитан на будущих специалистов в области математики и информатики, и его цель — на примере конкретной прикладной области — биоинформатики — показать, каким образом математик должен вникать в специфику предметной области, чтобы суметь адекватным образом приспособить известные ему методы для решения прикладных и исследовательских задач.
Задача лектора - наиболее полно отразить принципиально важные особенности рассматриваемых задач. Задача студента - выбрать наиболее интересную для себя задачу, сформулировать возможные подходы к её решению и предложить оптимальный вариант решения этой задачи.
В курсе лекций рассматриваются уникальные особенности биологических данных, приводящие к оригинальным постановкам задач распознавания и классификации. Следует отметить, что практически для всех рассматриваемых в курсе задач пока еще не было предложено точных и математически обоснованных решений. В этом смысле курс представляет обширное поле деятельности для самостоятельной научной работы студентов.
Формулируется система задач распознавания, отражающая структуру биологических систем и дающая основу для построения проблемно-ориентированных теорий. Рассматриваются основы формализма, разрабатываемого для решения задач биоинформатики. Данный формализм основан на теории универсальных и локальных ограничений в рамках алгебраического подхода к распознаванию. Уделяется внимание биомедицинским приложениям результатов интеллектуального анализа биологических данных.
Организационная часть
Данный курс следует расматривать как область практического приложения знаний, накопленных студентами за 5 лет обучения в МФТИ. Поэтому, курс является не только общеобразовательным, но и научно-исследовательским, предполагающим самостоятельное решение практических задач по выбору студентов.
Семестровый курс содержит 32 часа лекций. В ходе лекций будут объявляться практические задания. Курс ориентирован на активно воспринимающего материал студента. Студенты могут сами формулировать темы исследовательских задач. После выбора задачи, обсуждаются требования к работе. До начала устного экзамена (билет + собеседование) необходимо сдать отчет об исследовательской работе (3-5 стр), проведенной по выбранной задаче. Форма отчета - произвольная. Студенты могут использовать формат отчета, уже знакомый из курса В.В. Стрижова Отчет_о_выполнении_исследовательского_проекта_(практика,_В.В._Стрижов)
План лекций
Лекция 1. Проблемная область - биология
- Биология как проблемная область.
- О данных и методах из области биологии.
- Уровни биологических систем и уровни данных.
- Взаимосвязь различных задач интеллектуального анализа биологических данных, системы задач распознавания и классификации.
Лекция 2. От клеточной биологии к задачам распознавания
- Клетка. Методы исследований клеток.
- Основные компоненты и процессы в клетках, их биологические роли и взаимодействия.
- ДНК. РНК. Аминокислоты и белки.
- Клеточная биология и система задач распознавания.
Лекция 3. Биологические данные, объекты и подходы к формализации задач
- Биологические объекты и их описания. Базы данных в биологии.
- Объемы данных и степень их интеграции (связности).
- Противоречивость множеств прецедентов.
Лекция 4. Задачи 1D→1D: сравнение символьных последовательностей
Макромолекулы как текстовые строки. Базы данных GENBANK, TREMBL, UNIPROT.
- Экспериментальные методы секвенирования.
- Алгоритмы выравнивания и сравнения символьных последовательностей.
- Верификация данных из разных уровней иерархии клеточных процессов.
- Классификация последовательностей как подход к решению задач 1D→...
Лекция 5. Задачи 1Dднк
Лексический анализ символьных последовательностей.
- Что такое ген? От гена к белку.
- Эукариоты, прокариоты. Транскрипция, сплайсинг, деградация, трансляция.
- Задача распознавания гена. Промотер.
- Задача 1Dднк→1Dрнк (сайты сплайсинга, экзоны).
- Задача инициации транскрипции. Сайты факторов транскрипции.
Лекция 6. Задачи 1Dднк и 3Dднк
Лексический анализ текстовых строк.
- Суперскручивание ДНК. Сайты нуклеосом.
- Структура генома: последовательность и ориентация генов.
- Репликация и рекомбинация ДНК. Сайты SNP. Регионы рекомбинации.
- Генетика и эпигенетика.
- CpG и сайты метилирования ДНК.
Лекция 7. Задачи 1Dрнк, 2Dрнк, 3Dрнк
Классификация символьных последовательностей. База данных PDB.
- ДНК и РНК. Распознавание классов РНК.
- Задача 1Dрнк→1Dб: альтернативный сплайсинг.
- Задача 1Dрнк→2Dрнк: вторичная структура РНК.
- Задачи 1Dрнк, 2Dрнк →3Dрнк.
- Задачи 1Dрнк, 2Dрнк →Фрнк.
Лекция 8. Рентгено-структурный анализ и ЯМР белков, задачи 3Dб→3Dб и 3Dб→2Dб
Анализ и классификация трехмерных объектов. База данных PDB.
- Химическое строение молекул белка. Уровни структуры белка.
- Рентгеноструктурный анализ белков.
- Белковый ЯМР.
- Задачи 3D→3D.
- Задачи 3D→2D.
Лекция 9. Задачи 1Dб→1Dб
Лексический анализ символьных последовательностей. Базы данных NCBI.
- Распознавание сигнальных пептидов.
- Трансмембранные спирали. Разбиение на домены. Пост-трансляционные модификации.
- Установление функциональных сайтов и «функционально-значимых участков».
- О 1D детерминантах стабильности белка.
Лекция 10. Задача распознавания вторичной структуры — основы формализма
Перекодировка символьных последовательностей. База данных PDB.
- Задачи 1Dб→2Dб.
- Задача 1Dб→2Dб как перевод символьных последовательностей. Постановка задачи, исходные данные.
- Основы формализма проблемно-ориентированной теории.
- О задачах 1D→3D.
Лекция 11. Задачи 1Dб→Ф и 3D→Ф и задача аннотации генома
Классификация символьных последовательностей.
- Задачи 3D→Л и 3D→Ф: биофизический анализ структуры белка.
- Задача 1D→Л и о «случайных» последовательностях.
- 1D→Ф — задача аннотации генома, основы проблемно-ориентированного формализма.
Лекция 12. Анализ и синтез биологических сетей
Молекулярная сеть-смешанный граф. Базы данных REACTOME, KYOTO.
- Молекулярные сети клетки.
- Функциональная геномика, задача синтеза сетей и... ловушки.
- Транскриптомика, протеомика, метаболомика.
- Исследования «стимул-отклик» в масштабе клетки.
- Задача поиска «биомаркеров» для медицинской диагностики.
Лекция 13. Молекулярная фармакология и хемоинформатика
Молекулы - связные графы, но... Базы данных PUBCHEM, PDB, CSD.
- Физико-химическое моделирование и хемоинформатика.
- Формула→3Dл.
- Задачи 3Dл→3Dл.
- 3Dл→физ.-хим. свойства.
- 3Dл→белки-рецепторы. 3Dл→константы взаимодействия.
- Хемоинформатика, задачи формула→...
Лекция 14. Биомедицинские и генетические исследования
Задачи классификации разнородных признаковых описаний. Базы данных NCBI (DBGAP).
- Главная последовательность
- генетика→экспрессия,
- экспрессия→уровни/акт белков,
- генетика→уровни/акт белков,
- уровни белков→метаболиты,
- метаболиты→симптоматика,
- симптоматика→симптоматика,
- симптоматика→заболевание.
- Генетика
- генетика→метаболиты,
- генетика→симптоматика,
- генетика→заболевание.
- Поиск биомаркеров (пост-геномная диагностика):
- экспрессия→заболевание,
- уровни белков→заболевание,
- метаболиты→заболевание.
Лекция 15. Анализ текстов, использование баз данных
Анализ текстовых строк, natual language processing. База данных PUBMED/MEDLINE.
- Биомедицина.
- Нахождение надежных диагностических исследований.
- Извлечение информации о генетических ассоциациях.
- Выяснение диагноза по заключению врача.
- Информатика («вычислительная лингвистика»).
- Контекст-зависимая расшифровка аббревиатур.
- Концептуализация абстрактов с использованием онтологий терминов.
- Установление значимости соотношений терминов.
- Установление функциональных взаимоотношений между белками и генами.
- Замечание о научной этике.
- Экспертный анализ.
Лекция 16. Био-логика и алгоритмы
О поиске новых принципов построения алгоритмов.
- Коллектив — индивид — коллектив.
- Нейроны и их реальные сети – избегая редукционизм.
- «Генетические алгоритмы» и генетика.
- Клетка и... экономика?
- Artificial life — living and artificial.
- Клетка и... теория электрических цепей?
Литература
По ряду не зависящих от лектора причин, в настоящее время на русском языке не имеется литературы по биоинформатике, хотя бы в части отвечающей целям и задачам курса. Существует значительное количество исследовательских статей на английском языке по отдельным вопросам курса. Для ознакомления с проблемной областью, могут быть использованы приводимые ниже монографии лектора. Однако данные работы (а) написаны на английском и (б) их целевой аудиторией являются врачи и специалисты в области биомедицины. Поэтому, наилучшей стратегией обучения является аккуратное посещение предлагаемого курса лекций и, конечно, сохранение внимания во время лекции...
- Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, USA, 2009, In “Bioinformatics in the Post-Genomic Era” series, ISBN: 978-1-60692-217-0.
- Torshin I.Yu. Bioinformatics in the post-genomic era: physiology and medicine. Nova Biomedical Books, NY, USA (2007), ISBN: 1600217524.
- Torshin I.Yu. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006 Nova Biomedical Books, NY, ISBN: 1-60021-048.