Системы искусственного интеллекта (курс лекций, Д.В.Михайлов)
Материал из MachineLearning.
Дисциплина «Системы искусственного интеллекта» для специальности 230105 важную роль в подготовке студентов к самостоятельной профессиональной деятельности в области интеллектуальных информационных технологий. Дисциплина «Системы искусственного интеллекта» для специальности 230105 относится к числу дисциплин специализации и читается в 9-м семестре. Она включает в себя рассмотрение основных вопросов современной теории и практики построения интеллектуальных систем (в первую очередь) символьной обработки и опирается на учебные курсы :«Дискретная математика», «Функциональное и логическое программирование», «Объектно-ориентированное программирование», «Базы данных», «Теория вычислительных процессов и структур», «Компьютерное моделирование», «Распознавание образов и обработка изображений» и «Человеко-машинное взаимодействие». Особое внимание уделяется моделированию языкового поведения человека при работе с базами знаний интеллектуальных информационно-поисковых систем.
Включение данной дисциплины в учебный план заключительного учебного семестра перед преддипломной практикой и дипломным проектированием дает возможность студенту более четко сформулировать задачу на дипломное проектирование с точки зрения перспективных направлений интеллектуальных технологий компьютерной обработки информации.
Автор — Дмитрий Владимирович Михайлов, кафедра Информационных технологий и систем Новгородского государственного университета им. Ярослава Мудрого (НовГУ).
Научный консультант — д.т.н., профессор Емельянов Геннадий Мартинович
Представленный здесь вариант курса в 2020 году лёг в основу одноимённого учебного модуля по направлению подготовки «Информатика и вычислительная техника» (бакалавриат) в НовГУ. Актуальная редакция курса представлена на портале «Дистанционные образовательные технологии обучения в НовГУ» (требуется регистрация).
Содержание |
Содержание лекционных занятий
Дополнительные разделы по обработке и анализу текстов
Содержание лабораторных занятий
Дополнительные темы работ по моделям представления знаний
Демо
- Отбор фраз текстового корпуса, максимально релевантных исходной:
- Та же задача для случая более чем одной исходной фразы и оценки силы связи слов без синтаксических правил на основе классификации по TF-IDF[1], в том числе:
- Отбор научных статей по степени близости смысловому эталону заголовка и фраз аннотации (реализация на Python 2.7)[1], в том числе:
- вариант с сортировкой анализируемых фраз по степени близости эталону и выделением ключевых сочетаний слов на основе меры TF-IDF[1], включая построение иерархии статей на основе оценок взаимной смысловой зависимости по аннотациям и заголовкам с учётом найденных ключевых сочетаний слов[1];
- вариант с построением иерархии статей на основе оценок их взаимной смысловой зависимости и последующим оцениванием взаимной близости документов тематического корпуса, относительно которых достигалась наибольшая близость фраз эталону[1], а также численным оцениванием значимости каждого такого документа при подборе пары взаимно релевантных[1].
- Анализ документов тематического корпуса на предмет включения в состав референтного на основе встречаемости слов из аннотаций статей по заданной предметной области (реализация на Python 2.7)[1], а также оценивание качества отбора документов в референтный корпус (реализация на Python 2.7 и (частично) на Python 3.10)[1].
- Применение нейросетевых моделей BERT для ранжирования коротких текстов по близости эталону на основе оценки взаимного сходства их смыслов (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов), в том числе вариант с дообучением моделей ruSciBERT и SciRus-tiny для задач анализа смысловой близости отдельных предложений (Sentence Similarity) и текстов (Textual Similarity).
- Расширение аннотаций научных статей предложениями их вводных и заключительных частей с максимизацией смысловой связности коллекции в целом (реализация на Python 3.10 — блокноты Jupyter Notebook и результаты экспериментов), в том числе вариант без учёта и фиксации промежуточных шагов расширения исходной аннотации.
Инструментальные средства и библиотеки
- Apache OpenNLP — интегрированный пакет инструментов обработки текста. См. также описание пакета на NLPub.
Базы данных
Полезные ссылки
- Основы обработки текстов — спецкурс для студентов ВМК МГУ и ФКН ВШЭ. Лектор — канд. физ.-мат. наук Турдаков Денис Юрьевич.
- Китов В.В. Математические методы анализа текстов — обязательный спецкурс для магистров кафедры математических методов прогнозирования ВМК МГУ.
Для самоконтроля
Примерный список вопросов к экзамену.
Примечания
К сожалению, незарегистрированные пользователи не видят литературных ссылок из раздела «Демо» (данный дефект системы находится в стадии проработки). Тем не менее, Вы можете найти цитируемый источник, используя вкладку «Просмотр» на данной странице.