Системы искусственного интеллекта (курс лекций, Д.В.Михайлов)

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Дисциплина «Системы искусственного интеллекта» для специальности 230105 важную роль в подготовке студентов к самостоятельной профессиональной деятельности в области интеллектуальных информационных технологий. Дисциплина «Системы искусственного интеллекта» для специальности 230105 относится к числу дисциплин специализации и читается в 9-м семестре. Она включает в себя рассмотрение основных вопросов современной теории и практики построения интеллектуальных систем (в первую очередь) символьной обработки и опирается на учебные курсы :«Дискретная математика», «Функциональное и логическое программирование», «Объектно-ориентированное программирование», «Базы данных», «Теория вычислительных процессов и структур», «Компьютерное моделирование», «Распознавание образов и обработка изображений» и «Человеко-машинное взаимодействие». Особое внимание уделяется моделированию языкового поведения человека при работе с базами знаний интеллектуальных информационно-поисковых систем.

Включение данной дисциплины в учебный план заключительного учебного семестра перед преддипломной практикой и дипломным проектированием дает возможность студенту более четко сформулировать задачу на дипломное проектирование с точки зрения перспективных направлений интеллектуальных технологий компьютерной обработки информации.

Автор — Дмитрий Владимирович Михайлов, кафедра Информационных технологий и систем Новгородского государственного университета им. Ярослава Мудрого (НовГУ).

Научный консультант — д.т.н., профессор Емельянов Геннадий Мартинович

Представленный здесь вариант курса в 2020 году лёг в основу одноимённого учебного модуля по направлению подготовки «Информатика и вычислительная техника» (бакалавриат) в НовГУ. Актуальная редакция курса представлена на портале «Дистанционные образовательные технологии обучения в НовГУ» (требуется регистрация).

Содержание

1 Содержание лекционных занятий
2 Дополнительные разделы по обработке и анализу текстов
3 Содержание лабораторных занятий
4 Дополнительные темы работ по моделям представления знаний
5 Демо
6 Инструментальные средства и библиотеки
7 Базы данных
8 Полезные ссылки
9 Для самоконтроля
10 Примечания

Содержание лекционных занятий

Искусственный интеллект как научная область

Представление задач в пространстве состояний

Методы поиска в пространстве состояний

Сведение задачи к совокупности подзадач

Методы поиска при сведении задач к совокупности подзадач

Представление знаний в интеллектуальных системах

Представление знаний правилами и логический вывод

Представление знаний фреймами

Интерфейс на естественном языке

Лингвистические информационные ресурсы и их использование в задачах обработки естественного языка : семантические отношения в лексических базах данных.

О некоторых практических аспектах описания лексического значения слова в компьютерном словаре.

Дополнительные разделы по обработке и анализу текстов

Синтаксический анализ текстов естественного языка: симбиоз формально-грамматических и вероятностных методов.

Семантические сети и анализ связного текста.

Содержание лабораторных занятий

Изучение методов перебора и критериев оценки методов перебора на произвольных графах.

Поисковая система на основе фреймовой модели представления знаний.

Интерфейс на естественном языке к базе знаний интеллектуальной системы.

Дополнительные темы работ по моделям представления знаний

Продукционная модель представления знаний.

Представление знаний на основе семантической сети.

Демо

Отбор фраз текстового корпуса, максимально релевантных исходной:

Та же задача для случая более чем одной исходной фразы и оценки силы связи слов без синтаксических правил на основе классификации по TF-IDF^[1], в том числе:
- вариант с факультативным учётом предлогов, союзов и междометий при выделении связей слов, а также оценкой (на основе найденных n-грамм) релевантности текстового корпуса ситуации языкового употребления, задаваемой исходными фразами;
- вариант с оценкой близости исходных фраз смысловому эталону^[1].

Отбор научных статей по степени близости смысловому эталону заголовка и фраз аннотации (реализация на Python 2.7)^[1], в том числе:
- вариант с сортировкой анализируемых фраз по степени близости эталону и выделением ключевых сочетаний слов на основе меры TF-IDF^[1], включая построение иерархии статей на основе оценок взаимной смысловой зависимости по аннотациям и заголовкам с учётом найденных ключевых сочетаний слов^[1];
- вариант с построением иерархии статей на основе оценок их взаимной смысловой зависимости и последующим оцениванием взаимной близости документов тематического корпуса, относительно которых достигалась наибольшая близость фраз эталону^[1], а также численным оцениванием значимости каждого такого документа при подборе пары взаимно релевантных^[1].

Анализ документов тематического корпуса на предмет включения в состав референтного на основе встречаемости слов из аннотаций статей по заданной предметной области (реализация на Python 2.7)^[1], а также оценивание качества отбора документов в референтный корпус (реализация на Python 2.7 и (частично) на Python 3.10)^[1].

Применение нейросетевых моделей BERT для оценки смысловой близости рефератов научных статей (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов).

Применение нейросетевых моделей BERT для ранжирования коротких текстов по близости эталону на основе оценки взаимного сходства их смыслов (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов), в том числе вариант с дообучением моделей ruSciBERT и SciRus-tiny для задач анализа смысловой близости отдельных предложений (Sentence Similarity) и текстов (Textual Similarity)^[1].

Расширение аннотаций научных статей заданной коллекции предложениями их вводных и заключительных частей при взаимном ранжировании по близости смысловому эталону (реализация на Python 3.10 + блокноты Jupyter Notebook и результаты экспериментов), в том числе вариант с возможностью удаления предложений из аннотации с целью максимизации её смысловой связности.

Расширение аннотаций научных статей предложениями их вводных и заключительных частей с максимизацией смысловой связности коллекции в целом (реализация на Python 3.10 — блокноты Jupyter Notebook и результаты экспериментов), в том числе:
- вариант без учёта и фиксации промежуточных шагов расширения исходной аннотации;
- разные варианты расширения, языковая модель sci-rus-tiny^[1].

Кластеризация многомерных векторов эмбеддингов для текстов «аннотация + заголовок» научных статей методом k-means, оценка близости эталонному варианту передачи смысла и построение траектории навигации пользователя по подборке (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов), в том числе со сравнением различных методов кластеризации (помимо k-means) применительно к эмбеддингам анализируемых текстов.

Оценивание специфичности содержания научных статей подборки на основе кластеризации эмбеддингов предложений в составе аннотаций (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов).

Инструментальные средства и библиотеки

Библиотека русской морфологии.

Apache OpenNLP — интегрированный пакет инструментов обработки текста. См. также описание пакета на NLPub.

Apache PDFBox — A Java PDF Library.

PDFMiner — Python PDF parser and analyzer.

Natural Language Toolkit — NLTK homepage.

Морфологический анализатор pymorphy2.

SyntaxNet: Neural Models of Syntax.

MaltParser — data-driven dependency parser.

Лингвистический комплекс NLTK4RUSSIAN.

Базы данных

Leipzig Corpora Collection Download Page.

Полезные ссылки

Основы обработки текстов — спецкурс для студентов ВМК МГУ и ФКН ВШЭ. Лектор — канд. физ.-мат. наук Турдаков Денис Юрьевич.

Китов В.В. Математические методы анализа текстов — обязательный спецкурс для магистров кафедры математических методов прогнозирования ВМК МГУ.

Проект АОТ.

WordNet: A Lexical Database for English. См. также Русский Wordnet.

Проект RussNet.

Лингвистическая онтология «Тезаурус РуТез».

Serelex: Поиск семантически связанных слов.

ParaPhraser: перефразирование и синонимизация текста.

Russian Paraphrase Detection Task.

Национальный корпус русского языка.

Google Books Ngram Viewer.

Кузнецов С.О. Решетки формальных понятий в современных методах анализа данных и знаний.

Fomichov, V.A. Semantics-Oriented Natural Language Processing: Mathematical Models and Algorithms. — New York, Dordrecht, Heidelberg, London: Springer, 1991. — ISBN 978-0-387-72924-4

Для самоконтроля

Примерный список вопросов к экзамену.

Примечания

К сожалению, незарегистрированные пользователи не видят литературных ссылок из раздела «Демо» (данный дефект системы находится в стадии проработки). Тем не менее, Вы можете найти цитируемый источник, используя вкладку «Просмотр» на данной странице.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D0%B0_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%94.%D0%92.%D0%9C%D0%B8%D1%85%D0%B0%D0%B9%D0%BB%D0%BE%D0%B2%29»

Категория: Учебные курсы

@@ Строка 180: / Строка 180: @@
 {{биб.статья
 |автор    = Mikhaylov D. V., Emelyanov G. M.
-|заглавие = [https://trebuchet.public.springernature.app/get_content/6f6138ae-d21e-445c-bc5e-b455276c82b1 Estimating the Quality of a Selection of Scientific PapersUsing a Collection of Short Texts]
+|заглавие = [https://link.springer.com/article/10.1134/S1054661823030288 Estimating the Quality of a Selection of Scientific PapersUsing a Collection of Short Texts]
 |ссылка   = https://www.pleiades.online/ru/journal/patrec/
 |издание  = Pattern Recognition and Image Analysis
@@ Строка 192: / Строка 192: @@
 * [https://portal.novsu.ru/file/1962982 Применение нейросетевых моделей BERT для оценки смысловой близости рефератов научных статей (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов)].
-* [https://portal.novsu.ru/file/1986783 Применение нейросетевых моделей BERT для ранжирования коротких текстов по близости эталону на основе оценки взаимного сходства их смыслов (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов)], в том числе [https://portal.novsu.ru/file/2123223 вариант с дообучением моделей ruSciBERT и SciRus-tiny для задач анализа смысловой близости отдельных предложений (Sentence Similarity) и текстов (Textual Similarity)].
+* [https://portal.novsu.ru/file/1986783 Применение нейросетевых моделей BERT для ранжирования коротких текстов по близости эталону на основе оценки взаимного сходства их смыслов (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов)], в том числе [https://portal.novsu.ru/file/2123223 вариант с дообучением моделей ruSciBERT и SciRus-tiny для задач анализа смысловой близости отдельных предложений (Sentence Similarity) и текстов (Textual Similarity)]<ref name="pria2024">
+{{биб.статья
+|автор    = Mikhaylov D. V., Emelyanov G. M.
+|заглавие = [https://link.springer.com/article/10.1134/S1054661824700792?utm_source=rct_congratemailt&utm_medium=email&utm_campaign=nonoa_20241017&utm_content=10.1134%2FS1054661824700792 Neural Network Language Models, Mutual Sense Affinity, and Short Text Ranking According to Closeness to a Semantic Standard]
+|ссылка   = https://www.pleiades.online/ru/journal/patrec/
+|издание  = Pattern Recognition and Image Analysis
+|год      = 2024
+|том      = 34
+|номер    = 3
+|страницы = 385–395
+}}
+</ref>.
+* [https://portal.novsu.ru/file/2135027 Расширение аннотаций научных статей заданной коллекции предложениями их вводных и заключительных частей при взаимном ранжировании по близости смысловому эталону (реализация на Python 3.10 + блокноты Jupyter Notebook и результаты экспериментов)], в том числе [https://portal.novsu.ru/file/2171075 вариант с возможностью удаления предложений из аннотации с целью максимизации её смысловой связности].
+* [https://portal.novsu.ru/file/2161333 Расширение аннотаций научных статей предложениями их вводных и заключительных частей с максимизацией смысловой связности коллекции в целом (реализация на Python 3.10 — блокноты Jupyter Notebook и результаты экспериментов)], в том числе:
+** [https://portal.novsu.ru/file/2166914 вариант без учёта и фиксации промежуточных шагов расширения исходной аннотации];
+** [https://portal.novsu.ru/file/2199162 разные варианты расширения, языковая модель ''sci-rus-tiny'']<ref name="pria2025">
+{{биб.статья
+|автор    = Mikhaylov D. V., Emelyanov G. M.
+|заглавие = [https://rdcu.be/eLz92 Neural Network Language Modeling and Identification of Significant Fragments in Scientific Articles to Nonredundantly Transfer Their Meaning]
+|ссылка   = https://www.pleiades.online/ru/journal/patrec/
+|издание  = Pattern Recognition and Image Analysis
+|год      = 2025
+|том      = 35
+|номер    = 3
+|страницы = 547–557
+}}
+</ref>.
-* [https://portal.novsu.ru/file/2135027 Расширение аннотаций научных статей заданной коллекции предложениями их вводных и заключительных частей при взаимном ранжировании по близости смысловому эталону (реализация на Python 3.10 + блокноты Jupyter Notebook и результаты экспериментов)].
+* [https://portal.novsu.ru/file/2289124 Кластеризация многомерных векторов эмбеддингов для текстов «аннотация + заголовок» научных статей методом ''k''-means, оценка близости эталонному варианту передачи смысла и построение траектории навигации пользователя по подборке (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов)], в том числе [https://portal.novsu.ru/file/2333458 со сравнением различных методов кластеризации (помимо ''k''-means) применительно к эмбеддингам анализируемых текстов].
-* [https://portal.novsu.ru/file/2161333 Расширение аннотаций научных статей предложениями их вводных и заключительных частей с максимизацией смысловой связности коллекции в целом (реализация на Python 3.10 — блокноты Jupyter Notebook и результаты экспериментов)].
+* [https://portal.novsu.ru/file/2355421 Оценивание специфичности содержания научных статей подборки на основе кластеризации эмбеддингов предложений в составе аннотаций (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов)].
 == Инструментальные средства и библиотеки ==
@@ Строка 247: / Строка 275: @@
 * [http://www.posp.raai.org/data/posp2011/kuznetsov.pdf Кузнецов С.О. Решетки формальных понятий в современных методах анализа данных и знаний].
+* {{книга
+|автор        = Fomichov, V.A.
+|заглавие     = Semantics-Oriented Natural Language Processing: Mathematical Models and Algorithms
+|издание      =
+|место        = New York, Dordrecht, Heidelberg, London
+|издательство = Springer
+|год          = 1991
+|pages        = 352
+|ссылка       = https://doi.org/10.1007/978-0-387-72926-8
+|isbn         = 978-0-387-72924-4
+}}
 == Для самоконтроля ==