Системы искусственного интеллекта (курс лекций, Д.В.Михайлов)
Материал из MachineLearning.
(→Полезные ссылки) |
|||
(92 промежуточные версии не показаны) | |||
Строка 1: | Строка 1: | ||
- | Дисциплина | + | Дисциплина «Системы искусственного интеллекта» для специальности 230105 важную роль в подготовке студентов к самостоятельной профессиональной деятельности в области интеллектуальных информационных технологий. Дисциплина «Системы искусственного интеллекта» для специальности 230105 относится к числу дисциплин специализации и читается в 9-м семестре. Она включает в себя рассмотрение основных вопросов современной теории и практики построения интеллектуальных систем (в первую очередь) символьной обработки и опирается на учебные курсы :«Дискретная математика», «Функциональное и логическое программирование», «Объектно-ориентированное программирование», «Базы данных», «Теория вычислительных процессов и структур», «Компьютерное моделирование», «Распознавание образов и обработка изображений» и «Человеко-машинное взаимодействие». Особое внимание уделяется моделированию языкового поведения человека при работе с базами знаний интеллектуальных информационно-поисковых систем. |
Включение данной дисциплины в учебный план заключительного учебного семестра перед преддипломной практикой и дипломным проектированием дает возможность студенту более четко сформулировать задачу на дипломное проектирование с точки зрения перспективных направлений интеллектуальных технологий компьютерной обработки информации. | Включение данной дисциплины в учебный план заключительного учебного семестра перед преддипломной практикой и дипломным проектированием дает возможность студенту более четко сформулировать задачу на дипломное проектирование с точки зрения перспективных направлений интеллектуальных технологий компьютерной обработки информации. | ||
Автор — [[Участник:Dmitry.Mikhaylov|Дмитрий Владимирович Михайлов]], | Автор — [[Участник:Dmitry.Mikhaylov|Дмитрий Владимирович Михайлов]], | ||
- | + | кафедра Информационных технологий и систем [http://www.novsu.ru Новгородского государственного университета им. Ярослава Мудрого (НовГУ)]. | |
- | Научный консультант | + | Научный консультант — д.т.н., профессор Емельянов Геннадий Мартинович |
+ | |||
+ | Представленный здесь вариант курса в 2020 году лёг в основу одноимённого учебного модуля по направлению подготовки «Информатика и вычислительная техника» (бакалавриат) в НовГУ. Актуальная редакция курса представлена на портале [https://do.novsu.ru/ «Дистанционные образовательные технологии обучения в НовГУ»] (требуется регистрация). | ||
== Содержание лекционных занятий == | == Содержание лекционных занятий == | ||
Строка 26: | Строка 28: | ||
* [[Media:Lect_8_ai_mdv.pdf|Представление знаний фреймами]] | * [[Media:Lect_8_ai_mdv.pdf|Представление знаний фреймами]] | ||
- | * [[Media:Lect_9_ai_mdv.pdf|Интерфейс на | + | * [[Media:Lect_9_ai_mdv.pdf|Интерфейс на естественном языке]] |
- | * [[Media:Lect10_ai_mdv.pdf|Лингвистические информационные ресурсы и их использование в задачах обработки | + | * [[Media:Lect10_ai_mdv.pdf|Лингвистические информационные ресурсы и их использование в задачах обработки естественного языка : семантические отношения в лексических базах данных. ]] |
- | * [[Media:Lect11_ai_mdv.pdf|О некоторых практических аспектах описания | + | * [[Media:Lect11_ai_mdv.pdf|О некоторых практических аспектах описания лексического значения слова в компьютерном словаре. ]] |
+ | |||
+ | == Дополнительные разделы по обработке и анализу текстов == | ||
+ | |||
+ | * [[Media:Syntan_mdv_pres.pdf|Синтаксический анализ текстов естественного языка: симбиоз формально-грамматических и вероятностных методов. ]] | ||
+ | |||
+ | * [[Media:Semnets_mdv_pres.pdf|Семантические сети и анализ связного текста. ]] | ||
== Содержание лабораторных занятий == | == Содержание лабораторных занятий == | ||
Строка 39: | Строка 47: | ||
* [[Media:lab3_ai_mdv.doc|Интерфейс на естественном языке к базе знаний интеллектуальной системы. ]] | * [[Media:lab3_ai_mdv.doc|Интерфейс на естественном языке к базе знаний интеллектуальной системы. ]] | ||
+ | |||
+ | == Дополнительные темы работ по моделям представления знаний == | ||
+ | |||
+ | * [http://www.novsu.ru/file/1086894 Продукционная модель представления знаний]. | ||
+ | |||
+ | * [http://www.novsu.ru/file/1104968 Представление знаний на основе семантической сети]. | ||
+ | |||
+ | == Демо == | ||
+ | |||
+ | * Отбор фраз текстового корпуса, максимально релевантных исходной: | ||
+ | ** [http://www.novsu.ru/file/1146133 на основе TF-IDF её слов]<ref name="compopt2015"> | ||
+ | {{биб.статья | ||
+ | |автор = Михайлов Д. В., Козлов А. П., Емельянов Г. М. | ||
+ | |заглавие = [http://www.computeroptics.smr.ru/KO/PDF/KO39-3/390319.pdf Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF] | ||
+ | |ссылка = http://www.computeroptics.smr.ru/ | ||
+ | |издание = Компьютерная оптика | ||
+ | |год = 2015 | ||
+ | |том = 39 | ||
+ | |номер = 3 | ||
+ | |страницы = 429–438 | ||
+ | }} | ||
+ | </ref>; | ||
+ | ** [http://www.novsu.ru/file/1195999 с привлечением базы синтаксических правил на основе численной оценки силы связи слов исходной фразы]<ref name="compopt2016"> | ||
+ | {{биб.статья | ||
+ | |автор = Михайлов Д. В., Козлов А. П., Емельянов Г. М. | ||
+ | |заглавие = [http://www.computeroptics.smr.ru/KO/PDF/KO40-4/400417.pdf Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов] | ||
+ | |ссылка = http://www.computeroptics.smr.ru/ | ||
+ | |издание = Компьютерная оптика | ||
+ | |год = 2016 | ||
+ | |том = 40 | ||
+ | |номер = 4 | ||
+ | |страницы = 572–582 | ||
+ | }} | ||
+ | </ref>; | ||
+ | ** [http://www.novsu.ru/file/1229881 анализом ''n''-грамм на найденных синтаксических связях слов исходной фразы]. | ||
+ | |||
+ | * [http://www.novsu.ru/file/1258899 Та же задача для случая более чем одной исходной фразы и оценки силы связи слов без синтаксических правил на основе классификации по TF-IDF]<ref name="compopt2017"> | ||
+ | {{биб.статья | ||
+ | |автор = Михайлов Д. В., Козлов А. П., Емельянов Г. М. | ||
+ | |заглавие = [http://www.computeroptics.smr.ru/KO/PDF/KO41-3/410320.pdf Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе ''n''-грамм] | ||
+ | |ссылка = http://www.computeroptics.smr.ru/ | ||
+ | |издание = Компьютерная оптика | ||
+ | |год = 2017 | ||
+ | |том = 41 | ||
+ | |номер = 3 | ||
+ | |страницы = 461–471 | ||
+ | }} | ||
+ | </ref>, в том числе: | ||
+ | ** [http://www.novsu.ru/file/1316653 вариант с факультативным учётом предлогов, союзов и междометий при выделении связей слов, а также оценкой (на основе найденных ''n''-грамм) релевантности текстового корпуса ситуации языкового употребления, задаваемой исходными фразами]; | ||
+ | ** [http://www.novsu.ru/file/1440241 вариант с оценкой близости исходных фраз смысловому эталону]<ref name="pria2018"> | ||
+ | {{биб.статья | ||
+ | |автор = Emelyanov G. M., Mikhailov D. V., Kozlov A. P. | ||
+ | |заглавие = [https://link.springer.com/content/pdf/10.1134%2FS1054661818040090.pdf Relevance of a Set of Topical Texts to a Knowledge Unit and the Estimation of the Closeness of Linguistic Forms of Its Expression to a Semantic Pattern] | ||
+ | |ссылка = https://www.pleiades.online/ru/journal/patrec/ | ||
+ | |издание = Pattern Recognition and Image Analysis | ||
+ | |год = 2018 | ||
+ | |том = 28 | ||
+ | |номер = 4 | ||
+ | |страницы = 771–782 | ||
+ | }} | ||
+ | </ref>. | ||
+ | |||
+ | * [http://www.novsu.ru/file/1493710 Отбор научных статей по степени близости смысловому эталону заголовка и фраз аннотации (реализация на Python 2.7)]<ref name="jphys2019"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://iopscience.iop.org/article/10.1088/1742-6596/1352/1/012034/pdf Selection of scientific articles according to the degree of proximity to the semantic pattern of the title and phrases of the abstract] | ||
+ | |ссылка = https://iopscience.iop.org/journal/1742-6596 | ||
+ | |издание = Journal of Physics: Conference Series | ||
+ | |год = 2019 | ||
+ | |том = 1352 | ||
+ | |страницы = 012034 | ||
+ | }} | ||
+ | </ref>, в том числе: | ||
+ | ** [http://www.novsu.ru/file/1504831 вариант с сортировкой анализируемых фраз по степени близости эталону и выделением ключевых сочетаний слов на основе меры TF-IDF]<ref name="pria2019"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://link.springer.com/content/pdf/10.1134%2FS1054661819040114.pdf Estimation of the closeness to a semantic pattern of a topical text without construction of periphrases] | ||
+ | |ссылка = https://www.pleiades.online/ru/journal/patrec/ | ||
+ | |издание = Pattern Recognition and Image Analysis | ||
+ | |год = 2019 | ||
+ | |том = 29 | ||
+ | |номер = 4 | ||
+ | |страницы = 647–653 | ||
+ | }} | ||
+ | </ref>, включая [http://www.novsu.ru/file/1580901 построение иерархии статей на основе оценок взаимной смысловой зависимости по аннотациям и заголовкам с учётом найденных ключевых сочетаний слов]<ref name="pria2020"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://link.springer.com/content/pdf/10.1134/S1054661820030207.pdf Hierarchization of topical texts based on the estimate of proximity to the semantic pattern without paraphrasing] | ||
+ | |ссылка = https://www.pleiades.online/ru/journal/patrec/ | ||
+ | |издание = Pattern Recognition and Image Analysis | ||
+ | |год = 2020 | ||
+ | |том = 30 | ||
+ | |номер = 3 | ||
+ | |страницы = 440–449 | ||
+ | }} | ||
+ | </ref>; | ||
+ | ** [http://www.novsu.ru/file/1688839 вариант с построением иерархии статей на основе оценок их взаимной смысловой зависимости и последующим оцениванием взаимной близости документов тематического корпуса, относительно которых достигалась наибольшая близость фраз эталону]<ref name="pria2021"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://link.springer.com/content/pdf/10.1134/S1054661821030172.pdf Analysis of the Mutual Relevance of Topical Corpus Documents in the Problem of Assessing the Proximity of Text to the Semantic Standard] | ||
+ | |ссылка = https://www.pleiades.online/ru/journal/patrec/ | ||
+ | |издание = Pattern Recognition and Image Analysis | ||
+ | |год = 2021 | ||
+ | |том = 31 | ||
+ | |номер = 3 | ||
+ | |страницы = 588–594 | ||
+ | }} | ||
+ | </ref>, а также [http://www.novsu.ru/file/1752845 численным оцениванием значимости каждого такого документа при подборе пары взаимно релевантных]<ref name="jphys2021"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://iopscience.iop.org/article/10.1088/1742-6596/2052/1/012027/pdf Ranking of documents of topical corpus according to their mutual relevance in the problem of estimating of affinity of a text to the sense standard] | ||
+ | |ссылка = https://iopscience.iop.org/journal/1742-6596 | ||
+ | |издание = Journal of Physics: Conference Series | ||
+ | |год = 2021 | ||
+ | |том = 2052 | ||
+ | |страницы = 012027 | ||
+ | }} | ||
+ | </ref>. | ||
+ | |||
+ | * [http://www.novsu.ru/file/1859320 Анализ документов тематического корпуса на предмет включения в состав референтного на основе встречаемости слов из аннотаций статей по заданной предметной области (реализация на Python 2.7)]<ref name="pria2022"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://rdcu.be/c2iQS Reference-Corpus Formation for Estimating the Closeness of Topical Texts to the Semantic Standard] | ||
+ | |ссылка = https://www.pleiades.online/ru/journal/patrec/ | ||
+ | |издание = Pattern Recognition and Image Analysis | ||
+ | |год = 2022 | ||
+ | |том = 32 | ||
+ | |номер = 4 | ||
+ | |страницы = 755–762 | ||
+ | }} | ||
+ | </ref>, а также [https://portal.novsu.ru/file/1953485 оценивание качества отбора документов в референтный корпус (реализация на Python 2.7 и (частично) на Python 3.10)]<ref name="pria2023"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://link.springer.com/article/10.1134/S1054661823030288 Estimating the Quality of a Selection of Scientific PapersUsing a Collection of Short Texts] | ||
+ | |ссылка = https://www.pleiades.online/ru/journal/patrec/ | ||
+ | |издание = Pattern Recognition and Image Analysis | ||
+ | |год = 2023 | ||
+ | |том = 33 | ||
+ | |номер = 3 | ||
+ | |страницы = 568–575 | ||
+ | }} | ||
+ | </ref>. | ||
+ | |||
+ | * [https://portal.novsu.ru/file/1962982 Применение нейросетевых моделей BERT для оценки смысловой близости рефератов научных статей (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов)]. | ||
+ | |||
+ | * [https://portal.novsu.ru/file/1986783 Применение нейросетевых моделей BERT для ранжирования коротких текстов по близости эталону на основе оценки взаимного сходства их смыслов (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов)], в том числе [https://portal.novsu.ru/file/2123223 вариант с дообучением моделей ruSciBERT и SciRus-tiny для задач анализа смысловой близости отдельных предложений (Sentence Similarity) и текстов (Textual Similarity)]<ref name="pria2024"> | ||
+ | {{биб.статья | ||
+ | |автор = Mikhaylov D. V., Emelyanov G. M. | ||
+ | |заглавие = [https://link.springer.com/article/10.1134/S1054661824700792?utm_source=rct_congratemailt&utm_medium=email&utm_campaign=nonoa_20241017&utm_content=10.1134%2FS1054661824700792 Neural Network Language Models, Mutual Sense Affinity, and Short Text Ranking According to Closeness to a Semantic Standard] | ||
+ | |ссылка = https://www.pleiades.online/ru/journal/patrec/ | ||
+ | |издание = Pattern Recognition and Image Analysis | ||
+ | |год = 2024 | ||
+ | |том = 34 | ||
+ | |номер = 3 | ||
+ | |страницы = 385–395 | ||
+ | }} | ||
+ | </ref>. | ||
+ | |||
+ | * [https://portal.novsu.ru/file/2135027 Расширение аннотаций научных статей заданной коллекции предложениями их вводных и заключительных частей при взаимном ранжировании по близости смысловому эталону (реализация на Python 3.10 + блокноты Jupyter Notebook и результаты экспериментов)], в том числе [https://portal.novsu.ru/file/2171075 вариант с возможностью удаления предложений из аннотации с целью максимизации её смысловой связности]. | ||
+ | |||
+ | * [https://portal.novsu.ru/file/2161333 Расширение аннотаций научных статей предложениями их вводных и заключительных частей с максимизацией смысловой связности коллекции в целом (реализация на Python 3.10 — блокноты Jupyter Notebook и результаты экспериментов)], в том числе: | ||
+ | ** [https://portal.novsu.ru/file/2166914 вариант без учёта и фиксации промежуточных шагов расширения исходной аннотации]; | ||
+ | ** [https://portal.novsu.ru/file/2199162 разные варианты расширения, языковая модель ''sci-rus-tiny'']. | ||
+ | |||
+ | == Инструментальные средства и библиотеки == | ||
+ | |||
+ | * [http://code.google.com/p/russianmorphology/ Библиотека русской морфологии]. | ||
+ | |||
+ | * [https://opennlp.apache.org/ Apache OpenNLP] — интегрированный пакет инструментов обработки текста. См. также [https://nlpub.ru/Apache_OpenNLP описание пакета на NLPub]. | ||
+ | |||
+ | * [https://pdfbox.apache.org Apache PDFBox — A Java PDF Library]. | ||
+ | |||
+ | * [https://euske.github.io/pdfminer/ PDFMiner — Python PDF parser and analyzer]. | ||
+ | |||
+ | * [https://www.nltk.org/ Natural Language Toolkit — NLTK homepage]. | ||
+ | |||
+ | * [https://pymorphy2.readthedocs.org/en/latest/ Морфологический анализатор pymorphy2]. | ||
+ | |||
+ | * [https://github.com/tensorflow/models/tree//master/research/syntaxnet SyntaxNet: Neural Models of Syntax]. | ||
+ | |||
+ | * [http://www.maltparser.org/ MaltParser — data-driven dependency parser]. | ||
+ | |||
+ | * [http://mathling.phil.spbu.ru/node/160 Лингвистический комплекс NLTK4RUSSIAN]. | ||
+ | |||
+ | == Базы данных == | ||
+ | |||
+ | * [http://corpora2.informatik.uni-leipzig.de/download.html Leipzig Corpora Collection Download Page]. | ||
== Полезные ссылки == | == Полезные ссылки == | ||
- | * [http:// | + | * [http://tpc.at.ispras.ru/ Основы обработки текстов] — спецкурс для студентов [[ВМиК|ВМК МГУ]] и [[Факультет компьютерных наук НИУ ВШЭ|ФКН ВШЭ]]. Лектор — канд. физ.-мат. наук [http://cs.msu.ru/persons/1372 Турдаков Денис Юрьевич]. |
+ | |||
+ | * [[Участник:Victor Kitov|Китов В.В.]] [[Математические методы анализа текстов (ВМиК МГУ) / 2017|Математические методы анализа текстов]] — обязательный спецкурс для магистров кафедры [[Mmp|математических методов прогнозирования]] [[ВМиК|ВМК МГУ]]. | ||
+ | |||
+ | * [http://nlpub.ru/АОТ Проект АОТ]. | ||
+ | |||
+ | * [https://wordnet.princeton.edu/ WordNet: A Lexical Database for English]. См. также [http://wordnet.ru Русский Wordnet]. | ||
+ | |||
+ | * [http://project.phil.spbu.ru/RussNet/index_ru.shtml Проект RussNet]. | ||
+ | |||
+ | * [http://www.labinform.ru/pub/ruthes/index.htm Лингвистическая онтология «Тезаурус РуТез»]. | ||
+ | |||
+ | * [http://serelex.cental.be/ Serelex: Поиск семантически связанных слов]. | ||
+ | |||
+ | * [http://paraphraser.ru/ ParaPhraser: перефразирование и синонимизация текста]. | ||
+ | |||
+ | * [https://ainlconf.ru/2016/paraphraser Russian Paraphrase Detection Task]. | ||
+ | |||
+ | * [http://www.ruscorpora.ru/ Национальный корпус русского языка]. | ||
+ | |||
+ | * [https://books.google.com/ngrams Google Books Ngram Viewer]. | ||
+ | |||
+ | * [http://www.posp.raai.org/data/posp2011/kuznetsov.pdf Кузнецов С.О. Решетки формальных понятий в современных методах анализа данных и знаний]. | ||
+ | |||
+ | * {{книга | ||
+ | |автор = Fomichov, V.A. | ||
+ | |заглавие = Semantics-Oriented Natural Language Processing: Mathematical Models and Algorithms | ||
+ | |издание = | ||
+ | |место = New York, Dordrecht, Heidelberg, London | ||
+ | |издательство = Springer | ||
+ | |год = 1991 | ||
+ | |pages = 352 | ||
+ | |ссылка = https://doi.org/10.1007/978-0-387-72926-8 | ||
+ | |isbn = 978-0-387-72924-4 | ||
+ | }} | ||
== Для самоконтроля == | == Для самоконтроля == | ||
[[Media:Exam_quest_ai_mdv.doc|Примерный список вопросов к экзамену. ]] | [[Media:Exam_quest_ai_mdv.doc|Примерный список вопросов к экзамену. ]] | ||
+ | |||
+ | == Примечания == | ||
+ | |||
+ | <references /> | ||
+ | |||
+ | ''К сожалению, незарегистрированные пользователи не видят литературных ссылок из раздела «Демо» (данный дефект системы находится в стадии проработки). Тем не менее, Вы можете найти цитируемый источник, используя вкладку «Просмотр» на данной странице''. | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Текущая версия
Дисциплина «Системы искусственного интеллекта» для специальности 230105 важную роль в подготовке студентов к самостоятельной профессиональной деятельности в области интеллектуальных информационных технологий. Дисциплина «Системы искусственного интеллекта» для специальности 230105 относится к числу дисциплин специализации и читается в 9-м семестре. Она включает в себя рассмотрение основных вопросов современной теории и практики построения интеллектуальных систем (в первую очередь) символьной обработки и опирается на учебные курсы :«Дискретная математика», «Функциональное и логическое программирование», «Объектно-ориентированное программирование», «Базы данных», «Теория вычислительных процессов и структур», «Компьютерное моделирование», «Распознавание образов и обработка изображений» и «Человеко-машинное взаимодействие». Особое внимание уделяется моделированию языкового поведения человека при работе с базами знаний интеллектуальных информационно-поисковых систем.
Включение данной дисциплины в учебный план заключительного учебного семестра перед преддипломной практикой и дипломным проектированием дает возможность студенту более четко сформулировать задачу на дипломное проектирование с точки зрения перспективных направлений интеллектуальных технологий компьютерной обработки информации.
Автор — Дмитрий Владимирович Михайлов, кафедра Информационных технологий и систем Новгородского государственного университета им. Ярослава Мудрого (НовГУ).
Научный консультант — д.т.н., профессор Емельянов Геннадий Мартинович
Представленный здесь вариант курса в 2020 году лёг в основу одноимённого учебного модуля по направлению подготовки «Информатика и вычислительная техника» (бакалавриат) в НовГУ. Актуальная редакция курса представлена на портале «Дистанционные образовательные технологии обучения в НовГУ» (требуется регистрация).
Содержание |
Содержание лекционных занятий
Дополнительные разделы по обработке и анализу текстов
Содержание лабораторных занятий
Дополнительные темы работ по моделям представления знаний
Демо
- Отбор фраз текстового корпуса, максимально релевантных исходной:
- Та же задача для случая более чем одной исходной фразы и оценки силы связи слов без синтаксических правил на основе классификации по TF-IDF[1], в том числе:
- Отбор научных статей по степени близости смысловому эталону заголовка и фраз аннотации (реализация на Python 2.7)[1], в том числе:
- вариант с сортировкой анализируемых фраз по степени близости эталону и выделением ключевых сочетаний слов на основе меры TF-IDF[1], включая построение иерархии статей на основе оценок взаимной смысловой зависимости по аннотациям и заголовкам с учётом найденных ключевых сочетаний слов[1];
- вариант с построением иерархии статей на основе оценок их взаимной смысловой зависимости и последующим оцениванием взаимной близости документов тематического корпуса, относительно которых достигалась наибольшая близость фраз эталону[1], а также численным оцениванием значимости каждого такого документа при подборе пары взаимно релевантных[1].
- Анализ документов тематического корпуса на предмет включения в состав референтного на основе встречаемости слов из аннотаций статей по заданной предметной области (реализация на Python 2.7)[1], а также оценивание качества отбора документов в референтный корпус (реализация на Python 2.7 и (частично) на Python 3.10)[1].
- Применение нейросетевых моделей BERT для ранжирования коротких текстов по близости эталону на основе оценки взаимного сходства их смыслов (реализация на Python 3.10 + блокнот Jupyter Notebook и результаты экспериментов), в том числе вариант с дообучением моделей ruSciBERT и SciRus-tiny для задач анализа смысловой близости отдельных предложений (Sentence Similarity) и текстов (Textual Similarity)[1].
- Расширение аннотаций научных статей заданной коллекции предложениями их вводных и заключительных частей при взаимном ранжировании по близости смысловому эталону (реализация на Python 3.10 + блокноты Jupyter Notebook и результаты экспериментов), в том числе вариант с возможностью удаления предложений из аннотации с целью максимизации её смысловой связности.
Инструментальные средства и библиотеки
- Apache OpenNLP — интегрированный пакет инструментов обработки текста. См. также описание пакета на NLPub.
Базы данных
Полезные ссылки
- Основы обработки текстов — спецкурс для студентов ВМК МГУ и ФКН ВШЭ. Лектор — канд. физ.-мат. наук Турдаков Денис Юрьевич.
- Китов В.В. Математические методы анализа текстов — обязательный спецкурс для магистров кафедры математических методов прогнозирования ВМК МГУ.
- Fomichov, V.A. Semantics-Oriented Natural Language Processing: Mathematical Models and Algorithms. — New York, Dordrecht, Heidelberg, London: Springer, 1991. — ISBN 978-0-387-72924-4
Для самоконтроля
Примерный список вопросов к экзамену.
Примечания
К сожалению, незарегистрированные пользователи не видят литературных ссылок из раздела «Демо» (данный дефект системы находится в стадии проработки). Тем не менее, Вы можете найти цитируемый источник, используя вкладку «Просмотр» на данной странице.