Поиск почти-дубликатов в рукописных текстах школьных сочинений
Материал из MachineLearning.
Рассматривается задача поиска почти-дубликатов в коллекции школьных сочинениях. Актуальность задачи обсуловлена наличием больших библиотек школьных сочинений, которые могут использоваться школьниками в качестве источника заимствования при написании сочинения. Сочинение представляется набором изображений рукописного текста, написанного автором сочинения. Основные работы в области анализа текстов рукописных сочинений основаны на методах распознавания текста. Несмотря на успехи в области распознавания печатного текста, а также рукописного текста, написанного с использованием сенсорных устройств, использование данных методов для данной задачи затруднительно. В отличие от методов, применяемых для распознавания печатного текста, методы распознавания рукописного текста обладают достаточно низким качеством, не позволяющим использовать их для поиска заимствований в тексте сочинений. Особенностью данной задачи также является отсутствие возможности обучения на почерке автора сочинения, что также усложняет задачу.
Для решения задачи предлагается рассматривать текст, находящийся в изображении, как последовательность. Предлагается метод, заключающийся в выделении слов в изображении для дальнейшего извлечения графических признаков. Текст характеризуется нормализованными длинами извлеченных из изображения слов. Полученные статистики являются инвариантными по отношению к почерку автора, а также могут использоваться как для рукописных, так и для машиночитаемых текстов. Рассматриваются различные методы анализа и выравинивания полученных последовательностей. Для подтверждения работоспособности метода проводится эксперимент на выборке реальных изображений рукописных текстов школьных сочинений.
- Puigcerver J.Are multidimensional recurrent layers really necessaryfor handwritten text recognition? //2017 14th IAPR InternationalConference on Document Analysis and Recognition (ICDAR). – IEEE,2017. – Т. 1. – С. 67-72.
- Kuznetsov M., Motrenko A.,Kuznetsova R., Strijov V.. Methods forintrinsic plagiarism detection and author diarization. Notebook forPAN at CLEF 2016.
- Журавлев Ю. И. и др.Система распознавания интеллектуальныхзаимствований «Антиплагиат» //Математические методы распо-знавания образов. – 2005. – Т. 12. – No. 1. – С. 329-332.