Участник:Raistlin/Литература
Материал из MachineLearning.
(Новая: ячс) |
|||
(1 промежуточная версия не показана) | |||
Строка 1: | Строка 1: | ||
- | + | 1) Сегалович И.В. [http://download.yandex.ru/company/spamooborona-latest.pdf Спамооборона] | |
+ | |||
+ | В статье дается обзор методов борьбы со спамом и способами его доставки. Объясняется, почему невозможно построить Идеальный Спам-Фильтр. В заключение приводится идея алгоритма "Супершингл Яндекса" (являющегося модификафией классического метода шинглов А. Бродера), используемого для поиска почти дубликатов. | ||
+ | |||
+ | |||
+ | 2) Сегалович И.В. [http://download.yandex.ru/company/iworld-3.pdf Как работают поисковые системы] | ||
+ | |||
+ | Обзор различных методов и подходов информационного поиска. Рассказывается про инвертированные файлы, упоминается использование алгоритма шинглов для исключения из поиска "очень похожих документов". | ||
+ | |||
+ | |||
+ | 3) [http://www.codeisart.ru/python-shingles-algorithm/ Python: Алгоритм Шинглов — поиск нечетких дубликатов текста] | ||
+ | |||
+ | [http://www.codeisart.ru/part-1-shingles-algorithm-for-web-documents/ Алгоритм шинглов для веб-документов] | ||
+ | |||
+ | В двух статьях "на пальцах" разбирается алгоритм шинглов, для наглядности приводится упрощенная реализация на Python. | ||
+ | |||
+ | |||
+ | 4) Зеленков Ю.Г, Сегалович И.В. [http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf Сравнительный анализ методов определения нечетких дубликатов для Web-документов] | ||
+ | |||
+ | Приводятся описания различных методов поиска дубликатов (в том числе и алгоритм шинглов) и их оценка качества. | ||
+ | |||
+ | |||
+ | 5) Астапова О. П. [http://modis.ispras.ru/seminar/wp-content/uploads/2012/10/Astapova-thesis.pdf Исследование и разработка методов нормализации слов русского языка] | ||
+ | |||
+ | Рассмотрены три алгоритма стемминга - Snowball (стеммер Портера), Stemka, Mystem (разработка Ильи Сегаловича) |
Текущая версия
1) Сегалович И.В. Спамооборона
В статье дается обзор методов борьбы со спамом и способами его доставки. Объясняется, почему невозможно построить Идеальный Спам-Фильтр. В заключение приводится идея алгоритма "Супершингл Яндекса" (являющегося модификафией классического метода шинглов А. Бродера), используемого для поиска почти дубликатов.
2) Сегалович И.В. Как работают поисковые системы
Обзор различных методов и подходов информационного поиска. Рассказывается про инвертированные файлы, упоминается использование алгоритма шинглов для исключения из поиска "очень похожих документов".
3) Python: Алгоритм Шинглов — поиск нечетких дубликатов текста
Алгоритм шинглов для веб-документов
В двух статьях "на пальцах" разбирается алгоритм шинглов, для наглядности приводится упрощенная реализация на Python.
4) Зеленков Ю.Г, Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов
Приводятся описания различных методов поиска дубликатов (в том числе и алгоритм шинглов) и их оценка качества.
5) Астапова О. П. Исследование и разработка методов нормализации слов русского языка
Рассмотрены три алгоритма стемминга - Snowball (стеммер Портера), Stemka, Mystem (разработка Ильи Сегаловича)