Участник:Raistlin/Литература

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: ячс)
Строка 1: Строка 1:
-
ячс
+
'''Всё, что касается алгоритма шинглов:'''
 +
 
 +
1) Сегалович И.В. [http://download.yandex.ru/company/spamooborona-latest.pdf Спамооборона]
 +
 
 +
В статье дается обзор методов борьбы со спамом и способами его доставки. Объясняется, почему невозможно построить Идеальный Спам-Фильтр. В заключение приводится идея алгоритма "Супершингл Яндекса" (являющегося модификафией классического метода шинглов А. Бродера), используемого для поиска почти дубликатов.
 +
 
 +
 
 +
2) Сегалович И.В. [http://download.yandex.ru/company/iworld-3.pdf Как работают поисковые системы]
 +
 
 +
Обзор различных методов и подходов информационного поиска. Рассказывается про инвертированные файлы, упоминается использование алгоритма шинглов для исключения из поиска "очень похожих документов".
 +
 
 +
 
 +
3) [http://www.codeisart.ru/python-shingles-algorithm/ Python: Алгоритм Шинглов — поиск нечетких дубликатов текста]
 +
 
 +
[http://www.codeisart.ru/part-1-shingles-algorithm-for-web-documents/ Алгоритм шинглов для веб-документов]
 +
 
 +
В двух статьях "на пальцах" разбирается алгоритм шинглов, для наглядности приводится упрощенная реализация на Python.
 +
 
 +
 
 +
3) Зеленков Ю.Г, Сегалович И.В. [http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf Сравнительный анализ методов определения нечетких дубликатов для Web-документов]
 +
 
 +
Приводятся описания различных методов поиска дубликатов (в том числе и алгоритм шинглов) и их оценка качества.

Версия 00:53, 5 февраля 2013

Всё, что касается алгоритма шинглов:

1) Сегалович И.В. Спамооборона

В статье дается обзор методов борьбы со спамом и способами его доставки. Объясняется, почему невозможно построить Идеальный Спам-Фильтр. В заключение приводится идея алгоритма "Супершингл Яндекса" (являющегося модификафией классического метода шинглов А. Бродера), используемого для поиска почти дубликатов.


2) Сегалович И.В. Как работают поисковые системы

Обзор различных методов и подходов информационного поиска. Рассказывается про инвертированные файлы, упоминается использование алгоритма шинглов для исключения из поиска "очень похожих документов".


3) Python: Алгоритм Шинглов — поиск нечетких дубликатов текста

Алгоритм шинглов для веб-документов

В двух статьях "на пальцах" разбирается алгоритм шинглов, для наглядности приводится упрощенная реализация на Python.


3) Зеленков Ю.Г, Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов

Приводятся описания различных методов поиска дубликатов (в том числе и алгоритм шинглов) и их оценка качества.

Личные инструменты