Полигон алгоритмов коллаборативной фильтрации

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 17: Строка 17:
== Функциональные возможности системы ==
== Функциональные возможности системы ==
=== Требования ===
=== Требования ===
-
==== Полигон должен: ====
+
'''Полигон должен:'''
* Поддерживать способ удобной загрузки новых алгоритмов CF;
* Поддерживать способ удобной загрузки новых алгоритмов CF;
* обеспечивать интерфейс удобного описания нового эксперимента;
* обеспечивать интерфейс удобного описания нового эксперимента;
Строка 23: Строка 23:
* предоставлять данные на вход алгоритмам в стандартизованном виде;
* предоставлять данные на вход алгоритмам в стандартизованном виде;
* обрабатывать данные и генерировать отчеты.
* обрабатывать данные и генерировать отчеты.
-
==== Пользователь должен иметь возможность: ====
+
'''Пользователь должен иметь возможность:'''
* Загружать новый алгоритм в систему в виде независимого модуля/выполнимого файла;
* Загружать новый алгоритм в систему в виде независимого модуля/выполнимого файла;
* описывать параметры нового алгоритма;
* описывать параметры нового алгоритма;
-
* загружать новые данные в систему в стандартизованном виде;
+
* загружать новые данные в систему в установленном формате;
* тестировать все имеющиеся в репозитории алгоритмы на различных наборах данных.
* тестировать все имеющиеся в репозитории алгоритмы на различных наборах данных.
-
==== Реализации алгоритмов CF должны: ====
+
'''Реализации алгоритмов CF должны:'''
-
* Принимать на вход данные в стандартизованном виде;
+
* Принимать на вход данные в установленном формате;
* принимать на вход набор параметров алгоритма;
* принимать на вход набор параметров алгоритма;
* генерировать скрытые профили пользователей и ресурсов.
* генерировать скрытые профили пользователей и ресурсов.

Версия 08:02, 12 марта 2010

Содержание

Назначение системы

Система «Полигон алгоритмов коллаборативной фильтрации (collaborative filtering, CF)» будет служить платформой для испытания и тестирования новых алгоритмов CF, оценки успешности решения различных прикладных задач. Позволит сопоставить алгоритмы и построить выводы о целесообразности использования того или иного алгоритма для решения конкретной бизнес-задачи. А также позволит автору нового алгоритма выявить его недостатки, наметить области модернизации, направления совершенствования.

Пользователями Системы будут являться специалисты по анализу данных, эксперты в различных предметных областях, разработчики алгоритмов CF.

Цели создания «Полигона»

  • Создать коллектив единомышленников – специалистов в области создания рекомендующих систем на основе алгоритмов CF;
  • создать платформу для решения задач коллаборативной фильтрации, возникающих в различных предметных областях;
  • предоставить технологию пополнения библиотеки алгоритмов и базы задач;
  • предоставить методику тестирования различных алгоритмов CF;
  • выработать критерии оценки качества решения задач;
  • создать возможности для более удобного исследования свойств алгоритмов CF, в том числе собственных.

Функциональные возможности системы

Требования

Полигон должен:

  • Поддерживать способ удобной загрузки новых алгоритмов CF;
  • обеспечивать интерфейс удобного описания нового эксперимента;
  • обеспечивать хранение и работу с репозиторием алгоритмов CF;
  • предоставлять данные на вход алгоритмам в стандартизованном виде;
  • обрабатывать данные и генерировать отчеты.

Пользователь должен иметь возможность:

  • Загружать новый алгоритм в систему в виде независимого модуля/выполнимого файла;
  • описывать параметры нового алгоритма;
  • загружать новые данные в систему в установленном формате;
  • тестировать все имеющиеся в репозитории алгоритмы на различных наборах данных.

Реализации алгоритмов CF должны:

  • Принимать на вход данные в установленном формате;
  • принимать на вход набор параметров алгоритма;
  • генерировать скрытые профили пользователей и ресурсов.

Варианты постановок задач

Конкретныe прикладные задачи с данными

Netflix Prize
NetflixPrize.com, (данные)
480,000 пользователей
17,770 объектов
100,480,507 оценок
1.23% заполненность
Jester dataset
Anonymous Ratings from the Jester Online Joke Recommender System
  • 73,421 пользователей
    100 объектов
    ~4.1 миллиона оценок
    54.5% заполненность
  • 63,974 пользователей
    150 объектов
    ~1.7 миллионов оценок
    17.7% заполненность
MovieLens datasets
  • 100,000 ratings for 1682 movies by 943 users
  • 1 million ratings for 3900 movies by 6040 users
  • 10 million ratings and 100,000 tags for 10681 movies by 71567 users
LibimSeTi dating agency dataset
135,359 пользователей
168,791 объектов
17,359,346 оценок
0.76% заполненность
EachMovie dataset (supposed to be unavailable)
72,916 пользователей
1628 объектов
2,811,983 оценок
Book-Crossing Dataset
278,858 пользователей
271,379 объектов
1,149,780 оценок
0.0015% заполненность
Neilsen Media Research dataset
Media Metrix
UC Irvine Census data

TODO: check TheInfo Infochimps

Генераторы модельных данных, под какие алгоритмы CF заточены

Оценка качества

Функционалы для оценки качества (это оччень скользский вопрос!)

Графики, которые позволят судить о качестве алгоритмов и сравнивать их

Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,

См. также

Ссылки