Полигон алгоритмов коллаборативной фильтрации

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (TOCright)
(Конкретныe прикладные задачи с данными)
Строка 47: Строка 47:
: 1628 объектов
: 1628 объектов
: 2,811,983 оценок
: 2,811,983 оценок
 +
 +
; [http://www.informatik.uni-freiburg.de/~cziegler/BX/ Book-Crossing Dataset]
 +
: 278,858 пользователей
 +
: 271,379 объектов
 +
: 1,149,780 оценок
 +
: 0.0015% заполненность
; Neilsen Media Research dataset
; Neilsen Media Research dataset

Версия 17:06, 11 ноября 2009

Содержание

Функциональные возможности системы

Требования

Полигон должен:

  • работать с набором реализаций алгоритмов CF
  • предоставлять данные на вход алгоритмам в стандартизованном виде
  • обрабатывать результаты работы и генерировать отчеты

Пользователь должен иметь возможность:

  • хммм

Реализации алгоритмов CF должны:

  • хмм

Варианты постановок задач

Конкретныe прикладные задачи с данными

Netflix Prize
NetflixPrize.com, (данные)
480,000 пользователей
17,770 объектов
100,480,507 оценок
1.23% заполненность
Jester dataset
Anonymous Ratings from the Jester Online Joke Recommender System
  • 73,421 пользователей
    100 объектов
    ~4.1 миллиона оценок
    54.5% заполненность
  • 63,974 пользователей
    150 объектов
    ~1.7 миллионов оценок
    17.7% заполненность
MovieLens datasets
  • 100,000 ratings for 1682 movies by 943 users
  • 1 million ratings for 3900 movies by 6040 users
  • 10 million ratings and 100,000 tags for 10681 movies by 71567 users
LibimSeTi dating agency dataset
135,359 пользователей
168,791 объектов
17,359,346 оценок
0.76% заполненность
EachMovie dataset (supposed to be unavailable)
72,916 пользователей
1628 объектов
2,811,983 оценок
Book-Crossing Dataset
278,858 пользователей
271,379 объектов
1,149,780 оценок
0.0015% заполненность
Neilsen Media Research dataset
Media Metrix
UC Irvine Census data

TODO: check TheInfo Infochimps

Генераторы модельных данных, под какие алгоритмы CF заточены

Оценка качества

Функционалы для оценки качества (это оччень скользский вопрос!)

Графики, которые позволят судить о качестве алгоритмов и сравнивать их

Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,

См. также

Ссылки

Личные инструменты