Полигон алгоритмов коллаборативной фильтрации

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Конкретныe прикладные задачи с данными)
(Конкретныe прикладные задачи с данными)
Строка 13: Строка 13:
: 168,791 объектов
: 168,791 объектов
: 17,359,346 оценок
: 17,359,346 оценок
 +
 +
; [http://eigentaste.berkeley.edu/dataset/ Jester dataset]
 +
: Anonymous Ratings from the [http://eigentaste.berkeley.edu/ Jester] Online Joke Recommender System
 +
:* 73,421 пользователей <br /> 100 объектов <br /> ~4.1 миллиона оценок
 +
:* 63,974 пользователей <br /> 150 объектов <br /> ~1.7 миллионов оценок
 +
 +
; EachMovie dataset (supposed to be unavailable)
 +
: 72,916 пользователей
 +
: 1628 объектов
 +
: 2,811,983 оценок
 +
 +
; [http://www.grouplens.org/node/73 MovieLens datasets]
 +
:* 100,000 ratings for 1682 movies by 943 users
 +
:* 1 million ratings for 3900 movies by 6040 users
 +
:* 10 million ratings and 100,000 tags for 10681 movies by 71567 users
 +
 +
; Neilsen Media Research dataset
 +
 +
; Media Metrix
 +
 +
; UC Irvine Census data
 +
 +
TODO: check [http://theinfo.org/ TheInfo] [http://infochimps.org/ Infochimps]
== Генераторов модельных данных, и под какие алгоритмы CF они заточены ==
== Генераторов модельных данных, и под какие алгоритмы CF они заточены ==

Версия 12:44, 11 ноября 2009

Содержание

Функциональные возможностей системы

Варианты постановок задач

Конкретныe прикладные задачи с данными

Netflix Prize
NetflixPrize.com, (данные)
480,000 пользователей
17,770 объектов
100,480,507 оценок
LibimSeTi dating agency dataset
135,359 пользователей
168,791 объектов
17,359,346 оценок
Jester dataset
Anonymous Ratings from the Jester Online Joke Recommender System
  • 73,421 пользователей
    100 объектов
    ~4.1 миллиона оценок
  • 63,974 пользователей
    150 объектов
    ~1.7 миллионов оценок
EachMovie dataset (supposed to be unavailable)
72,916 пользователей
1628 объектов
2,811,983 оценок
MovieLens datasets
  • 100,000 ratings for 1682 movies by 943 users
  • 1 million ratings for 3900 movies by 6040 users
  • 10 million ratings and 100,000 tags for 10681 movies by 71567 users
Neilsen Media Research dataset
Media Metrix
UC Irvine Census data

TODO: check TheInfo Infochimps

Генераторов модельных данных, и под какие алгоритмы CF они заточены

Оценка качества

Функционалы для оценки качество (это оччень скользский вопрос!)

Графики, которые позволят судить о качестве алгоритмов и сравнивать их

Графиков, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,

Личные инструменты