Полигон алгоритмов коллаборативной фильтрации
Материал из MachineLearning.
(Различия между версиями)
(→Конкретныe прикладные задачи с данными) |
|||
Строка 1: | Строка 1: | ||
- | == Функциональные | + | == Функциональные возможности системы == |
+ | |||
+ | Полигон должен: | ||
+ | |||
+ | * работать с набором реализаций алгоритмов CF | ||
+ | * предоставлять данные на вход алгоритмам в стандартизованном виде | ||
+ | * обрабатывать результаты работы и генерировать отчеты | ||
== Варианты постановок задач == | == Варианты постановок задач == | ||
Строка 8: | Строка 14: | ||
: 17,770 объектов | : 17,770 объектов | ||
: 100,480,507 оценок | : 100,480,507 оценок | ||
+ | : 1.23% заполненность | ||
+ | |||
+ | ; [http://eigentaste.berkeley.edu/dataset/ Jester dataset] | ||
+ | : Anonymous Ratings from the [http://eigentaste.berkeley.edu/ Jester] Online Joke Recommender System | ||
+ | :* 73,421 пользователей <br /> 100 объектов <br /> ~4.1 миллиона оценок <br /> 54.5% заполненность | ||
+ | :* 63,974 пользователей <br /> 150 объектов <br /> ~1.7 миллионов оценок <br /> 17.7% заполненность | ||
+ | |||
+ | ; [http://www.grouplens.org/node/73 MovieLens datasets] | ||
+ | :* 100,000 ratings for 1682 movies by 943 users | ||
+ | :* 1 million ratings for 3900 movies by 6040 users | ||
+ | :* 10 million ratings and 100,000 tags for 10681 movies by 71567 users | ||
; [http://www.occamslab.com/petricek/data/ LibimSeTi dating agency dataset] | ; [http://www.occamslab.com/petricek/data/ LibimSeTi dating agency dataset] | ||
Строка 13: | Строка 30: | ||
: 168,791 объектов | : 168,791 объектов | ||
: 17,359,346 оценок | : 17,359,346 оценок | ||
- | + | : 0.76% заполненность | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
; EachMovie dataset (supposed to be unavailable) | ; EachMovie dataset (supposed to be unavailable) | ||
Строка 23: | Строка 36: | ||
: 1628 объектов | : 1628 объектов | ||
: 2,811,983 оценок | : 2,811,983 оценок | ||
- | |||
- | |||
- | |||
- | |||
- | |||
; Neilsen Media Research dataset | ; Neilsen Media Research dataset | ||
Строка 37: | Строка 45: | ||
TODO: check [http://theinfo.org/ TheInfo] [http://infochimps.org/ Infochimps] | TODO: check [http://theinfo.org/ TheInfo] [http://infochimps.org/ Infochimps] | ||
- | == | + | == Генераторы модельных данных, под какие алгоритмы CF заточены == |
== Оценка качества == | == Оценка качества == | ||
- | === Функционалы для оценки | + | === Функционалы для оценки качества (это оччень скользский вопрос!) === |
=== Графики, которые позволят судить о качестве алгоритмов и сравнивать их === | === Графики, которые позволят судить о качестве алгоритмов и сравнивать их === | ||
- | === | + | === Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри, === |
Версия 13:24, 11 ноября 2009
Содержание |
Функциональные возможности системы
Полигон должен:
- работать с набором реализаций алгоритмов CF
- предоставлять данные на вход алгоритмам в стандартизованном виде
- обрабатывать результаты работы и генерировать отчеты
Варианты постановок задач
Конкретныe прикладные задачи с данными
- Netflix Prize
- NetflixPrize.com, (данные)
- 480,000 пользователей
- 17,770 объектов
- 100,480,507 оценок
- 1.23% заполненность
- Jester dataset
- Anonymous Ratings from the Jester Online Joke Recommender System
- 73,421 пользователей
100 объектов
~4.1 миллиона оценок
54.5% заполненность - 63,974 пользователей
150 объектов
~1.7 миллионов оценок
17.7% заполненность
- 73,421 пользователей
- MovieLens datasets
- 100,000 ratings for 1682 movies by 943 users
- 1 million ratings for 3900 movies by 6040 users
- 10 million ratings and 100,000 tags for 10681 movies by 71567 users
- LibimSeTi dating agency dataset
- 135,359 пользователей
- 168,791 объектов
- 17,359,346 оценок
- 0.76% заполненность
- EachMovie dataset (supposed to be unavailable)
- 72,916 пользователей
- 1628 объектов
- 2,811,983 оценок
- Neilsen Media Research dataset
- Media Metrix
- UC Irvine Census data
TODO: check TheInfo Infochimps