Полигон алгоритмов коллаборативной фильтрации
Материал из MachineLearning.
Содержание |
Функциональные возможности системы
Требования
Полигон должен:
- работать с набором реализаций алгоритмов CF
- предоставлять данные на вход алгоритмам в стандартизованном виде
- обрабатывать результаты работы и генерировать отчеты
Пользователь должен иметь возможность:
- хммм
Реализации алгоритмов CF должны:
- хмм
Варианты постановок задач
Конкретныe прикладные задачи с данными
- Netflix Prize
- NetflixPrize.com, (данные)
- 480,000 пользователей
- 17,770 объектов
- 100,480,507 оценок
- 1.23% заполненность
- Jester dataset
- Anonymous Ratings from the Jester Online Joke Recommender System
- 73,421 пользователей
100 объектов
~4.1 миллиона оценок
54.5% заполненность - 63,974 пользователей
150 объектов
~1.7 миллионов оценок
17.7% заполненность
- 73,421 пользователей
- MovieLens datasets
- 100,000 ratings for 1682 movies by 943 users
- 1 million ratings for 3900 movies by 6040 users
- 10 million ratings and 100,000 tags for 10681 movies by 71567 users
- LibimSeTi dating agency dataset
- 135,359 пользователей
- 168,791 объектов
- 17,359,346 оценок
- 0.76% заполненность
- EachMovie dataset (supposed to be unavailable)
- 72,916 пользователей
- 1628 объектов
- 2,811,983 оценок
- Neilsen Media Research dataset
- Media Metrix
- UC Irvine Census data
TODO: check TheInfo Infochimps