Полигон алгоритмов коллаборативной фильтрации
Материал из MachineLearning.
(Различия между версиями)
(→Функциональные возможности системы) |
|||
Строка 1: | Строка 1: | ||
== Функциональные возможности системы == | == Функциональные возможности системы == | ||
+ | |||
+ | === Требования === | ||
Полигон должен: | Полигон должен: | ||
Строка 6: | Строка 8: | ||
* предоставлять данные на вход алгоритмам в стандартизованном виде | * предоставлять данные на вход алгоритмам в стандартизованном виде | ||
* обрабатывать результаты работы и генерировать отчеты | * обрабатывать результаты работы и генерировать отчеты | ||
+ | |||
+ | Пользователь должен иметь возможность: | ||
+ | |||
+ | * хммм | ||
+ | |||
+ | Реализации алгоритмов CF должны: | ||
+ | |||
+ | * хмм | ||
== Варианты постановок задач == | == Варианты постановок задач == |
Версия 13:49, 11 ноября 2009
Содержание |
Функциональные возможности системы
Требования
Полигон должен:
- работать с набором реализаций алгоритмов CF
- предоставлять данные на вход алгоритмам в стандартизованном виде
- обрабатывать результаты работы и генерировать отчеты
Пользователь должен иметь возможность:
- хммм
Реализации алгоритмов CF должны:
- хмм
Варианты постановок задач
Конкретныe прикладные задачи с данными
- Netflix Prize
- NetflixPrize.com, (данные)
- 480,000 пользователей
- 17,770 объектов
- 100,480,507 оценок
- 1.23% заполненность
- Jester dataset
- Anonymous Ratings from the Jester Online Joke Recommender System
- 73,421 пользователей
100 объектов
~4.1 миллиона оценок
54.5% заполненность - 63,974 пользователей
150 объектов
~1.7 миллионов оценок
17.7% заполненность
- 73,421 пользователей
- MovieLens datasets
- 100,000 ratings for 1682 movies by 943 users
- 1 million ratings for 3900 movies by 6040 users
- 10 million ratings and 100,000 tags for 10681 movies by 71567 users
- LibimSeTi dating agency dataset
- 135,359 пользователей
- 168,791 объектов
- 17,359,346 оценок
- 0.76% заполненность
- EachMovie dataset (supposed to be unavailable)
- 72,916 пользователей
- 1628 объектов
- 2,811,983 оценок
- Neilsen Media Research dataset
- Media Metrix
- UC Irvine Census data
TODO: check TheInfo Infochimps