Полигон алгоритмов коллаборативной фильтрации

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Функциональные возможности системы)
Строка 1: Строка 1:
== Функциональные возможности системы ==
== Функциональные возможности системы ==
 +
 +
=== Требования ===
Полигон должен:
Полигон должен:
Строка 6: Строка 8:
* предоставлять данные на вход алгоритмам в стандартизованном виде
* предоставлять данные на вход алгоритмам в стандартизованном виде
* обрабатывать результаты работы и генерировать отчеты
* обрабатывать результаты работы и генерировать отчеты
 +
 +
Пользователь должен иметь возможность:
 +
 +
* хммм
 +
 +
Реализации алгоритмов CF должны:
 +
 +
* хмм
== Варианты постановок задач ==
== Варианты постановок задач ==

Версия 13:49, 11 ноября 2009

Содержание

Функциональные возможности системы

Требования

Полигон должен:

  • работать с набором реализаций алгоритмов CF
  • предоставлять данные на вход алгоритмам в стандартизованном виде
  • обрабатывать результаты работы и генерировать отчеты

Пользователь должен иметь возможность:

  • хммм

Реализации алгоритмов CF должны:

  • хмм

Варианты постановок задач

Конкретныe прикладные задачи с данными

Netflix Prize
NetflixPrize.com, (данные)
480,000 пользователей
17,770 объектов
100,480,507 оценок
1.23% заполненность
Jester dataset
Anonymous Ratings from the Jester Online Joke Recommender System
  • 73,421 пользователей
    100 объектов
    ~4.1 миллиона оценок
    54.5% заполненность
  • 63,974 пользователей
    150 объектов
    ~1.7 миллионов оценок
    17.7% заполненность
MovieLens datasets
  • 100,000 ratings for 1682 movies by 943 users
  • 1 million ratings for 3900 movies by 6040 users
  • 10 million ratings and 100,000 tags for 10681 movies by 71567 users
LibimSeTi dating agency dataset
135,359 пользователей
168,791 объектов
17,359,346 оценок
0.76% заполненность
EachMovie dataset (supposed to be unavailable)
72,916 пользователей
1628 объектов
2,811,983 оценок
Neilsen Media Research dataset
Media Metrix
UC Irvine Census data

TODO: check TheInfo Infochimps

Генераторы модельных данных, под какие алгоритмы CF заточены

Оценка качества

Функционалы для оценки качества (это оччень скользский вопрос!)

Графики, которые позволят судить о качестве алгоритмов и сравнивать их

Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,

Личные инструменты