Обсуждение:Практикум на ЭВМ (317)/2011-2012
Материал из MachineLearning.
(→Эксперимент 2) |
|||
Строка 1: | Строка 1: | ||
= Реальная задача «Topical Classification of Biomedical Research Papers» = | = Реальная задача «Topical Classification of Biomedical Research Papers» = | ||
- | + | == Постановка, данные == | |
- | = | + | Подробное описание задачи: [http://tunedit.org/challenge/JRS12Contest?m=task]. |
- | + | Объект (''журнальная статья'') описывается 25640 признаками --- целые числа 0...1000. Каждый признак означает насколько сильно журнальная статья связана с медецинским термином. Признаковые описания разреженные: большая часть признаков у одного объекта равны 0, что означает что одна журнальная статья связана лишь с небольшим числом медецинских терминов. | |
- | + | Имеется 83 тематик (''topics''). По признаковому описанию журнальной статьи нужно сказать, к каким тематикам она относится. Выход классификатора: подмножество чисел 1..83. | |
- | + | ||
- | + | ||
- | + | ||
- | + | '''Данные''': | |
+ | * тренировочная выборка, 10'000 объектов, для каждого объекта список тематик, к которым он относится | ||
+ | * тестовая выборка, 10'000 объектов | ||
- | + | На сайте соревнования выложены текстовые файлы с матрицами объект-признак, после распаковки они весят под 500МБ и очень долго считываются в матлаб. Я сделал MAT-файл [http://dl.dropbox.com/u/20300574/jrs12_topic/data.mat data.mat], в котором лежат sparse-матрицы (вид представления матриц в матлабе при котором запоминается список ненулевых элементов матрицы): | |
- | + | * <code>X</code>, <code>X_t</code> --- объект-признак для тренировочной и тестовой выборок; | |
+ | * <code>Y</code> --- матрица правильных ответов для тренировочной выборки, размера 10'000x83, в каждой строке стоят единицы на месте столбцов с номерами выбраных тематик. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
== Идеи == | == Идеи == | ||
- | |||
- | |||
- | |||
- | |||
- |
Версия 13:10, 9 февраля 2012
Реальная задача «Topical Classification of Biomedical Research Papers»
Постановка, данные
Подробное описание задачи: [1].
Объект (журнальная статья) описывается 25640 признаками --- целые числа 0...1000. Каждый признак означает насколько сильно журнальная статья связана с медецинским термином. Признаковые описания разреженные: большая часть признаков у одного объекта равны 0, что означает что одна журнальная статья связана лишь с небольшим числом медецинских терминов.
Имеется 83 тематик (topics). По признаковому описанию журнальной статьи нужно сказать, к каким тематикам она относится. Выход классификатора: подмножество чисел 1..83.
Данные:
- тренировочная выборка, 10'000 объектов, для каждого объекта список тематик, к которым он относится
- тестовая выборка, 10'000 объектов
На сайте соревнования выложены текстовые файлы с матрицами объект-признак, после распаковки они весят под 500МБ и очень долго считываются в матлаб. Я сделал MAT-файл data.mat, в котором лежат sparse-матрицы (вид представления матриц в матлабе при котором запоминается список ненулевых элементов матрицы):
-
X
,X_t
--- объект-признак для тренировочной и тестовой выборок; -
Y
--- матрица правильных ответов для тренировочной выборки, размера 10'000x83, в каждой строке стоят единицы на месте столбцов с номерами выбраных тематик.