Обсуждение:Практикум на ЭВМ (317)/2011-2012

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Постановка, данные)
Строка 14: Строка 14:
На сайте соревнования выложены текстовые файлы с матрицами объект-признак, после распаковки они весят под 500МБ и очень долго считываются в матлаб. Я сделал MAT-файл [http://dl.dropbox.com/u/20300574/jrs12_topic/data.mat data.mat], в котором лежат sparse-матрицы (вид представления матриц в матлабе при котором запоминается список ненулевых элементов матрицы):
На сайте соревнования выложены текстовые файлы с матрицами объект-признак, после распаковки они весят под 500МБ и очень долго считываются в матлаб. Я сделал MAT-файл [http://dl.dropbox.com/u/20300574/jrs12_topic/data.mat data.mat], в котором лежат sparse-матрицы (вид представления матриц в матлабе при котором запоминается список ненулевых элементов матрицы):
-
* <code>X</code>, <code>X_t</code> --- объект-признак для тренировочной и тестовой выборок;
+
* <code>X</code>, <code>X_t</code> объект-признак для тренировочной и тестовой выборок;
-
* <code>Y</code> --- матрица правильных ответов для тренировочной выборки, размера 10'000x83, в каждой строке стоят единицы на месте столбцов с номерами выбраных тематик.
+
* <code>Y</code> матрица правильных ответов для тренировочной выборки, размера 10'000x83, в каждой строке стоят единицы на месте столбцов с номерами выбраных тематик.
-
 
+
 +
Матлаб функция, которая записывает результат классификации, представленный в виде матрицы Nx83 (как <code>Y</code>), в файл готовый для отправки в систему: [http://dl.dropbox.com/u/20300574/jrs12_topic/sparse2labels.m].
 +
[[Участник:Peter Romov|Peter Romov]] 16:15, 9 февраля 2012 (MSK)
== Идеи ==
== Идеи ==

Версия 13:15, 9 февраля 2012

Реальная задача «Topical Classification of Biomedical Research Papers»

Постановка, данные

Подробное описание задачи: [1].

Объект (журнальная статья) описывается 25640 признаками --- целые числа 0...1000. Каждый признак означает насколько сильно журнальная статья связана с медецинским термином. Признаковые описания разреженные: большая часть признаков у одного объекта равны 0, что означает что одна журнальная статья связана лишь с небольшим числом медецинских терминов.

Имеется 83 тематик (topics). По признаковому описанию журнальной статьи нужно сказать, к каким тематикам она относится. Выход классификатора: подмножество чисел 1..83.

Данные:

  • тренировочная выборка, 10'000 объектов, для каждого объекта список тематик, к которым он относится
  • тестовая выборка, 10'000 объектов

На сайте соревнования выложены текстовые файлы с матрицами объект-признак, после распаковки они весят под 500МБ и очень долго считываются в матлаб. Я сделал MAT-файл data.mat, в котором лежат sparse-матрицы (вид представления матриц в матлабе при котором запоминается список ненулевых элементов матрицы):

  • X, X_t — объект-признак для тренировочной и тестовой выборок;
  • Y — матрица правильных ответов для тренировочной выборки, размера 10'000x83, в каждой строке стоят единицы на месте столбцов с номерами выбраных тематик.

Матлаб функция, которая записывает результат классификации, представленный в виде матрицы Nx83 (как Y), в файл готовый для отправки в систему: [2].

Peter Romov 16:15, 9 февраля 2012 (MSK)

Идеи

Личные инструменты