Обсуждение:Практикум на ЭВМ (317)/2011-2012

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Эксперимент 2)
Строка 1: Строка 1:
= Реальная задача «Topical Classification of Biomedical Research Papers» =
= Реальная задача «Topical Classification of Biomedical Research Papers» =
-
Решаем задачу [http://tunedit.org/challenge/JRS12Contest JRS'12]. Такие дела.
+
== Постановка, данные ==
-
== Эксперименты ==
+
Подробное описание задачи: [http://tunedit.org/challenge/JRS12Contest?m=task].
-
=== Эксперимент 2 ===
+
Объект (''журнальная статья'') описывается 25640 признаками --- целые числа 0...1000. Каждый признак означает насколько сильно журнальная статья связана с медецинским термином. Признаковые описания разреженные: большая часть признаков у одного объекта равны 0, что означает что одна журнальная статья связана лишь с небольшим числом медецинских терминов.
-
Я сделал нечто очень полезное, я молодец? [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
+
Имеется 83 тематик (''topics''). По признаковому описанию журнальной статьи нужно сказать, к каким тематикам она относится. Выход классификатора: подмножество чисел 1..83.
-
:Да, да, молодец! [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
+
-
:Мог бы сделать что-нибудь гораздо более полезное, например [http://www.something.com/] [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
+
-
:Ничего полезного не сделал, потому что ... [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
+
-
=== Эксперимент 1 ===
+
'''Данные''':
 +
* тренировочная выборка, 10'000 объектов, для каждого объекта список тематик, к которым он относится
 +
* тестовая выборка, 10'000 объектов
-
Длиинное длиинное описание эксперимента, с формулами: <tex>E = mc^2</tex>. Исходный код и вывод программ, простые таблицы из чисел можно вставлять в вот такие вот рамочки:
+
На сайте соревнования выложены текстовые файлы с матрицами объект-признак, после распаковки они весят под 500МБ и очень долго считываются в матлаб. Я сделал MAT-файл [http://dl.dropbox.com/u/20300574/jrs12_topic/data.mat data.mat], в котором лежат sparse-матрицы (вид представления матриц в матлабе при котором запоминается список ненулевых элементов матрицы):
-
<nowiki><tex>E = mc^2</tex></nowiki>
+
* <code>X</code>, <code>X_t</code> --- объект-признак для тренировочной и тестовой выборок;
 +
* <code>Y</code> --- матрица правильных ответов для тренировочной выборки, размера 10'000x83, в каждой строке стоят единицы на месте столбцов с номерами выбраных тематик.
-
Еще описание...
 
-
Не забываем, что можно отделять смысловые куски при помощи абзацев.
 
-
Если нужно что-либо перечислить, можно использовать списки:
 
-
#пронумерованные
 
-
#арабскими
 
-
#цифрами
 
-
 
-
Список может быть без нумерации:
 
-
* C = 1e3
 
-
* Precision = 88.2%
 
-
* Recall = 72.8%
 
-
 
-
Если нужно, иллюстрируем эксперимент: [[Изображение:5DFig.png|thumb|Нечто очень нужное и полезное]]. Для этого нужно поставить ссылку на еще не загруженное изображение, например:
 
-
<nowiki>[[Изображение:JSR12_SVM_RBF_selectmodel.png|thumb|Подбор структурных параметров модели]]</nowiki>
 
-
После этого нажимаем на красную ссылку в рамочке и загружаем изображение. [[Изображение:JSR12_SVM_RBF_selectmodel.png|thumb|Подбор структурных параметров модели]]
 
-
 
-
В конце любой надписи в обсуждении ставим четыре тильды <nowiki>~~~~</nowiki>, вместо тильд вика подставит имя автора и время появления надписи (кстати, не забываем перед этим логиниться). [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 
-
:Ничо так... [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 
-
:Попробуй еще вот... [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 
== Идеи ==
== Идеи ==
-
* Идея 1 [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 
-
* Идея 2 [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 
-
: Ничего у тебя не получится, [http://prooflink.ru/ вот почему]. [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 
-
:: Ты не прав, все получится, [http://prooflink.ru/]! [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 
-
* Достаточно неплохая идея [[Участник:Peter Romov|Peter Romov]] 09:00, 9 февраля 2012 (MSK)
 

Версия 13:10, 9 февраля 2012

Реальная задача «Topical Classification of Biomedical Research Papers»

Постановка, данные

Подробное описание задачи: [1].

Объект (журнальная статья) описывается 25640 признаками --- целые числа 0...1000. Каждый признак означает насколько сильно журнальная статья связана с медецинским термином. Признаковые описания разреженные: большая часть признаков у одного объекта равны 0, что означает что одна журнальная статья связана лишь с небольшим числом медецинских терминов.

Имеется 83 тематик (topics). По признаковому описанию журнальной статьи нужно сказать, к каким тематикам она относится. Выход классификатора: подмножество чисел 1..83.

Данные:

  • тренировочная выборка, 10'000 объектов, для каждого объекта список тематик, к которым он относится
  • тестовая выборка, 10'000 объектов

На сайте соревнования выложены текстовые файлы с матрицами объект-признак, после распаковки они весят под 500МБ и очень долго считываются в матлаб. Я сделал MAT-файл data.mat, в котором лежат sparse-матрицы (вид представления матриц в матлабе при котором запоминается список ненулевых элементов матрицы):

  • X, X_t --- объект-признак для тренировочной и тестовой выборок;
  • Y --- матрица правильных ответов для тренировочной выборки, размера 10'000x83, в каждой строке стоят единицы на месте столбцов с номерами выбраных тематик.



Идеи

Личные инструменты