Репозиторий UCI

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(дополнение, уточнение, логотип, ссылка на Полигон алгоритмов)
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
-
'''Репозиторий UCI''' (UCI Machine Learning Repository) — крупнейший репозиторий реальных и модельных задач [[машинное обучение|машинного обучения]]. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, {{S|и др.}} Задачи (наборы данных, data set) именно этого репозитория чаще всего используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.
+
[[Изображение:UCI-logo.gif|right]]
 +
'''Репозиторий UCI''' (UCI Machine Learning Repository) — крупнейший репозиторий реальных и модельных задач [[машинное обучение|машинного обучения]]. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, и др. Задачи (наборы данных, data set) именно этого репозитория чаще всего используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.
''Репозиторий UCI'' создан в университете г.Ирвин (Калифорния, США).
''Репозиторий UCI'' создан в университете г.Ирвин (Калифорния, США).
Строка 5: Строка 6:
== Использование Репозитория UCI ==
== Использование Репозитория UCI ==
-
Преимущества использования общего репозитория:
+
'''Преимущества''' использования общедоступного репозитория:
* обеспечивается возможность воспроизведения и верификации результатов другими исследователями;
* обеспечивается возможность воспроизведения и верификации результатов другими исследователями;
* поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу;
* поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу;
* возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше.
* возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше.
-
В публикациях результаты эмпирического анализа представляются в виде таблицы {{S|«задачи × алгоритмы»}}.
+
'''Результаты эмпирического анализа''' представляются в отчётах и публикациях в виде таблицы «задачи × алгоритмы». Строки таблицы соответствуют задачам, столбцы — алгоритмам (в редких случаях, когда алгоритмов больше, чем задач, таблица строится в транспонированном виде «алгоритмы × задачи»).
-
{{S|В каждой}} ячейке таблицы показывается значения функционала качества.
+
В каждой ячейке таблицы показывается значения функционала качества для данного алгоритма на данной задаче.
Как правило, это функционал [[скользящий контроль|скользящего контроля]], характеризующий [[обобщающая способность|обобщающую (предсказательную) способность]] алгоритма.
Как правило, это функционал [[скользящий контроль|скользящего контроля]], характеризующий [[обобщающая способность|обобщающую (предсказательную) способность]] алгоритма.
-
Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки.
+
Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки.
Хорошей (но, к сожалению, редкой) практикой является применение методов [[дисперсионный анализ|дисперсионного анализа]] для проверки статистической значимости выявленых различий качества алгоритмов.
Хорошей (но, к сожалению, редкой) практикой является применение методов [[дисперсионный анализ|дисперсионного анализа]] для проверки статистической значимости выявленых различий качества алгоритмов.
Качество некоторых алгоритмов может оказаться ''неразличимым'', если выполнено не достаточно много разбиений выборки.
Качество некоторых алгоритмов может оказаться ''неразличимым'', если выполнено не достаточно много разбиений выборки.
-
Всегда существует опасность того, что результаты, представленные в таблице {{S|«задачи × алгоритмы»}} несколько смещены в оптимистичную сторону.
+
Всегда существует опасность того, что результаты, представленные в таблице «задачи × алгоритмы», несколько смещены в оптимистичную сторону.
-
Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры. {{S|По сути дела}}, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем.
+
Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры.
-
Как и всякая подгонка, она может приводить к [[переобучению]], причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.
+
По сути дела, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем.
 +
Как и всякая подгонка, она может приводить к [[переобучение|переобучению]], причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.
В последние годы всё большее распространение приобретает методика тестирования, когда набор задач делится на две части.
В последние годы всё большее распространение приобретает методика тестирования, когда набор задач делится на две части.
-
{{S|По первой}} разрешается выполнять ручную подгонку алгоритма,
+
По первой разрешается выполнять ручную подгонку алгоритма,
-
{{S|по второй}} делается ''однократное окончательное сравнение'' алгоритмов.
+
по второй делается ''однократное окончательное сравнение'' алгоритмов.
Рекомендуется, чтобы оба набора содержали несколько десятков задач.
Рекомендуется, чтобы оба набора содержали несколько десятков задач.
 +
 +
О методиках тестирования немного рассказно в [http://www-csli.stanford.edu/icml2k/craft.html статье Пэта Лэнгли].
 +
См. также [[Полигон алгоритмов/Методика тестирования]].
== История ==
== История ==
Строка 34: Строка 39:
Архив задач постоянно пополняется.
Архив задач постоянно пополняется.
-
На конец марта 2008 года число задач {{S|составляло 171}}, из них:
+
На 1 октября 2008 года число задач составляло 174, из них:
-
{{S|[[классификация]] — 113}},
+
[[классификация]] — 115,
-
{{S|[[регрессия]] — 12}},
+
[[регрессия]] — 12,
-
{{S|[[кластеризация]] — 5}}.
+
[[кластеризация]] — 5.
-
{{S|В виде}} матрицы «объекты-признаки» представлены только {{S|122 задачи}}, остальные имеют более сложную структуру данных.
+
В  виде матрицы «объекты × признаки» представлены только 124 задачи, остальные имеют более сложную структуру данных.
-
Более полная статистика по типам задач показана на странице [http://archive.ics.uci.edu/ml/datasets.html].
+
Более полная статистика по типам задач показана на странице [http://archive.ics.uci.edu/ml/datasets.html Data sets].
Начиная с момента создания, более 1000 статей сослались на ''Репозиторий UCI'', то есть содержали описания экспериментов, выполненых над задачами из UCI. Ссылка на ''Репозиторий UCI'' постоянно находится в числе 100 наиболее цитируемых источников в области информатики (computer science).
Начиная с момента создания, более 1000 статей сослались на ''Репозиторий UCI'', то есть содержали описания экспериментов, выполненых над задачами из UCI. Ссылка на ''Репозиторий UCI'' постоянно находится в числе 100 наиболее цитируемых источников в области информатики (computer science).
Строка 61: Строка 66:
Некоторые из задач требуют дополнительных ссылок, что отдельно указывается на веб-странице каждой задачи.
Некоторые из задач требуют дополнительных ссылок, что отдельно указывается на веб-странице каждой задачи.
 +
 +
== См. также ==
 +
* [[Коллекция учебных задач]]
 +
* [[:Категория:Учебные задачи]]
 +
* [[:Категория:Конкурсы]]
 +
* [[Полигон алгоритмов]]
 +
* [[Полигон алгоритмов/Методика тестирования]]
== Ссылки ==
== Ссылки ==
-
# [http://archive.ics.uci.edu/ml/ UCI Machine Learning Repository] — домашняя страница проекта.
+
* [http://archive.ics.uci.edu/ml/ UCI Machine Learning Repository] — домашняя страница проекта.
-
# [http://archive.ics.uci.edu/ml/datasets.html Data sets] — список всех задач.
+
* [http://archive.ics.uci.edu/ml/datasets.html Data sets] — список всех задач.
== Литература ==
== Литература ==
-
# ''Pat Langley'' [http://www-csli.stanford.edu/icml2k/craft.html Crafting Papers on Machine Learning] // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.
+
# ''Pat Langley''. [http://www-csli.stanford.edu/icml2k/craft.html Crafting Papers on Machine Learning] // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.
[[Категория:Инструменты и технологии]]
[[Категория:Инструменты и технологии]]

Текущая версия

Репозиторий UCI (UCI Machine Learning Repository) — крупнейший репозиторий реальных и модельных задач машинного обучения. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, и др. Задачи (наборы данных, data set) именно этого репозитория чаще всего используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.

Репозиторий UCI создан в университете г.Ирвин (Калифорния, США).

Содержание

Использование Репозитория UCI

Преимущества использования общедоступного репозитория:

  • обеспечивается возможность воспроизведения и верификации результатов другими исследователями;
  • поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу;
  • возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше.

Результаты эмпирического анализа представляются в отчётах и публикациях в виде таблицы «задачи × алгоритмы». Строки таблицы соответствуют задачам, столбцы — алгоритмам (в редких случаях, когда алгоритмов больше, чем задач, таблица строится в транспонированном виде «алгоритмы × задачи»). В каждой ячейке таблицы показывается значения функционала качества для данного алгоритма на данной задаче. Как правило, это функционал скользящего контроля, характеризующий обобщающую (предсказательную) способность алгоритма. Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки.

Хорошей (но, к сожалению, редкой) практикой является применение методов дисперсионного анализа для проверки статистической значимости выявленых различий качества алгоритмов. Качество некоторых алгоритмов может оказаться неразличимым, если выполнено не достаточно много разбиений выборки.

Всегда существует опасность того, что результаты, представленные в таблице «задачи × алгоритмы», несколько смещены в оптимистичную сторону. Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры. По сути дела, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем. Как и всякая подгонка, она может приводить к переобучению, причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.

В последние годы всё большее распространение приобретает методика тестирования, когда набор задач делится на две части. По первой разрешается выполнять ручную подгонку алгоритма, по второй делается однократное окончательное сравнение алгоритмов. Рекомендуется, чтобы оба набора содержали несколько десятков задач.

О методиках тестирования немного рассказно в статье Пэта Лэнгли. См. также Полигон алгоритмов/Методика тестирования.

История

Первая версия архива собрана Дэвидом Аха (David Aha) и его студентами в 1987 году. Начиная с этого момента репозиторий широко использовался студентами, преподавателями и исследователями по всему миру как первичный источник данных для тестирования и сравнения алгоритмов машинного обучения. Текущая версия с новым веб-интерфейсом разработана в 2007 году и поддерживается Артуром Асунсьоном (Arthur Asuncion) и Дэвидом Ньюманом (David Newman).

Архив задач постоянно пополняется. На 1 октября 2008 года число задач составляло 174, из них: классификация — 115, регрессия — 12, кластеризация — 5. В  виде матрицы «объекты × признаки» представлены только 124 задачи, остальные имеют более сложную структуру данных. Более полная статистика по типам задач показана на странице Data sets.

Начиная с момента создания, более 1000 статей сослались на Репозиторий UCI, то есть содержали описания экспериментов, выполненых над задачами из UCI. Ссылка на Репозиторий UCI постоянно находится в числе 100 наиболее цитируемых источников в области информатики (computer science).

Цитирование

При публикации результатов исследований, в которых использовались задачи из Репозитория UCI, ссылка на Репозиторий обязательна:

Запись в формате BiBTeX:

@misc{Asuncion+Newman:2007,
   author      = "A. Asuncion and D.J. Newman",
   year        = "2007",
   title       = "{UCI} Machine Learning Repository",
   url         = "http://www.ics.uci.edu/$\sim$mlearn/{MLR}epository.html",
   institution = "University of California, Irvine, School of Information and Computer Sciences" 
} 

Некоторые из задач требуют дополнительных ссылок, что отдельно указывается на веб-странице каждой задачи.

См. также

Ссылки

Литература

  1. Pat Langley. Crafting Papers on Machine Learning // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.
Личные инструменты