Репозиторий UCI
Материал из MachineLearning.
м |
м |
||
Строка 5: | Строка 5: | ||
== Использование Репозитория UCI == | == Использование Репозитория UCI == | ||
- | Преимущества использования | + | '''Преимущества''' использования общедоступного репозитория: |
* обеспечивается возможность воспроизведения и верификации результатов другими исследователями; | * обеспечивается возможность воспроизведения и верификации результатов другими исследователями; | ||
* поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу; | * поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу; | ||
* возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше. | * возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше. | ||
- | + | '''Результаты эмпирического анализа''' представляются в отчётах и публикациях в виде таблицы {{S|«задачи × алгоритмы»}}. Строки таблицы соответствуют задачам, столбцы — алгоритмам (в редких случаях, когда алгоритмов больше, чем задач, таблица строится в транспонированном виде {{S|«алгоритмы × задачи»}}). | |
- | {{S|В каждой}} ячейке таблицы показывается значения функционала качества. | + | {{S|В каждой}} ячейке таблицы показывается значения функционала качества для данного алгоритма на данной задаче. |
Как правило, это функционал [[скользящий контроль|скользящего контроля]], характеризующий [[обобщающая способность|обобщающую (предсказательную) способность]] алгоритма. | Как правило, это функционал [[скользящий контроль|скользящего контроля]], характеризующий [[обобщающая способность|обобщающую (предсказательную) способность]] алгоритма. | ||
Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки. | Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки. | ||
Строка 26: | Строка 26: | ||
{{S|по второй}} делается ''однократное окончательное сравнение'' алгоритмов. | {{S|по второй}} делается ''однократное окончательное сравнение'' алгоритмов. | ||
Рекомендуется, чтобы оба набора содержали несколько десятков задач. | Рекомендуется, чтобы оба набора содержали несколько десятков задач. | ||
+ | |||
+ | О методиках тестирования немного рассказно в [http://www-csli.stanford.edu/icml2k/craft.html статье Пэта Лэнгли]. | ||
== История == | == История == |
Версия 15:55, 2 апреля 2008
Репозиторий UCI (UCI Machine Learning Repository) — крупнейший репозиторий реальных и модельных задач машинного обучения. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, и др. Задачи (наборы данных, data set) именно этого репозитория чаще всего используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.
Репозиторий UCI создан в университете г.Ирвин (Калифорния, США).
Содержание |
Использование Репозитория UCI
Преимущества использования общедоступного репозитория:
- обеспечивается возможность воспроизведения и верификации результатов другими исследователями;
- поскольку задач много, существенно затрудняется «подгонка» алгоритма под одну конкретную задачу;
- возникает возможность выделять классы задач, для решения которых исследуемый алгоритм подходит лучше.
Результаты эмпирического анализа представляются в отчётах и публикациях в виде таблицы «задачи × алгоритмы». Строки таблицы соответствуют задачам, столбцы — алгоритмам (в редких случаях, когда алгоритмов больше, чем задач, таблица строится в транспонированном виде «алгоритмы × задачи»). В каждой ячейке таблицы показывается значения функционала качества для данного алгоритма на данной задаче. Как правило, это функционал скользящего контроля, характеризующий обобщающую (предсказательную) способность алгоритма. Чтобы оценить доверительные интервалы для значений качества, представленных в таблице, скользящий контроль выполняется многократно, обычно не менее 20 раз, по случайным разбиениям выборки.
Хорошей (но, к сожалению, редкой) практикой является применение методов дисперсионного анализа для проверки статистической значимости выявленых различий качества алгоритмов. Качество некоторых алгоритмов может оказаться неразличимым, если выполнено не достаточно много разбиений выборки.
Всегда существует опасность того, что результаты, представленные в таблице «задачи × алгоритмы», несколько смещены в оптимистичную сторону. Это происходит из-за того, что в процессе экспериментирования исследователь многократно строит эту таблицу, и если она ему не нравится (предложенный алгоритм не выходит в лидеры соревнования), он вручную подстраивает некоторые его параметры. По сути дела, эта та же подгонка под выборку, только выполняется она не компьютером, а самим исследователем. Как и всякая подгонка, она может приводить к переобучению, причём, чем больше вариантов перебрал исследователь, тем более существенным может оказаться эффект переобучения.
В последние годы всё большее распространение приобретает методика тестирования, когда набор задач делится на две части. По первой разрешается выполнять ручную подгонку алгоритма, по второй делается однократное окончательное сравнение алгоритмов. Рекомендуется, чтобы оба набора содержали несколько десятков задач.
О методиках тестирования немного рассказно в статье Пэта Лэнгли.
История
Первая версия архива собрана Дэвидом Аха (David Aha) и его студентами в 1987 году. Начиная с этого момента репозиторий широко использовался студентами, преподавателями и исследователями по всему миру как первичный источник данных для тестирования и сравнения алгоритмов машинного обучения. Текущая версия с новым веб-интерфейсом разработана в 2007 году и поддерживается Артуром Асунсьоном (Arthur Asuncion) и Дэвидом Ньюманом (David Newman).
Архив задач постоянно пополняется. На конец марта 2008 года число задач составляло 171, из них: классификация — 113, регрессия — 12, кластеризация — 5. В виде матрицы «объекты × признаки» представлены только 122 задачи, остальные имеют более сложную структуру данных. Более полная статистика по типам задач показана на странице [1].
Начиная с момента создания, более 1000 статей сослались на Репозиторий UCI, то есть содержали описания экспериментов, выполненых над задачами из UCI. Ссылка на Репозиторий UCI постоянно находится в числе 100 наиболее цитируемых источников в области информатики (computer science).
Цитирование
При публикации результатов исследований, в которых использовались задачи из Репозитория UCI, ссылка на Репозиторий обязательна:
- Asuncion A., Newman D.J. UCI Machine Learning Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html). Irvine, CA: University of California, School of Information and Computer Science. 2007.
Запись в формате BiBTeX:
@misc{Asuncion+Newman:2007, author = "A. Asuncion and D.J. Newman", year = "2007", title = "{UCI} Machine Learning Repository", url = "http://www.ics.uci.edu/$\sim$mlearn/{MLR}epository.html", institution = "University of California, Irvine, School of Information and Computer Sciences" }
Некоторые из задач требуют дополнительных ссылок, что отдельно указывается на веб-странице каждой задачи.
Ссылки
- UCI Machine Learning Repository — домашняя страница проекта.
- Data sets — список всех задач.
Литература
- Pat Langley. Crafting Papers on Machine Learning // Proc. 17th International Conf. on Machine Learning. 2000. Morgan Kaufmann, San Francisco, CA. Pp 1207-1212.