Машинное обучение как автоматизация научного метода
Материал из MachineLearning.
Машинное обучение как автоматизация научного метода — это взгляд на машинное обучение как на набор формальных процедур, автоматизирующих отдельные этапы эмпирического исследования. Наблюдения представляются в виде данных, гипотезы — в виде математических моделей, а их проверка — в виде обучения и тестирования на новых примерах.
Эта аналогия полезна, но не должна пониматься буквально. Машинное обучение не заменяет научный метод целиком. Оно не определяет самостоятельно, какие вопросы следует изучать, какие величины измерять и какие выводы считать научно значимыми. Кроме того, высокая точность предсказаний сама по себе не означает, что модель правильно объясняет изучаемое явление или устанавливает его причины.
Научный метод и машинное обучение
Научное исследование обычно начинается с наблюдений, измерений или экспериментов. На их основе формулируется гипотеза — предполагаемое объяснение обнаруженных закономерностей. Из гипотезы выводятся проверяемые следствия, после чего они сопоставляются с новыми наблюдениями.
В машинном обучении используется похожая последовательность действий:
| Этап научного исследования | Соответствующий этап машинного обучения |
|---|---|
| Наблюдения, измерения и эксперименты | Сбор и подготовка выборки данных |
| Формулирование гипотезы | Выбор класса моделей |
| Уточнение гипотезы по наблюдениям | Обучение параметров модели |
| Проверка следствий гипотезы | Тестирование на новых данных |
| Выбор наиболее простого достаточного объяснения | Ограничение сложности модели и регуляризация |
| Повторение эксперимента другими исследователями | Публикация данных, кода и протокола эксперимента |
| Обсуждение слабых мест и границ применимости | Анализ ошибок модели и честное описание ограничений |
Данные соответствия являются аналогиями, а не строгими тождествами. Например, успешное тестирование модели не доказывает истинность научной теории. Оно лишь показывает, что модель не была опровергнута в пределах проведённого эксперимента.
От наблюдений к выборке данных
В машинном обучении наблюдения представляются в виде объектов . Каждый объект описывается набором признаков:
Если задача относится к обучению с учителем, каждому объекту также ставится в соответствие правильный ответ . Получается обучающая выборка
Например, при предсказании стоимости квартиры объектом является квартира, признаками могут быть площадь, район, этаж и год постройки, а целевым значением — цена продажи.
Преобразование наблюдений в таблицу данных не является нейтральной технической операцией. Исследователь заранее решает:
- какие объекты включить в выборку;
- какие свойства измерять;
- каким способом проводить измерения;
- какие наблюдения считать ошибочными;
- какое значение использовать в качестве целевой переменной.
Поэтому ошибки постановки задачи нельзя исправить одним только выбором более сложного алгоритма. Если выборка не отражает исследуемую совокупность или важные свойства объектов не измеряются, модель может обнаружить закономерности, которые не будут выполняться в реальных условиях.
Гипотеза как математическая модель
В научном исследовании гипотеза задаёт предполагаемую связь между наблюдаемыми величинами. В машинном обучении её аналогом является класс моделей
где — предсказательная функция,
— объект, а
— параметры модели.
Например, в задаче линейной регрессии используется модель
Выбор линейной модели означает предположение, что целевая величина может быть приближённо представлена линейной комбинацией признаков. Если вместо неё выбирается дерево решений, нейронная сеть или композиция алгоритмов, изменяется не только вычислительный метод, но и множество зависимостей, которые модель способна представить.
Следует различать модель и алгоритм обучения. Модель задаёт семейство допустимых функций, а алгоритм обучения определяет, как по данным выбрать конкретные значения параметров .
Таким образом, машинное обучение не строит модель без предположений. Эти предположения могут быть явно заданы формулой, архитектурой нейронной сети, способом представления признаков, регуляризатором или процедурой оптимизации. Совокупность таких ограничений часто называют индуктивным предпочтением модели.
Обучение как эмпирическая проверка гипотезы
Чтобы сравнивать предсказания модели с наблюдаемыми ответами, задаётся функция потерь
Она принимает малое значение, если предсказание близко к правильному ответу, и большое значение при существенной ошибке.
Средняя ошибка на обучающей выборке называется эмпирическим риском:
Обучение модели часто формулируется как задача оптимизации:
где — регуляризатор, ограничивающий сложность модели, а
— коэффициент регуляризации.
В случае регрессии часто используется квадратичная функция потерь:
Минимизация суммы таких потерь приводит к методу наименьших квадратов.
Обучение можно рассматривать как подбор такой версии гипотезы, которая лучше всего согласуется с имеющимися наблюдениями. Однако малый эмпирический риск ещё не означает, что зависимость была восстановлена правильно. Достаточно сложная модель способна почти безошибочно запомнить обучающие примеры, но ошибаться на новых объектах.
Фальсифицируемость и проверка на новых данных
В философии науки принцип фальсифицируемости требует, чтобы гипотеза допускала возможность эмпирического опровержения. Если никакое возможное наблюдение не может противоречить утверждению, такое утверждение нельзя полноценно проверить экспериментом.
В машинном обучении приближённым аналогом этого принципа является проверка обученной модели на данных, которые не использовались при выборе её параметров.
Обычно данные разделяются на три части:
- обучающая выборка используется для оценки параметров модели;
- валидационная выборка используется для выбора модели и её гиперпараметров;
- тестовая выборка используется для окончательной оценки качества.
Если модель показывает малую ошибку на обучающих объектах, но большую ошибку на тестовых, то её способность восстанавливать общую закономерность ставится под сомнение.
Тестирование не доказывает, что модель будет работать при любых обстоятельствах. Оно проверяет её только на определённом наборе данных и при определённых условиях. Даже хорошая тестовая оценка может оказаться ненадёжной, если:
- тестовая выборка слишком мала;
- обучающие и тестовые объекты зависимы;
- в признаки случайно попала информация о правильных ответах;
- тестовая выборка многократно использовалась для настройки модели;
- условия применения отличаются от условий сбора данных.
Последний случай называют изменением распределения данных. Например, модель, обученная на изображениях, снятых одной камерой, может хуже работать на изображениях с другого устройства. Формально распределения обучающих и будущих данных могут различаться:
Следовательно, проверка на случайно отложенной части одной выборки является необходимым, но не всегда достаточным условием надёжности модели. Для серьёзного исследования полезна также проверка на внешних данных, собранных независимо.
Бритва Оккама и переобучение
Принцип, известный как бритва Оккама, рекомендует не усложнять объяснение без необходимости. В машинном обучении близкая идея используется при выборе сложности модели.
Рассмотрим приближение функции полиномом:
При увеличении степени полином получает больше параметров и может точнее пройти через обучающие точки. Однако при слишком большой степени он начинает воспроизводить случайные особенности конкретной выборки. Ошибка на обучающих данных уменьшается, а ошибка на новых данных возрастает. Это явление называется переобучение.
Борьба с переобучением может включать:
- ограничение числа параметров;
- регуляризацию;
- отбор признаков;
- кросс-валидацию;
- раннюю остановку обучения;
- увеличение объёма и разнообразия данных;
- сравнение с более простыми базовыми моделями.
Бритва Оккама не означает, что всегда следует выбирать самую примитивную модель. Слишком простая модель может не описывать реальную зависимость и приводить к недообучению. Требуется не минимальная сложность сама по себе, а минимальная достаточная сложность: модель должна быть достаточно выразительной для решения задачи, но не сложнее, чем позволяют обосновать данные.
Принцип соответствия и постепенное усложнение моделей
Согласно принципу соответствия, новая научная теория должна объяснять успешные результаты прежней теории и уточнять область её применимости.
В машинном обучении этот принцип выполняется не буквально. Новая модель не обязана содержать старую модель как частный случай. Тем не менее при проведении экспериментов полезно двигаться от простых методов к более сложным.
Например, перед обучением глубокой нейронной сети можно построить линейную модель или дерево решений. Такая базовая модель позволяет понять, действительно ли сложный метод даёт существенное улучшение.
Для определения вклада отдельных компонентов применяются абляционные эксперименты. В них из модели поочерёдно удаляются признаки, блоки архитектуры или элементы функции потерь. Если после удаления компонента качество не меняется, утверждение о его необходимости не подтверждается экспериментом.
Постепенное усложнение делает исследование более проверяемым. Если одновременно изменить архитектуру, данные, функцию потерь и процедуру обучения, становится трудно установить, какое именно изменение повлияло на результат.
Воспроизводимость
Результат исследования считается воспроизводимым, если другой исследователь может повторить описанную процедуру и получить сопоставимый результат.
Для воспроизводимости эксперимента по машинному обучению обычно необходимо указать:
- источник и версию данных;
- правила предварительной обработки;
- способ разделения данных;
- архитектуру и параметры модели;
- функцию потерь;
- алгоритм оптимизации;
- гиперпараметры;
- начальные значения генераторов случайных чисел;
- версии библиотек и программного обеспечения;
- используемое вычислительное оборудование;
- метрики и способ их вычисления.
Публикация программного кода и данных облегчает воспроизведение, но сама по себе его не гарантирует. Код может зависеть от отсутствующих библиотек, закрытых данных, неуказанных параметров или случайно сохранённого состояния вычислительной среды.
Особое значение имеет оценка статистической устойчивости результата. Если обучение зависит от случайной инициализации, недостаточно сообщить результат одного удачного запуска. Следует провести несколько запусков и указать среднее качество, разброс результатов и правила выбора итоговой модели.
Научная честность и анализ ограничений
Научное исследование должно описывать не только подтверждения предлагаемого метода, но и его слабые стороны.
В машинном обучении к научно добросовестной практике относятся:
- сравнение с сильными и корректно настроенными базовыми методами;
- использование одинаковых данных и метрик для сравниваемых моделей;
- публикация не только лучших, но и типичных результатов;
- анализ ошибок;
- описание неудачных экспериментов;
- указание вычислительной стоимости;
- проверка чувствительности к гиперпараметрам;
- описание области применимости модели;
- обсуждение возможных источников систематической ошибки.
Сравнение с лучшим известным результатом, или SOTA (State of the Art), имеет смысл только при одинаковых условиях эксперимента. Улучшение численного показателя может объясняться не новым методом, а дополнительными данными, большим вычислительным бюджетом, иной предварительной обработкой или многократным подбором решения под тестовый набор.
Многократная отправка моделей на открытый лидерборд также может привести к скрытому переобучению. Хотя ответы тестовой выборки неизвестны, исследователь постепенно получает информацию о ней через значения метрики.
Пример: исследование наследования роста
Исторический пример связи между эмпирическими данными и моделью связан с работами Фрэнсиса Гальтона. Он исследовал зависимость между ростом родителей и ростом взрослых детей.
После вычитания среднего роста в популяции можно рассмотреть простую линейную модель
где — отклонение роста родителя от среднего значения, а
— предсказываемое отклонение роста взрослого ребёнка.
Параметр оценивается методом наименьших квадратов:
Если получается , модель показывает, что дети очень высоких родителей в среднем также имеют рост выше среднего, но их отклонение от среднего обычно меньше. Аналогичное явление наблюдается для родителей с ростом ниже среднего. Этот эффект получил название регрессии к среднему.
Данный пример показывает основные этапы машинного обучения:
- проводятся измерения;
- выбираются признаки и целевая переменная;
- задаётся семейство моделей;
- параметры оцениваются по наблюдениям;
- качество проверяется на новых семьях;
- анализируются ошибки и ограничения модели.
Но линейная зависимость не является полным объяснением наследования роста. Она не разделяет влияние генетики, питания, условий жизни, возраста и других факторов. Поэтому хорошее предсказание статистической связи ещё не доказывает конкретный причинный механизм.
Предсказание, объяснение и причинность
Одна из главных границ аналогии между машинным обучением и научным методом состоит в различии между предсказанием и объяснением.
Модель может точно предсказывать значение по признакам
, не раскрывая механизм возникновения этой зависимости. Например, состояние дороги может хорошо предсказывать количество зонтов на улице, однако из этого не следует, что мокрая дорога заставляет людей брать зонты. Общей причиной обоих наблюдений является дождь.
Стандартное обучение с учителем обычно восстанавливает статистическую зависимость
но научные вопросы часто касаются последствий вмешательства: что произойдёт, если исследователь целенаправленно изменит некоторую величину. Для ответа на такие вопросы требуются дополнительные предположения, контролируемые эксперименты или методы причинного анализа.
Высокая предсказательная точность особенно полезна, когда требуется распознавание, прогнозирование или автоматизация решений. Однако она не делает модель автоматически объясняющей или причинной.
Границы автоматизации научного метода
Машинное обучение успешно автоматизирует поиск параметров в заранее заданном классе моделей. В некоторых случаях оно также помогает искать признаки, архитектуры и экспериментальные стратегии. Тем не менее ряд принципиальных решений остаётся за исследователем.
Исследователь определяет:
- какую проблему считать существенной;
- какие объекты и величины изучать;
- каким образом собирать данные;
- какую ошибку считать наиболее важной;
- какие ограничения являются допустимыми;
- как интерпретировать найденную закономерность;
- какие последствия применения модели приемлемы.
Функция потерь также выражает выбранную человеком цель. Оптимизируя заданную метрику, алгоритм не проверяет, соответствует ли она реальной цели исследования. Например, одинаковая средняя точность двух медицинских моделей не означает, что они одинаково безопасны: одна из них может значительно чаще ошибаться в наиболее опасных случаях.
Кроме того, машинное обучение работает с формализованными данными. Наблюдения, которые не были измерены или представлены в доступной форме, обычно остаются вне модели.
Таким образом, машинное обучение автоматизирует важную часть эмпирической индукции, но не устраняет необходимость в теории, экспериментальном дизайне, критическом анализе и содержательной интерпретации результатов.
Заключение
Машинное обучение можно рассматривать как частичную автоматизацию научного метода. Выборка данных соответствует формализованным наблюдениям, класс моделей — множеству гипотез, обучение — их согласованию с данными, а тестирование — проверке на новых наблюдениях.
Регуляризация и контроль сложности реализуют идею минимальной достаточности, открытые данные и код поддерживают воспроизводимость, а анализ ошибок и ограничений соответствует требованиям научной честности.
Однако аналогия имеет границы. Модель, успешно прошедшая тестирование, не становится доказанной научной теорией. Предсказательная точность не равна объяснению, а статистическая зависимость не равна причинности. Машинное обучение усиливает возможности исследователя, но качество научного результата по-прежнему зависит от постановки вопроса, организации эксперимента и критического анализа полученных выводов.
См. также
- Машинное обучение
- Эмпирическая индукция
- Минимизация эмпирического риска
- Переобучение
- Регуляризация
- Кросс-валидация
- Метод наименьших квадратов
- Причинно-следственный анализ
- Воспроизводимость исследований
Литература
- Бэкон Ф. Новый Органон. — 1620.
- Поппер К. The Logic of Scientific Discovery. — Routledge, 2002. — ISBN 978-0-415-27844-7
- Galton F. Regression towards Mediocrity in Hereditary Stature // The Journal of the Anthropological Institute of Great Britain and Ireland. — 1886. — Т. 15. — С. 246—263.
- Vapnik V. N. Statistical Learning Theory. — Wiley, 1998. — ISBN 978-0-471-03003-4
- Shalev-Shwartz S., Ben-David S. Understanding Machine Learning: From Theory to Algorithms. — Cambridge University Press, 2014. — ISBN 978-1-107-05713-5
- Breiman L. Statistical Modeling: The Two Cultures // Statistical Science. — 2001. — Т. 16. — № 3. — С. 199—231.
- Pearl J. Causality: Models, Reasoning, and Inference. — 2nd edition. — Cambridge University Press, 2009.
- Pineau J., Vincent-Lamarre P., Sinha K. et al. Improving Reproducibility in Machine Learning Research // Journal of Machine Learning Research. — 2021. — Т. 22. — № 164. — С. 1—20.
- Воронцов К. В. Философия. Введение в ИИ2026-07-01.

