Предрассудок
Материал из MachineLearning.
Предрассудок — мнение, предшествующее рассудку, усвоенное некритически, без размышления (согласно БСЭ и Википедии).
В работах М. М. Бонгарда 60-х годов XX века термин предрассудок употребляется в более узком смысле, фактически означающим переобучение. Строгого определения Бонгард не даёт, предпочитая пояснить это понятие примером.
Пример Бонгарда с книгами
Пусть человеку, не знающему ни итальянского, ни испанского языков, показали стопку итальянских и стопку испанских книг и сказали, что это объекты, соответственно, I и II классов. Во время поиска достаточных признаков этот человек (ничего не знающий об истинном принципе деления на классы) будет проверять формат книг, число страниц, размеры шрифта, чёткость печати, твёрдость переплёта, цвет обложки, и т.п. И если ему дали небольшое число книг каждого класса, то весьма вероятно, что он отберёт ложные признаки (у него появятся «предрассудки»). Если, например, случилось, что все итальянские книги были переплетены, а среди испанских нашлись две без переплёта, то у человека может создаться «предрассудок», что отсутствие переплёта свидетельствует о принадлежности книги к классу II.
Пусть человеку показали при обучении большое число книг каждого класса, и он решил отбирать только признаки, характеризующие много книг. В этом случае вероятность того, что, например, свойство переплёта отберётся в качестве полезного признака, будет мала. То же самое можно сказать и о любом другом предрассудке (толщине книги, формате и т.п.). Посмотрим, что произойдёт, если человек перейдёт от проверки таких простых признаков к сложным, составным признакам. Он может проверить разность числа слов на чётных и нечётных страницах. Или ту же разность на двадцать второй и двенадцатой страницах. Или произведение средней длины абзаца на на число страниц, начинающихся с абзаца. Или частное от деления числа точек на высоту шрифта и т.д. Вероятность того, что каждый такой предрассудок выдержит проверку, мала. Но сложных признаков существует чрезвычайно много. Поэтому может случиться, что, несмотря на малую вероятность отбора каждого из них, математическое ожидание числа отобранных предрассудков окажется большим. А это означает, что память начнёт забиваться предрассудками. Таким образом, «богатый выбор» не только увеличивает возможности обучаемой машины, но и чреват появлением предрассудков.
Литература
- Бонгард М. М. Проблема узнавания М.: Физматгиз, 1967.
См. также
- Бонгард, Михаил Моисеевич
- Моделирование мышления (школа Бонгарда)
- Оценка обобщающей способности (японская притча)
- Теория вычислительного обучения
- Теория Вапника-Червоненкиса
- Расслоение и сходство алгоритмов (виртуальный семинар)
- Теория надёжности обучения по прецедентам (курс лекций, К. В. Воронцов), глава про логические закономерности.