Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)
Материал из MachineLearning.
м (→Частная постановка задачи) |
|||
Строка 156: | Строка 156: | ||
<tex>X_l = \int_{0}^{T/M * l} { ( \omega^{(1)}_t , \omega^{(2)}_t ) dt}</tex>. Для M=1 и D=2 множество <tex>X_l</tex> превращается в множество типа <tex>(i_1,j_1)</tex>, а множество функции плотности вероятности для двух интервалов (M=2) есть <tex>((i_1,j_1),(i_2,j_2))</tex>, где <tex>(i_1,j_1)</tex> - количества событий типа i и j, соответственно, которые произошли в интервале [0,T/2]. | <tex>X_l = \int_{0}^{T/M * l} { ( \omega^{(1)}_t , \omega^{(2)}_t ) dt}</tex>. Для M=1 и D=2 множество <tex>X_l</tex> превращается в множество типа <tex>(i_1,j_1)</tex>, а множество функции плотности вероятности для двух интервалов (M=2) есть <tex>((i_1,j_1),(i_2,j_2))</tex>, где <tex>(i_1,j_1)</tex> - количества событий типа i и j, соответственно, которые произошли в интервале [0,T/2]. | ||
: Известны результаты реализации этого случайного процесса, из которых можно построить эмпирическую плотность распределения <tex>f*(\omega_t)</tex>. | : Известны результаты реализации этого случайного процесса, из которых можно построить эмпирическую плотность распределения <tex>f*(\omega_t)</tex>. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
== Ссылки == | == Ссылки == | ||
Строка 208: | Строка 161: | ||
== Литература == | == Литература == | ||
# У. Гренандер, "Вероятности на алгебраических структурах". | # У. Гренандер, "Вероятности на алгебраических структурах". | ||
- | |||
- | |||
{{Stub}} | {{Stub}} | ||
[[Категория:Виртуальные семинары]] | [[Категория:Виртуальные семинары]] |
Версия 18:07, 8 марта 2009
Этот виртуальный семинар посвящён осбуждению некоторых обобщений классической задачи восстановления плотности распределения по конечной выборке данных.
Содержание |
Общие постановки задач
Основные особенности рассматриваемых здесь постановок задачи:
- имеется точная априорная информация о вероятности некоторых событий; это приводит к появлению дополнительных ограничений типа равенств в задаче максимизации правдоподобия;
- выборка может быть «немного» неоднородной;
- рассматривается несколько разновидностей задачи: объектами выборки могут быть как элементарные исходы, так и последовательности (временные ряды) элементарных исходов;
- рассматриваются только дискретные распределения (множество элементарных исходов конечно);
Стационарный однородный случай
Задано конечное множество элементарных исходов . Для каждого вероятность исхода неизвестна. Имеется информация двух типов:
- эмпирические данные: выборка наблюдений , случайных, независимых из распределения ;
- априорные ограничения: известны точные значения вероятностей событий :
Требуется найти оценки вероятностей исходов . Эти оценки должны вычисляться достаточно эффективно — за доли секунды при .
Предполагается, что число априорных ограничений много меньше числа элементарных исходов, поэтому однозначно определить вероятности исходов из априорной информации невозможно.
Обозначим через частоту исхода в выборке:
Непараметрическая оценка максимума правдоподобия
Найти оценку максимума правдоподобия, решив оптимизационную задачу
при ограничениях нормировки
и априорных ограничениях-равенствах
Вопросы:
- Решается ли данная задача аналитически? (предположительно, да)
- Обладают ли эти оценки свойствами несмещённости, состоятельности, эффективности? (предположительно, да)
- Какие свойста этих оценок «испортятся», и насколько сильно, если априорная информация будет не согласована с неизвестным истинным распределением, то есть с эмпирическими данными? (предположительно, возникнет смещение)
- Как число априорных ограничений влияет на дисперсию оценок? (предположительно, дисперсия уменьшается с ростом J)
Параметрическая оценка максимума правдоподобия
Эмпирических данных может оказаться не достаточно для получения надёжных оценок, особенно для маловероятных исходов. Тогда вводится ещё один тип информации — параметрическая модель распределения , где — фиксированная функция, — вектор параметров модели. Постановка задачи остаётся той же, только теперь решением задачи является вектор параметров .
Возможен также полупараметрический подход, когда вероятности часто встречающихся исходов (скажем, при ) оцениваются непараметрически, а маловероятные исходы оцениваются согласно параметрической модели.
Вопросы:
- Для каких параметрических моделей возможно получить эффективное численное решение?
- Как определить порог при полупараметрическом оценивании?
- Как ввести «размытый» порог, чтобы решение определялось моделью в тем большей степени, чем меньше , без резкого перехода от параметрического оценивания к непараметрическому?
Двухэтапное решение
Для получения вычислительно эффективного метода оценивания предлагается разделить решение задачи на два этапа.
Этап 1. Оценить вероятности исходов , параметрически или непараметрически, не учитывая априорные ограничения . Эта задача решается стандартными методами. Например, при непараметрическом подходе оценка максимума правдоподобия есть просто
Этап 2. Согласовать полученное на этапе 1 решение с априорными ограничениями. При параметрическом подходе согласование сводится к поиску таких оценок , которые в точности удовлетворяют априорным ограничениям и как можно лучше приближают модель. Например, можно воспользоваться приближением в среднеквадратичном:
- ,
при ограничениях нормировки и априорных ограничениях .
Вопросы:
- Обосновано ли применение метода наименьших квадратов (или какого-либо другого функционала) на втором этапе, если на первом этапе применяется принцип максимума правдоподобия?
- Эквивалентно ли двухэтапное решение исходной постановке задачи? (предположительно, нет)
- Хотя бы асимптотически? (предположительно, да)
- Что нужно сделать, чтобы они стали эквивалентными?
Стационарный неоднородный случай
Предположим, что объекты выборки взяты по-прежнему случайно и независимо, но теперь из разных (неизвестных) распределений . Для каждого объекта известны априорные ограничения — точные значения вероятностей событий . Для некоторого нового объекта , взятого из неизвестного распределения , также заданы априорные ограничения — точные значения вероятностей событий .
Требуется найти оценки вероятностей исходов . Эти оценки должны вычисляться достаточно эффективно.
Чтобы учесть неоднородность выборки, предлагается ввести веса объектов. Вес объекта тем меньше, чем сильнее отличаются априорные вероятности для объекта от априорных вероятностей для объекта . Далее вся методика, разработанная для однородного случая, переносится на неоднородный, с тем отличием, что теперь выборка взвешенная.
Функцию веса можно задать, опираясь на идею ядерного сглаживания:
где K — неотрицательная невозростающая функция, называемая ядром; h — ширина окна сглаживания.
Вопросы:
- Каким должно быть ядро?
- Как подобрать ширину окна, иными словами, как быстро должен убывать вес с возростанием различия априорных вероятностей?
- Какую метрику использовать для оценивания различия априорных вероятностей?
- Будет ли оценка состоятельной, несмещённой, эффективной? Как эти свойства зависят от ширины окна?
- Верна ли догадка, что ядерное сглаживание эквивалентно тихоновской регуляризации — введению штрафа за различия между неизвестными распределениями? Например так:
Нестационарный неоднородный случай
Нестационарная (динамическая) задача является дальнейшим обобщением стационарной (статической).
Теперь объектами являются не элементарные исходы, а последовательности элементарных исходов . Индекс будем называть временем. Время считается дискретным.
Задача состоит в восстановлении дискретной функции плотности вероятности (где - элементарные исходы, зависящие от времени , , где - дельта-функция Дирака. То есть, проще говоря, события разного вида происходят в случайные моменты времени ) ) при условии, что заданы условия на (где - суперпозиция финальных исходов (интегрированных по времени: )), - функция распределения вероятностей, - заданные вероятности, ).
Эмпирические частоты для заданы.
Для несмещенных оценок вероятностей в качестве функционала качества предлагается использовать: , где - оценки на вероятности исходов, которые строятся из элементарных исходов интегрированием по времени и суперпозицией получившихся исходов; сумма берется по полному набору исходов (n - полное число исходов в ), - истинные значения вероятностей.
Частная постановка задачи
В частном случае: D=2,
В качестве функционала качества можно принять среднее среди функционалов качества для интегральных по времени исходов для деления всего времени на M одинаковых интервалов: , где . Для M=1 и D=2 множество превращается в множество типа , а множество функции плотности вероятности для двух интервалов (M=2) есть , где - количества событий типа i и j, соответственно, которые произошли в интервале [0,T/2].
- Известны результаты реализации этого случайного процесса, из которых можно построить эмпирическую плотность распределения .
Ссылки
Литература
- У. Гренандер, "Вероятности на алгебраических структурах".