Обсуждение:Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Полностью удалено содержимое страницы)
 
(1 промежуточная версия не показана)
Строка 1: Строка 1:
-
== Обсуждение ==
 
-
* > ...Время считается дискретным...
 
-
*# Подход, в котором плотность вначале представляется как непрерывная функция времени, мне представляется лучшим. Поскольку в таком подходе можно выбирать различное число интервалов разбиения. Интересно, что
 
-
<tex>\omega = \int_{0}^{T} {w_t dt} = (i_1, ...,i_D) = super(seq_{l=1,M} {\int_{T/M*(l-1)+\delta_+}^{T/M*l} {w_t dt}}) = super ( (s^{(1)}_1,...,s^{(1)}_D),...,(s^{(M)}_1,...,s^{(M)}_D)) = (s^{(1)}_1,...,s^{(1)}_D) | ... | (s^{(M)}_1,...,s^{(M)}_D) </tex>, где seq - операция построения последовательности, а super (или <tex>|</tex>) - операция суперпозиции (сложения) многомерных дискретных элементарных исходов (<tex>s^{(r)}_k</tex> - число исходов типа k в интервале r).| [[Участник:ADY|ADY]] 11:31, 6 августа 2008 (MSD)
 
-
* > ...это приводит к появлению дополнительных ограничений типа равенств в задаче максимизации правдоподобия;...
 
-
*# Это справедливо только в параметрическом случае и в случае, когда обратные функции (которые появятся при решении связей) будут удовлетворять некоторым условиям? | [[Участник:ADY|ADY]] 11:31, 6 августа 2008 (MSD)
 
-
*# Максимизация правдоподобия - только один из методов получения оценок (пусть даже и с "хорошими" свойствами).
 
-
* > ...выборка может быть «немного» неоднородной;...
 
-
*# Если вводить веса (через ядро), то, такое впечатление, это эквивалентно тому, что мы делаем выборку однородной, но во всех функционалах учитываем веса. Если решение пойдет по этому пути, тогда можно подумать на тему введения весов для каждого элемента эмпирических данных? | [[Участник:ADY|ADY]] 11:31, 6 августа 2008 (MSD)
 
-
 
-
* Проблема: Можно ли использовать на первом этапе, в качестве оценок эмпирические данные (частоты) (без поиск параметрических или основанных на ядрах оценок)?
 
-
* Обсуждение: скорей всего да, то нужно накладывать дополнительные условия (типа <tex>P_i(n+1)>P_i(n)</tex>, начиная с некоторого n, и <tex>P_i(n)<P_j(n)</tex>, при некоторых условиях на заданные функционалы), трансформировать плотности соответствующим образом и проверять качество этих допущений.
 
-
 
-
== Дальнейшее обобщение задачи. Другие проблемы ==
 
-
 
-
* Если ввести гипотезу о том, что семейство распределений зависит от величин связи <tex>W_1</tex>, <tex>W_2</tex> и построить решетку для параметров <tex>W_1</tex>, <tex>W_2</tex>, то соседние распределения (как по <tex>W_1</tex>, так и по <tex>W_2</tex>) будут удовлетворять некоторым условиям. Например, известны условия монотонности (по <tex>W_1</tex> и по <tex>W_2</tex>) для вероятностей некоторых исходов. Следовательно, следует потребовать выполнения этих условий для оценок вероятностей. Кроме того, для каждого распределения известны некоторые разумные ("внутренние") условия на вероятности, выполнение которых тоже целесообразно потребовать для оценок на вероятности. Это нужно учитывать при построении параметрических и непараметрических оценок.
 
-
 
-
* При восстановлении плотности (для выбранного числа интервалов) в качестве функционала качества хотелось бы принять описанный функционал:
 
-
<tex>q(Pr')= 1/M \sum_{l=1,M}(1/n_l \sum_ {X_l \in \Omega_{X_l}} {Pr_l\{ X \} / Pr_l'\{ X_l \} } - 1)^2</tex>.
 
-
Возможно, этот функционал можно как-то упростить.
 
-
* Нужны критерии для сравнения различных плотностей и схема тестирования.
 
-
* Хотелось бы построить доверительные интервалы для оценок плотностей. При построении доверительных интервалов можно отказаться от квадратичного функционала при оценки вероятностей сверху использовать минимизацию:
 
-
<tex>q(Pr')= 1/M \sum_{l=1,M}(1/n_l \sum_ {X_l \in \Omega_{X_l}} {Pr_l\{ X \} / Pr_l'\{ X_l \} } - 1)</tex>,
 
-
а при оценки снизу минимизировать: <tex>q(Pr')= - 1/M \sum_{l=1,M}(1/n_l \sum_ {X_l \in \Omega_{X_l}} {Pr_l\{ X \} / Pr_l'\{ X_l \} } - 1)</tex>, для <tex>Pr_l'\{ X_l \} > \epsilon</tex> (где <tex>\epsilon</tex> - мин. допустимая оценка на вероятность).
 
-
* В задаче, оценки на вероятность всегда имеют некоторую естественную ошибку (обозначим ее <tex>\epsilon_0</tex>), не связанную с величиной выборки. Ее природа в невозможности точно отнести эмпирические данные к одному из семейству распределений. Поэтому, нет смысла строить бесконечно точные оценки (точные оценки в пределе): достаточно строить оценки, точноcть которых быстро стремиться к <tex>\epsilon_0</tex> при росте числа элементов выборки. В частной постановке задачи <tex>\epsilon_0 = 10^{-3}</tex>.
 
-
| [[Участник:ADY|ADY]] 12:13, 6 августа 2008 (MSD)
 
-
* Условие задачи можно расширить, учитывая дополнительное условие, что со всеми эмпирическими данными (то есть данными о реализациях изучаемого случайного процесса) идут некоторые оценки значений связей <tex>P_j</tex>. Следовательно, выборки и выделение различных распределений, можно генерировать на основе этих данных о связях (и, соответственно, появляется новая задача - разбиение всех эмпирических данных на классы, согласно эмпирических данным и оценкам на значения <tex>P_j</tex>). | [[Участник:ADY|ADY]] 16:18, 11 августа 2008 (MSD)
 
-
* Смысл построения оценок, удовлетворяющих (заданным) связям, состоит в том, что рассматривается случай, когда связи известны более точно, чем групповые значения связей (групповые значения связей - значения связей, которые усреднены по группе. Группы случаев построены по значениям этих связей). То есть, по значениям связей можно не только указать группу, которой данный случай принадлежит, но и (статистически значимое) "положение" этого случая среди остальных (как соотносятся (или должны соотносится) погрешность значения связи, ширина группы и <tex>\epsilon_0</tex> - следует еще выяснять). Таким образом, учет более точных значений связей - это просто способ учесть некоторую новую информацию о системе. | [[Участник:ADY|ADY]] 12:12, 28 октября 2008 (MSK)
 
-
* Стоит также задача, как наиболее оптимально, выделить маргинальные частотные плотности <tex>\nu_i(\{i\})</tex> и <tex>\nu_j(\{j\})</tex> из совместной эмпирической плотности <tex>\nu_{i,j}(\{i,j\})</tex>. Допустимость независимого выделения этих плотностей, например, как <tex>\nu_i(\{i\}) = \nu_i(\{i, \every j \in \{0,1,...\}\})</tex>, требует дополнительного анализа, поскольку в этом случае <tex>\nu_i(\{0\}) \nu_j(\{0\}) \ne \nu_{i,j}(\{0,0\})</tex>, хотя известно, что <tex>\nu_{i,j}(\{0,0\})</tex> - вполне нормальная оценка для <tex>P_{i,j}(\{0,0\})</tex>. | [[Участник:ADY|ADY]] 16:13, 20 августа 2008 (MSD)
 
-
 
-
== Особенности восстановления плотности через максимизацию правдоподобия (для интегральных исходов) ==
 
-
 
-
* Есть впечатление, что восстановления плотности через максимизацию правдоподобия для интегральных исходов имеет некоторые особенности. Например, в следующей картинке видно, что оценка "угадывает" наличие "горба", но "не угадывает" локальные свойства горба (что, в самом деле, вполне логично). Видно, что оценкой плотности для последнего интервала пользоваться скорей всего нельзя.
 
-
* Синим закрашена область - плотность события <tex>P\{\omega_{i,i+1} = 0\}</tex> (где <tex>\omega_{i,i+1}</tex> - число событий в i-ом интервале). Точками показана та же самая плотность, параметры которой оценены по максимуму правдоподобия.
 
-
[[Изображение:Density figure1.JPG]]
 
-
 
-
| [[Участник:ADY|ADY]] 11:44, 8 августа 2008 (MSD)
 
-
 
-
 
-
 
-
== Особенности восстановления многомерной совместной плотности распределения на основе принципа максимального правдоподобия ==
 
-
 
-
Стоит задача найти оценку плотности распределения событий в интервалах (в каждом из которых может произойти 0 или 1 событие) таким образом, чтобы все частные плотности, то есть плотности, которые получаются из общей при условии, что события в начальных интервалах уже реализовались, тоже, так или иначе, удовлетворяли принципу максимального правдоподобия.
 
-
Общая плотность имеет вид: <tex>f_1 * f_2 * ... * f_N</tex>. Где <tex>f_k</tex> - функция распределения событий в k-ом интервале. <tex>f_k(q=0)=p0(k) \:\: (f_k(q=1)=1-p0(k))</tex>.
 
-
Для конкретной задачи можно запостулировать следующий параметрический вид функций распределений в интервале:
 
-
* <tex>p0(n)=p0*Exp(- n \tau_1)</tex>, для <tex>n<n'</tex>
 
-
* <tex>p0(n)=p0*Exp(- n' \tau_1)</tex>, для <tex>n'' \ge n \ge n'</tex>
 
-
* <tex>p0(n)=p0*Exp(- n' \tau_1 + (n-n'') \tau_2)</tex>, для <tex>N \ge n \g n''</tex>
 
-
 
-
Можно предложить следующий способ оценки совместной плотности распределения событий, в соответствии с принципом максимального правдоподобия.
 
-
 
-
* Отбросив события для всех N-1 интервалов, из принципа максимального правдоподобия для последнего интервала получаем, что <tex>p0(N) == \nu_0^{-(1)}</tex>, где <tex>\nu_0^{-(1)}</tex> - эмпирическая частота выпадения нулевого числа событий в последнем интервале (индекс вверху показывает, что отсчет идет справа налево (поэтому "-"), и указывает номер интервала в текущем способе отсчета).
 
-
* Из параметрического вида распределений в интервалах имеем: <tex>p0(N) = p0(N-1) * Exp(\tau_2)</tex>. Рассматривая плотность для двух последних интервалов, можно построить следующую функцию распределения для этих интервалов:
 
-
: <tex>F_0^{-(2)} = p0(N-1) p0(N)</tex>
 
-
: <tex>F_1^{-(2)} = (1-p0(N-1)) p0(N) + p0(N-1) (1 - p0(N))</tex>
 
-
: <tex>F_2^{-(2)} = (1-p0(N-1)) (1 - p0(N))</tex>
 
-
Поскольку оценку величены p0(N) мы считаем известной, а <tex>p0(N-1) = p0(N) * Exp(- \tau_2)</tex>, то по принципу максимального правдоподобия можно найти оценку на величену параметра <tex>\tau_2 = R_{\tau_2} (\nu_0^{-(1)}; \nu_0^{-(\Sigma 2)}, \nu_1^{-(\Sigma 2)}, \nu_2^{-(\Sigma 2)})</tex>, где <tex>\nu_i^{-(\Sigma 2)}</tex> - значения эмпирически частот выпадения <tex>i</tex> событий в двух последних интервалах.
 
-
* Проблема 1: величену <tex>\tau_2</tex> можно оценить в точности аналогичным образом взяв любое количество от 2 до <tex>N - n'+1</tex> последних интервалов.
 
-
* Оценив <tex>\tau_2</tex> из частот для последних 1 и K-интервалов <tex>(\nu_0^{-(1)}; \nu_0^{-(\Sigma K)}, \nu_1^{-(\Sigma K)}, \nu_2^{-(\Sigma K)}, ..., \nu_K^{-(\Sigma K)})</tex> качество этой оценки для построения ф.р.в. для всех остальных интервалов (для <tex>N \ge n \ge n'</tex>) становится не ясным?
 
-
* Замечание: В качестве начальной известной оценки <tex>\nu_0^{-(1)}</tex> для <tex>p0(N)</tex> можно использовать оценку для частоты <tex>\nu_0^{-(K)}</tex> в любом интервале (-K).
 
-
* Какую оценку для <tex>\tau_2</tex> в итоге использовать?
 
-
* Как усреднять все возможные оценки? Если оценок будет слишком много, то как усреднять по классу всех возможных оценок?
 
-
* Увеличивая количество интервалов K так, что <tex>K > N - n' + 1</tex>, в игру вступает параметр <tex>\tau_1</tex>. Вопрос, какую оценку для <tex>\tau_2</tex> можно использовать при построении совместной функции распределения для последующей оценки, максимизацией правдоподобия, для <tex>\tau_1</tex>.
 
-
* Как наилучшим образом использовать информацию о частотах, из которых можно построить оценку для одного и тоже же параметра?
 
-
* Используя оценку такого типа, параметр p0 (из формул для распр. вер. в интервалах) теряет свою необходимость. Почему эта степень свободы оказалась фиктивной?
 
-
* Функция распределения при рассмотрении > 4 интервалов не должна усложняться слишком сильно (поскольку <tex>F_5^{-(K)} = 0</tex> для любого K).
 
-
* Можно ли понять качество оценок в смысле используемого в задаче функционала качества. Возможно, использование функционала качества такого типа поможет устранить неоднозначность построения оценок по принципу максимального правдоподобия для выбранного параметрического вида модели.
 
-
* Можно ли построить содержательные критерии для выбора неявных параметров <tex>n'</tex> и <tex>n''</tex>. Возможно при построении таких критериев окажется полезным принцип минимума <tex>\chi^2</tex>.
 
-
* Замечание: пишут, что по ML плотность обычно не оценивают (см. [1], стр.6).
 
-
 
-
== Полезные статьи ==
 
-
 
-
# [[Изображение:Multi-dim_density_estimation.pdf]]
 
-
# [[Изображение:MDL Histogram density estimation.pdf]]
 
-
 
-
== Достаточно общая аппроксимация для маргинальной плотности (для рассматриваемой задачи) ==
 
-
 
-
Стоит задача построить достаточно общую аппроксимацию для плотности вероятностей для рассматриваемой задачи и построить быстрый алгоритм для оценки параметров.
 
-
Есть основания считать, что зависимость от времени вероятности того, что событие не произойдет слабое.
 
-
 
-
Достаточно общей аппроксимацией выглядит следующая. Все время разбивается на достаточно большое число равных интервалов и принимается, что вероятность того, что событие произойдет в одной элементарном интервале один раз (q=1) мала (и всеми следующими вероятностями для q>1 можно пренебречь).
 
-
Вероятности для интервала (для q=(0, 1, 2)): (p0(n), (1-p0(n)) * (1 - beta), (1-p0(n)) * beta), где величина beta будет характеризовать погрешность (и допустимость) данной модели при заданном числе интервалов N.
 
-
 
-
Теперь, подбирая последовательности p0(n) и beta можно достаточно хорошо аппроксимировать общую плотность.
 
-
 
-
Принимаем: <tex>p0(n) = p0 * Exp(a_n tau)</tex>.
 
-
Тогда общая плотность (для принятой гипотезы о p0(n) и beta(n)) будет выражаться в виде (<tex>Q=\sum_{i=1,N}{q_i}</tex> - полное число событий во всех интервалах). Для случая <tex>a_n = n</tex>:
 
-
 
-
<tex>P\{Q=0\} = p0^N Exp( (N*(N+1)/2) tau )</tex>
 
-
 
-
<tex>P\{Q=1\} = p0^{(N-1)} \sum_{ n = 1,N } { Exp( (N*(N+1)/2) - n ) * tau ) (1-beta) * ( 1 - p0 * Exp( n * tau ) ) } </tex>
 
-
 
-
<tex>P\{Q=2\} = p0^{(N-2)} ( \sum_{ n1 = 1,N; n2>n1 } { Exp( (N*(N+1)/2) - n1 - n2 ) * tau ) (1-beta) * ( 1 - p0 * Exp( n1 * tau ) ) (1-beta) * ( 1 - p0 * Exp( n2 * tau ) )} + </tex>
 
-
<tex> + \sum_{ n1 = 1,N } { Exp( (N*(N+1)/2) - n1 ) * tau ) * beta * ( 1 - p0 * Exp( n1 * tau ) * p0 )} </tex>
 
-
 
-
<tex>P\{Q>q,Q<N\}=...</tex>
 
-
 
-
В идеале хотелось бы построить некоторое достаточное разложение функции правдоподобия:
 
-
<tex>log(L) = \sum_{Q=0;\infty} {\nu_q * log(P\{Q=q\})} = log( P\{Q=0\}) + \sum_{Q=1;\infty} {\nu_q * log(P\{Q=q\} / P\{Q=0\})} </tex>
 
-
 
-
, чтобы было возможно найти ее максимальное значение.
 
-
 
-
На первый взгляд, начальные члены разложения не должны быть слишком сложными (напрашиваются какие-то рекурсивные последовательности).
 

Текущая версия

Личные инструменты