Обсуждение участника:ADY

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Как оценить качество эмпирической ф.п.в.?)
 
(11 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
== Вниманию участников ==
+
[http://stats.stackexchange.com/questions/8147/how-can-i-efficiently-approximate-the-sum-of-bernoulli-random-variables-for-any-n How can I efficiently approximate the sum of Bernoulli random variables for any number of summands in partial sum?]
-
 
+
-
Появилась страница [[MachineLearning:Вниманию участников|Вниманию участников]] предназначенная для общения участников по проекту. Предлагаю все идеи и проблемы вносить туда. --[[Участник:Yury Chekhovich|Yury Chekhovich]] 13:56, 29 февраля 2008 (MSK)
+
-
 
+
-
== О правилах хорошего тона и некоторых отличиях машинного обучения от философии ==
+
-
 
+
-
Уважаемый участник!
+
-
1. На персональной странице неплохо бы первым делом представиться. Нам нечего скрывать друг от друга.
+
-
2. А вот за этими словами про машинное обучение стоит ли конкретное знание, опыт, десятки раздавленных граблей? Если это просто философствования, то я не рекомендовал бы это держать даже на личной страничке. Пока этот текст ''абсолютно'' непонятен. — [[Участник:Vokov|К.В.Воронцов]] 13:45, 5 апреля 2008 (MSD)
+
-
 
+
-
== Статья [[RapidMiner]] ==
+
-
 
+
-
Правильнее будет дать описание системы на русском языке и своими словами.
+
-
 
+
-
В качестве примера описания системы рекомендую использовать статью [[WEKA]].
+
-
 
+
-
[[Участник:Andrew|Andrew]] 15:35, 15 апреля 2008 (MSD)
+
-
 
+
-
== Статья про RapidMiner уже приведена в божеский вид ==
+
-
 
+
-
Андрей, не зевай — я за тебя доделал RapidMiner! Но остальные три статьи за тобой! ;) Давай будем стараться не плодить столь неотёсанных заготовок. Признаться, я и сам грешен, но стараюсь хотя бы наметить структуру, поставить шаблончик <nowiki>{{stub}}</nowiki>) или <nowiki>{{UnderConstruction|Подпись=~~~~}}</nowiki>. Ещё рекомендую заглядывать в англоязычную Википедию и другие непредвзятые источники. На страницах производителей некоторые высказывания носят рекламный характер. Ещё, по RapidMiner-у проверь пож-ста факты: я не слишком глубоко в нём разбираюсь. Например, он '''все''' или только '''многие''' операторы [[WEKA]] поддерживает? — [[Участник:Vokov|К.В.Воронцов]] 23:40, 15 апреля 2008 (MSD)
+
-
 
+
-
>он все или только многие операторы WEKA поддерживает
+
-
 
+
-
Я два года назад его изучал... Тогда в документации было написано, что по счастливому совпадению WEKA оказалась полностью совместима с YALE(RapidMiner) :). | [[Участник:ADY|ADY]] 23:55, 21 апреля 2008 (MSD)
+
-
 
+
-
== Возник вот форумный вопрос... ==
+
-
Допустим требуется выбрать одну лучшую из двух дискретных функций распределения вероятностей <tex>P1_i</tex> и <tex>P2_i</tex> согласно функционалу качества:
+
-
<tex>V(f, P) = \sum{P_i/f_i}</tex>, где <tex>P_i</tex> — истинные значения вероятностей.
+
-
 
+
-
Насколько я понимаю, если верно соотношение: <tex>|P_i-P^*_i| < \epsilon_\alpha</tex> (для всех i), при уровне справедливости <tex>1-\alpha</tex>, где <tex>P*_i</tex> — оценка вероятностей на конкретных данных (то есть, другими словами, есть доверительный интервал для оценок вероятностей), то:
+
-
<tex>|V(P1, P)-V*(P1, P*)| < \delta1_\alpha</tex> и <tex>|V(P2, P)-V^*(P2, P^*)| < \delta2_\alpha</tex>, а значит:
+
-
P1 лучше P2 в смысле функционала V на уровне справедливости <tex>1-\alpha</tex>, если
+
-
<tex>\sup_{P: \alpha}{V(P1, P)} < \inf_{P: \alpha}{V(P2, P)}</tex>.
+
-
И, аналогично, P2 лучше P1 в смысле функционала V на уровне справедливости <tex>1-\alpha</tex>, если
+
-
<tex>sup_{P: \alpha}{V(P2, P)} < \inf_{P: \alpha}{V(P1, P)}</tex>.
+
-
Верно ли такое утверждение и как построить доверительные интервалы для вероятности для частотной оценки вероятностей?
+
-
| [[Участник:ADY|ADY]] 14:45, 23 мая 2008 (MSD)
+
-
;Ответ:
+
-
#Понять вопрос затруднительно: не ясно, что такое <tex>V^*</tex>, <tex>P:\alpha</tex>, <tex>\epsilon_\alpha</tex>, <tex>\delta1_\alpha</tex>, <tex>\delta2_\alpha</tex>.
+
-
#Уровень ''значимости'', а не справедливости.
+
-
#Почему именно такая функция качества, а не какая-либо стандартная: Колмогорова-Смирнова, Кульбака-Лейблера, хи-квадрат?
+
-
#Кажется, в формуле <tex>|V(P2, P)-V^*(P1, P^*)| < \delta2_\alpha</tex> имелось в виду <tex>V^*(P2, P^*)</tex>?
+
-
#Этому вопросу здесь не место (см. шапку этой страницы). Лучше написать мне письмо — ''[[Участник:Vokov|К.В.Воронцов]] 15:43, 25 мая 2008 (MSD)''.
+
-
;Ответ[2]:
+
-
# <tex>V^*</tex> - функция V, в которую входят значения с *; <tex>P:\alpha</tex> - множество допустимых значений вероятностей на уровне <tex>\alpha</tex>; <tex>\epsilon_\alpha</tex> - максимальное допустимое отклонение от оценки вероятности на уровне <tex>\alpha</tex>; <tex>\delta1_\alpha</tex>, <tex>\delta2_\alpha</tex> - максимальное допустимое отклонение функционалов на уровне <tex>\alpha</tex>.
+
-
# Всегда путаю, что обзывается этим уровнем - мощность критического множества или дополнительного к критическому - посему использовал "уровень справедливости" (мощность множества: множество = все_множество - критическое_множество).
+
-
# Такая функция напрямую следует из задачи.
+
-
# Да, там действительно была очепятка (должна быть такая же формула, что и для <tex>P1</tex>).
+
-
# А где место?... :) — ''Сейчас веду работы по подключению к ресурсу ML форума. Одно из предназначений&nbsp;— вопросы/ответы. Пока лучше обращаться к конкретному участнику по почте или в обсуждении, или кратко задавать вопрос на странице [[MachineLearning:Вниманию участников#Другие вопросы|Вниманию участников (Другие вопросы)]] и давать ссылку на свою страницу обсуждения с полной постановкой. [[Участник:Andrew|Andrew]] 17:05, 26 мая 2008 (MSD)''
+
-
# Спасибо за комментарий. | [[Участник:ADY|ADY]] 13:41, 26 мая 2008 (MSD)
+
-
 
+
-
== Статьи [[GATE]], [[Joone]] и [[LinguaStream]] ==
+
-
 
+
-
Андрей, созданные Вами страницы (см. заголовок) уже полтора месяца висят без изменений, хотя очень в них нуждаются.
+
-
Необходимо привести их в порядок (переписать на русском языке в рекомендованном виде). Иначе придется их удалить, чего делать не хотелось бы. Если в чем то могу помочь, обращайтесь. --[[Участник:Yury Chekhovich|Yury Chekhovich]] 16:33, 30 мая 2008 (MSD)
+
-
 
+
-
;Ответ
+
-
Есть несколько причин, из-за которых я не могу выполнить Вашу просьбу: 1) в ближайшем месяце - нет времени на то, чтобы выполнить эти работы; 2) z не работал с этими системами и знаю о них только то, что написано в документации; 3) плохо знаю теги для оформления вики-страниц. На самом деле, я просто хотел поделиться ссылками на бесплатные системы, которые считаю интересными и актуальными. В итоге, я не возражаю против удаления недоделанных статей о них. -- [[Участник:ADY|ADY]] 13:39, 7 июня 2008 (MSD)
+
-
 
+
-
== Обсуждение задачи о восстановлении дискретной функции плотности вероятности ==
+
-
 
+
-
Ищу литературу (покупаю и готов покупать дальше необходимые книжки на английском), но еще не совсем уверен в точной постановке задачи, которую решаю.
+
-
 
+
-
Задача состоит в восстановлении дискретной функции плотности вероятности.
+
-
 
+
-
Есть большой набор данных:
+
-
 
+
-
{ Real: x, Real: y, X(x,y) },
+
-
где X - точка-множество в дискретном вероятностном пространстве (например, {{0,0},{1,2}).
+
-
x, y - экспертные оценки на некоторые общие вероятностные характеристики события, реализация которого есть X(x,y) (в первом приближении это можно не учитывать).
+
-
 
+
-
Стоит задача для заданных (x0, y0) найти лучшую оценку фпв Pr*{ X(x,y) }(x0, y0) в смысле функционала качества: <tex>\sum_ {X} {Pr\{ X \}(x0, y0) / Pr^*\{ X \}(x0, y0) } - 1</tex> , где <tex>Pr\{ X \}(x0, y0)</tex> - истинные значения вероятностей.
+
-
 
+
-
Первое, что приходит в голову - это разбить данные на группы по интервалам для x и y, и построить фпв для каждой группы - частотные функции. Но возникают как минимум две проблемы:
+
-
1) Как сглаживать фпв для малых выборок?
+
-
2) Как комбинировать функционалы от частотные функции фпв, чтобы результаты оставались в рамках выбранного уровня значимости?
+
-
 
+
-
Может ли кто-нибудь что-нибудь подсказать/посоветовать?
+
-
 
+
-
== Как оценить качество эмпирической ф.п.в.? ==
+
-
 
+
-
Не до конца понимаю, как оценить качество эмпирической функции плотности вероятностей <tex>Pr^*\{ X \}</tex>, для выборки *конечного* объема N, для заданного функционала качества:
+
-
<tex>q(Pr^*)=1/n * \sum_ {X} {Pr\{ X \} / Pr^*\{ X \} } - 1</tex>, где <tex>Pr\{ X \}</tex> - истинные значения вероятностей.
+
-
Хочется иметь строгую оценку в терминах уровня значимости.
+
-
Пока в голову приходит лишь мысль разбить выборку на случайные подвыборки одинакового объема <tex>n > \min_{X} {\: 1/Pr\{ X \} * K1}</tex> (K1 ~ 10) и попробовать что-то сделать с последовательностью функционалов q(...) для этих подвыборок, считая за истинные вероятности эмпирические вероятности от оставшихся данных...
+
-
 
+
-
Вообще, про выборки конечного объема почему-то нигде не пишут :(...
+
-
 
+
-
== Где можно почитать об оценивании с функцией штрафа? ==
+
-
 
+
-
Где можно почитать об оценивании параметров известного распределения Pr*( {t} ), c функцией штрафа: <tex>W[Pr^*] = (\sum_ {x} { Pr\{ x \} / Pr^*\{ x; {t} \} } / n - 1)^2</tex>, <tex>(Pr\{ x \}</tex> - эмпирические частоты, n - число исходов ), для конечной выборки объема N (то есть нужна состоятельная оценка параметров {t'}, у которой E{W({t'})} минимально)?
+
-
Похоже нужно как-то "исправить" оценку методом <tex>\chi^2</tex>, чтобы она осталась состоятельной и при этом удовлетворяла условию задачи.
+
-
 
+
-
: '''Ответ на всё скопом.''' По поводу последних трёх разделов. Что-то я опять не могу продраться сквозь твои обозначения и самовыдуманные термины. Что такое «точка-множество»? Чем не устраивают стандартные методы непараметрического оценивания плотности? Чем не устраивает [[критерий Колмогорова-Смирнова]] и иже с ними? Видимо, пора встречаться ;). — ''[[Участник:Vokov|К.В.Воронцов]] 00:38, 12 июля 2008 (MSD)''
+
-
:: >Что такое «точка-множество»?
+
-
:: Вектор значений (пример данных указан в условии) из множества значений векторов.
+
-
:: >Чем не устраивают стандартные методы непараметрического оценивания плотности?
+
-
:: Может и устраивают, только, к своему стыду, я не смог продраться через обозначения и как-то введенные объекты. К счастью, из самой задачи удалось построить вполне хорошую апроксимация плотности (практически с любой точностью).
+
-
:: >Чем не устраивает [[критерий Колмогорова-Смирнова]] и иже с ними?
+
-
:: Критерий тоже следует из задачи.
+
-
:: >Видимо, пора встречаться ;).
+
-
:: Я только за :). | [[Участник:ADY|ADY]] 18:19, 12 июля 2008 (MSD)
+
-
 
+
-
== Достаточно общая аппроксимация для плотности (для рассматриваемой задачи) ==
+
-
 
+
-
Стоит задача построить достаточно общую аппроксимацию для плотности вероятностей для рассматриваемой задачи и построить быстрый алгоритм для оценки параметров.
+
-
В рассматриваемом процессе, в течении некоторого заданного времени, происходит несколько 0-4 событий (в среднем 2-3).
+
-
Есть основания считать, что чем больше прошло времени, тем вероятность того, что событие не произойдет слабо растет.
+
-
Пуассоновская плотность не устраивает по точности.
+
-
 
+
-
Достаточно общей аппроксимацией выглядит следующая. Все время разбивается на достаточно большое число равных интервалов и принимается, что вероятность того, что событие произойдет в одной элементарном интервале два раза (q=2) мала (и всеми следующими вероятностями для q>2 можно пренебречь).
+
-
Вероятности для интервала (для q=(0,1,2)): (p0(n), (1-p0(n)) * (1 - beta(n)), (1-p0(n)) * beta(n)).
+
-
 
+
-
Число интервалов нужно взять таким, чтобы величина beta(n) показывала ошибку такой аппроксимации. Теперь, подбирая последовательности p0(n) и beta(n) можно достаточно хорошо аппроксимировать общую плотность.
+
-
 
+
-
Принимаем: beta(n) = const(n) = beta, p0(n) = p0 * Exp(n * tau).
+
-
Тогда общая плотность (для принятой гипотезы о p0(n) и beta(n)) будет выражаться в виде (<tex>Q=\sum_{i=1,N}{q_i}</tex> - полное число событий во всех интервалах):
+
-
 
+
-
<tex>P\{Q=0\} = p0^N Exp( (N*(N+1)/2) tau )</tex>
+
-
 
+
-
<tex>P\{Q=1\} = p0^{(N-1)} \sum_{ n = 1,N } { Exp( (N*(N+1)/2) - n ) * tau ) (1-beta) * ( 1 - p0 * Exp( n * tau ) ) } </tex>
+
-
 
+
-
<tex>P\{Q=2\} = p0^{(N-2)} ( \sum_{ n1 = 1,N; n2>n1 } { Exp( (N*(N+1)/2) - n1 - n2 ) * tau ) (1-beta) * ( 1 - p0 * Exp( n1 * tau ) ) (1-beta) * ( 1 - p0 * Exp( n2 * tau ) )} + </tex>
+
-
<tex> + \sum_{ n1 = 1,N } { Exp( (N*(N+1)/2) - n1 ) * tau ) * beta * ( 1 - p0 * Exp( n1 * tau ) * p0 )} </tex>
+
-
 
+
-
<tex>P\{Q>q,Q<N\}=...</tex>
+
-
 
+
-
В идеале хотелось бы построить некоторое достаточное разложение функции правдоподобия:
+
-
<tex>log(L) = \sum_{Q=0;\infty} {\nu_q * log(P\{Q=q\})} = log( P\{Q=0\}) + \sum_{Q=0;\infty} {\nu_q * log(P\{Q=q\} / P\{Q=0\})} </tex>
+
-
 
+
-
, чтобы было возможно найти ее максимальное значение.
+
-
 
+
-
На первый взгляд, начальные члены разложения не должны быть слишком сложными (напрашиваются какие-то рекурсивные последовательности). Может быть где-то эта задача, так или иначе, уже исследовалась?
+
-
 
+
-
== Идея разработки базы знаний по статистике: справочник по статистике ==
+
-
 
+
-
* Для теоретической и прикладной работы в области матстатистики нужен продвинутый справочник.
+
-
* Есть общее представление о том, каким он должен быть. Под базой знаний предлагается понимать базу данных + язык мета-данных (то есть язык описания данных) + машина поиска по мета-данным. Таким образом, должны быть следующие возможности:
+
-
1) Поиск математических выражений, теорем и др. сущностей - по названию (например, "формула оценки по максимальному правдоподобию").
+
-
2) Поиск сущностей справочника - по описанию входных данных (например, формулы точечных оценок для дискретных входных данных).
+
-
3) Поиск сущностей справочника имеющих отношение к заданной задаче (например, формулы точечных оценок для дискретных входных данных задачи).
+
-
* Для эффективного применения информации из справочника предлагается представлять информацию на языке компьютерной алгебры. Предлагается использовать для этих целей Mathematica.
+
-
* Для хранения информации предлагается использовать XML базу данных (с разработанной структурой XML-элементов).
+
-
* Особенности справочника:
+
-
* Хранение таких сущностей как "теорема", с описанием входных и выходных данных.
+
-
* Структура мета данных справочника должна позволять решать такие задачи (для которых, конечно, будут нужны соответствующие обработчики) как проверка удовлетворения условиям теоремы.
+
-
* От Mathematica можно будет отказываться постепенно: [http://community.livejournal.com/maxima_platform/5560.html?thread=16824#t16824]
+
-
* В принципе, реально сделать возможность ввода доказательства теоремы и затем повтор вывода теоремы при изменении условий теоремы.
+
-
* Такой справочник нужен для реализации такого подхода к статистическим вычислениям, когда определив входные и выходные данные можно было бы достаточно быстро построить процедуру получения математического результата. В таком подходе работу нужно было бы прикладывать не к построению математических объектов, а к оптимизации процедуры вычисления (аппроксимация, раскладывание в ряд, упрощение выражений и т.п.) и настройка вычислительных процедур.
+
-
* В практических вычислениях для быстрой разработки приложений стандартных средств Mathematica не хватает: нужны еще специальные средства для анализа погрешностей (ошибок) от учета/неучета большого числа факторов и анализа сходимости рядов разложения.
+

Текущая версия

How can I efficiently approximate the sum of Bernoulli random variables for any number of summands in partial sum?

Личные инструменты