Обсуждение участника:ADY

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Обсуждение задачи о восстановлении дискретной функции плотности вероятности)
(Как оценить качество эмпирической ф.п.в.?: Новая тема)
Строка 78: Строка 78:
Может ли кто-нибудь что-нибудь подсказать/посоветовать?
Может ли кто-нибудь что-нибудь подсказать/посоветовать?
 +
 +
== Как оценить качество эмпирической ф.п.в.? ==
 +
 +
Не до конца понимаю, как оценить качество эмпирической функции плотности вероятностей Pr^*\{ X \}, для выборки *конечного* объема N, для заданного функционала качества:
 +
<tex>q(Pr^*)=\sum_ {X} {Pr\{ X \} / Pr^*\{ X \} } - 1</tex>, где <tex>Pr^*\{ X \}</tex> - истинные значения вероятностей.
 +
Хочется иметь строгую оценку в терминах уровня значимости.
 +
Пока в голову приходит лишь мысль разбить выборку на случайные подвыборки одинакового объема <tex>n > \min_{X}{ 1/Pr\{ X \} * K1}</tex> (K1 ~ 10) и попробовать что-то сделать с последовательностью функционалов q(...) для этих подвыборок, считая за истинные вероятности эмпирические вероятности от оставшихся данных...
 +
 +
Вообще, про выборки конечно объема почему-то нигде не пишут :(...

Версия 14:29, 7 июля 2008

Содержание

Вниманию участников

Появилась страница Вниманию участников предназначенная для общения участников по проекту. Предлагаю все идеи и проблемы вносить туда. --Yury Chekhovich 13:56, 29 февраля 2008 (MSK)

О правилах хорошего тона и некоторых отличиях машинного обучения от философии

Уважаемый участник! 1. На персональной странице неплохо бы первым делом представиться. Нам нечего скрывать друг от друга. 2. А вот за этими словами про машинное обучение стоит ли конкретное знание, опыт, десятки раздавленных граблей? Если это просто философствования, то я не рекомендовал бы это держать даже на личной страничке. Пока этот текст абсолютно непонятен. — К.В.Воронцов 13:45, 5 апреля 2008 (MSD)

Статья RapidMiner

Правильнее будет дать описание системы на русском языке и своими словами.

В качестве примера описания системы рекомендую использовать статью WEKA.

Andrew 15:35, 15 апреля 2008 (MSD)

Статья про RapidMiner уже приведена в божеский вид

Андрей, не зевай — я за тебя доделал RapidMiner! Но остальные три статьи за тобой! ;) Давай будем стараться не плодить столь неотёсанных заготовок. Признаться, я и сам грешен, но стараюсь хотя бы наметить структуру, поставить шаблончик {{stub}}) или {{UnderConstruction|Подпись=~~~~}}. Ещё рекомендую заглядывать в англоязычную Википедию и другие непредвзятые источники. На страницах производителей некоторые высказывания носят рекламный характер. Ещё, по RapidMiner-у проверь пож-ста факты: я не слишком глубоко в нём разбираюсь. Например, он все или только многие операторы WEKA поддерживает? — К.В.Воронцов 23:40, 15 апреля 2008 (MSD)

>он все или только многие операторы WEKA поддерживает

Я два года назад его изучал... Тогда в документации было написано, что по счастливому совпадению WEKA оказалась полностью совместима с YALE(RapidMiner) :). | ADY 23:55, 21 апреля 2008 (MSD)

Возник вот форумный вопрос...

Допустим требуется выбрать одну лучшую из двух дискретных функций распределения вероятностей P1_i и P2_i согласно функционалу качества: V(f, P) = \sum{P_i/f_i}, где P_i — истинные значения вероятностей.

Насколько я понимаю, если верно соотношение: |P_i-P^*_i| < \epsilon_\alpha (для всех i), при уровне справедливости 1-\alpha, где P*_i — оценка вероятностей на конкретных данных (то есть, другими словами, есть доверительный интервал для оценок вероятностей), то: |V(P1, P)-V*(P1, P*)| < \delta1_\alpha и |V(P2, P)-V^*(P2, P^*)| < \delta2_\alpha, а значит: P1 лучше P2 в смысле функционала V на уровне справедливости 1-\alpha, если \sup_{P: \alpha}{V(P1, P)} < \inf_{P: \alpha}{V(P2, P)}. И, аналогично, P2 лучше P1 в смысле функционала V на уровне справедливости 1-\alpha, если sup_{P: \alpha}{V(P2, P)} < \inf_{P: \alpha}{V(P1, P)}. Верно ли такое утверждение и как построить доверительные интервалы для вероятности для частотной оценки вероятностей? | ADY 14:45, 23 мая 2008 (MSD)

Ответ
  1. Понять вопрос затруднительно: не ясно, что такое V^*, P:\alpha, \epsilon_\alpha, \delta1_\alpha, \delta2_\alpha.
  2. Уровень значимости, а не справедливости.
  3. Почему именно такая функция качества, а не какая-либо стандартная: Колмогорова-Смирнова, Кульбака-Лейблера, хи-квадрат?
  4. Кажется, в формуле |V(P2, P)-V^*(P1, P^*)| < \delta2_\alpha имелось в виду V^*(P2, P^*)?
  5. Этому вопросу здесь не место (см. шапку этой страницы). Лучше написать мне письмо — К.В.Воронцов 15:43, 25 мая 2008 (MSD).
Ответ[2]
  1. V^* - функция V, в которую входят значения с *; P:\alpha - множество допустимых значений вероятностей на уровне \alpha; \epsilon_\alpha - максимальное допустимое отклонение от оценки вероятности на уровне \alpha; \delta1_\alpha, \delta2_\alpha - максимальное допустимое отклонение функционалов на уровне \alpha.
  2. Всегда путаю, что обзывается этим уровнем - мощность критического множества или дополнительного к критическому - посему использовал "уровень справедливости" (мощность множества: множество = все_множество - критическое_множество).
  3. Такая функция напрямую следует из задачи.
  4. Да, там действительно была очепятка (должна быть такая же формула, что и для P1).
  5. А где место?... :) — Сейчас веду работы по подключению к ресурсу ML форума. Одно из предназначений — вопросы/ответы. Пока лучше обращаться к конкретному участнику по почте или в обсуждении, или кратко задавать вопрос на странице Вниманию участников (Другие вопросы) и давать ссылку на свою страницу обсуждения с полной постановкой. Andrew 17:05, 26 мая 2008 (MSD)
  6. Спасибо за комментарий. | ADY 13:41, 26 мая 2008 (MSD)

Статьи GATE, Joone и LinguaStream

Андрей, созданные Вами страницы (см. заголовок) уже полтора месяца висят без изменений, хотя очень в них нуждаются. Необходимо привести их в порядок (переписать на русском языке в рекомендованном виде). Иначе придется их удалить, чего делать не хотелось бы. Если в чем то могу помочь, обращайтесь. --Yury Chekhovich 16:33, 30 мая 2008 (MSD)

Ответ

Есть несколько причин, из-за которых я не могу выполнить Вашу просьбу: 1) в ближайшем месяце - нет времени на то, чтобы выполнить эти работы; 2) z не работал с этими системами и знаю о них только то, что написано в документации; 3) плохо знаю теги для оформления вики-страниц. На самом деле, я просто хотел поделиться ссылками на бесплатные системы, которые считаю интересными и актуальными. В итоге, я не возражаю против удаления недоделанных статей о них. -- ADY 13:39, 7 июня 2008 (MSD)

Обсуждение задачи о восстановлении дискретной функции плотности вероятности

Ищу литературу (покупаю и готов покупать дальше необходимые книжки на английском), но еще не совсем уверен в точной постановке задачи, которую решаю.

Задача состоит в восстановлении дискретной функции плотности вероятности.

Есть большой набор данных:

{ Real: x, Real: y, X(x,y) }, где X - точка-множество в дискретном вероятностном пространстве (например, {{0,0},{1,2}). x, y - экспертные оценки на некоторые общие вероятностные характеристики события, реализация которого есть X(x,y) (в первом приближении это можно не учитывать).

Стоит задача для заданных (x0, y0) найти лучшую оценку фпв Pr*{ X(x,y) }(x0, y0) в смысле функционала качества: \sum_ {X} {Pr\{ X \}(x0, y0) / Pr^*\{ X \}(x0, y0) } - 1 , где Pr\{ X \}(x0, y0) - истинные значения вероятностей.

Первое, что приходит в голову - это разбить данные на группы по интервалам для x и y, и построить фпв для каждой группы - частотные функции. Но возникают как минимум две проблемы: 1) Как сглаживать фпв для малых выборок? 2) Как комбинировать функционалы от частотные функции фпв, чтобы результаты оставались в рамках выбранного уровня значимости?

Может ли кто-нибудь что-нибудь подсказать/посоветовать?

Как оценить качество эмпирической ф.п.в.?

Не до конца понимаю, как оценить качество эмпирической функции плотности вероятностей Pr^*\{ X \}, для выборки *конечного* объема N, для заданного функционала качества: q(Pr^*)=\sum_ {X} {Pr\{ X \} / Pr^*\{ X \} } - 1, где Pr^*\{ X \} - истинные значения вероятностей. Хочется иметь строгую оценку в терминах уровня значимости. Пока в голову приходит лишь мысль разбить выборку на случайные подвыборки одинакового объема n > \min_{X}{ 1/Pr\{ X \} * K1} (K1 ~ 10) и попробовать что-то сделать с последовательностью функционалов q(...) для этих подвыборок, считая за истинные вероятности эмпирические вероятности от оставшихся данных...

Вообще, про выборки конечно объема почему-то нигде не пишут :(...

Личные инструменты