Пробит-анализ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 30: Строка 30:
Рассмотрим множество пар <tex>(x_i,p_i)_{i=1}^n</tex>, где <tex>p_i = p(x_i)</tex>. Если модель <tex>N</tex> "угадана" хорошо, то зависимость <tex>p(x)</tex> - линейная, т.е.
Рассмотрим множество пар <tex>(x_i,p_i)_{i=1}^n</tex>, где <tex>p_i = p(x_i)</tex>. Если модель <tex>N</tex> "угадана" хорошо, то зависимость <tex>p(x)</tex> - линейная, т.е.
::<tex>p(x) = b_0 + b_1 x</tex>. {{eqno|1}}
::<tex>p(x) = b_0 + b_1 x</tex>. {{eqno|1}}
-
А это стандартная задача [[линейная регрессия|линейной регрессии]].
+
А это стандартная задача [[многомерная линейная регрессия|линейной регрессии]].
Если <tex>b_0,b_1</tex> найдены, то
Если <tex>b_0,b_1</tex> найдены, то

Версия 00:36, 22 января 2009

Пробит анализ (probit analysis, normit analysis) — вид регрессионного анализа, используется для определения влияния колличественного признака на бинарный отклик. Относится к классу обобщённых линейных моделей.

Другие названия: Пробит регрессия(probit regression), пробит модель(probit model).

Содержание

Примеры задач

Пример 1.Токсикология.

Paccмотрим выборку (x_i,y_i)_{i=1}^n, где x_i - доза токсичного вещества, y_i равна 1, если живые существа умерли от дозы x_i. Необходимо определить вероятность смерти.

Пример 2.Страхование жизни.

Paccмотрим выборку (x_i,y_i)_{i=1}^n, где x_i - возраст человека, y_i равна 1, если человек в возрасте x_i умер. Необходимо определить вероятность смерти.

Пример 3.Эконометрика.

Paccмотрим выборку (x_i,y_i)_{i=1}^n, где x_i - цена продукции, y_i равна 1, если продукцию по цене x_i купили. Необходимо определить вероятность покупки при данной цене.


Описание критерия

Рассмотрим выборку (x_i,y_i)_{i=1}^n, где x_i - колличественный признак x_i \in \mathbb {R}, y_i бинарный отклик y_i \in \{0,1\}. Найдём вероятность \mathbb{P}\{ y(x)=1 \} .

Для решения задачи аппроксимируем функцию распределения вероятностей F(x) нормальным распределением.

Пробит p для x - это решение уравнения  N(p , 5, 1) = F(x), где N() - функция нормального распределения.

Рассмотрим множество пар (x_i,p_i)_{i=1}^n, где p_i = p(x_i). Если модель N "угадана" хорошо, то зависимость p(x) - линейная, т.е.

p(x) = b_0 + b_1 x.
(1)

А это стандартная задача линейной регрессии.

Если b_0,b_1 найдены, то

\frac{x_i-\mu}{\sigma} = p_i - 5,
(2)

где \mu - математическое ожидание, \sigma - дисперсия.

Из (1),(2) находим формулы для \mu и \sigma:

\mu = \frac{5-b_0}{b_1},
\sigma = \frac{1}{b_1}.

Используя определение пробита и формулы для p(x),\mu,\sigma можно вычислить функцию распределения F(x).

История

Идея пробит-анализа впервые была опубликована Блиссом в 1934 г. в статье о влиянии пестицидов на процент убитых вредителей. Блисс предложил для учёта процента убитых вредителей использовать вероятностный блок - probability unit (или probit). Данное им определение немного отличалось использованного здесь(не было сдвига на 5). Окончательно определение пробит дал Джон Финни.

См. также

Логит-анализ

Ссылки

Личные инструменты