本筆記主要紀錄閱讀 ThinkBayes 一書內各章節的心得筆記,提供往後參考與複習。

Bayes’s Theorem

Conditional probability (條件機率)

假定有兩個事件 A 與 B,給定一機率函數

$$P(A)$$

代表 A 事件的發生機率,而

$$P(A \mid B)$$

代表 B 事件發生後 A 事件的發生機率。此外

$$P(A \cap B)$$

代表 A 與 B 事件同時發生的機率,則當事件 A 與 B 是相互獨立時,

$$P(A \cap B) = P(A)P(B)$$

Bayes’s theorem

$$P(A \cap B) = P(B \cap A)$$

,所以可知

$$P(A)P(A \mid B) = P(B)P(B \mid A)$$

,因此

$$P(A \mid B) = \frac{P(A)P(B \mid A)}{P(B)}$$

上式可進一步一般化,也就是從觀測到的 Data $D$ 中,求出 Hypothesis $H$ 的機率。上面公式可轉化為

$$P(H \mid D) = \frac{P(H)P(D \mid H)}{P(D)}$$

該公式為 Bayes equation,其中

  • $$P(H)$$

    : 觀察到資料之前 Hypothesis

    $$H$$

    的機率,稱為 Prior (先驗機率)。

  • $$P(D \mid H)$$

    : 在 Hypothesis

    $$H$$

    下,Data

    $$D$$

    的分佈機率,稱為 Likelihood

  • $$P(D)$$

    : 在所有 Hypothesis 下,Data

    $$D$$

    出現的機率,稱為 Normalizing Constant

  • $$P(H \mid D)$$

    : 觀察到資料

    $$D$$

    之後的出現 Hypothesis

    $$H$$

    的機率,稱為 Posterior (後驗機率)。

Steps

當使用 Bayes’s theorem 來解決問題時,可分為幾個主要步驟

  • 建立 Prior

    $$P(H)$$

    的機率分佈。可假設為 uniform(即每個事件機率都相同)或依照歷史資料建立機率分佈。

  • 建立 Likelihood

    $$P(D \mid H)$$

    的機率分佈。可依照資料或問題特性來建立 Likelihood 機率函數。

  • 計算 P(D) 數值。但因

    $$P(D)$$

    數值是常數,因此經常只計算

    $$P(H)P(D \mid H)$$

    的部分在將所有數值正規劃。

  • 使用 Bayes’s equation 計算 Posterior

    $$P(H \mid D)$$

    的數值。

現有兩袋餅乾分別為 Bowl 1 (

$$B_1$$

) 與 Bowl 2 (

$$B_2$$

) ,口味有 vanilla 與 chocolate 兩種。Bowl 1 有 30 個 vanilla ( V ) 與 10 個 chocolate ( C ),而 Bow 2 則有 20 個 vanilla 與 20 個 chocolate。現在拿出一顆 vanilla 口味的餅乾,則最有可能是從哪一個袋子拿出來的?

根據 Bayes 思考方式,問題可轉化為當觀察到 vaniila 口味的 cookie 時,拿出的袋子為 Bowl 1 或 Bowl 2 的機率何者較大。也就是比較

$$P(H = B_1 \mid D = vaniila)$$

$$P(H=B_2 \mid D = vanilla)$$

的數值大小。

Prior

先設定 Hypothesis 為拿出 Cookie 的袋子,包含

$$B_1$$

$$B_2$$

兩者。我們假定 Hypothesis 的分布為 uniform distribution,則 Prior 為

$$P(B_1) = P(B_2) = 0.5$$

Likelihood

因問題敘述中已經告知每個袋子中包含的 Cookie 種類,即 Likelihood

$$P(D \mid H)$$

的機率分布為

$$P(V \mid B_1)=3/4, P(C \mid B_1)=1/4$$ $$P(V \mid B_2)=1/2, P(C \mid B_2)=1/2$$

Normalizing Constant

正規化常數 $P(V) 可計算如下

$$P(V) = P(B_1)P(V \mid B_1) + P(B_2)P(V \mid B_2) = (1/2)(3/4)+(1/2)(1/2)=5/8$$

因 Prior * Likelihood 都會除以相同的 Normalizing Constant,因此時常可忽略不計算。

Posterior

當 Prior 與 Likelihood 都建立完成後,即可計算 Posterior

$$P(H \mid D)$$

$$P(B_1 \mid V) = \frac{P(V)P(V \mid B_1)}{P(V)} = \frac{(1/2)(3/4)}{5/8} = \frac{3}{5}$$ $$P(B_2 \mid V) = \frac{P(V)P(V \mid B_2)}{P(V)} = \frac{(1/2)(1/2)}{5/8} = \frac{2}{5}$$

依照 Posterir 結果,我們可知

$$P(B_1 \mid V) > P(B_2 \mid V)$$

,因此當觀察到 Cookie 為 Vanilla 時,Bowl 1 為最有可能拿出的袋子。

之後作者以 M&M problem 與 Monty Hall problem (三門問題) 展示如何建模並求出結果,以及與為何 Bayes’s theorem 有時會違反直覺的情況。詳細可自行參考 ThinkBayes 一書。

Reference