ThinkBayes 心得筆記 - Chapter 1
本筆記主要紀錄閱讀 ThinkBayes 一書內各章節的心得筆記,提供往後參考與複習。
Bayes’s Theorem
Conditional probability (條件機率)
假定有兩個事件 A 與 B,給定一機率函數
$$P(A)$$代表 A 事件的發生機率,而
$$P(A \mid B)$$代表 B 事件發生後 A 事件的發生機率。此外
$$P(A \cap B)$$代表 A 與 B 事件同時發生的機率,則當事件 A 與 B 是相互獨立時,
$$P(A \cap B) = P(A)P(B)$$Bayes’s theorem
因
$$P(A \cap B) = P(B \cap A)$$,所以可知
$$P(A)P(A \mid B) = P(B)P(B \mid A)$$,因此
$$P(A \mid B) = \frac{P(A)P(B \mid A)}{P(B)}$$上式可進一步一般化,也就是從觀測到的 Data $D$ 中,求出 Hypothesis $H$ 的機率。上面公式可轉化為
$$P(H \mid D) = \frac{P(H)P(D \mid H)}{P(D)}$$該公式為 Bayes equation,其中
-
$$P(H)$$
: 觀察到資料之前 Hypothesis
$$H$$的機率,稱為 Prior (先驗機率)。
-
$$P(D \mid H)$$
: 在 Hypothesis
$$H$$下,Data
$$D$$的分佈機率,稱為 Likelihood。
-
$$P(D)$$
: 在所有 Hypothesis 下,Data
$$D$$出現的機率,稱為 Normalizing Constant。
-
$$P(H \mid D)$$
: 觀察到資料
$$D$$之後的出現 Hypothesis
$$H$$的機率,稱為 Posterior (後驗機率)。
Steps
當使用 Bayes’s theorem 來解決問題時,可分為幾個主要步驟
-
建立 Prior
$$P(H)$$的機率分佈。可假設為 uniform(即每個事件機率都相同)或依照歷史資料建立機率分佈。
-
建立 Likelihood
$$P(D \mid H)$$的機率分佈。可依照資料或問題特性來建立 Likelihood 機率函數。
-
計算 P(D) 數值。但因
$$P(D)$$數值是常數,因此經常只計算
$$P(H)P(D \mid H)$$的部分在將所有數值正規劃。
-
使用 Bayes’s equation 計算 Posterior
$$P(H \mid D)$$的數值。
Example - Cookie Problem
現有兩袋餅乾分別為 Bowl 1 (
$$B_1$$) 與 Bowl 2 (
$$B_2$$) ,口味有 vanilla 與 chocolate 兩種。Bowl 1 有 30 個 vanilla ( V ) 與 10 個 chocolate ( C ),而 Bow 2 則有 20 個 vanilla 與 20 個 chocolate。現在拿出一顆 vanilla 口味的餅乾,則最有可能是從哪一個袋子拿出來的?
根據 Bayes 思考方式,問題可轉化為當觀察到 vaniila 口味的 cookie 時,拿出的袋子為 Bowl 1 或 Bowl 2 的機率何者較大。也就是比較
$$P(H = B_1 \mid D = vaniila)$$與
$$P(H=B_2 \mid D = vanilla)$$的數值大小。
Prior
先設定 Hypothesis 為拿出 Cookie 的袋子,包含
$$B_1$$或
$$B_2$$兩者。我們假定 Hypothesis 的分布為 uniform distribution,則 Prior 為
$$P(B_1) = P(B_2) = 0.5$$Likelihood
因問題敘述中已經告知每個袋子中包含的 Cookie 種類,即 Likelihood
$$P(D \mid H)$$的機率分布為
$$P(V \mid B_1)=3/4, P(C \mid B_1)=1/4$$ $$P(V \mid B_2)=1/2, P(C \mid B_2)=1/2$$Normalizing Constant
正規化常數 $P(V) 可計算如下
$$P(V) = P(B_1)P(V \mid B_1) + P(B_2)P(V \mid B_2) = (1/2)(3/4)+(1/2)(1/2)=5/8$$因 Prior * Likelihood 都會除以相同的 Normalizing Constant,因此時常可忽略不計算。
Posterior
當 Prior 與 Likelihood 都建立完成後,即可計算 Posterior
$$P(H \mid D)$$為
$$P(B_1 \mid V) = \frac{P(V)P(V \mid B_1)}{P(V)} = \frac{(1/2)(3/4)}{5/8} = \frac{3}{5}$$ $$P(B_2 \mid V) = \frac{P(V)P(V \mid B_2)}{P(V)} = \frac{(1/2)(1/2)}{5/8} = \frac{2}{5}$$依照 Posterir 結果,我們可知
$$P(B_1 \mid V) > P(B_2 \mid V)$$,因此當觀察到 Cookie 為 Vanilla 時,Bowl 1 為最有可能拿出的袋子。
之後作者以 M&M problem 與 Monty Hall problem (三門問題) 展示如何建模並求出結果,以及與為何 Bayes’s theorem 有時會違反直覺的情況。詳細可自行參考 ThinkBayes 一書。