Định lý Bayes (Bayes' theorem)

Ngô Văn Tuân · 11/7/21

Bài trước: Các công thức xác suất cơ bản
Công thức của định lý Bayes
\begin{equation}
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
\end{equation}
Chứng minh:
\begin{equation}
P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(BA)}{P(B)} = \frac{P(B|A)P(A)}{P(B)}
\end{equation}
Định lý Bayes cho hàm mật độ xác suất:
\begin{equation}
\begin{split}
p(x|y) &= \frac{p(y|x)p(x)}{p(y)} = \frac{p(y|x)p(x)}{\sum_{x'}^{} p(y|x')p(x')} \\
p(x|y) &= \frac{p(y|x)p(x)}{p(y)} = \frac{p(y|x)p(x)}{\int_{x'}^{} p(y|x')p(x')dx'}
\end{split}
\end{equation}
Tổng quát hơn một chút:
\begin{equation}
\begin{split}
p(x|y,z) = \frac{p(y|x,z)p(x|z)}{p(y|z)} = \frac{p(y|x, z)p(x|z)}{\sum_{x'}^{} p(y|x',z)p(x'|z)} \\
p(x|y,z) = \frac{p(y|x,z)p(x|z)}{p(y|z)} \frac{p(y|x)p(x)}{\int_{x'}^{} p(y|x',z)p(x'|z)dx'}
\end{split}
\end{equation}
Ví dụ:
Giả sử một người đi xét nhiệm covid, nếu kết quả xét nghiệm là dương tính thì chúng ta có nên khẳng định rằng người đó đã bị dương tính 100% không? Đương nhiên là không vì ta biết rằng thiết bị xét nghiệm vẫn có thể sai. Vậy khả năng người này nhiễm covid là bao nhiêu? Hãy dùng định lý Bayes để tìm ra câu trả lời chính xác.
Gọi \(A\) là biến cố người được xét nghiệm nhiễm covid. \(\bar{A}\) là biến cố người được xét nghiệm không nhiễm covid.
Gọi \(B\) là biến cố kết quả xét nghiệm là dương tính. \(\bar{B}\) là biến cố kết quả xét nghiệm là âm tính.
Khi đó:

\(P(B|A)\) là xác suất xảy ra trường hợp dương tính thật (true positive): người nhiễm covid có kết quả xét nghiệm dương tính.
\(P(B|\bar{A})\) là xác suất xảy ra trường hợp dương tính giả (false positive): người không nhiễm covid có kết quả xét nghiệm dương tính.
\(P(\bar{B}|A)\) là xác suất xảy ra trường hợp âm tính giả (false negative): người nhiễm covid có kết quả xét nghiệm âm tính.
\(P(\bar{B}|\bar{A})\) là xác suất xảy ra trường hợp âm tính thật (true negative): người không nhiễm covid có kết quả xét nghiệm âm tính.

Ta cần tính xác suất một người bị thật sự nhiễm virus với điều kiện kết quả xét nghiệm là dương tính, tức là cần tính \(P(A|B)\).
Áp dụng công thức Bayes ta có:
\begin{equation}
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
\end{equation}
Để có được \(P(B|A)\), ta phải hiểu về thông số sensitivity của một bộ xét nghiệm covid. Sensitivity là khả năng xác định một người có dương tính hay không với điều kiện người đó dương tính. Giả sử sensitivity của bộ xét nghiệm là 95%. Điều này nghĩa là nếu đem 100 người bị nhiễm covid đi xét nghiệm thì sẽ có 95 người có kết quả dương tính, tức là \(P(B|A)=0.95\).
\(P(A)\) là xác suất người đó bị nhiễm covid, tiếng Anh gọi \(P(A)\) là prior, là xác suất có trước hay điều kiện ban đầu. Để tính được giá trị ban đầu này, ta giả sử vùng dân cư người đó sống có 100 người và có 10 người đã có kết quả xét nghiệm khẳng định dương tính. Khi đó nếu bốc một người từ khu dân cư, ta có thể giả sử người đó có 10% cơ hội nhiễm bệnh. Tức là \(P(A)=0.1\).
\(P(B)\) là xác suất bộ xét nghiệm cho kết quả dương tính. Để tính được \(P(B)\) ta sử dụng công thức cộng xác suất:
\begin{equation}
P(B) = P(B|A)P(A) + P(B|\bar{A})P(\bar{A})
\end{equation}
Xác suất bộ xét nghiệm cho kết quả dương tính bằng tổng của xác suất bộ xét nghiệm cho kết quả dương tính với điều kiện người xét nhiễm covid và xác suất bộ xét nghiệm cho kết quả dương tính với điều kiện người xét không nhiễm. Ta có:
\begin{equation}
\begin{split}
P(B) &= P(B|A)P(A) + P(B|\bar{A})P(\bar{A})\\
&=P(B|A) \times P(A) + P(B|\bar{A}) \times (1-P(A))
\end{split}
\end{equation}
\(P(B|\bar{A})\) là xác suất kết quả xét nghiệm là dương tính với điều kiện người đi xét nghiệm không nhiễm covid. Để có được \(P(B|\bar{A})\), ta phải hiểu về thống số specificity của một bộ xét nghiệm. Specificity là khả năng xác định một người có âm tính với điều kiện người đó không nhiễm covid. Giả sử specificity của bộ xét nghiệm là 99%. Điều này nghĩa là nếu đem 100 người không bị nhiễm covid đi xét nghiệm thì sẽ có 99 người có kết quả âm tính, tức là \(P(\bar{B} | \bar{A}) = 0.99\). Từ đây ta suy ra:
\begin{equation}
P(B | \bar{A}) = 1 - P(\bar{B} | \bar{A}) = 1 -0.99 = 0.01
\end{equation}
Do đó:
\begin{equation}
\begin{split}
P(A|B) &= \frac{P(B|A)P(A)}{P(B)} \\
&= \frac{P(B|A)P(A)}{P(B|A) \times P(A) + P(B|\bar{A}) \times (1-P(A))} \\
&= \frac{0.95\times 0.1}{0.95 \times 0.1 + 0.01 \times(1-0.1)}\\
&\approx 0.91
\end{split}
\end{equation}
Vậy, với các giả thiết như trên, khả năng người đó nhiễm covid là 91%.
Để dễ hiểu hơn, ta có thể sử dụng các con số cụ thể như sau:
Giả sử có một khu dân cư có 1000 người, trong đó 100 bị nhiễm covid và 900 người không nhiễm covid. Sử dụng bộ xét nghiệm có thông số sau.
Với bộ xét nghiệm covid có sensitivity bằng 95% và specificity là 99% thì.

Nếu đem 100 người bị nhiễm đi xét nghiệm thì có 95 có kết quả dương tính: \(P(B|A) = 0.95\);
Nếu đem 900 người không bị nhiễm đi xét nghiệm thì có 90 người cho kết quả dương tính \(P(B|\bar{A}) = 0.01\);
Nếu đem 1000 người đi xét nghiệm thì sẽ có tổng số xét nghiệm cho kết quả dương tính là \(95+9=104\).

Trước khi xét nghiệm, nếu bốc 1 người trong số 1000 người xác suất người đó nhiễm covid là \(P(A)=0.1\).
Sau khi có kết quả xét nghiệm dương tính thì xác suất người đó nhiễm covid là khả năng chọn ra 1 người nhiễm virus trong tập 104 người, biết có 95 người trong tập 104 người đó nhiễm virus:
\begin{equation}
\begin{split}
P(A=p|B=p) &= \frac{95}{104} \\
&\approx 0.91
\end{split}
\end{equation}
Nhận xét:

Để tính được xác suất người đó bị nhiễm covid sau khi có kết quả dương tính thì ta cần biết 3 thông số:
- \(P(A)\) là xác suất ban đầu người đó bị nhiễm covid. Người nào sống trong vùng dịch, xung quanh đã có nhiều người nhiễm covid thì \(P(A)\) càng lớn. \(P(A)\) càng lớn thì xác suất người đó bị nhiễm covid sau khi có kết quả dương tính càng cao.
- \(P(B|A)\) là sensitivity của bộ xét nhiệm. Sensitivity càng lớn thì xác suất người đó bị nhiễm covid sau khi có kết quả dương tính càng cao.
- \(P(\bar{B} | \bar{A})\) là specificity của bộ xét nghiệm. Specificity càng lớn thì xác suất người đó bị nhiễm covid sau khi có kết quả dương tính càng cao.
Một các trừu tượng có thể thấy rằng:
- Nếu người đi xét nghiệm sống trong vùng dịch thì ta có quyền nghi ngờ người đó nhiễm covid. Nếu lại có thêm kết quả dương tính thì ta lại càng có thể chắc chắn hơn rằng người nhiễm covid. Ngoài ra nếu người đó có những biểu hiện của việc nhiễm covid (ho, sốt,... ) thì ta có thể tăng \(P(A)\) lên, khi đó \(P(A|B)\) cũng sẽ tăng lên.
- Khả năng một người bị nhiễm covid không chỉ phụ thuộc vào độ nhạy sensitivity của bộ xét nghiệm mà còn phụ thuộc vào specificity. Thực tế, bộ xét nghiệm vẫn có thể cho kết quả dương tính mặc dù người xét nghiệm không nghiễm covid. Do đó, nếu có kết quả dương tính thì ta vẫn có thể rơi vào trường hợp này.
- Nếu specificity của bộ xét nhiệm là 100% thì ta thấy bộ xét nghiệm này luôn cho kết quả âm tính nếu người đó không nhiễm covid, nghĩa là nếu có kết quả dương tính thì chắc chắn người đó nhiễm covid. Thế vào công thức Bayes ta cũng thấy rõ điều này. Tuy nhiên, nếu người đó có kết quả xét nghiệm âm tính thì cũng không thể khẳng định 100% người đó không nhiễm covid.
Nếu người đó xét nghiệm tiếp lần hai cho kết quả dương tính thì để tính xác suất người đó thật bị nhiễm virus ta chỉ cần thay điều kiện ban đầu \(P(A)\) bằng 0.91, các phần tử còn lại vẫn giữ nguyên. Khi đó, ta thấy xác suất người đó thật sự nhiễm covid đã tăng lên.

\begin{equation}
\begin{split}
P(A|B) &= \frac{P(B|A)P(A)}{P(B)} \\
&= \frac{P(B|A)P(A)}{P(B|A) \times P(A) + P(B|\bar{A}) \times (1-P(A))} \\
&= \frac{0.95\times 0.91}{0.95 \times 0.91 + 0.01 \times(1-0.91)}\\
&\approx 0.99
\end{split}
\end{equation}

Định lý Bayes (Bayes' theorem)

Ngô Văn Tuân

Gà con