Công thức xác suất toàn phần và Bayes – Hướng dẫn chi tiết

Trang chủ > Công Thức > Bài hiện tại.

I. GIỚI THIỆU

1. Hai công thức quan trọng nhất

Trong lý thuyết xác suất, có hai công thức đặc biệt quan trọng giúp giải quyết các bài toán phức tạp:

Công thức xác suất toàn phần: Dùng để tính xác suất của một biến cố A khi A có thể xảy ra thông qua nhiều “con đường” hoặc “kịch bản” khác nhau.

Công thức Bayes: Dùng để “đảo ngược” điều kiện – tìm nguyên nhân từ kết quả đã biết. Đây là công cụ mạnh mẽ để suy luận ngược.

2. Mối liên hệ giữa hai công thức

Hai công thức này không tồn tại độc lập mà có mối quan hệ chặt chẽ:

  • Xác suất toàn phần thường được dùng để tính mẫu số cho công thức Bayes
  • Công thức Bayes = Xác suất toàn phần + Xác suất có điều kiện
  • Trong thực tế, khi giải bài toán Bayes, ta thường phải tính xác suất toàn phần trước

3. Khi nào dùng?

Công thức Khi nào dùng Câu hỏi điển hình
Xác suất toàn phần Tính P(A) khi A xảy ra qua nhiều trường hợp “Tính xác suất A?”
Công thức Bayes Tìm nguyên nhân $B_i$ từ kết quả A “Biết A xảy ra, tìm nguyên nhân $B_i$?”

Ví dụ minh họa:

  • Toàn phần: “Tính xác suất sản phẩm bị lỗi?” (khi sản phẩm từ nhiều máy khác nhau)
  • Bayes: “Biết sản phẩm bị lỗi, tính xác suất từ máy 1?” (tìm nguồn gốc)

II. HỆ ĐẦY ĐỦ CÁC BIẾN CỐ

1. Định nghĩa hệ đầy đủ

Trước khi tìm hiểu hai công thức chính, ta cần hiểu khái niệm hệ đầy đủ các biến cố – nền tảng cho cả hai công thức.

Định nghĩa: Hệ các biến cố $B_1, B_2, …, B_n$ được gọi là hệ đầy đủ (hay hệ biến cố đầy đủ) nếu thỏa mãn đồng thời hai điều kiện sau:

📌 Điều kiện 1: Xung khắc từng đôi

$$B_i \cap B_j = \emptyset \quad \forall i \neq j$$

Ý nghĩa: Hai biến cố bất kỳ trong hệ không thể xảy ra đồng thời. Nếu $B_i$ xảy ra thì $B_j$ không xảy ra và ngược lại.

📌 Điều kiện 2: Hợp thành không gian mẫu

$$B_1 \cup B_2 \cup … \cup B_n = \Omega$$

Ý nghĩa: Hợp của tất cả các biến cố trong hệ tạo thành toàn bộ không gian mẫu. Nói cách khác, ít nhất một trong các biến cố này phải xảy ra.

Kết luận quan trọng:

  • Trong mỗi phép thử, đúng một biến cố trong hệ xảy ra
  • Không có trường hợp nào “rơi ra ngoài” hệ
  • Tổng xác suất: $P(B_1) + P(B_2) + … + P(B_n) = 1$

2. Minh họa trực quan

        Ω (không gian mẫu)
    ┌─────────────────────────┐
    │   B₁   │   B₂   │  B₃   │
    ├────────┼────────┼───────┤
    │        │        │       │
    └────────┴────────┴───────┘
    
• Các biến cố không giao nhau (xung khắc)
• Lấp đầy toàn bộ không gian mẫu
• Đúng 1 trong {B₁, B₂, B₃} xảy ra mỗi lần

3. Ví dụ hệ đầy đủ

Ví dụ 1: Phân loại học sinh

Một lớp học chia học sinh thành 3 nhóm:

  • $B_1$: Học sinh giỏi
  • $B_2$: Học sinh khá
  • $B_3$: Học sinh trung bình

Kiểm tra:

  • ✓ Xung khắc: Mỗi học sinh chỉ thuộc đúng một nhóm
  • ✓ Đầy đủ: Mọi học sinh đều thuộc một trong ba nhóm
  • → Đây là hệ đầy đủ

Ví dụ 2: Nguồn gốc sản phẩm

Một xưởng sản xuất có 3 máy:

  • $B_1$: Sản phẩm từ máy 1
  • $B_2$: Sản phẩm từ máy 2
  • $B_3$: Sản phẩm từ máy 3

Kiểm tra:

  • ✓ Xung khắc: Mỗi sản phẩm chỉ từ một máy
  • ✓ Đầy đủ: Mọi sản phẩm đều từ một trong ba máy
  • → Đây là hệ đầy đủ

Ví dụ 3: Kết quả thi đậu/rớt

  • $B_1$: Thi đậu
  • $B_2$: Thi rớt

Kiểm tra:

  • ✓ Xung khắc: Không thể vừa đậu vừa rớt
  • ✓ Đầy đủ: Chỉ có hai kết quả có thể
  • → Đây là hệ đầy đủ

4. Trường hợp đặc biệt: 2 biến cố

Hệ đầy đủ đơn giản nhất: ${B, \overline{B}}$

Với mọi biến cố B, ta có hệ đầy đủ gồm hai phần tử:

  • $B$: Biến cố B xảy ra
  • $\overline{B}$: Biến cố B không xảy ra (biến cố đối)

Tính chất:

  • $B \cap \overline{B} = \emptyset$ (xung khắc)
  • $B \cup \overline{B} = \Omega$ (đầy đủ)
  • $P(B) + P(\overline{B}) = 1$

Đây là trường hợp đặc biệt thường gặp nhất trong các bài toán.

III. CÔNG THỨC XÁC SUẤT TOÀN PHẦN

1. Định lý xác suất toàn phần

📌 Công thức tổng quát:

Cho $B_1, B_2, …, B_n$ là hệ đầy đủ các biến cố và A là một biến cố bất kỳ. Khi đó:

$$\boxed{P(A) = \sum_{i=1}^{n} P(B_i) \cdot P(A|B_i)}$$

Viết khai triển:

$$P(A) = P(B_1) \cdot P(A|B_1) + P(B_2) \cdot P(A|B_2) + … + P(B_n) \cdot P(A|B_n)$$

Trường hợp n = 2 (Rất thường gặp):

$$\boxed{P(A) = P(B) \cdot P(A|B) + P(\overline{B}) \cdot P(A|\overline{B})}$$

Trong đó:

  • $P(B_i)$: Xác suất xảy ra biến cố $B_i$ (xác suất tiên nghiệm)
  • $P(A|B_i)$: Xác suất có điều kiện của A khi biết $B_i$ đã xảy ra

2. Ý nghĩa của công thức

“Phân tích A thành các con đường dẫn đến A”

Công thức xác suất toàn phần cho phép ta:

  • Phân tích biến cố A phức tạp thành nhiều trường hợp đơn giản $B_i$
  • Mỗi $B_i$ là một “kịch bản” hoặc “con đường” có thể dẫn đến A
  • Biến cố A xảy ra khi đi qua bất kỳ kịch bản nào trong số đó
  • Cộng tất cả các khả năng lại để được xác suất tổng

Nguyên lý:

  • A có thể xảy ra cùng với $B_1$, hoặc cùng với $B_2$, …, hoặc cùng với $B_n$
  • Các trường hợp này xung khắc (vì $B_i$ xung khắc)
  • Nên: $P(A) = P(A \cap B_1) + P(A \cap B_2) + … + P(A \cap B_n)$
  • Mà: $P(A \cap B_i) = P(B_i) \cdot P(A|B_i)$
  • Từ đó suy ra công thức toàn phần

3. Sơ đồ cây minh họa

                 ┌─ B₁ [P(B₁)] ──→ A|B₁ [P(A|B₁)]
                 │
          A ─────┼─ B₂ [P(B₂)] ──→ A|B₂ [P(A|B₂)]
                 │
                 └─ B₃ [P(B₃)] ──→ A|B₃ [P(A|B₃)]

P(A) = P(B₁)·P(A|B₁) + P(B₂)·P(A|B₂) + P(B₃)·P(A|B₃)

Giải thích sơ đồ:

  • Mỗi nhánh đại diện cho một “con đường” dẫn đến A
  • Xác suất mỗi con đường = tích xác suất dọc theo nhánh
  • Xác suất tổng = tổng xác suất các con đường

4. Ví dụ cơ bản

Bài toán: Một xưởng sản xuất có 3 máy với các thông số sau:

Máy Tỉ lệ sản xuất Tỉ lệ lỗi
Máy 1 30% 2%
Máy 2 45% 3%
Máy 3 25% 4%

Chọn ngẫu nhiên một sản phẩm từ sản lượng chung. Tính xác suất sản phẩm đó bị lỗi?

Lời giải:

Bước 1: Xác định hệ đầy đủ

Đặt:

  • $B_1$: “Sản phẩm từ máy 1”
  • $B_2$: “Sản phẩm từ máy 2”
  • $B_3$: “Sản phẩm từ máy 3”

Đây là hệ đầy đủ vì mỗi sản phẩm từ đúng một máy.

Bước 2: Xác định các xác suất

  • $P(B_1) = 0.3$ (30%)
  • $P(B_2) = 0.45$ (45%)
  • $P(B_3) = 0.25$ (25%)

Đặt A = “Sản phẩm bị lỗi”:

  • $P(A|B_1) = 0.02$ (2% lỗi từ máy 1)
  • $P(A|B_2) = 0.03$ (3% lỗi từ máy 2)
  • $P(A|B_3) = 0.04$ (4% lỗi từ máy 3)

Bước 3: Áp dụng công thức xác suất toàn phần

$$P(A) = P(B_1) \cdot P(A|B_1) + P(B_2) \cdot P(A|B_2) + P(B_3) \cdot P(A|B_3)$$

$$= 0.3 \times 0.02 + 0.45 \times 0.03 + 0.25 \times 0.04$$

$$= 0.006 + 0.0135 + 0.01$$

$$= 0.0295$$

Kết luận: Xác suất chọn được sản phẩm lỗi là 2.95%.

Giải thích:

  • Sản phẩm lỗi có thể đến từ 3 nguồn khác nhau
  • Mỗi nguồn đóng góp một phần vào xác suất tổng
  • Máy 2 đóng góp nhiều nhất vì vừa sản xuất nhiều (45%) vừa có tỉ lệ lỗi trung bình

5. Khi nào dùng công thức toàn phần?

Dùng khi:

  • Có nhiều “nguồn gốc” hoặc “con đường” khác nhau dẫn đến biến cố A
  • Biết rõ $P(B_i)$ và $P(A|B_i)$, cần tính $P(A)$
  • Đề bài hỏi: “Tính xác suất A xảy ra?”
  • Có thể chia bài toán thành nhiều trường hợp đơn giản hơn

Dấu hiệu nhận biết trong đề bài:

  • “Xưởng có n máy sản xuất…”
  • “Học sinh được chia thành n nhóm…”
  • “Sản phẩm từ n nguồn khác nhau…”
  • “Có n hộp/túi/cửa hàng…”
  • Bất kỳ tình huống nào có nhiều “kịch bản” dẫn đến kết quả

6. Mở rộng: Công thức toàn phần nhiều bước

Trường hợp phức tạp hơn: Nếu cần tính xác suất qua nhiều giai đoạn:

$$P(A) = \sum_i \sum_j P(B_i) \cdot P(C_j|B_i) \cdot P(A|B_i \cap C_j)$$

Ví dụ: Lấy bi từ hộp A sang hộp B, rồi lấy bi từ hộp B ra.

  • Giai đoạn 1: Bi từ A sang B (có nhiều khả năng về màu)
  • Giai đoạn 2: Bi từ B ra ngoài (xác suất phụ thuộc vào giai đoạn 1)

IV. CÔNG THỨC BAYES

1. Định lý Bayes

Công thức Bayes được đặt theo tên nhà toán học Thomas Bayes (1701-1761), là một trong những công thức quan trọng nhất trong lý thuyết xác suất.

📌 Công thức Bayes tổng quát:

Cho $B_1, B_2, …, B_n$ là hệ đầy đủ các biến cố và A là biến cố đã xảy ra. Khi đó:

$$\boxed{P(B_k|A) = \frac{P(B_k) \cdot P(A|B_k)}{\sum_{i=1}^{n} P(B_i) \cdot P(A|B_i)}}$$

Hoặc viết rõ hơn:

$$P(B_k|A) = \frac{P(B_k) \cdot P(A|B_k)}{P(B_1) \cdot P(A|B_1) + P(B_2) \cdot P(A|B_2) + … + P(B_n) \cdot P(A|B_n)}$$

Phân tích công thức:

  • Tử số: $P(B_k) \cdot P(A|B_k)$ – xác suất xảy ra đồng thời $B_k$ và A
  • Mẫu số: $\sum_{i=1}^{n} P(B_i) \cdot P(A|B_i) = P(A)$ – đúng bằng xác suất toàn phần!

Trường hợp n = 2:

$$P(B|A) = \frac{P(B) \cdot P(A|B)}{P(B) \cdot P(A|B) + P(\overline{B}) \cdot P(A|\overline{B})}$$

2. Cấu trúc công thức Bayes

Công thức Bayes có thể hiểu theo cách sau:

$$P(B_k|A) = \frac{\text{Prior} \times \text{Likelihood}}{\text{Evidence}}$$

Thành phần Tên gọi Ký hiệu Ý nghĩa
Prior Xác suất tiên nghiệm $P(B_k)$ XS ban đầu của $B_k$ (trước khi biết A)
Likelihood Khả năng $P(A|B_k)$ XS của A khi đã biết $B_k$
Posterior Xác suất hậu nghiệm $P(B_k|A)$ XS của $B_k$ sau khi biết A
Evidence Bằng chứng $P(A)$ XS toàn phần của A

Ý nghĩa:

  • Prior là niềm tin ban đầu (trước khi có dữ liệu)
  • Likelihood là mức độ phù hợp của dữ liệu với giả thuyết
  • Posterior là niềm tin cập nhật (sau khi có dữ liệu)
  • Bayes cho phép “cập nhật” niềm tin dựa trên bằng chứng mới

3. Ý nghĩa: “Tìm nguyên nhân từ kết quả”

Công thức Bayes trả lời câu hỏi:

  • Biết kết quả A đã xảy ra
  • Nguyên nhân $B_k$ nào có khả năng cao nhất gây ra A?

Đây là suy luận ngược (backward inference):

  • Xác suất có điều kiện thông thường: $P(A|B_k)$ – Biết nguyên nhân, tính kết quả
  • Công thức Bayes: $P(B_k|A)$ – Biết kết quả, tìm nguyên nhân

Ví dụ thực tế:

  • Y tế: Biết test dương tính → Xác suất thực sự có bệnh?
  • Sản xuất: Biết sản phẩm lỗi → Từ máy nào?
  • Email: Biết email chứa từ “free” → Có phải spam?
  • Pháp lý: Biết có bằng chứng X → Xác suất bị cáo có tội?

4. Ví dụ minh họa (Tiếp bài toán máy sản xuất)

Bài toán: Một sản phẩm bị lỗi được phát hiện. Tính xác suất sản phẩm đó từ máy 1?

Lời giải:

Từ Ví dụ 4 ở phần III, ta đã biết:

  • $P(B_1) = 0.3$, $P(A|B_1) = 0.02$
  • $P(B_2) = 0.45$, $P(A|B_2) = 0.03$
  • $P(B_3) = 0.25$, $P(A|B_3) = 0.04$
  • $P(A) = 0.0295$ (đã tính bằng công thức toàn phần)

Cần tìm: $P(B_1|A)$ – xác suất từ máy 1 khi biết sản phẩm lỗi

Áp dụng công thức Bayes:

$$P(B_1|A) = \frac{P(B_1) \cdot P(A|B_1)}{P(A)}$$

$$= \frac{0.3 \times 0.02}{0.0295}$$

$$= \frac{0.006}{0.0295}$$

$$\approx 0.203 = 20.3\%$$

Giải thích kết quả thú vị:

  • Máy 1 sản xuất 30% sản phẩm
  • Nhưng chỉ 20.3% sản phẩm lỗi đến từ máy 1
  • Tại sao? Vì tỉ lệ lỗi máy 1 (2%) thấp hơn trung bình (2.95%)

Tính tương tự cho các máy khác:

  • $P(B_2|A) = \frac{0.45 \times 0.03}{0.0295} \approx 0.458 = 45.8\%$
  • $P(B_3|A) = \frac{0.25 \times 0.04}{0.0295} \approx 0.339 = 33.9\%$

Kiểm tra: $20.3\% + 45.8\% + 33.9\% = 100\%$ ✓

Kết luận: Khi phát hiện sản phẩm lỗi, khả năng cao nhất là từ máy 2 (45.8%).

5. Ví dụ Bayes kinh điển – Test y tế

Đây là ví dụ nổi tiếng minh họa sức mạnh và sự “phản trực giác” của công thức Bayes.

Bài toán: Một căn bệnh hiếm gặp có tỉ lệ mắc bệnh là 1/1000 người trong dân số. Một loại test phát hiện bệnh có các thông số:

  • Độ nhạy (Sensitivity): 95% – nghĩa là nếu có bệnh thì 95% test dương tính (+)
  • Độ đặc hiệu (Specificity): 90% – nghĩa là nếu không bệnh thì 90% test âm tính (-)

Một người được test và cho kết quả dương tính (+). Tính xác suất người đó thực sự bị bệnh?

Lời giải:

Bước 1: Xác định các biến cố

Đặt:

  • B: “Có bệnh”, $P(B) = 0.001 = \frac{1}{1000}$
  • $\overline{B}$: “Không bệnh”, $P(\overline{B}) = 0.999$
  • A: “Test dương tính (+)”

Bước 2: Xác định xác suất có điều kiện

  • $P(A|B) = 0.95$ (độ nhạy: có bệnh → test +)
  • $P(A|\overline{B}) = 1 – 0.90 = 0.1$ (sai số: không bệnh nhưng test + là 10%)

Bước 3: Tính P(A) bằng công thức toàn phần

$$P(A) = P(B) \cdot P(A|B) + P(\overline{B}) \cdot P(A|\overline{B})$$

$$= 0.001 \times 0.95 + 0.999 \times 0.1$$

$$= 0.00095 + 0.0999$$

$$= 0.10085$$

Bước 4: Áp dụng công thức Bayes

$$P(B|A) = \frac{P(B) \cdot P(A|B)}{P(A)}$$

$$= \frac{0.001 \times 0.95}{0.10085}$$

$$= \frac{0.00095}{0.10085}$$

$$\approx 0.00942 \approx 0.94\%$$

Kết luận đáng kinh ngạc:

  • Test có độ chính xác 95%
  • Kết quả dương tính (+)
  • Nhưng chỉ có khoảng 1% khả năng thực sự bị bệnh!

Giải thích tại sao:

  • Bệnh quá hiếm (prior rất thấp: 0.1%)
  • Trong 1000 người:
    • Chỉ 1 người có bệnh → test + (đúng)
    • 999 người không bệnh → nhưng ~100 người test + (sai – false positive)
  • Vậy trong ~101 người test +, chỉ 1 người thực sự có bệnh
  • $\frac{1}{101} \approx 1\%$

Bài học: Khi prior (xác suất ban đầu) rất thấp, ngay cả test chính xác cao cũng cho kết quả không đáng tin cậy. Cần làm test lần 2 để xác nhận.

6. Khi nào dùng công thức Bayes?

Dùng khi:

  • Biết kết quả A đã xảy ra, cần tìm nguyên nhân $B_k$
  • Câu hỏi dạng: “Biết A, tính xác suất từ $B_k$?”
  • Cần “đảo ngược” điều kiện
  • Muốn cập nhật niềm tin dựa trên bằng chứng mới

Dấu hiệu nhận biết trong đề bài:

  • “Biết sản phẩm lỗi, tính xác suất từ máy k?”
  • “Biết test dương tính, xác suất có bệnh?”
  • “Biết kết quả X, tìm nguyên nhân Y?”
  • “Tìm nguồn gốc”, “xác định nguồn”
  • Bất kỳ câu hỏi nào có dạng “Biết…, tính xác suất…”

V. MỐI LIÊN HỆ GIỮA HAI CÔNG THỨC

1. Bayes = Toàn phần + Điều kiện

Nhìn vào công thức Bayes đầy đủ:

$$P(B_k|A) = \frac{P(B_k) \cdot P(A|B_k)}{\sum_{i=1}^{n} P(B_i) \cdot P(A|B_i)}$$

Ta nhận thấy:

Mẫu số chính là công thức xác suất toàn phần:

$$\sum_{i=1}^{n} P(B_i) \cdot P(A|B_i) = P(A)$$

Vậy công thức Bayes có thể viết gọn:

$$P(B_k|A) = \frac{P(B_k) \cdot P(A|B_k)}{P(A)}$$

Kết luận: Để giải bài toán Bayes, ta thường phải:

  1. Tính $P(A)$ bằng công thức toàn phần trước
  2. Sau đó áp dụng công thức Bayes

2. Sơ đồ quy trình giải bài

┌─────────────────────────────────────────────┐
│ Bước 1: Xác định hệ đầy đủ {B₁, B₂, ..., Bₙ}│
└──────────────────┬──────────────────────────┘
                   ↓
┌─────────────────────────────────────────────┐
│ Bước 2: Xác định bài toán                   │
│  • Tính P(A)? → Dùng Toàn phần              │
│  • Tính P(Bₖ|A)? → Dùng Bayes               │
└──────────────────┬──────────────────────────┘
                   ↓
┌─────────────────────────────────────────────┐
│ Bước 3: Tính P(A) bằng Toàn phần            │
│  P(A) = ΣP(Bᵢ)·P(A|Bᵢ)                      │
└──────────────────┬──────────────────────────┘
                   ↓
┌─────────────────────────────────────────────┐
│ Bước 4: Tính P(Bₖ|A) bằng Bayes             │
│  P(Bₖ|A) = P(Bₖ)·P(A|Bₖ)/P(A)              │
└─────────────────────────────────────────────┘

3. Bảng so sánh hai công thức

Tiêu chí Xác suất toàn phần Công thức Bayes
Mục đích Tính P(A) Tìm nguyên nhân $B_k$
Đã biết P($B_i$), P(A|$B_i$) P($B_i$), P(A|$B_i$), A đã xảy ra
Cần tìm P(A) P($B_k$|A)
Hướng suy luận Từ nguyên nhân → kết quả Từ kết quả → nguyên nhân
Câu hỏi “Tính xác suất A?” “Biết A, tìm $B_k$?”
Ứng dụng Tính xác suất tổng hợp Chẩn đoán, suy luận ngược

4. Ví dụ minh họa mối liên hệ

Quay lại bài toán máy sản xuất:

Câu hỏi 1 (Toàn phần): “Tính xác suất sản phẩm lỗi?”

  • Trả lời: $P(A) = 2.95\%$ (đã tính)

Câu hỏi 2 (Bayes): “Biết sản phẩm lỗi, từ máy 1?”

  • Cần: $P(B_1|A)$
  • Phải dùng $P(A) = 2.95\%$ từ câu 1
  • Kết quả: $P(B_1|A) = 20.3\%$

→ Hai công thức bổ trợ nhau trong một bài toán!

VI. BÀI TẬP MẪU

Dạng 1: Chỉ dùng công thức toàn phần

Đề bài: Có ba hộp bi:

  • Hộp 1: 2 bi đỏ, 3 bi xanh
  • Hộp 2: 4 bi đỏ, 1 bi xanh
  • Hộp 3: 3 bi đỏ, 2 bi xanh

Chọn ngẫu nhiên một hộp (xác suất bằng nhau), sau đó lấy ngẫu nhiên một viên bi từ hộp đó. Tính xác suất lấy được bi đỏ?

Lời giải:

Bước 1: Xác định hệ đầy đủ

Đặt:

  • $H_1$: “Chọn hộp 1”
  • $H_2$: “Chọn hộp 2”
  • $H_3$: “Chọn hộp 3”

Vì chọn ngẫu nhiên nên: $$P(H_1) = P(H_2) = P(H_3) = \frac{1}{3}$$

Bước 2: Tính xác suất có điều kiện

Đặt A = “Lấy được bi đỏ”

  • $P(A|H_1) = \frac{2}{2+3} = \frac{2}{5}$ (hộp 1 có 2 đỏ trong 5 bi)
  • $P(A|H_2) = \frac{4}{4+1} = \frac{4}{5}$ (hộp 2 có 4 đỏ trong 5 bi)
  • $P(A|H_3) = \frac{3}{3+2} = \frac{3}{5}$ (hộp 3 có 3 đỏ trong 5 bi)

Bước 3: Áp dụng công thức toàn phần

$$P(A) = P(H_1) \cdot P(A|H_1) + P(H_2) \cdot P(A|H_2) + P(H_3) \cdot P(A|H_3)$$

$$= \frac{1}{3} \times \frac{2}{5} + \frac{1}{3} \times \frac{4}{5} + \frac{1}{3} \times \frac{3}{5}$$

$$= \frac{1}{3} \left(\frac{2}{5} + \frac{4}{5} + \frac{3}{5}\right)$$

$$= \frac{1}{3} \times \frac{9}{5} = \frac{9}{15} = \frac{3}{5}$$

Kết luận: Xác suất lấy được bi đỏ là $\frac{3}{5} = 60\%$.

Dạng 2: Toàn phần + Bayes

Đề bài: (Tiếp bài toán trên) Biết rằng viên bi lấy ra là bi đỏ. Tính xác suất bi đó lấy từ hộp 2?

Lời giải:

Bước 1: Từ bài trước, ta đã có $P(A) = \frac{3}{5}$

Bước 2: Cần tìm $P(H_2|A)$ – xác suất từ hộp 2 khi biết bi đỏ

Áp dụng công thức Bayes:

$$P(H_2|A) = \frac{P(H_2) \cdot P(A|H_2)}{P(A)}$$

$$= \frac{\frac{1}{3} \times \frac{4}{5}}{\frac{3}{5}}$$

$$= \frac{\frac{4}{15}}{\frac{3}{5}}$$

$$= \frac{4}{15} \times \frac{5}{3}$$

$$= \frac{4 \times 5}{15 \times 3} = \frac{20}{45} = \frac{4}{9}$$

Kết luận: Xác suất bi đỏ từ hộp 2 là $\frac{4}{9} \approx 44.4\%$.

Giải thích: Hộp 2 có tỉ lệ bi đỏ cao nhất (4/5 = 80%), nên khi lấy được bi đỏ, khả năng từ hộp 2 cao hơn so với tỉ lệ ban đầu (1/3).

Dạng 3: Bài toán 2 bước

Đề bài: Hộp A chứa 3 bi đỏ và 2 bi xanh. Hộp B chứa 4 bi đỏ và 1 bi xanh.

  • Bước 1: Lấy ngẫu nhiên 1 bi từ hộp A bỏ sang hộp B
  • Bước 2: Lấy ngẫu nhiên 1 bi từ hộp B

a) Tính xác suất bi lấy từ hộp B ở bước 2 là bi đỏ? b) Biết bi lấy từ hộp B là bi đỏ, tính xác suất bi chuyển từ A sang B cũng là bi đỏ?

Lời giải:

Câu a) Tính P(bi từ B là đỏ)

Phân tích: Tình trạng hộp B phụ thuộc vào bi chuyển từ A

Đặt:

  • $C_1$: “Bi A→B là đỏ”, $P(C_1) = \frac{3}{5}$
  • $C_2$: “Bi A→B là xanh”, $P(C_2) = \frac{2}{5}$

Đặt D = “Bi lấy từ B là đỏ”

Nếu $C_1$ xảy ra (chuyển bi đỏ):

  • Hộp B có: 5 bi đỏ, 1 bi xanh (tổng 6 bi)
  • $P(D|C_1) = \frac{5}{6}$

Nếu $C_2$ xảy ra (chuyển bi xanh):

  • Hộp B có: 4 bi đỏ, 2 bi xanh (tổng 6 bi)
  • $P(D|C_2) = \frac{4}{6} = \frac{2}{3}$

Áp dụng công thức toàn phần:

$$P(D) = P(C_1) \cdot P(D|C_1) + P(C_2) \cdot P(D|C_2)$$

$$= \frac{3}{5} \times \frac{5}{6} + \frac{2}{5} \times \frac{2}{3}$$

$$= \frac{15}{30} + \frac{4}{15}$$

$$= \frac{1}{2} + \frac{4}{15}$$

$$= \frac{15 + 8}{30} = \frac{23}{30}$$

Kết luận a: Xác suất bi từ B là đỏ: $\frac{23}{30} \approx 76.7\%$

Câu b) Tính $P(C_1|D)$

Áp dụng công thức Bayes:

$$P(C_1|D) = \frac{P(C_1) \cdot P(D|C_1)}{P(D)}$$

$$= \frac{\frac{3}{5} \times \frac{5}{6}}{\frac{23}{30}}$$

$$= \frac{\frac{15}{30}}{\frac{23}{30}}$$

$$= \frac{15}{23}$$

Kết luận b: Xác suất bi chuyển từ A cũng đỏ là $\frac{15}{23} \approx 65.2\%$.

Dạng 4: Bài toán thực tế

Đề bài: Một công ty có 3 chi nhánh:

  • Chi nhánh 1: 40% nhân viên, tỉ lệ nghỉ việc 10%/năm
  • Chi nhánh 2: 35% nhân viên, tỉ lệ nghỉ việc 5%/năm
  • Chi nhánh 3: 25% nhân viên, tỉ lệ nghỉ việc 8%/năm

a) Tính tỉ lệ nghỉ việc chung của công ty? b) Một nhân viên vừa nghỉ việc. Tính xác suất nhân viên đó từ chi nhánh 1?

Lời giải:

Câu a) Tính tỉ lệ nghỉ việc chung

Đặt:

  • $CN_1, CN_2, CN_3$: Nhân viên từ các chi nhánh
  • $P(CN_1) = 0.4$, $P(CN_2) = 0.35$, $P(CN_3) = 0.25$
  • N: “Nhân viên nghỉ việc”
  • $P(N|CN_1) = 0.1$, $P(N|CN_2) = 0.05$, $P(N|CN_3) = 0.08$

Áp dụng công thức toàn phần:

$$P(N) = P(CN_1) \cdot P(N|CN_1) + P(CN_2) \cdot P(N|CN_2) + P(CN_3) \cdot P(N|CN_3)$$

$$= 0.4 \times 0.1 + 0.35 \times 0.05 + 0.25 \times 0.08$$

$$= 0.04 + 0.0175 + 0.02$$

$$= 0.0775$$

Kết luận a: Tỉ lệ nghỉ việc chung: 7.75%/năm

Câu b) Tính $P(CN_1|N)$

Áp dụng công thức Bayes:

$$P(CN_1|N) = \frac{P(CN_1) \cdot P(N|CN_1)}{P(N)}$$

$$= \frac{0.4 \times 0.1}{0.0775}$$

$$= \frac{0.04}{0.0775}$$

$$\approx 0.516$$

Kết luận b: Xác suất nhân viên nghỉ việc từ CN1: 51.6%

Giải thích: Mặc dù CN1 chỉ có 40% nhân viên, nhưng chiếm 51.6% số người nghỉ việc vì tỉ lệ nghỉ cao (10%).

VII. MẸO VÀ LƯU Ý

1. Cách phân biệt khi nào dùng công thức nào

Đọc kỹ câu hỏi để xác định:

Câu hỏi dạng “Tính P(A)?” → Dùng Công thức toàn phần

Ví dụ:

  • “Tính xác suất sản phẩm lỗi?”
  • “Xác suất lấy được bi đỏ là bao nhiêu?”
  • “Tỉ lệ nghỉ việc chung?”

Câu hỏi dạng “Biết A, tìm nguyên nhân $B_k$?” → Dùng Công thức Bayes

Ví dụ:

  • “Biết sản phẩm lỗi, từ máy nào?”
  • “Biết bi đỏ, từ hộp nào?”
  • “Biết test +, có bệnh không?”

Bảng tra nhanh:

Từ khóa trong đề Công thức dùng
“Tính xác suất A” Toàn phần
“Tính P(A)” Toàn phần
“Biết A, tìm…” Bayes
“Biết…, xác suất từ…” Bayes
“Nguồn gốc”, “nguyên nhân” Bayes

2. Quy trình giải bài chuẩn

Quy trình 5 bước:

Bước 1: Xác định hệ đầy đủ ${B_1, B_2, …, B_n}$

  • Tìm các “kịch bản” hoặc “nguồn gốc”
  • Kiểm tra: Xung khắc? Đầy đủ? Tổng XS = 1?

Bước 2: Xác định bài toán

  • Đề hỏi tính P(A)? → Toàn phần
  • Đề hỏi tính P($B_k$|A)? → Bayes

Bước 3: Liệt kê dữ liệu

  • Ghi rõ: $P(B_i) = ?$
  • Ghi rõ: $P(A|B_i) = ?$

Bước 4: Tính P(A) (nếu cần)

  • Dùng công thức toàn phần
  • Lưu kết quả để dùng cho Bayes

Bước 5: Tính P($B_k$|A) (nếu cần)

  • Dùng công thức Bayes
  • Dùng P(A) từ bước 4

💡 Mẹo: Vẽ sơ đồ cây nếu bài phức tạp (nhiều bước, nhiều nhánh)

3. Các sai lầm thường gặp

SAI LẦM 1: Quên kiểm tra hệ đầy đủ

Sai: Nghĩ rằng bất kỳ tập hợp nào cũng là hệ đầy đủ

Đúng: Kiểm tra: $P(B_1) + P(B_2) + … + P(B_n) = 1$

Ví dụ: Nếu máy 1 sản xuất 30%, máy 2 sản xuất 40% → Thiếu! Phải có thêm máy 3 sản xuất 30%

SAI LẦM 2: Nhầm $P(A|B_i)$ với $P(B_i|A)$

Sai: Nghĩ $P(A|B) = P(B|A)$

Đúng: Đây là hai xác suất KHÁC NHAU hoàn toàn!

  • $P(A|B)$: Biết B, tính A
  • $P(B|A)$: Biết A, tính B (cần dùng Bayes)

SAI LẦM 3: Quên cộng tất cả trường hợp trong toàn phần

Sai: Chỉ tính một vài trường hợp

Đúng: Phải cộng TẤT CẢ các $P(B_i) \cdot P(A|B_i)$

SAI LẦM 4: Tính sai mẫu số của Bayes

Sai: Dùng số khác thay vì P(A)

Đúng: Mẫu số = Xác suất toàn phần = $\sum P(B_i) \cdot P(A|B_i)$

SAI LẦM 5: Nhầm prior và posterior

Sai: Lấy $P(B_k)$ làm kết quả cuối cùng

Đúng: $P(B_k)$ chỉ là prior (xác suất ban đầu), cần tính $P(B_k|A)$ (posterior)

4. Các phép kiểm tra kết quả

Kiểm tra 1: Tổng xác suất = 1

Nếu tính $P(B_1|A)$, $P(B_2|A)$, …, $P(B_n|A)$ thì: $$P(B_1|A) + P(B_2|A) + … + P(B_n|A) = 1$$

Kiểm tra 2: Xác suất trong [0, 1]

Mọi xác suất phải: $0 \leq P \leq 1$

Nếu ra số âm hoặc > 1 → SAI!

Kiểm tra 3: Logic thực tế

  • Nguyên nhân có prior cao + likelihood cao → posterior cao
  • Nếu $P(A|B_k)$ lớn nhất và $P(B_k)$ cũng lớn → $P(B_k|A)$ nên lớn nhất

Kiểm tra 4: So sánh prior và posterior

  • Prior: Trước khi biết A
  • Posterior: Sau khi biết A
  • Nếu $P(A|B_k)$ cao → Posterior nên cao hơn prior
  • Nếu $P(A|B_k)$ thấp → Posterior nên thấp hơn prior

VIII. KẾT LUẬN

Bài viết đã trình bày chi tiết hai công thức quan trọng nhất trong xác suất:

📌 Công thức xác suất toàn phần: $$\boxed{P(A) = \sum_{i=1}^{n} P(B_i) \cdot P(A|B_i)}$$

Mục đích: Tính P(A) khi A xảy ra qua nhiều “con đường” $B_i$

Ứng dụng: Tính xác suất tổng hợp từ các kịch bản khác nhau

📌 Công thức Bayes: $$\boxed{P(B_k|A) = \frac{P(B_k) \cdot P(A|B_k)}{\sum_{i=1}^{n} P(B_i) \cdot P(A|B_i)}}$$

Mục đích: “Đảo ngược” để tìm nguyên nhân $B_k$ từ kết quả A

Ứng dụng: Chẩn đoán, suy luận ngược, tìm nguồn gốc

Mối liên hệ

Công thức Bayes = Công thức toàn phần + Xác suất có điều kiện

  • Mẫu số của Bayes chính là xác suất toàn phần: $P(A)$
  • Thường phải tính toàn phần trước, rồi mới tính Bayes
  • Hai công thức bổ trợ nhau trong cùng một bài toán

Lời khuyên học tập

📌 Nhận biết rõ loại bài: Tính P(A) hay P($B_k$|A)?

📌 Luôn vẽ sơ đồ cây cho bài phức tạp để không bỏ sót trường hợp

📌 Hiểu ý nghĩa, không học vẹt:

  • Toàn phần = Cộng các đường dẫn đến A
  • Bayes = Tìm nguồn gốc từ kết quả

📌 Luyện nhiều bài thực tế để thấy được ứng dụng

📌 Kiểm tra kết quả bằng các phép kiểm tra đã nêu

📌 Chú ý prior thấp → Kết quả Bayes có thể phản trực giác (như ví dụ test y tế)

ThS. Nguyễn Văn An

ThS. Nguyễn Văn An

(Người kiểm duyệt, ra đề)

Chức vụ: Tổ trưởng chuyên môn Tổ Toán tại Edus

Trình độ: Cử nhân Sư phạm Toán học, Thạc sĩ Lý luận & Phương pháp dạy học môn Toán, Chức danh nghề nghiệp giáo viên THPT – Hạng II, Tin học ứng dụng cơ bản, Ngoại ngữ B1, Chứng chỉ bồi dưỡng năng lực tổ trưởng chuyên môn

Kinh nghiệm: 12+ năm kinh nghiệm tại Trường THPT chuyên Trần Đại Nghĩa