Công thức xác suất thống kê: Biến ngẫu nhiên, phân phối

Trang chủ > Công Thức > Bài hiện tại.

I. GIỚI THIỆU VỀ XÁC SUẤT VÀ THỐNG KÊ

1. Xác suất và thống kê là gì?

Xác suất (Probability):

Xác suất là một nhánh của toán học nghiên cứu các hiện tượng ngẫu nhiên – những sự kiện mà kết quả không thể dự đoán chắc chắn trước khi xảy ra.

Đặc điểm:

  • Nghiên cứu các hiện tượng ngẫu nhiên, không chắc chắn
  • Đo lường khả năng xảy ra của một sự kiện
  • Giá trị xác suất luôn nằm trong khoảng từ 0 đến 1
    • P = 0: Sự kiện không thể xảy ra
    • P = 1: Sự kiện chắc chắn xảy ra
    • 0 < P < 1: Sự kiện có thể xảy ra với mức độ khác nhau

Thống kê (Statistics):

Thống kê là khoa học về thu thập, tổ chức, phân tích và diễn giải dữ liệu để rút ra kết luận có ý nghĩa.

Đặc điểm:

  • Thu thập và xử lý dữ liệu từ thực tế
  • Phân tích và tìm quy luật trong dữ liệu
  • Tính toán các đại lượng đặc trưng (trung bình, phương sai,…)
  • Rút ra kết luận về tổng thể từ mẫu quan sát

2. Mối liên hệ giữa xác suất và thống kê

Xác suất và thống kê là hai mặt của cùng một vấn đề, bổ trợ cho nhau:

Xác suất: Từ lý thuyết tổng thể → Dự đoán về mẫu

  • Biết quy luật phân phối của tổng thể
  • Dự đoán các đặc trưng của mẫu ngẫu nhiên
  • Ví dụ: Biết xác suất tung đồng xu được mặt sấp là 0.5, dự đoán xác suất tung 10 lần được 6 mặt sấp

Thống kê: Từ dữ liệu mẫu → Suy luận về tổng thể

  • Thu thập dữ liệu từ mẫu quan sát
  • Ước lượng các tham số của tổng thể
  • Ví dụ: Khảo sát 1000 người để ước tính tỉ lệ ủng hộ của toàn dân

Mối quan hệ:

  • Xác suất cung cấp nền tảng lý thuyết cho thống kê
  • Thống kê áp dụng xác suất để giải quyết vấn đề thực tế
  • Hai lĩnh vực luôn đi đôi với nhau trong nghiên cứu và ứng dụng

3. Các khái niệm cơ bản

Khái niệm Ký hiệu Ý nghĩa
Không gian mẫu Ω (Omega) Tập hợp tất cả các kết quả có thể xảy ra
Biến cố A, B, C Tập hợp các kết quả thuận lợi cho sự kiện quan tâm
Xác suất P(A) Số đo khả năng xảy ra của biến cố A
Biến ngẫu nhiên X, Y, Z Đại lượng nhận giá trị ngẫu nhiên theo quy luật xác định
Kỳ vọng E(X) hoặc μ Giá trị trung bình lý thuyết của biến ngẫu nhiên
Phương sai Var(X) hoặc σ² Độ phân tán của dữ liệu quanh giá trị trung bình
Độ lệch chuẩn σ(X) hoặc σ Căn bậc hai của phương sai

Ví dụ minh họa:

  • Không gian mẫu: Tung xúc xắc: Ω = {1, 2, 3, 4, 5, 6}
  • Biến cố: A = “Được mặt chẵn” = {2, 4, 6}
  • Xác suất: P(A) = 3/6 = 1/2
  • Biến ngẫu nhiên: X = “Số chấm xuất hiện” có thể nhận giá trị 1, 2, 3, 4, 5, 6

II. CÔNG THỨC XÁC SUẤT CƠ BẢN

1. Công thức xác suất cổ điển

Đây là định nghĩa cơ bản nhất về xác suất, được đưa ra bởi nhà toán học Pierre-Simon Laplace.

Định nghĩa Laplace:

$$\boxed{P(A) = \frac{n(A)}{n(\Omega)} = \frac{\text{Số kết quả thuận lợi cho A}}{\text{Tổng số kết quả có thể xảy ra}}}$$

Điều kiện áp dụng: Tất cả các kết quả trong không gian mẫu phải đồng khả năng (có xác suất bằng nhau).

Ví dụ 1: Gieo một con xúc xắc cân đối. Tính xác suất được mặt 6?

  • Không gian mẫu: Ω = {1, 2, 3, 4, 5, 6}, n(Ω) = 6
  • Biến cố A = “Được mặt 6” = {6}, n(A) = 1
  • Xác suất: $P(A) = \frac{1}{6} \approx 0.167$

Ví dụ 2: Rút ngẫu nhiên 1 lá bài từ bộ 52 lá. Tính xác suất rút được quân Át?

  • n(Ω) = 52
  • n(A) = 4 (có 4 quân Át)
  • $P(A) = \frac{4}{52} = \frac{1}{13} \approx 0.077$

2. Tính chất của xác suất

Tính chất Công thức Ý nghĩa
Không âm $0 \leq P(A) \leq 1$ Xác suất luôn nằm trong [0, 1]
Biến cố chắc chắn $P(\Omega) = 1$ Không gian mẫu có XS = 1
Biến cố không thể $P(\emptyset) = 0$ Biến cố rỗng có XS = 0
Biến cố đối $P(\overline{A}) = 1 – P(A)$ XS biến cố đối bù với XS biến cố

Ví dụ 3: Xác suất sinh viên A thi đậu là 0.7. Tính xác suất A thi rớt?

  • Gọi B = “A thi rớt” = $\overline{A}$
  • $P(B) = P(\overline{A}) = 1 – 0.7 = 0.3$

3. Công thức cộng xác suất

Công thức tổng quát:

$$\boxed{P(A \cup B) = P(A) + P(B) – P(A \cap B)}$$

Ý nghĩa: Xác suất xảy ra ít nhất một trong hai biến cố A hoặc B.

Trường hợp đặc biệt – Biến cố xung khắc:

Nếu A và B xung khắc (không đồng thời xảy ra): $A \cap B = \emptyset$

$$P(A \cup B) = P(A) + P(B)$$

Ví dụ 4: Rút 1 lá bài. Tính xác suất được quân Át hoặc quân Bích?

  • P(Át) = 4/52
  • P(Bích) = 13/52
  • P(Át và Bích) = 1/52 (chỉ có Át bích)
  • $P(\text{Át hoặc Bích}) = \frac{4}{52} + \frac{13}{52} – \frac{1}{52} = \frac{16}{52} = \frac{4}{13}$

Mở rộng cho n biến cố xung khắc:

$$P(A_1 \cup A_2 \cup … \cup A_n) = P(A_1) + P(A_2) + … + P(A_n)$$

4. Công thức nhân xác suất

Trường hợp biến cố độc lập:

Hai biến cố A và B được gọi là độc lập nếu việc xảy ra hay không xảy ra của A không ảnh hưởng đến B và ngược lại.

$$\boxed{P(A \cap B) = P(A) \cdot P(B)}$$

Ví dụ 5: Tung đồng xu 2 lần. Tính xác suất cả 2 lần đều được mặt sấp?

  • Lần 1: P(Sấp) = 1/2
  • Lần 2: P(Sấp) = 1/2 (độc lập với lần 1)
  • $P(\text{Cả 2 sấp}) = \frac{1}{2} \times \frac{1}{2} = \frac{1}{4}$

Công thức tổng quát:

$$\boxed{P(A \cap B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B)}$$

Trong đó P(B|A) là xác suất có điều kiện của B khi biết A đã xảy ra.

5. Công thức xác suất có điều kiện

Định nghĩa: Xác suất có điều kiện của A khi biết B đã xảy ra:

$$\boxed{P(A|B) = \frac{P(A \cap B)}{P(B)} \quad (P(B) > 0)}$$

Ý nghĩa: Tính lại xác suất của A trong không gian thu hẹp khi đã biết B xảy ra.

Ví dụ 6: Hộp có 3 bi đỏ và 2 bi xanh. Lấy ngẫu nhiên 2 bi không hoàn lại. Tính xác suất bi thứ 2 là đỏ khi biết bi thứ nhất là đỏ?

Lời giải:

  • Sau khi lấy bi đỏ ở lần 1: còn 2 bi đỏ, 2 bi xanh (tổng 4 bi)
  • $P(\text{Bi 2 đỏ}|\text{Bi 1 đỏ}) = \frac{2}{4} = \frac{1}{2}$

6. Công thức xác suất toàn phần

Định lý: Giả sử $B_1, B_2, …, B_n$ là hệ đầy đủ các biến cố (xung khắc từng đôi và hợp thành Ω), thì:

$$\boxed{P(A) = \sum_{i=1}^{n} P(B_i) \cdot P(A|B_i)}$$

Viết khai triển:

$$P(A) = P(B_1)P(A|B_1) + P(B_2)P(A|B_2) + … + P(B_n)P(A|B_n)$$

Ý nghĩa: Tính xác suất của A thông qua các “kịch bản” $B_i$ có thể dẫn đến A.

Ví dụ 7: Xưởng có 2 máy:

  • Máy 1: Sản xuất 60% sản phẩm, tỉ lệ lỗi 2%
  • Máy 2: Sản xuất 40% sản phẩm, tỉ lệ lỗi 5%

Chọn ngẫu nhiên 1 sản phẩm, tính xác suất sản phẩm lỗi?

Lời giải:

  • $P(M_1) = 0.6$, $P(\text{Lỗi}|M_1) = 0.02$
  • $P(M_2) = 0.4$, $P(\text{Lỗi}|M_2) = 0.05$
  • $P(\text{Lỗi}) = 0.6 \times 0.02 + 0.4 \times 0.05 = 0.012 + 0.02 = 0.032 = 3.2\%$

7. Công thức Bayes

Định lý Bayes: Cho hệ đầy đủ $B_1, B_2, …, B_n$ và biến cố A đã xảy ra:

$$\boxed{P(B_i|A) = \frac{P(B_i) \cdot P(A|B_i)}{\sum_{j=1}^{n} P(B_j) \cdot P(A|B_j)} = \frac{P(B_i) \cdot P(A|B_i)}{P(A)}}$$

Ý nghĩa: “Đảo ngược” – Tìm nguyên nhân $B_i$ từ kết quả A đã biết.

Ví dụ 8: (Tiếp Ví dụ 7) Một sản phẩm bị lỗi được phát hiện. Tính xác suất nó từ máy 1?

Lời giải: $$P(M_1|\text{Lỗi}) = \frac{P(M_1) \cdot P(\text{Lỗi}|M_1)}{P(\text{Lỗi})}$$ $$= \frac{0.6 \times 0.02}{0.032} = \frac{0.012}{0.032} = 0.375 = 37.5\%$$

Giải thích: Mặc dù máy 1 sản xuất 60% sản phẩm, nhưng chỉ 37.5% sản phẩm lỗi đến từ máy 1 (vì tỉ lệ lỗi thấp hơn).

III. BIẾN NGẪU NHIÊN VÀ PHÂN PHỐI XÁC SUẤT

1. Biến ngẫu nhiên rời rạc

Định nghĩa: Biến ngẫu nhiên rời rạc là đại lượng X nhận hữu hạn hoặc đếm được các giá trị, mỗi giá trị có một xác suất tương ứng.

Bảng phân phối xác suất:

X $x_1$ $x_2$ $x_3$ $x_n$
P $p_1$ $p_2$ $p_3$ $p_n$

Điều kiện:

  • $0 \leq p_i \leq 1$ với mọi i
  • $\sum_{i=1}^{n} p_i = p_1 + p_2 + … + p_n = 1$

Ví dụ 9: Tung đồng xu 2 lần, X = số lần được mặt sấp

X 0 1 2
P 1/4 1/2 1/4

Kiểm tra: $\frac{1}{4} + \frac{1}{2} + \frac{1}{4} = 1$ ✓

2. Kỳ vọng (Giá trị trung bình)

Định nghĩa: Kỳ vọng là giá trị trung bình lý thuyết của biến ngẫu nhiên.

Công thức:

$$\boxed{E(X) = \sum_{i=1}^{n} x_i p_i = x_1p_1 + x_2p_2 + … + x_np_n}$$

Ý nghĩa: Giá trị trung bình có trọng số theo xác suất. Nếu thực hiện phép thử nhiều lần, giá trị trung bình của X sẽ tiến đến E(X).

Tính chất quan trọng:

  • $E(aX + b) = aE(X) + b$ (a, b là hằng số)
  • $E(X + Y) = E(X) + E(Y)$ (luôn đúng)
  • Nếu X, Y độc lập: $E(XY) = E(X) \cdot E(Y)$

Ví dụ 10: (Tiếp Ví dụ 9) Tính kỳ vọng số lần được sấp?

$$E(X) = 0 \times \frac{1}{4} + 1 \times \frac{1}{2} + 2 \times \frac{1}{4}$$ $$= 0 + 0.5 + 0.5 = 1$$

Giải thích: Trung bình sẽ được 1 lần sấp khi tung 2 đồng xu.

3. Phương sai

Định nghĩa: Phương sai đo độ phân tán của các giá trị của X quanh giá trị trung bình E(X).

Công thức:

$$\boxed{Var(X) = E[(X – E(X))^2] = E(X^2) – [E(X)]^2}$$

Khai triển:

$$Var(X) = \sum_{i=1}^{n} (x_i – E(X))^2 p_i$$

Hoặc dùng công thức đơn giản hơn:

$$Var(X) = E(X^2) – [E(X)]^2$$

Trong đó: $E(X^2) = \sum_{i=1}^{n} x_i^2 p_i$

Ý nghĩa:

  • Var(X) lớn → Dữ liệu phân tán
  • Var(X) nhỏ → Dữ liệu tập trung quanh trung bình

Tính chất:

  • $Var(aX + b) = a^2 Var(X)$ (hằng số b không ảnh hưởng)
  • Nếu X, Y độc lập: $Var(X + Y) = Var(X) + Var(Y)$
  • $Var(X) \geq 0$ (luôn không âm)

Ví dụ 11: (Tiếp Ví dụ 10) Tính phương sai?

Bước 1: Tính $E(X^2)$ $$E(X^2) = 0^2 \times \frac{1}{4} + 1^2 \times \frac{1}{2} + 2^2 \times \frac{1}{4}$$ $$= 0 + 0.5 + 1 = 1.5$$

Bước 2: Tính Var(X) $$Var(X) = E(X^2) – [E(X)]^2 = 1.5 – 1^2 = 1.5 – 1 = 0.5$$

4. Độ lệch chuẩn

Định nghĩa: Độ lệch chuẩn là căn bậc hai của phương sai.

$$\boxed{\sigma(X) = \sqrt{Var(X)}}$$

Ưu điểm: Có cùng đơn vị với X, dễ hiểu và so sánh hơn phương sai.

Ví dụ: Từ Ví dụ 11: $\sigma(X) = \sqrt{0.5} \approx 0.707$

5. Phân phối nhị thức

Định nghĩa: Phân phối nhị thức mô tả số lần thành công trong n phép thử độc lập.

Điều kiện:

  • Thực hiện n phép thử độc lập
  • Mỗi phép thử chỉ có 2 kết quả: thành công (xác suất p) hoặc thất bại (xác suất 1-p)
  • X = số lần thành công trong n phép thử

Công thức:

$$\boxed{P(X = k) = C_n^k p^k (1-p)^{n-k}}$$

Trong đó: $C_n^k = \frac{n!}{k!(n-k)!}$ (tổ hợp chập k của n)

Ký hiệu: $X \sim B(n, p)$ (X tuân theo phân phối nhị thức với tham số n và p)

Kỳ vọng và phương sai:

  • $E(X) = np$
  • $Var(X) = np(1-p)$
  • $\sigma(X) = \sqrt{np(1-p)}$

Ví dụ 12: Xác suất bắn trúng bia mỗi lần bắn là 0.7. Bắn 5 phát. Tính xác suất trúng đúng 3 phát?

Lời giải:

  • n = 5, k = 3, p = 0.7
  • $P(X = 3) = C_5^3 (0.7)^3 (0.3)^2$
  • $= 10 \times 0.343 \times 0.09$
  • $= 0.3087 \approx 30.87\%$

6. Phân phối chuẩn (Normal)

Định nghĩa: Phân phối chuẩn là phân phối liên tục quan trọng nhất, mô tả nhiều hiện tượng tự nhiên.

Hàm mật độ xác suất:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$

Ký hiệu: $X \sim N(\mu, \sigma^2)$

Tham số:

  • μ (mu): kỳ vọng, vị trí trung tâm
  • σ² (sigma bình phương): phương sai, độ phân tán

Đặc điểm:

  • Đồ thị hình chuông đối xứng qua x = μ
  • Đỉnh tại x = μ
  • Tiệm cận với trục hoành khi x → ±∞

Quy tắc 3 sigma (68-95-99.7):

Đây là quy tắc quan trọng để ước lượng nhanh:

  • 68% dữ liệu nằm trong $[\mu – \sigma, \mu + \sigma]$
  • 95% dữ liệu nằm trong $[\mu – 2\sigma, \mu + 2\sigma]$
  • 99.7% dữ liệu nằm trong $[\mu – 3\sigma, \mu + 3\sigma]$

Ví dụ 13: Chiều cao nam giới trưởng thành có phân phối chuẩn với μ = 170 cm, σ = 8 cm.

  • 68% nam giới có chiều cao trong khoảng [162, 178] cm
  • 95% nam giới có chiều cao trong khoảng [154, 186] cm
  • 99.7% nam giới có chiều cao trong khoảng [146, 194] cm

IV. CÔNG THỨC THỐNG KÊ MÔ TẢ

1. Số trung bình (Mean)

Số trung bình là đại lượng đặc trưng quan trọng nhất, thể hiện xu thế trung tâm của dữ liệu.

Mẫu không ghép nhóm:

$$\boxed{\bar{x} = \frac{x_1 + x_2 + … + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i}$$

Mẫu ghép nhóm (có tần số):

Khi dữ liệu được tổ chức theo tần số $n_i$ tương ứng với giá trị $x_i$:

$$\boxed{\bar{x} = \frac{n_1x_1 + n_2x_2 + … + n_kx_k}{n_1 + n_2 + … + n_k} = \frac{\sum_{i=1}^{k} n_ix_i}{\sum_{i=1}^{k} n_i}}$$

Ví dụ 14: Điểm kiểm tra của lớp:

Điểm (x) 5 6 7 8 9
Số học sinh (n) 2 3 5 4 1

Lời giải: $$\bar{x} = \frac{2(5) + 3(6) + 5(7) + 4(8) + 1(9)}{2+3+5+4+1}$$ $$= \frac{10 + 18 + 35 + 32 + 9}{15} = \frac{104}{15} \approx 6.93$$

2. Trung vị (Median)

Định nghĩa: Trung vị là giá trị nằm ở vị trí giữa khi sắp xếp dữ liệu theo thứ tự tăng dần.

Cách tính:

Bước 1: Sắp xếp dữ liệu: $x_1 \leq x_2 \leq … \leq x_n$

Bước 2: Xác định trung vị:

  • Nếu n lẻ: $M_e = x_{\frac{n+1}{2}}$ (giá trị chính giữa)
  • Nếu n chẵn: $M_e = \frac{x_{n/2} + x_{n/2+1}}{2}$ (trung bình 2 giá trị giữa)

Ví dụ 15:

  • Dữ liệu: 3, 5, 7, 9, 11 (n = 5, lẻ)
  • Trung vị: $M_e = x_3 = 7$
  • Dữ liệu: 2, 4, 6, 8 (n = 4, chẵn)
  • Trung vị: $M_e = \frac{x_2 + x_3}{2} = \frac{4 + 6}{2} = 5$

Ưu điểm: Không bị ảnh hưởng bởi giá trị ngoại lai (outliers).

3. Mốt (Mode)

Định nghĩa: Mốt là giá trị xuất hiện nhiều nhất trong mẫu dữ liệu.

Đặc điểm:

  • Có thể có nhiều mốt (đa mốt) hoặc không có mốt
  • Dễ xác định, đặc biệt với dữ liệu định tính

Ví dụ 16:

  • Dữ liệu: 2, 3, 3, 4, 5, 5, 5, 6
  • Mốt = 5 (xuất hiện 3 lần, nhiều nhất)
  • Dữ liệu: 1, 2, 3, 4, 5
  • Không có mốt (tất cả xuất hiện 1 lần)

4. Phương sai mẫu

Định nghĩa: Phương sai mẫu đo độ phân tán của dữ liệu quanh giá trị trung bình mẫu.

Công thức:

$$\boxed{s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})^2}$$

Công thức tính nhanh:

$$s^2 = \frac{1}{n}\sum_{i=1}^{n}x_i^2 – \bar{x}^2$$

Phương sai hiệu chỉnh (không chệch):

Trong thống kê suy luận, thường dùng công thức hiệu chỉnh:

$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i – \bar{x})^2$$

(Chia cho n-1 thay vì n để ước lượng không chệch)

Ví dụ 17: Tính phương sai của dữ liệu: 2, 4, 6, 8

Bước 1: Tính trung bình $$\bar{x} = \frac{2+4+6+8}{4} = 5$$

Bước 2: Tính phương sai $$s^2 = \frac{(2-5)^2 + (4-5)^2 + (6-5)^2 + (8-5)^2}{4}$$ $$= \frac{9 + 1 + 1 + 9}{4} = \frac{20}{4} = 5$$

5. Độ lệch chuẩn mẫu

Công thức:

$$\boxed{s = \sqrt{s^2}}$$

Ưu điểm: Cùng đơn vị với dữ liệu gốc, dễ diễn giải.

Ví dụ: Từ Ví dụ 17: $s = \sqrt{5} \approx 2.24$

6. Khoảng biến thiên (Range)

Định nghĩa: Hiệu giữa giá trị lớn nhất và nhỏ nhất.

$$\boxed{R = x_{max} – x_{min}}$$

Ví dụ: Dữ liệu 2, 4, 6, 8 → $R = 8 – 2 = 6$

Hạn chế: Chỉ phụ thuộc vào 2 giá trị cực biên, không phản ánh phân tán tổng thể.

7. Tứ phân vị

Định nghĩa: Chia dữ liệu đã sắp xếp thành 4 phần bằng nhau.

  • Q₁ (Tứ phân vị thứ nhất): 25% dữ liệu nhỏ hơn Q₁
  • Q₂ (Tứ phân vị thứ hai): Trung vị (50% dữ liệu)
  • Q₃ (Tứ phân vị thứ ba): 75% dữ liệu nhỏ hơn Q₃

Khoảng tứ phân vị (IQR):

$$\boxed{IQR = Q_3 – Q_1}$$

Ý nghĩa: Đo độ phân tán của 50% dữ liệu ở giữa, không bị ảnh hưởng bởi outliers.

Ví dụ 18: Dữ liệu: 1, 3, 5, 7, 9, 11, 13

  • Q₁ = 3 (vị trí 25%)
  • Q₂ = 7 (trung vị)
  • Q₃ = 11 (vị trí 75%)
  • IQR = 11 – 3 = 8

V. BẢNG CÔNG THỨC TỔNG HỢP

A. Công thức xác suất

Loại công thức Công thức Ghi chú
Xác suất cổ điển $P(A) = \frac{n(A)}{n(\Omega)}$ Kết quả đồng khả năng
Biến cố đối $P(\overline{A}) = 1 – P(A)$ Bù với biến cố gốc
Cộng XS (TQ) $P(A \cup B) = P(A) + P(B) – P(A \cap B)$ Trừ phần giao
Cộng XS (Xung khắc) $P(A \cup B) = P(A) + P(B)$ Khi $A \cap B = \emptyset$
Nhân XS (Độc lập) $P(A \cap B) = P(A) \cdot P(B)$ A, B độc lập
Nhân XS (TQ) $P(A \cap B) = P(A) \cdot P(B|A)$ Tổng quát
XS có điều kiện $P(A|B) = \frac{P(A \cap B)}{P(B)}$ P(B) > 0
XS toàn phần $P(A) = \sum P(B_i)P(A|B_i)$ Hệ đầy đủ $B_i$
Công thức Bayes $P(B_i|A) = \frac{P(B_i)P(A|B_i)}{P(A)}$ Suy luận ngược

B. Biến ngẫu nhiên rời rạc

Đại lượng Công thức Ý nghĩa
Kỳ vọng $E(X) = \sum x_i p_i$ Giá trị trung bình lý thuyết
Phương sai $Var(X) = E(X^2) – [E(X)]^2$ Độ phân tán
Độ lệch chuẩn $\sigma(X) = \sqrt{Var(X)}$ Căn phương sai
E(aX + b) $E(aX + b) = aE(X) + b$ Tính chất tuyến tính
Var(aX + b) $Var(aX + b) = a^2Var(X)$ Hằng số b không ảnh hưởng

C. Phân phối nhị thức

Đại lượng Công thức Điều kiện
Xác suất $P(X=k) = C_n^k p^k (1-p)^{n-k}$ n phép thử, XS thành công p
Kỳ vọng $E(X) = np$ Số lần thành công TB
Phương sai $Var(X) = np(1-p)$ Độ phân tán
Độ lệch chuẩn $\sigma(X) = \sqrt{np(1-p)}$ Căn phương sai

D. Thống kê mô tả

Đại lượng Công thức Ý nghĩa
Số trung bình $\bar{x} = \frac{1}{n}\sum x_i$ Giá trị TB mẫu
Trung vị $M_e$ Giá trị giữa khi sắp xếp
Mốt $M_o$ Giá trị xuất hiện nhiều nhất
Phương sai mẫu $s^2 = \frac{1}{n}\sum(x_i – \bar{x})^2$ Độ phân tán mẫu
Độ lệch chuẩn $s = \sqrt{s^2}$ Căn phương sai
Khoảng biến thiên $R = x_{max} – x_{min}$ Hiệu max-min
Khoảng tứ phân vị $IQR = Q_3 – Q_1$ Độ rộng 50% giữa

VI. PHÂN BIỆT CÁC KHÁI NIỆM

1. Kỳ vọng vs Số trung bình

Tiêu chí Kỳ vọng E(X) Số trung bình $\bar{x}$
Đối tượng Biến ngẫu nhiên (lý thuyết) Mẫu dữ liệu (thực nghiệm)
Công thức $E(X) = \sum x_i p_i$ $\bar{x} = \frac{1}{n}\sum x_i$
Ý nghĩa Giá trị TB lý thuyết có trọng số Trung bình số học của mẫu
Ví dụ Tung xúc xắc: E(X) = 3.5 Tung 10 lần được: 3, 4, 2,… → $\bar{x}$

Mối liên hệ: Khi số lần thử nghiệm tăng, $\bar{x}$ tiến đến E(X) (Luật số lớn).

2. Phương sai lý thuyết vs Phương sai mẫu

Tiêu chí Var(X) $s^2$
Đối tượng Biến ngẫu nhiên Mẫu dữ liệu
Công thức $E(X^2) – [E(X)]^2$ $\frac{1}{n}\sum(x_i-\bar{x})^2$
Sử dụng Xác suất lý thuyết Thống kê mô tả
Ký hiệu σ² hoặc Var(X)

3. Xác suất vs Thống kê

Khía cạnh Xác suất Thống kê
Hướng suy luận Từ lý thuyết → dự đoán thực tế Từ dữ liệu → kết luận tổng thể
Đầu vào Biết phân phối, tham số Có mẫu dữ liệu
Đầu ra Tính P(A), E(X), Var(X) Tính $\bar{x}$, $s^2$, ước lượng
Ví dụ Biết p=0.5, tính P(k sấp) Thu thập 100 mẫu, ước lượng p

4. Độc lập vs Xung khắc

Khái niệm Độc lập Xung khắc
Định nghĩa Không ảnh hưởng lẫn nhau Không đồng thời xảy ra
Điều kiện $P(A \cap B) = P(A) \cdot P(B)$ $A \cap B = \emptyset$
Ví dụ Tung 2 xúc xắc A=”chẵn”, B=”lẻ”

Lưu ý: Nếu A, B xung khắc và cả hai đều có XS > 0 thì chúng KHÔNG độc lập!

VII. BÀI TẬP MẪU

Dạng 1: Tính xác suất cơ bản

Đề bài: Rút ngẫu nhiên 2 lá bài từ bộ 52 lá. Tính xác suất cả 2 lá đều là quân bích?

Lời giải:

Cách 1: Dùng tổ hợp

  • Số cách chọn 2 lá từ 52 lá: $n(\Omega) = C_{52}^2 = \frac{52 \times 51}{2} = 1326$
  • Số cách chọn 2 lá bích từ 13 lá bích: $n(A) = C_{13}^2 = \frac{13 \times 12}{2} = 78$
  • Xác suất: $P(A) = \frac{78}{1326} = \frac{1}{17} \approx 0.0588 = 5.88\%$

Cách 2: Dùng nhân xác suất

  • Lá thứ nhất là bích: $P_1 = \frac{13}{52}$
  • Lá thứ hai là bích (còn 12 bích trong 51 lá): $P_2 = \frac{12}{51}$
  • $P = \frac{13}{52} \times \frac{12}{51} = \frac{1}{4} \times \frac{12}{51} = \frac{1}{17}$ ✓

Dạng 2: Xác suất có điều kiện

Đề bài: Hộp có 3 bi đỏ và 2 bi xanh. Lấy ngẫu nhiên 2 bi (không hoàn lại). Tính xác suất bi thứ 2 là đỏ biết bi thứ nhất là đỏ?

Lời giải:

Gọi:

  • A: “Bi thứ nhất đỏ”
  • B: “Bi thứ hai đỏ”

Cần tính: $P(B|A)$

Phương pháp: Sau khi lấy 1 bi đỏ ở lần 1:

  • Hộp còn: 2 bi đỏ, 2 bi xanh (tổng 4 bi)
  • Xác suất lấy bi đỏ ở lần 2:

$$P(B|A) = \frac{2}{4} = \frac{1}{2} = 50\%$$

Dạng 3: Tính kỳ vọng, phương sai

Đề bài: Biến ngẫu nhiên X có bảng phân phối xác suất:

X 1 2 3
P 0.2 0.5 0.3

Tính E(X) và Var(X)?

Lời giải:

Bước 1: Tính kỳ vọng E(X) $$E(X) = 1 \times 0.2 + 2 \times 0.5 + 3 \times 0.3$$ $$= 0.2 + 1.0 + 0.9 = 2.1$$

Bước 2: Tính $E(X^2)$ $$E(X^2) = 1^2 \times 0.2 + 2^2 \times 0.5 + 3^2 \times 0.3$$ $$= 1 \times 0.2 + 4 \times 0.5 + 9 \times 0.3$$ $$= 0.2 + 2.0 + 2.7 = 4.9$$

Bước 3: Tính phương sai $$Var(X) = E(X^2) – [E(X)]^2$$ $$= 4.9 – (2.1)^2$$ $$= 4.9 – 4.41 = 0.49$$

Kết luận:

  • Kỳ vọng: E(X) = 2.1
  • Phương sai: Var(X) = 0.49
  • Độ lệch chuẩn: $\sigma(X) = \sqrt{0.49} = 0.7$

Dạng 4: Phân phối nhị thức

Đề bài: Xác suất học sinh A đậu mỗi môn thi là 0.8. Học sinh A thi 4 môn độc lập. Tính xác suất A đậu ít nhất 3 môn?

Lời giải:

Gọi X = “Số môn A đậu”, thì $X \sim B(4; 0.8)$

Cần tính: $P(X \geq 3) = P(X = 3) + P(X = 4)$

Tính P(X = 3): $$P(X = 3) = C_4^3 (0.8)^3 (0.2)^1$$ $$= 4 \times 0.512 \times 0.2$$ $$= 0.4096$$

Tính P(X = 4): $$P(X = 4) = C_4^4 (0.8)^4 (0.2)^0$$ $$= 1 \times 0.4096 \times 1$$ $$= 0.4096$$

Kết quả: $$P(X \geq 3) = 0.4096 + 0.4096 = 0.8192 = 81.92\%$$

Kiểm tra bằng kỳ vọng:

  • $E(X) = np = 4 \times 0.8 = 3.2$ môn (trung bình đậu 3.2 môn)
  • Hợp lý vì XS đậu ≥3 môn khá cao (>80%)

Dạng 5: Thống kê mô tả

Đề bài: Điểm kiểm tra của 8 học sinh: 5, 6, 7, 7, 8, 8, 8, 9

Tính: a) Số trung bình b) Trung vị c) Mốt d) Phương sai

Lời giải:

Câu a) Số trung bình: $$\bar{x} = \frac{5 + 6 + 7 + 7 + 8 + 8 + 8 + 9}{8}$$ $$= \frac{58}{8} = 7.25$$

Câu b) Trung vị:

  • Dữ liệu đã sắp xếp: 5, 6, 7, 7, 8, 8, 8, 9
  • n = 8 (chẵn) → Lấy trung bình 2 số giữa
  • Vị trí giữa: số thứ 4 và thứ 5
  • $M_e = \frac{7 + 8}{2} = 7.5$

Câu c) Mốt:

  • Số 8 xuất hiện 3 lần (nhiều nhất)
  • $M_o = 8$

Câu d) Phương sai:

Phương pháp 1: Dùng định nghĩa $$s^2 = \frac{1}{8}\sum(x_i – 7.25)^2$$ $$= \frac{1}{8}[(5-7.25)^2 + (6-7.25)^2 + 2(7-7.25)^2 + 3(8-7.25)^2 + (9-7.25)^2]$$ $$= \frac{1}{8}[5.0625 + 1.5625 + 0.125 + 1.6875 + 3.0625]$$ $$= \frac{11.5}{8} = 1.4375$$

Phương pháp 2: Dùng công thức nhanh

  • $E(X^2) = \frac{25 + 36 + 49 + 49 + 64 + 64 + 64 + 81}{8} = \frac{432}{8} = 54$
  • $s^2 = 54 – (7.25)^2 = 54 – 52.5625 = 1.4375$ ✓

Kết luận:

  • Trung bình: 7.25 điểm
  • Trung vị: 7.5 điểm
  • Mốt: 8 điểm
  • Phương sai: 1.44
  • Độ lệch chuẩn: $s = \sqrt{1.44} = 1.2$ điểm

VIII. KẾT LUẬN

Bài viết đã tổng hợp hệ thống đầy đủ các công thức xác suất thống kê theo chương trình THPT:

Xác suất cơ bản:

  • Xác suất cổ điển, biến cố đối
  • Công thức cộng, nhân xác suất
  • Xác suất có điều kiện, toàn phần, Bayes

Biến ngẫu nhiên:

  • Kỳ vọng, phương sai, độ lệch chuẩn
  • Phân phối nhị thức và tính chất
  • Phân phối chuẩn, quy tắc 3 sigma

Thống kê mô tả:

  • Số trung bình, trung vị, mốt
  • Phương sai mẫu, độ lệch chuẩn
  • Khoảng biến thiên, tứ phân vị

Công thức QUAN TRỌNG NHẤT

📌 Xác suất cổ điển: $$P(A) = \frac{n(A)}{n(\Omega)}$$

📌 Kỳ vọng: $$E(X) = \sum x_i p_i$$

📌 Phương sai: $$Var(X) = E(X^2) – [E(X)]^2$$

📌 Phân phối nhị thức: $$P(X=k) = C_n^k p^k (1-p)^{n-k}$$

📌 Số trung bình mẫu: $$\bar{x} = \frac{1}{n}\sum x_i$$

ThS. Nguyễn Văn An

ThS. Nguyễn Văn An

(Người kiểm duyệt, ra đề)

Chức vụ: Tổ trưởng chuyên môn Tổ Toán tại Edus

Trình độ: Cử nhân Sư phạm Toán học, Thạc sĩ Lý luận & Phương pháp dạy học môn Toán, Chức danh nghề nghiệp giáo viên THPT – Hạng II, Tin học ứng dụng cơ bản, Ngoại ngữ B1, Chứng chỉ bồi dưỡng năng lực tổ trưởng chuyên môn

Kinh nghiệm: 12+ năm kinh nghiệm tại Trường THPT chuyên Trần Đại Nghĩa