Chọn đến phần học sinh cần nhanh chóng thông qua mục lục bằng cách click đến phần đó
- I. GIỚI THIỆU VỀ PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN
- 1. Phương sai và độ lệch chuẩn là gì?
- 2. Tại sao cần đo độ phân tán?
- II. CÔNG THỨC PHƯƠNG SAI
- 1. Phương sai của tổng thể
- 2. Phương sai của mẫu
- 3. Giải thích ý nghĩa
- 4. Ví dụ tính phương sai tổng thể
- 5. Ví dụ tính phương sai mẫu
- 6. Phương sai của dữ liệu có tần số
- III. CÔNG THỨC ĐỘ LỆCH CHUẨN
- 1. Độ lệch chuẩn của tổng thể
- 2. Độ lệch chuẩn của mẫu
- 3. Ý nghĩa của độ lệch chuẩn
- 4. Ví dụ tính độ lệch chuẩn
- 5. Hệ số biến thiên (Coefficient of Variation – CV)
- IV. CÁCH TÍNH TỪNG BƯỚC
- 1. Quy trình tính phương sai và độ lệch chuẩn
- 2. Ví dụ tính toàn bộ chi tiết
- 3. Sử dụng máy tính và phần mềm
- V. PHƯƠNG SAI CỦA BIẾN NGẪU NHIÊN
- 1. Phương sai của biến ngẫu nhiên rời rạc
- 2. Tính chất của phương sai
- 3. Phương sai của các phân phối thường gặp
- VI. SO SÁNH PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN
- 1. Bảng so sánh chi tiết
- 2. Mối quan hệ
- 3. Ưu nhược điểm chi tiết
- 4. Khi nào dùng số nào?
- VII. BÀI TẬP MẪU VÀ HƯỚNG DẪN GIẢI
- Dạng 1: Tính phương sai và SD từ dữ liệu thô
- Dạng 2: Tính từ bảng tần số
- Dạng 3: Ứng dụng tính chất
- Dạng 4: So sánh độ phân tán
- Dạng 5: Biến ngẫu nhiên rời rạc
- VIII. MẸO VÀ LƯU Ý QUAN TRỌNG
- 1. Các sai lầm thường gặp
- 2. Công thức nhớ nhanh
- 3. Kiểm tra kết quả
- 4. Mẹo tính nhanh
- IX. KẾT LUẬN
- Bảng công thức tóm tắt toàn bộ
- PHỤ LỤC: QUY TRÌNH TÍNH TOÁN CHUẨN
- Quy trình 6 bước tính phương sai và độ lệch chuẩn:
I. GIỚI THIỆU VỀ PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN
1. Phương sai và độ lệch chuẩn là gì?
Phương sai (Variance):
Định nghĩa: Phương sai là một đại lượng thống kê đo lường mức độ phân tán (sự phân bố) của các giá trị dữ liệu quanh giá trị trung bình.
Ký hiệu:
- $\sigma^2$ (sigma bình phương) – phương sai của tổng thể
- $s^2$ – phương sai của mẫu
- $Var(X)$ – ký hiệu tổng quát
Đơn vị: Bình phương của đơn vị dữ liệu gốc (ví dụ: cm², $², điểm²)
Ý nghĩa:
- Phương sai càng lớn → dữ liệu càng phân tán
- Phương sai càng nhỏ → dữ liệu càng tập trung quanh trung bình
- Phương sai = 0 → tất cả dữ liệu bằng nhau
Độ lệch chuẩn (Standard Deviation – SD):
Định nghĩa: Độ lệch chuẩn là căn bậc hai của phương sai.
Công thức: $$\sigma = \sqrt{Var(X)} = \sqrt{\sigma^2}$$
Ký hiệu:
- $\sigma$ (sigma) – độ lệch chuẩn của tổng thể
- $s$ – độ lệch chuẩn của mẫu
- $SD(X)$ – ký hiệu tổng quát
Đơn vị: Cùng đơn vị với dữ liệu gốc (cm, $, điểm) – dễ hiểu và diễn giải hơn phương sai
Ý nghĩa:
- Đo lường mức độ dao động trung bình của dữ liệu so với giá trị trung bình
- Cho biết dữ liệu “rải rác” đến mức nào
2. Tại sao cần đo độ phân tán?
Trung bình không đủ để mô tả dữ liệu!
Xét hai tập dữ liệu sau đây:
Tập A: {5, 5, 5, 5, 5}
- Trung bình: $\overline{x}_A = 5$
- Tất cả giá trị đều bằng nhau
Tập B: {1, 3, 5, 7, 9}
- Trung bình: $\overline{x}_B = 5$
- Các giá trị khác nhau
Nhận xét: Cả hai tập đều có cùng trung bình = 5, nhưng:
- Tập A: Không có sự phân tán ($\sigma_A = 0$) – dữ liệu hoàn toàn đồng đều
- Tập B: Có sự phân tán cao ($\sigma_B \approx 2.83$) – dữ liệu dao động mạnh
Kết luận: Chỉ biết trung bình không đủ. Ta cần thêm một đại lượng để đo độ phân tán → đó là phương sai và độ lệch chuẩn.
II. CÔNG THỨC PHƯƠNG SAI
1. Phương sai của tổng thể
Công thức 1 – Định nghĩa cơ bản:
$$\boxed{\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2}$$
Trong đó:
- $N$: Số phần tử của tổng thể (toàn bộ dữ liệu)
- $x_i$: Giá trị thứ i trong tập dữ liệu
- $\mu$ (mu): Trung bình của tổng thể = $\frac{1}{N}\sum_{i=1}^{N} x_i$
- $(x_i – \mu)$: Độ lệch của giá trị $x_i$ so với trung bình
Giải thích từng bước:
- Tính độ lệch: $(x_i – \mu)$ – khoảng cách từ mỗi điểm đến trung bình
- Bình phương độ lệch: $(x_i – \mu)^2$ – để loại bỏ dấu âm
- Tính trung bình: $\frac{1}{N}\sum$ – lấy trung bình của tất cả bình phương
Công thức 2 – Công thức tính nhanh:
$$\boxed{\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} x_i^2 – \mu^2 = \overline{x^2} – \overline{x}^2}$$
Cách nhớ: “Trung bình của bình phương trừ bình phương của trung bình”
Trong đó:
- $\overline{x^2}$: Trung bình của các số bình phương = $\frac{1}{N}\sum x_i^2$
- $\overline{x}^2$: Bình phương của số trung bình = $\mu^2$
Ưu điểm: Tính nhanh hơn, không cần tính từng độ lệch
2. Phương sai của mẫu
Công thức mẫu (có hiệu chỉnh Bessel):
$$\boxed{s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \overline{x})^2}$$
Trong đó:
- $n$: Số phần tử của mẫu (dữ liệu thu thập được)
- $\overline{x}$: Trung bình mẫu = $\frac{1}{n}\sum_{i=1}^{n} x_i$
- $(n-1)$: Bậc tự do (degrees of freedom)
Tại sao chia cho (n-1) thay vì n?
Lý do thống kê:
- Khi tính từ mẫu, ta sử dụng $\overline{x}$ (không phải $\mu$ thật)
- $\overline{x}$ đã “tiêu tốn” 1 bậc tự do
- Chia cho $n$ sẽ cho ước lượng chệch (underestimate) phương sai tổng thể
- Chia cho $(n-1)$ cho ước lượng không chệch (unbiased estimate)
Quy tắc:
- Tổng thể (biết tất cả dữ liệu): Chia cho $N$
- Mẫu (chỉ biết một phần): Chia cho $(n-1)$
Công thức tính nhanh cho mẫu:
$$\boxed{s^2 = \frac{1}{n-1} \left[\sum_{i=1}^{n} x_i^2 – n\overline{x}^2\right]}$$
Hoặc:
$$s^2 = \frac{\sum x_i^2 – \frac{(\sum x_i)^2}{n}}{n-1}$$
3. Giải thích ý nghĩa
Tại sao phải bình phương độ lệch?
Vấn đề: Nếu chỉ cộng độ lệch $(x_i – \overline{x})$, tổng luôn bằng 0: $$\sum (x_i – \overline{x}) = 0$$
Giải pháp: Bình phương để:
- Loại bỏ dấu âm: $(x_i – \overline{x})^2 \geq 0$ luôn dương
- Phạt nặng giá trị lệch xa: Giá trị lệch xa 2 đơn vị có ảnh hưởng gấp 4 lần giá trị lệch xa 1 đơn vị
- Có tính chất toán học tốt: Dễ tính đạo hàm, tối ưu
4. Ví dụ tính phương sai tổng thể
Ví dụ 1: Tính phương sai của tập dữ liệu {2, 4, 6, 8, 10}
Phương pháp 1 – Dùng định nghĩa:
Bước 1: Tính trung bình: $$\mu = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6$$
Bước 2: Tính độ lệch:
- $x_1 – \mu = 2 – 6 = -4$
- $x_2 – \mu = 4 – 6 = -2$
- $x_3 – \mu = 6 – 6 = 0$
- $x_4 – \mu = 8 – 6 = 2$
- $x_5 – \mu = 10 – 6 = 4$
Bước 3: Bình phương độ lệch:
- $(-4)^2 = 16$
- $(-2)^2 = 4$
- $(0)^2 = 0$
- $(2)^2 = 4$
- $(4)^2 = 16$
Bước 4: Tính phương sai: $$\sigma^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8$$
Phương pháp 2 – Công thức nhanh:
Bước 1: Tính $\overline{x^2}$ (trung bình của bình phương): $$\overline{x^2} = \frac{2^2 + 4^2 + 6^2 + 8^2 + 10^2}{5} = \frac{4 + 16 + 36 + 64 + 100}{5} = \frac{220}{5} = 44$$
Bước 2: Tính $\overline{x}^2$ (bình phương của trung bình): $$\overline{x}^2 = 6^2 = 36$$
Bước 3: Tính phương sai: $$\sigma^2 = 44 – 36 = 8$$ ✓
Kết luận: Phương sai là 8. Cả hai phương pháp cho cùng kết quả.
5. Ví dụ tính phương sai mẫu
Ví dụ 2: Từ một mẫu gồm 4 số liệu {5, 7, 9, 11}, tính phương sai mẫu $s^2$.
Lời giải:
Bước 1: Xác định:
- $n = 4$ (mẫu)
- Tính trung bình mẫu: $$\overline{x} = \frac{5 + 7 + 9 + 11}{4} = \frac{32}{4} = 8$$
Bước 2: Tính độ lệch và bình phương:
| $x_i$ | $x_i – \overline{x}$ | $(x_i – \overline{x})^2$ |
|---|---|---|
| 5 | -3 | 9 |
| 7 | -1 | 1 |
| 9 | 1 | 1 |
| 11 | 3 | 9 |
| Tổng | 0 | 20 |
Bước 3: Tính phương sai mẫu (chia cho $n-1 = 3$): $$s^2 = \frac{20}{4-1} = \frac{20}{3} \approx 6.67$$
Kết luận: Phương sai mẫu là $\frac{20}{3} \approx 6.67$.
Lưu ý: Nếu đây là tổng thể (chia cho 4), kết quả sẽ là $\sigma^2 = \frac{20}{4} = 5$.
6. Phương sai của dữ liệu có tần số
Khi dữ liệu được cho dưới dạng bảng tần số, ta dùng công thức có trọng số.
Công thức:
$$\boxed{\sigma^2 = \frac{\sum_{i=1}^{k} f_i(x_i – \overline{x})^2}{\sum_{i=1}^{k} f_i}}$$
Hoặc công thức nhanh:
$$\boxed{\sigma^2 = \frac{\sum f_i x_i^2}{\sum f_i} – \overline{x}^2}$$
Trong đó:
- $f_i$: Tần số (số lần xuất hiện) của giá trị $x_i$
- $k$: Số giá trị khác nhau
Ví dụ 3: Cho bảng tần số sau:
| Giá trị ($x_i$) | 1 | 2 | 3 |
|---|---|---|---|
| Tần số ($f_i$) | 2 | 5 | 3 |
Tính phương sai.
Lời giải:
Bước 1: Tính tổng tần số: $$\sum f_i = 2 + 5 + 3 = 10$$
Bước 2: Tính trung bình: $$\overline{x} = \frac{\sum f_i x_i}{\sum f_i} = \frac{2(1) + 5(2) + 3(3)}{10} = \frac{2 + 10 + 9}{10} = \frac{21}{10} = 2.1$$
Bước 3: Tính $\sum f_i x_i^2$: $$\sum f_i x_i^2 = 2(1^2) + 5(2^2) + 3(3^2) = 2(1) + 5(4) + 3(9) = 2 + 20 + 27 = 49$$
Bước 4: Tính phương sai (công thức nhanh): $$\sigma^2 = \frac{49}{10} – (2.1)^2 = 4.9 – 4.41 = 0.49$$
Kết luận: Phương sai là 0.49.
III. CÔNG THỨC ĐỘ LỆCH CHUẨN
1. Độ lệch chuẩn của tổng thể
Công thức:
$$\boxed{\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2}}$$
Hoặc dùng công thức nhanh:
$$\boxed{\sigma = \sqrt{\overline{x^2} – \overline{x}^2}}$$
Đặc điểm:
- Luôn có $\sigma \geq 0$
- $\sigma = 0$ khi và chỉ khi tất cả dữ liệu bằng nhau
- Đơn vị: Cùng đơn vị với dữ liệu gốc
2. Độ lệch chuẩn của mẫu
Công thức:
$$\boxed{s = \sqrt{s^2} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i – \overline{x})^2}}$$
Ký hiệu trong thống kê:
- $SD(X)$: Standard Deviation
- $s$: Sample standard deviation
- $\sigma$: Population standard deviation
3. Ý nghĩa của độ lệch chuẩn
So sánh với phương sai:
Phương sai:
- Đơn vị: Bình phương đơn vị gốc (cm², $², điểm²)
- Khó hình dung: “Phương sai chiều cao là 25 cm²” ← Khó hiểu!
- Thuận tiện cho tính toán lý thuyết
Độ lệch chuẩn:
- Đơn vị: Cùng đơn vị gốc (cm, $, điểm)
- Dễ hiểu: “Độ lệch chuẩn chiều cao là 5 cm” ← Dễ hình dung!
- Thuận tiện cho diễn giải kết quả
Ví dụ minh họa:
- Chiều cao trung bình: 170 cm
- Phương sai: 25 cm² ← Khó diễn giải
- Độ lệch chuẩn: 5 cm ← “Chiều cao dao động khoảng ±5cm quanh 170cm”
Quy tắc thực nghiệm (Empirical Rule – Quy tắc 68-95-99.7):
Với phân phối chuẩn (phân phối hình chuông):
68% dữ liệu nằm trong khoảng: $$[\overline{x} – \sigma, \overline{x} + \sigma]$$
95% dữ liệu nằm trong khoảng: $$[\overline{x} – 2\sigma, \overline{x} + 2\sigma]$$
99.7% dữ liệu nằm trong khoảng: $$[\overline{x} – 3\sigma, \overline{x} + 3\sigma]$$
Ví dụ: IQ có trung bình 100, SD = 15
- 68% người có IQ trong [85, 115]
- 95% người có IQ trong [70, 130]
- 99.7% người có IQ trong [55, 145]
4. Ví dụ tính độ lệch chuẩn
Ví dụ 4: Từ ví dụ trước, tập {2, 4, 6, 8, 10} có $\sigma^2 = 8$. Tính độ lệch chuẩn.
Lời giải:
$$\sigma = \sqrt{\sigma^2} = \sqrt{8} = 2\sqrt{2} \approx 2.83$$
Giải thích:
- Trung bình của tập dữ liệu là 6
- Độ lệch chuẩn là 2.83
- Nghĩa là dữ liệu dao động trung bình khoảng 2.83 đơn vị quanh giá trị 6
Kiểm tra:
- Khoảng $[\overline{x} – \sigma, \overline{x} + \sigma] = [6 – 2.83, 6 + 2.83] = [3.17, 8.83]$
- Trong tập {2, 4, 6, 8, 10}, có 3 số (4, 6, 8) nằm trong khoảng này
- 3/5 = 60% ≈ 68% (gần đúng với quy tắc thực nghiệm)
5. Hệ số biến thiên (Coefficient of Variation – CV)
Định nghĩa: Hệ số biến thiên là tỷ lệ phần trăm giữa độ lệch chuẩn và trung bình.
Công thức:
Ý nghĩa:
- Đo độ phân tán tương đối (relative dispersion)
- Không phụ thuộc vào đơn vị đo
- Hữu ích khi so sánh độ phân tán giữa các tập dữ liệu có đơn vị khác nhau hoặc trung bình khác nhau
Ví dụ 5: So sánh độ phân tán
Tập A:
- Trung bình: $\overline{x}_A = 100$
- Độ lệch chuẩn: $s_A = 10$
- $CV_A = \frac{10}{100} \times 100% = 10%$
Tập B:
- Trung bình: $\overline{x}_B = 10$
- Độ lệch chuẩn: $s_B = 2$
- $CV_B = \frac{2}{10} \times 100% = 20%$
Nhận xét:
- Tập A có SD lớn hơn (10 > 2)
- Nhưng tập B có độ phân tán tương đối cao hơn (20% > 10%)
- Tập B “không ổn định” hơn so với trung bình của nó
Ứng dụng:
- So sánh độ ổn định của giá cổ phiếu
- Đánh giá độ đồng đều trong sản xuất
- So sánh chất lượng giữa các phòng lab
IV. CÁCH TÍNH TỪNG BƯỚC
1. Quy trình tính phương sai và độ lệch chuẩn
Quy trình 5 bước chuẩn:
Bước 1: Tính trung bình $$\overline{x} = \frac{\sum x_i}{n} \quad \text{hoặc} \quad \overline{x} = \frac{\sum f_i x_i}{\sum f_i}$$
Bước 2: Tính độ lệch $$d_i = x_i – \overline{x}$$
Bước 3: Bình phương độ lệch $$d_i^2 = (x_i – \overline{x})^2$$
Bước 4: Tính trung bình bình phương (phương sai)
- Tổng thể: $\sigma^2 = \frac{\sum d_i^2}{N}$
- Mẫu: $s^2 = \frac{\sum d_i^2}{n-1}$
Bước 5: Lấy căn bậc hai (độ lệch chuẩn) $$s = \sqrt{s^2}$$
2. Ví dụ tính toàn bộ chi tiết
Đề bài: Điểm thi của 5 học sinh là: 6, 7, 8, 9, 10. Tính phương sai mẫu $s^2$ và độ lệch chuẩn $s$.
Lời giải chi tiết:
Bước 1: Tính trung bình
$$\overline{x} = \frac{6 + 7 + 8 + 9 + 10}{5} = \frac{40}{5} = 8$$
Bước 2-3: Lập bảng tính
| $x_i$ | $x_i – \overline{x}$ | $(x_i – \overline{x})^2$ |
|---|---|---|
| 6 | 6 – 8 = -2 | $(-2)^2 = 4$ |
| 7 | 7 – 8 = -1 | $(-1)^2 = 1$ |
| 8 | 8 – 8 = 0 | $(0)^2 = 0$ |
| 9 | 9 – 8 = 1 | $(1)^2 = 1$ |
| 10 | 10 – 8 = 2 | $(2)^2 = 4$ |
| Tổng: 40 | 0 ✓ | 10 |
Kiểm tra: Tổng độ lệch = 0 ✓ (luôn đúng)
Bước 4: Tính phương sai mẫu
$$s^2 = \frac{\sum (x_i – \overline{x})^2}{n-1} = \frac{10}{5-1} = \frac{10}{4} = 2.5$$
Bước 5: Tính độ lệch chuẩn
$$s = \sqrt{s^2} = \sqrt{2.5} = \sqrt{\frac{5}{2}} = \frac{\sqrt{5}}{\sqrt{2}} = \frac{\sqrt{10}}{2} \approx 1.58$$
Kết luận:
- Phương sai mẫu: $s^2 = 2.5$ điểm²
- Độ lệch chuẩn: $s \approx 1.58$ điểm
- Giải thích: Điểm thi dao động trung bình khoảng 1.58 điểm quanh giá trị trung bình 8 điểm.
3. Sử dụng máy tính và phần mềm
Máy tính Casio fx-580VN X:
Các bước:
- Nhấn MODE → chọn STAT → chọn 1-VAR
- Nhập dữ liệu:
- Nhập giá trị thứ nhất → nhấn =
- Nhập giá trị tiếp theo → nhấn =
- Lặp lại cho tất cả dữ liệu
- Xem kết quả:
- Nhấn AC
- Nhấn SHIFT → 1 (STAT) → 4 (Var)
- Chọn:
- σₓ: Độ lệch chuẩn tổng thể (chia cho n)
- sₓ: Độ lệch chuẩn mẫu (chia cho n-1)
- x̄: Trung bình
- n: Số phần tử
Microsoft Excel:
Phương sai:
- Tổng thể:
=VAR.P(A1:A10)hoặc=VARP(A1:A10) - Mẫu:
=VAR.S(A1:A10)hoặc=VAR(A1:A10)
Độ lệch chuẩn:
- Tổng thể:
=STDEV.P(A1:A10)hoặc=STDEVP(A1:A10) - Mẫu:
=STDEV.S(A1:A10)hoặc=STDEV(A1:A10)
Lưu ý:
.P= Population (tổng thể).S= Sample (mẫu)
Python (NumPy):
import numpy as np
data = [6, 7, 8, 9, 10]
# Phương sai
var_population = np.var(data) # Tổng thể (ddof=0)
var_sample = np.var(data, ddof=1) # Mẫu (ddof=1)
# Độ lệch chuẩn
std_population = np.std(data) # Tổng thể
std_sample = np.std(data, ddof=1) # Mẫu
V. PHƯƠNG SAI CỦA BIẾN NGẪU NHIÊN
1. Phương sai của biến ngẫu nhiên rời rạc
Định nghĩa: Với biến ngẫu nhiên X, phương sai là kỳ vọng của bình phương độ lệch so với kỳ vọng.
Công thức:
$$\boxed{Var(X) = E[(X – E(X))^2]}$$
Công thức tính nhanh:
$$\boxed{Var(X) = E(X^2) – [E(X)]^2}$$
Trong đó:
- $E(X) = \sum x_i p_i$: Kỳ vọng (trung bình xác suất)
- $E(X^2) = \sum x_i^2 p_i$: Kỳ vọng của $X^2$
- $p_i = P(X = x_i)$: Xác suất
Ví dụ 6: Tung đồng xu cân đối 2 lần, X = số mặt sấp xuất hiện
Bảng phân phối xác suất:
| X | 0 | 1 | 2 |
|---|---|---|---|
| P(X) | 1/4 | 1/2 | 1/4 |
Tính Var(X) và σ(X).
Lời giải:
Bước 1: Tính kỳ vọng E(X): $$E(X) = 0 \cdot \frac{1}{4} + 1 \cdot \frac{1}{2} + 2 \cdot \frac{1}{4} = 0 + 0.5 + 0.5 = 1$$
Bước 2: Tính $E(X^2)$: $$E(X^2) = 0^2 \cdot \frac{1}{4} + 1^2 \cdot \frac{1}{2} + 2^2 \cdot \frac{1}{4}$$ $$= 0 + 0.5 + 1 = 1.5$$
Bước 3: Tính phương sai: $$Var(X) = E(X^2) – [E(X)]^2 = 1.5 – 1^2 = 1.5 – 1 = 0.5$$
Bước 4: Tính độ lệch chuẩn: $$\sigma(X) = \sqrt{Var(X)} = \sqrt{0.5} = \frac{1}{\sqrt{2}} = \frac{\sqrt{2}}{2} \approx 0.707$$
Kết luận:
- Phương sai: Var(X) = 0.5
- Độ lệch chuẩn: σ(X) ≈ 0.707
2. Tính chất của phương sai
Tính chất 1 – Phương sai của hằng số:
$$\boxed{Var(c) = 0}$$
Giải thích: Hằng số không có sự biến động → phương sai = 0
Tính chất 2 – Nhân với hằng số:
$$\boxed{Var(aX) = a^2 Var(X)}$$
Lưu ý: Nhân với $a$ thì phương sai nhân với $a^2$ (bình phương)
Ví dụ: Nếu Var(X) = 4, thì:
- Var(2X) = $2^2 \times 4 = 16$
- Var(3X) = $3^2 \times 4 = 36$
Tính chất 3 – Cộng hằng số:
$$\boxed{Var(X + b) = Var(X)}$$
Giải thích: Cộng thêm hằng số không làm thay đổi độ phân tán
Ví dụ: Nếu Var(X) = 9, thì:
- Var(X + 5) = 9
- Var(X – 10) = 9
Tính chất 4 – Tổng biến ngẫu nhiên độc lập:
$$\boxed{Var(X + Y) = Var(X) + Var(Y)}$$
Điều kiện: X và Y độc lập
Lưu ý quan trọng: Nếu X và Y không độc lập, công thức này SAI!
Tính chất 5 – Kết hợp tuyến tính:
$$\boxed{Var(aX + b) = a^2Var(X)}$$
Chứng minh: $$Var(aX + b) = Var(aX) = a^2Var(X)$$
Ví dụ 7: Ứng dụng tính chất
Biết Var(X) = 9. Tính Var(3X – 5)?
Lời giải: $$Var(3X – 5) = Var(3X) = 3^2 \cdot Var(X) = 9 \times 9 = 81$$
(Hằng số -5 không ảnh hưởng đến phương sai)
3. Phương sai của các phân phối thường gặp
Phân phối Bernoulli:
- $X \sim \text{Bernoulli}(p)$
- $E(X) = p$
- $\boxed{Var(X) = p(1-p) = pq}$
Ví dụ: Tung đồng xu, X = 1 nếu sấp, X = 0 nếu ngửa
- $p = 0.5$
- $Var(X) = 0.5 \times 0.5 = 0.25$
Phân phối nhị thức:
- $X \sim B(n, p)$
- $E(X) = np$
- $\boxed{Var(X) = np(1-p) = npq}$
Ví dụ: Tung đồng xu 10 lần, X = số lần sấp
- $n = 10$, $p = 0.5$
- $Var(X) = 10 \times 0.5 \times 0.5 = 2.5$
Phân phối chuẩn:
- $X \sim N(\mu, \sigma^2)$
- $E(X) = \mu$
- $\boxed{Var(X) = \sigma^2}$
Phân phối Poisson:
- $X \sim \text{Poisson}(\lambda)$
- $E(X) = \lambda$
- $\boxed{Var(X) = \lambda}$
Đặc biệt: Trong phân phối Poisson, kỳ vọng = phương sai!
VI. SO SÁNH PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN
1. Bảng so sánh chi tiết
| Tiêu chí | Phương sai ($\sigma^2$ hoặc $s^2$) | Độ lệch chuẩn ($\sigma$ hoặc $s$) |
|---|---|---|
| Định nghĩa | Trung bình bình phương độ lệch | Căn bậc hai của phương sai |
| Công thức | $\frac{\sum(x_i – \overline{x})^2}{n}$ hoặc $\frac{…}{n-1}$ | $\sqrt{\text{Phương sai}}$ |
| Đơn vị | Bình phương đơn vị gốc (cm², $²) | Cùng đơn vị với dữ liệu gốc (cm, $) |
| Ưu điểm | Tính toán thuận tiện, có tính chất đại số tốt | Dễ hiểu, dễ diễn giải, trực quan |
| Nhược điểm | Đơn vị khó hình dung | Phải tính căn, mất tính chất cộng |
| Sử dụng khi | Tính toán lý thuyết, chứng minh | Trình bày kết quả, báo cáo |
| Giá trị | Luôn ≥ 0 | Luôn ≥ 0 |
2. Mối quan hệ
Công thức cơ bản: $$\sigma = \sqrt{\sigma^2}$$
$$\sigma^2 = \sigma \times \sigma$$
Tính chất:
- Cả hai đều đo độ phân tán
- Cả hai đều luôn không âm: $\sigma^2 \geq 0$, $\sigma \geq 0$
- Cả hai đều bằng 0 khi và chỉ khi dữ liệu hoàn toàn đồng nhất
3. Ưu nhược điểm chi tiết
Phương sai:
✅ Ưu điểm:
- Dễ tính toán, không cần tính căn
- Có tính chất đại số tốt: Var(X+Y) = Var(X) + Var(Y) (nếu độc lập)
- Được sử dụng rộng rãi trong lý thuyết thống kê
- Là nền tảng cho nhiều phép kiểm định (ANOVA, F-test)
- Dễ tính đạo hàm, tối ưu hóa
❌ Nhược điểm:
- Đơn vị bình phương khó hình dung (cm², $², điểm²)
- Khó diễn giải cho người không chuyên
- Giá trị có thể rất lớn, khó so sánh
Độ lệch chuẩn:
✅ Ưu điểm:
- Cùng đơn vị với dữ liệu gốc → dễ hiểu
- Dễ diễn giải: “Dữ liệu dao động trung bình σ đơn vị quanh trung bình”
- Liên quan đến quy tắc 68-95-99.7 (phân phối chuẩn)
- Phù hợp để trình bày kết quả nghiên cứu
- Sử dụng trong khoảng tin cậy, kiểm định giả thuyết
❌ Nhược điểm:
- Phải tính căn bậc hai
- Mất tính chất cộng: $\sigma(X+Y) \neq \sigma(X) + \sigma(Y)$
- Phức tạp hơn trong tính toán lý thuyết
4. Khi nào dùng số nào?
Dùng PHƯƠNG SAI khi:
Tính toán thống kê lý thuyết:
- Chứng minh định lý, tính chất
- Phân tích toán học
So sánh nhiều nhóm:
- Phân tích phương sai (ANOVA)
- Kiểm định F
- So sánh độ đồng đều
Mô hình hóa:
- Hồi quy tuyến tính
- Mô hình thống kê
- Machine Learning
Khi cần tính chất cộng:
- Var(X + Y) = Var(X) + Var(Y)
Dùng ĐỘ LỆCH CHUẨN khi:
Báo cáo kết quả nghiên cứu:
- Trình bày trong bài báo khoa học
- Báo cáo thống kê mô tả
- Tóm tắt dữ liệu
Diễn giải cho người không chuyên:
- Thuyết trình
- Báo cáo kinh doanh
- Giảng dạy
Khoảng tin cậy và kiểm định:
- Confidence intervals
- Hypothesis testing
- Z-scores, T-scores
Quy tắc thực nghiệm:
- Áp dụng quy tắc 68-95-99.7
- Phát hiện giá trị ngoại lệ (outliers)
VII. BÀI TẬP MẪU VÀ HƯỚNG DẪN GIẢI
Dạng 1: Tính phương sai và SD từ dữ liệu thô
Bài 1: Cân nặng của 6 học sinh (kg): 45, 48, 50, 52, 55, 60. Tính phương sai mẫu $s^2$ và độ lệch chuẩn $s$.
Lời giải chi tiết:
Bước 1: Tính trung bình: $$\overline{x} = \frac{45 + 48 + 50 + 52 + 55 + 60}{6} = \frac{310}{6} \approx 51.67 \text{ kg}$$
Bước 2: Sử dụng công thức nhanh: $$\sum x_i^2 = 45^2 + 48^2 + 50^2 + 52^2 + 55^2 + 60^2$$ $$= 2025 + 2304 + 2500 + 2704 + 3025 + 3600 = 16,158$$
Bước 3: Tính phương sai mẫu: $$s^2 = \frac{\sum x_i^2 – n\overline{x}^2}{n-1}$$ $$= \frac{16,158 – 6(51.67)^2}{6-1}$$ $$= \frac{16,158 – 16,020.67}{5}$$ $$= \frac{137.33}{5} = 27.47 \text{ kg}^2$$
Bước 4: Tính độ lệch chuẩn: $$s = \sqrt{27.47} \approx 5.24 \text{ kg}$$
Kết luận:
- Phương sai mẫu: $s^2 \approx 27.47$ kg²
- Độ lệch chuẩn: $s \approx 5.24$ kg
- Cân nặng dao động trung bình khoảng 5.24 kg quanh giá trị 51.67 kg
Dạng 2: Tính từ bảng tần số
Bài 2: Điểm thi môn Toán của một lớp:
| Điểm ($x_i$) | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|
| Số HS ($f_i$) | 2 | 5 | 10 | 8 | 4 | 1 |
Tính phương sai mẫu và độ lệch chuẩn.
Lời giải:
Bước 1: Tính tổng tần số: $$n = \sum f_i = 2 + 5 + 10 + 8 + 4 + 1 = 30$$
Bước 2: Tính trung bình: $$\overline{x} = \frac{\sum f_i x_i}{\sum f_i}$$ $$= \frac{2(5) + 5(6) + 10(7) + 8(8) + 4(9) + 1(10)}{30}$$ $$= \frac{10 + 30 + 70 + 64 + 36 + 10}{30} = \frac{220}{30} \approx 7.33$$
Bước 3: Tính $\sum f_i x_i^2$: $$\sum f_i x_i^2 = 2(25) + 5(36) + 10(49) + 8(64) + 4(81) + 1(100)$$ $$= 50 + 180 + 490 + 512 + 324 + 100 = 1,656$$
Bước 4: Tính phương sai mẫu: $$s^2 = \frac{\sum f_i x_i^2 – n\overline{x}^2}{n-1}$$ $$= \frac{1,656 – 30(7.33)^2}{29}$$ $$= \frac{1,656 – 1,613.27}{29} = \frac{42.73}{29} \approx 1.47$$
Bước 5: Tính độ lệch chuẩn: $$s = \sqrt{1.47} \approx 1.21 \text{ điểm}$$
Kết luận:
- Phương sai: $s^2 \approx 1.47$ điểm²
- Độ lệch chuẩn: $s \approx 1.21$ điểm
- Điểm dao động trung bình 1.21 điểm quanh 7.33 điểm
Dạng 3: Ứng dụng tính chất
Bài 3: Biến ngẫu nhiên X có $E(X) = 50$ và $Var(X) = 25$. Đặt $Y = 2X + 10$. Tính $E(Y)$, $Var(Y)$ và $SD(Y)$.
Lời giải:
Tính E(Y): $$E(Y) = E(2X + 10) = 2E(X) + 10 = 2(50) + 10 = 110$$
Tính Var(Y): $$Var(Y) = Var(2X + 10) = Var(2X) = 2^2 \cdot Var(X) = 4 \times 25 = 100$$
(Hằng số +10 không ảnh hưởng đến phương sai)
Tính SD(Y): $$SD(Y) = \sqrt{Var(Y)} = \sqrt{100} = 10$$
Kết luận:
- $E(Y) = 110$
- $Var(Y) = 100$
- $SD(Y) = 10$
Dạng 4: So sánh độ phân tán
Bài 4: Hai lớp có kết quả như sau:
- Lớp A: $\overline{x}_A = 7$ điểm, $s_A = 1.5$ điểm
- Lớp B: $\overline{x}_B = 8$ điểm, $s_B = 1.2$ điểm
Lớp nào đồng đều hơn?
Lời giải:
Để so sánh độ đồng đều khi trung bình khác nhau, ta dùng hệ số biến thiên (CV).
Lớp A: $$CV_A = \frac{s_A}{\overline{x}_A} \times 100% = \frac{1.5}{7} \times 100% = 21.43%$$
Lớp B: $$CV_B = \frac{s_B}{\overline{x}_B} \times 100% = \frac{1.2}{8} \times 100% = 15%$$
So sánh:
- $CV_B = 15% < CV_A = 21.43%$
- Lớp B đồng đều hơn (độ phân tán tương đối thấp hơn)
Kết luận: Mặc dù lớp A có điểm trung bình thấp hơn nhưng lớp B có độ đồng đều cao hơn khi xét theo tỷ lệ với trung bình.
Dạng 5: Biến ngẫu nhiên rời rạc
Bài 5: X có bảng phân phối xác suất:
| X | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| P(X) | 0.1 | 0.3 | 0.4 | 0.2 |
Tính Var(X) và σ(X).
Lời giải:
Bước 1: Tính kỳ vọng E(X): $$E(X) = \sum x_i p_i = 0(0.1) + 1(0.3) + 2(0.4) + 3(0.2)$$ $$= 0 + 0.3 + 0.8 + 0.6 = 1.7$$
Bước 2: Tính $E(X^2)$: $$E(X^2) = \sum x_i^2 p_i = 0^2(0.1) + 1^2(0.3) + 2^2(0.4) + 3^2(0.2)$$ $$= 0 + 0.3 + 1.6 + 1.8 = 3.7$$
Bước 3: Tính phương sai: $$Var(X) = E(X^2) – [E(X)]^2 = 3.7 – (1.7)^2 = 3.7 – 2.89 = 0.81$$
Bước 4: Tính độ lệch chuẩn: $$\sigma(X) = \sqrt{Var(X)} = \sqrt{0.81} = 0.9$$
Kết luận:
- Phương sai: Var(X) = 0.81
- Độ lệch chuẩn: σ(X) = 0.9
VIII. MẸO VÀ LƯU Ý QUAN TRỌNG
1. Các sai lầm thường gặp
❌ SAI LẦM 1: Nhầm lẫn giữa chia n và chia (n-1)
Sai:
- Mẫu nhưng chia cho n
- Tổng thể nhưng chia cho (n-1)
Đúng:
- Tổng thể: Chia cho $N$
- Mẫu: Chia cho $(n-1)$
Cách nhớ: “Mẫu trừ 1”
❌ SAI LẦM 2: Quên bình phương độ lệch
Sai:
- Tính $\sum (x_i – \overline{x})$ rồi chia
Đúng:
- Phải tính $\sum (x_i – \overline{x})^2$ (có bình phương)
❌ SAI LẦM 3: Nhầm σ² và 2σ
Sai:
- Nghĩ rằng σ² = σ × 2
Đúng:
- $\sigma^2 = \sigma \times \sigma$ (bình phương, không phải nhân 2)
- $\sigma = \sqrt{\sigma^2}$ (lấy căn)
❌ SAI LẦM 4: Cộng phương sai khi không độc lập
Sai:
- Var(X + Y) = Var(X) + Var(Y) (áp dụng khi X, Y phụ thuộc)
Đúng:
- Công thức chỉ đúng khi X và Y độc lập
- Nếu không độc lập, cần thêm hiệp phương sai
2. Công thức nhớ nhanh
Công thức phương sai:
“Trung bình của bình phương trừ bình phương của trung bình”
$$\sigma^2 = \overline{x^2} – \overline{x}^2$$
Giải thích:
- $\overline{x^2}$: Trung bình của các số đã bình phương
- $\overline{x}^2$: Bình phương của số trung bình
Công thức độ lệch chuẩn:
“Căn của phương sai”
$$\sigma = \sqrt{\sigma^2}$$
Đơn giản: Chỉ cần lấy căn bậc hai của phương sai
3. Kiểm tra kết quả
✅ Kiểm tra logic:
Phương sai và SD luôn không âm:
- $\sigma^2 \geq 0$
- $\sigma \geq 0$
- Nếu tính được số âm → SAI!
Phương sai = 0 khi và chỉ khi dữ liệu đồng nhất:
- $\sigma = 0 \Leftrightarrow$ tất cả dữ liệu bằng nhau
SD càng lớn → dữ liệu càng phân tán:
- SD nhỏ: dữ liệu tập trung
- SD lớn: dữ liệu rải rác
✅ Kiểm tra đơn vị:
Phương sai: Đơn vị bình phương
- Chiều cao (cm) → σ² (cm²)
- Điểm số (điểm) → σ² (điểm²)
- Tiền (đồng) → σ² (đồng²)
Độ lệch chuẩn: Cùng đơn vị gốc
- Chiều cao (cm) → σ (cm)
- Điểm số (điểm) → σ (điểm)
- Tiền (đồng) → σ (đồng)
4. Mẹo tính nhanh
Mẹo 1: Dùng công thức $\overline{x^2} – \overline{x}^2$
- Nhanh hơn định nghĩa
- Ít phải tính độ lệch từng giá trị
Mẹo 2: Dùng máy tính cho dữ liệu lớn
- Máy Casio: MODE → STAT → 1-VAR
- Nhập dữ liệu → xem kết quả σₓ hoặc sₓ
- Tiết kiệm thời gian, tránh sai sót
Mẹo 3: Nhận biết nhanh
- Dữ liệu đều → σ² = 0
- Dữ liệu càng “rải rác” → σ càng lớn
Mẹo 4: Nếu biết phương sai
- Chỉ cần lấy căn bậc hai để được SD
- Không cần tính lại từ đầu
Mẹo 5: Với dữ liệu chuẩn hóa
- Nếu dữ liệu đã chuẩn hóa (Z-score)
- Thì $\overline{x} = 0$ và $\sigma = 1$
IX. KẾT LUẬN
Bài viết đã trình bày đầy đủ và chi tiết về hai đại lượng quan trọng đo độ phân tán trong thống kê:
Phương sai (Variance):
- Công thức tổng thể: $\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2$
- Công thức mẫu: $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \overline{x})^2$
- Công thức nhanh: $\sigma^2 = \overline{x^2} – \overline{x}^2$
- Đặc điểm: Đo độ phân tán, đơn vị bình phương
- Khi dùng: Tính toán lý thuyết, phân tích thống kê
Độ lệch chuẩn (Standard Deviation):
- Công thức: $\sigma = \sqrt{\sigma^2}$ hoặc $s = \sqrt{s^2}$
- Đặc điểm: Căn bậc hai của phương sai, cùng đơn vị với dữ liệu gốc
- Khi dùng: Trình bày kết quả, dễ diễn giải
- Quy tắc 68-95-99.7: Áp dụng với phân phối chuẩn
Mối quan hệ:
- SD = √(Phương sai)
- Phương sai = SD × SD
- Cả hai đều đo độ phân tán
- SD dễ diễn giải hơn vì cùng đơn vị
Phương sai của biến ngẫu nhiên:
- $Var(X) = E(X^2) – [E(X)]^2$
- Tính chất: Var(aX + b) = a²Var(X)
- Var(X + Y) = Var(X) + Var(Y) (nếu độc lập)
Bài tập thực hành:
- 5 dạng bài có lời giải chi tiết từng bước
- Từ dữ liệu thô, bảng tần số, đến biến ngẫu nhiên
- Ứng dụng tính chất, so sánh độ phân tán
Bảng công thức tóm tắt toàn bộ
PHƯƠNG SAI:
Tổng thể:
Định nghĩa: σ² = (1/N) Σ(xᵢ - μ)²
Công thức nhanh: σ² = x̄² - x̄²
Mẫu:
Định nghĩa: s² = [1/(n-1)] Σ(xᵢ - x̄)²
Công thức nhanh: s² = [Σxᵢ² - nx̄²]/(n-1)
Dữ liệu tần số:
σ² = (Σfᵢxᵢ²/Σfᵢ) - x̄²
ĐỘ LỆCH CHUẨN:
Tổng thể: σ = √σ²
Mẫu: s = √s²
BIẾN NGẪU NHIÊN:
Var(X) = E(X²) - [E(X)]²
Tính chất:
Var(c) = 0
Var(aX) = a²Var(X)
Var(X + b) = Var(X)
Var(X + Y) = Var(X) + Var(Y) [nếu độc lập]
Var(aX + b) = a²Var(X)
HỆ SỐ BIẾN THIÊN:
CV = (σ/μ) × 100% [tổng thể]
CV = (s/x̄) × 100% [mẫu]
PHỤ LỤC: QUY TRÌNH TÍNH TOÁN CHUẨN
Quy trình 6 bước tính phương sai và độ lệch chuẩn:
Bước 1: XÁC ĐỊNH LOẠI DỮ LIỆU
- Tổng thể hay mẫu?
- Dữ liệu thô hay có tần số?
Bước 2: TÍNH TRUNG BÌNH
- $\overline{x} = \frac{\sum x_i}{n}$ hoặc $\frac{\sum f_i x_i}{\sum f_i}$
Bước 3: TÍNH ĐỘ LỆCH
- $d_i = x_i – \overline{x}$
- Kiểm tra: $\sum d_i = 0$
Bước 4: BÌNH PHƯƠNG ĐỘ LỆCH
- $d_i^2 = (x_i – \overline{x})^2$
Bước 5: TÍNH PHƯƠNG SAI
- Tổng thể: $\sigma^2 = \frac{\sum d_i^2}{N}$
- Mẫu: $s^2 = \frac{\sum d_i^2}{n-1}$
Bước 6: TÍNH ĐỘ LỆCH CHUẨN
- $s = \sqrt{s^2}$
- Kiểm tra đơn vị
ThS. Nguyễn Văn An
(Người kiểm duyệt, ra đề)
Chức vụ: Tổ trưởng chuyên môn Tổ Toán tại Edus
Trình độ: Cử nhân Sư phạm Toán học, Thạc sĩ Lý luận & Phương pháp dạy học môn Toán, Chức danh nghề nghiệp giáo viên THPT – Hạng II, Tin học ứng dụng cơ bản, Ngoại ngữ B1, Chứng chỉ bồi dưỡng năng lực tổ trưởng chuyên môn
Kinh nghiệm: 12+ năm kinh nghiệm tại Trường THPT chuyên Trần Đại Nghĩa
