Công thức tính phương sai và độ lệch chuẩn, Đầy đủ và dễ hiểu nhất

Trang chủ > Công Thức > Bài hiện tại.

Mục lục [Ẩn]

Chọn đến phần học sinh cần nhanh chóng thông qua mục lục bằng cách click đến phần đó

I. GIỚI THIỆU VỀ PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN

1. Phương sai và độ lệch chuẩn là gì?

Phương sai (Variance):

Định nghĩa: Phương sai là một đại lượng thống kê đo lường mức độ phân tán (sự phân bố) của các giá trị dữ liệu quanh giá trị trung bình.

Ký hiệu:

  • $\sigma^2$ (sigma bình phương) – phương sai của tổng thể
  • $s^2$ – phương sai của mẫu
  • $Var(X)$ – ký hiệu tổng quát

Đơn vị: Bình phương của đơn vị dữ liệu gốc (ví dụ: cm², $², điểm²)

Ý nghĩa:

  • Phương sai càng lớn → dữ liệu càng phân tán
  • Phương sai càng nhỏ → dữ liệu càng tập trung quanh trung bình
  • Phương sai = 0 → tất cả dữ liệu bằng nhau

Độ lệch chuẩn (Standard Deviation – SD):

Định nghĩa: Độ lệch chuẩn là căn bậc hai của phương sai.

Công thức: $$\sigma = \sqrt{Var(X)} = \sqrt{\sigma^2}$$

Ký hiệu:

  • $\sigma$ (sigma) – độ lệch chuẩn của tổng thể
  • $s$ – độ lệch chuẩn của mẫu
  • $SD(X)$ – ký hiệu tổng quát

Đơn vị: Cùng đơn vị với dữ liệu gốc (cm, $, điểm) – dễ hiểu và diễn giải hơn phương sai

Ý nghĩa:

  • Đo lường mức độ dao động trung bình của dữ liệu so với giá trị trung bình
  • Cho biết dữ liệu “rải rác” đến mức nào

2. Tại sao cần đo độ phân tán?

Trung bình không đủ để mô tả dữ liệu!

Xét hai tập dữ liệu sau đây:

Tập A: {5, 5, 5, 5, 5}

  • Trung bình: $\overline{x}_A = 5$
  • Tất cả giá trị đều bằng nhau

Tập B: {1, 3, 5, 7, 9}

  • Trung bình: $\overline{x}_B = 5$
  • Các giá trị khác nhau

Nhận xét: Cả hai tập đều có cùng trung bình = 5, nhưng:

  • Tập A: Không có sự phân tán ($\sigma_A = 0$) – dữ liệu hoàn toàn đồng đều
  • Tập B: Có sự phân tán cao ($\sigma_B \approx 2.83$) – dữ liệu dao động mạnh

Kết luận: Chỉ biết trung bình không đủ. Ta cần thêm một đại lượng để đo độ phân tán → đó là phương sai và độ lệch chuẩn.

II. CÔNG THỨC PHƯƠNG SAI

1. Phương sai của tổng thể

Công thức 1 – Định nghĩa cơ bản:

$$\boxed{\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2}$$

Trong đó:

  • $N$: Số phần tử của tổng thể (toàn bộ dữ liệu)
  • $x_i$: Giá trị thứ i trong tập dữ liệu
  • $\mu$ (mu): Trung bình của tổng thể = $\frac{1}{N}\sum_{i=1}^{N} x_i$
  • $(x_i – \mu)$: Độ lệch của giá trị $x_i$ so với trung bình

Giải thích từng bước:

  1. Tính độ lệch: $(x_i – \mu)$ – khoảng cách từ mỗi điểm đến trung bình
  2. Bình phương độ lệch: $(x_i – \mu)^2$ – để loại bỏ dấu âm
  3. Tính trung bình: $\frac{1}{N}\sum$ – lấy trung bình của tất cả bình phương

Công thức 2 – Công thức tính nhanh:

$$\boxed{\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} x_i^2 – \mu^2 = \overline{x^2} – \overline{x}^2}$$

Cách nhớ: “Trung bình của bình phương trừ bình phương của trung bình”

Trong đó:

  • $\overline{x^2}$: Trung bình của các số bình phương = $\frac{1}{N}\sum x_i^2$
  • $\overline{x}^2$: Bình phương của số trung bình = $\mu^2$

Ưu điểm: Tính nhanh hơn, không cần tính từng độ lệch

2. Phương sai của mẫu

Công thức mẫu (có hiệu chỉnh Bessel):

$$\boxed{s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \overline{x})^2}$$

Trong đó:

  • $n$: Số phần tử của mẫu (dữ liệu thu thập được)
  • $\overline{x}$: Trung bình mẫu = $\frac{1}{n}\sum_{i=1}^{n} x_i$
  • $(n-1)$: Bậc tự do (degrees of freedom)

Tại sao chia cho (n-1) thay vì n?

Lý do thống kê:

  • Khi tính từ mẫu, ta sử dụng $\overline{x}$ (không phải $\mu$ thật)
  • $\overline{x}$ đã “tiêu tốn” 1 bậc tự do
  • Chia cho $n$ sẽ cho ước lượng chệch (underestimate) phương sai tổng thể
  • Chia cho $(n-1)$ cho ước lượng không chệch (unbiased estimate)

Quy tắc:

  • Tổng thể (biết tất cả dữ liệu): Chia cho $N$
  • Mẫu (chỉ biết một phần): Chia cho $(n-1)$

Công thức tính nhanh cho mẫu:

$$\boxed{s^2 = \frac{1}{n-1} \left[\sum_{i=1}^{n} x_i^2 – n\overline{x}^2\right]}$$

Hoặc:

$$s^2 = \frac{\sum x_i^2 – \frac{(\sum x_i)^2}{n}}{n-1}$$

3. Giải thích ý nghĩa

Tại sao phải bình phương độ lệch?

Vấn đề: Nếu chỉ cộng độ lệch $(x_i – \overline{x})$, tổng luôn bằng 0: $$\sum (x_i – \overline{x}) = 0$$

Giải pháp: Bình phương để:

  1. Loại bỏ dấu âm: $(x_i – \overline{x})^2 \geq 0$ luôn dương
  2. Phạt nặng giá trị lệch xa: Giá trị lệch xa 2 đơn vị có ảnh hưởng gấp 4 lần giá trị lệch xa 1 đơn vị
  3. Có tính chất toán học tốt: Dễ tính đạo hàm, tối ưu

4. Ví dụ tính phương sai tổng thể

Ví dụ 1: Tính phương sai của tập dữ liệu {2, 4, 6, 8, 10}

Phương pháp 1 – Dùng định nghĩa:

Bước 1: Tính trung bình: $$\mu = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6$$

Bước 2: Tính độ lệch:

  • $x_1 – \mu = 2 – 6 = -4$
  • $x_2 – \mu = 4 – 6 = -2$
  • $x_3 – \mu = 6 – 6 = 0$
  • $x_4 – \mu = 8 – 6 = 2$
  • $x_5 – \mu = 10 – 6 = 4$

Bước 3: Bình phương độ lệch:

  • $(-4)^2 = 16$
  • $(-2)^2 = 4$
  • $(0)^2 = 0$
  • $(2)^2 = 4$
  • $(4)^2 = 16$

Bước 4: Tính phương sai: $$\sigma^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8$$

Phương pháp 2 – Công thức nhanh:

Bước 1: Tính $\overline{x^2}$ (trung bình của bình phương): $$\overline{x^2} = \frac{2^2 + 4^2 + 6^2 + 8^2 + 10^2}{5} = \frac{4 + 16 + 36 + 64 + 100}{5} = \frac{220}{5} = 44$$

Bước 2: Tính $\overline{x}^2$ (bình phương của trung bình): $$\overline{x}^2 = 6^2 = 36$$

Bước 3: Tính phương sai: $$\sigma^2 = 44 – 36 = 8$$ ✓

Kết luận: Phương sai là 8. Cả hai phương pháp cho cùng kết quả.

5. Ví dụ tính phương sai mẫu

Ví dụ 2: Từ một mẫu gồm 4 số liệu {5, 7, 9, 11}, tính phương sai mẫu $s^2$.

Lời giải:

Bước 1: Xác định:

  • $n = 4$ (mẫu)
  • Tính trung bình mẫu: $$\overline{x} = \frac{5 + 7 + 9 + 11}{4} = \frac{32}{4} = 8$$

Bước 2: Tính độ lệch và bình phương:

$x_i$ $x_i – \overline{x}$ $(x_i – \overline{x})^2$
5 -3 9
7 -1 1
9 1 1
11 3 9
Tổng 0 20

Bước 3: Tính phương sai mẫu (chia cho $n-1 = 3$): $$s^2 = \frac{20}{4-1} = \frac{20}{3} \approx 6.67$$

Kết luận: Phương sai mẫu là $\frac{20}{3} \approx 6.67$.

Lưu ý: Nếu đây là tổng thể (chia cho 4), kết quả sẽ là $\sigma^2 = \frac{20}{4} = 5$.

6. Phương sai của dữ liệu có tần số

Khi dữ liệu được cho dưới dạng bảng tần số, ta dùng công thức có trọng số.

Công thức:

$$\boxed{\sigma^2 = \frac{\sum_{i=1}^{k} f_i(x_i – \overline{x})^2}{\sum_{i=1}^{k} f_i}}$$

Hoặc công thức nhanh:

$$\boxed{\sigma^2 = \frac{\sum f_i x_i^2}{\sum f_i} – \overline{x}^2}$$

Trong đó:

  • $f_i$: Tần số (số lần xuất hiện) của giá trị $x_i$
  • $k$: Số giá trị khác nhau

Ví dụ 3: Cho bảng tần số sau:

Giá trị ($x_i$) 1 2 3
Tần số ($f_i$) 2 5 3

Tính phương sai.

Lời giải:

Bước 1: Tính tổng tần số: $$\sum f_i = 2 + 5 + 3 = 10$$

Bước 2: Tính trung bình: $$\overline{x} = \frac{\sum f_i x_i}{\sum f_i} = \frac{2(1) + 5(2) + 3(3)}{10} = \frac{2 + 10 + 9}{10} = \frac{21}{10} = 2.1$$

Bước 3: Tính $\sum f_i x_i^2$: $$\sum f_i x_i^2 = 2(1^2) + 5(2^2) + 3(3^2) = 2(1) + 5(4) + 3(9) = 2 + 20 + 27 = 49$$

Bước 4: Tính phương sai (công thức nhanh): $$\sigma^2 = \frac{49}{10} – (2.1)^2 = 4.9 – 4.41 = 0.49$$

Kết luận: Phương sai là 0.49.

III. CÔNG THỨC ĐỘ LỆCH CHUẨN

1. Độ lệch chuẩn của tổng thể

Công thức:

$$\boxed{\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2}}$$

Hoặc dùng công thức nhanh:

$$\boxed{\sigma = \sqrt{\overline{x^2} – \overline{x}^2}}$$

Đặc điểm:

  • Luôn có $\sigma \geq 0$
  • $\sigma = 0$ khi và chỉ khi tất cả dữ liệu bằng nhau
  • Đơn vị: Cùng đơn vị với dữ liệu gốc

2. Độ lệch chuẩn của mẫu

Công thức:

$$\boxed{s = \sqrt{s^2} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i – \overline{x})^2}}$$

Ký hiệu trong thống kê:

  • $SD(X)$: Standard Deviation
  • $s$: Sample standard deviation
  • $\sigma$: Population standard deviation

3. Ý nghĩa của độ lệch chuẩn

So sánh với phương sai:

Phương sai:

  • Đơn vị: Bình phương đơn vị gốc (cm², $², điểm²)
  • Khó hình dung: “Phương sai chiều cao là 25 cm²” ← Khó hiểu!
  • Thuận tiện cho tính toán lý thuyết

Độ lệch chuẩn:

  • Đơn vị: Cùng đơn vị gốc (cm, $, điểm)
  • Dễ hiểu: “Độ lệch chuẩn chiều cao là 5 cm” ← Dễ hình dung!
  • Thuận tiện cho diễn giải kết quả

Ví dụ minh họa:

  • Chiều cao trung bình: 170 cm
  • Phương sai: 25 cm² ← Khó diễn giải
  • Độ lệch chuẩn: 5 cm ← “Chiều cao dao động khoảng ±5cm quanh 170cm”

Quy tắc thực nghiệm (Empirical Rule – Quy tắc 68-95-99.7):

Với phân phối chuẩn (phân phối hình chuông):

68% dữ liệu nằm trong khoảng: $$[\overline{x} – \sigma, \overline{x} + \sigma]$$

95% dữ liệu nằm trong khoảng: $$[\overline{x} – 2\sigma, \overline{x} + 2\sigma]$$

99.7% dữ liệu nằm trong khoảng: $$[\overline{x} – 3\sigma, \overline{x} + 3\sigma]$$

Ví dụ: IQ có trung bình 100, SD = 15

  • 68% người có IQ trong [85, 115]
  • 95% người có IQ trong [70, 130]
  • 99.7% người có IQ trong [55, 145]

4. Ví dụ tính độ lệch chuẩn

Ví dụ 4: Từ ví dụ trước, tập {2, 4, 6, 8, 10} có $\sigma^2 = 8$. Tính độ lệch chuẩn.

Lời giải:

$$\sigma = \sqrt{\sigma^2} = \sqrt{8} = 2\sqrt{2} \approx 2.83$$

Giải thích:

  • Trung bình của tập dữ liệu là 6
  • Độ lệch chuẩn là 2.83
  • Nghĩa là dữ liệu dao động trung bình khoảng 2.83 đơn vị quanh giá trị 6

Kiểm tra:

  • Khoảng $[\overline{x} – \sigma, \overline{x} + \sigma] = [6 – 2.83, 6 + 2.83] = [3.17, 8.83]$
  • Trong tập {2, 4, 6, 8, 10}, có 3 số (4, 6, 8) nằm trong khoảng này
  • 3/5 = 60% ≈ 68% (gần đúng với quy tắc thực nghiệm)

5. Hệ số biến thiên (Coefficient of Variation – CV)

Định nghĩa: Hệ số biến thiên là tỷ lệ phần trăm giữa độ lệch chuẩn và trung bình.

Công thức:

$$\boxed{CV = \frac{\sigma}{\mu} \times 100\%}$$ (tổng thể)
$$\boxed{CV = \frac{s}{\overline{x}} \times 100\%}$$ (mẫu)

Ý nghĩa:

  • Đo độ phân tán tương đối (relative dispersion)
  • Không phụ thuộc vào đơn vị đo
  • Hữu ích khi so sánh độ phân tán giữa các tập dữ liệu có đơn vị khác nhau hoặc trung bình khác nhau

Ví dụ 5: So sánh độ phân tán

Tập A:

  • Trung bình: $\overline{x}_A = 100$
  • Độ lệch chuẩn: $s_A = 10$
  • $CV_A = \frac{10}{100} \times 100% = 10%$

Tập B:

  • Trung bình: $\overline{x}_B = 10$
  • Độ lệch chuẩn: $s_B = 2$
  • $CV_B = \frac{2}{10} \times 100% = 20%$

Nhận xét:

  • Tập A có SD lớn hơn (10 > 2)
  • Nhưng tập B có độ phân tán tương đối cao hơn (20% > 10%)
  • Tập B “không ổn định” hơn so với trung bình của nó

Ứng dụng:

  • So sánh độ ổn định của giá cổ phiếu
  • Đánh giá độ đồng đều trong sản xuất
  • So sánh chất lượng giữa các phòng lab

IV. CÁCH TÍNH TỪNG BƯỚC

1. Quy trình tính phương sai và độ lệch chuẩn

Quy trình 5 bước chuẩn:

Bước 1: Tính trung bình $$\overline{x} = \frac{\sum x_i}{n} \quad \text{hoặc} \quad \overline{x} = \frac{\sum f_i x_i}{\sum f_i}$$

Bước 2: Tính độ lệch $$d_i = x_i – \overline{x}$$

Bước 3: Bình phương độ lệch $$d_i^2 = (x_i – \overline{x})^2$$

Bước 4: Tính trung bình bình phương (phương sai)

  • Tổng thể: $\sigma^2 = \frac{\sum d_i^2}{N}$
  • Mẫu: $s^2 = \frac{\sum d_i^2}{n-1}$

Bước 5: Lấy căn bậc hai (độ lệch chuẩn) $$s = \sqrt{s^2}$$

2. Ví dụ tính toàn bộ chi tiết

Đề bài: Điểm thi của 5 học sinh là: 6, 7, 8, 9, 10. Tính phương sai mẫu $s^2$ và độ lệch chuẩn $s$.

Lời giải chi tiết:

Bước 1: Tính trung bình

$$\overline{x} = \frac{6 + 7 + 8 + 9 + 10}{5} = \frac{40}{5} = 8$$

Bước 2-3: Lập bảng tính

$x_i$ $x_i – \overline{x}$ $(x_i – \overline{x})^2$
6 6 – 8 = -2 $(-2)^2 = 4$
7 7 – 8 = -1 $(-1)^2 = 1$
8 8 – 8 = 0 $(0)^2 = 0$
9 9 – 8 = 1 $(1)^2 = 1$
10 10 – 8 = 2 $(2)^2 = 4$
Tổng: 40 0 10

Kiểm tra: Tổng độ lệch = 0 ✓ (luôn đúng)

Bước 4: Tính phương sai mẫu

$$s^2 = \frac{\sum (x_i – \overline{x})^2}{n-1} = \frac{10}{5-1} = \frac{10}{4} = 2.5$$

Bước 5: Tính độ lệch chuẩn

$$s = \sqrt{s^2} = \sqrt{2.5} = \sqrt{\frac{5}{2}} = \frac{\sqrt{5}}{\sqrt{2}} = \frac{\sqrt{10}}{2} \approx 1.58$$

Kết luận:

  • Phương sai mẫu: $s^2 = 2.5$ điểm²
  • Độ lệch chuẩn: $s \approx 1.58$ điểm
  • Giải thích: Điểm thi dao động trung bình khoảng 1.58 điểm quanh giá trị trung bình 8 điểm.

3. Sử dụng máy tính và phần mềm

Máy tính Casio fx-580VN X:

Các bước:

  1. Nhấn MODE → chọn STAT → chọn 1-VAR
  2. Nhập dữ liệu:
    • Nhập giá trị thứ nhất → nhấn =
    • Nhập giá trị tiếp theo → nhấn =
    • Lặp lại cho tất cả dữ liệu
  3. Xem kết quả:
    • Nhấn AC
    • Nhấn SHIFT1 (STAT) → 4 (Var)
    • Chọn:
      • σₓ: Độ lệch chuẩn tổng thể (chia cho n)
      • sₓ: Độ lệch chuẩn mẫu (chia cho n-1)
      • : Trung bình
      • n: Số phần tử

Microsoft Excel:

Phương sai:

  • Tổng thể: =VAR.P(A1:A10) hoặc =VARP(A1:A10)
  • Mẫu: =VAR.S(A1:A10) hoặc =VAR(A1:A10)

Độ lệch chuẩn:

  • Tổng thể: =STDEV.P(A1:A10) hoặc =STDEVP(A1:A10)
  • Mẫu: =STDEV.S(A1:A10) hoặc =STDEV(A1:A10)

Lưu ý:

  • .P = Population (tổng thể)
  • .S = Sample (mẫu)

Python (NumPy):

import numpy as np

data = [6, 7, 8, 9, 10]

# Phương sai
var_population = np.var(data)  # Tổng thể (ddof=0)
var_sample = np.var(data, ddof=1)  # Mẫu (ddof=1)

# Độ lệch chuẩn
std_population = np.std(data)  # Tổng thể
std_sample = np.std(data, ddof=1)  # Mẫu

V. PHƯƠNG SAI CỦA BIẾN NGẪU NHIÊN

1. Phương sai của biến ngẫu nhiên rời rạc

Định nghĩa: Với biến ngẫu nhiên X, phương sai là kỳ vọng của bình phương độ lệch so với kỳ vọng.

Công thức:

$$\boxed{Var(X) = E[(X – E(X))^2]}$$

Công thức tính nhanh:

$$\boxed{Var(X) = E(X^2) – [E(X)]^2}$$

Trong đó:

  • $E(X) = \sum x_i p_i$: Kỳ vọng (trung bình xác suất)
  • $E(X^2) = \sum x_i^2 p_i$: Kỳ vọng của $X^2$
  • $p_i = P(X = x_i)$: Xác suất

Ví dụ 6: Tung đồng xu cân đối 2 lần, X = số mặt sấp xuất hiện

Bảng phân phối xác suất:

X 0 1 2
P(X) 1/4 1/2 1/4

Tính Var(X) và σ(X).

Lời giải:

Bước 1: Tính kỳ vọng E(X): $$E(X) = 0 \cdot \frac{1}{4} + 1 \cdot \frac{1}{2} + 2 \cdot \frac{1}{4} = 0 + 0.5 + 0.5 = 1$$

Bước 2: Tính $E(X^2)$: $$E(X^2) = 0^2 \cdot \frac{1}{4} + 1^2 \cdot \frac{1}{2} + 2^2 \cdot \frac{1}{4}$$ $$= 0 + 0.5 + 1 = 1.5$$

Bước 3: Tính phương sai: $$Var(X) = E(X^2) – [E(X)]^2 = 1.5 – 1^2 = 1.5 – 1 = 0.5$$

Bước 4: Tính độ lệch chuẩn: $$\sigma(X) = \sqrt{Var(X)} = \sqrt{0.5} = \frac{1}{\sqrt{2}} = \frac{\sqrt{2}}{2} \approx 0.707$$

Kết luận:

  • Phương sai: Var(X) = 0.5
  • Độ lệch chuẩn: σ(X) ≈ 0.707

2. Tính chất của phương sai

Tính chất 1 – Phương sai của hằng số:

$$\boxed{Var(c) = 0}$$

Giải thích: Hằng số không có sự biến động → phương sai = 0

Tính chất 2 – Nhân với hằng số:

$$\boxed{Var(aX) = a^2 Var(X)}$$

Lưu ý: Nhân với $a$ thì phương sai nhân với $a^2$ (bình phương)

Ví dụ: Nếu Var(X) = 4, thì:

  • Var(2X) = $2^2 \times 4 = 16$
  • Var(3X) = $3^2 \times 4 = 36$

Tính chất 3 – Cộng hằng số:

$$\boxed{Var(X + b) = Var(X)}$$

Giải thích: Cộng thêm hằng số không làm thay đổi độ phân tán

Ví dụ: Nếu Var(X) = 9, thì:

  • Var(X + 5) = 9
  • Var(X – 10) = 9

Tính chất 4 – Tổng biến ngẫu nhiên độc lập:

$$\boxed{Var(X + Y) = Var(X) + Var(Y)}$$

Điều kiện: X và Y độc lập

Lưu ý quan trọng: Nếu X và Y không độc lập, công thức này SAI!

Tính chất 5 – Kết hợp tuyến tính:

$$\boxed{Var(aX + b) = a^2Var(X)}$$

Chứng minh: $$Var(aX + b) = Var(aX) = a^2Var(X)$$

Ví dụ 7: Ứng dụng tính chất

Biết Var(X) = 9. Tính Var(3X – 5)?

Lời giải: $$Var(3X – 5) = Var(3X) = 3^2 \cdot Var(X) = 9 \times 9 = 81$$

(Hằng số -5 không ảnh hưởng đến phương sai)

3. Phương sai của các phân phối thường gặp

Phân phối Bernoulli:

  • $X \sim \text{Bernoulli}(p)$
  • $E(X) = p$
  • $\boxed{Var(X) = p(1-p) = pq}$

Ví dụ: Tung đồng xu, X = 1 nếu sấp, X = 0 nếu ngửa

  • $p = 0.5$
  • $Var(X) = 0.5 \times 0.5 = 0.25$

Phân phối nhị thức:

  • $X \sim B(n, p)$
  • $E(X) = np$
  • $\boxed{Var(X) = np(1-p) = npq}$

Ví dụ: Tung đồng xu 10 lần, X = số lần sấp

  • $n = 10$, $p = 0.5$
  • $Var(X) = 10 \times 0.5 \times 0.5 = 2.5$

Phân phối chuẩn:

  • $X \sim N(\mu, \sigma^2)$
  • $E(X) = \mu$
  • $\boxed{Var(X) = \sigma^2}$

Phân phối Poisson:

  • $X \sim \text{Poisson}(\lambda)$
  • $E(X) = \lambda$
  • $\boxed{Var(X) = \lambda}$

Đặc biệt: Trong phân phối Poisson, kỳ vọng = phương sai!

VI. SO SÁNH PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN

1. Bảng so sánh chi tiết

Tiêu chí Phương sai ($\sigma^2$ hoặc $s^2$) Độ lệch chuẩn ($\sigma$ hoặc $s$)
Định nghĩa Trung bình bình phương độ lệch Căn bậc hai của phương sai
Công thức $\frac{\sum(x_i – \overline{x})^2}{n}$ hoặc $\frac{…}{n-1}$ $\sqrt{\text{Phương sai}}$
Đơn vị Bình phương đơn vị gốc (cm², $²) Cùng đơn vị với dữ liệu gốc (cm, $)
Ưu điểm Tính toán thuận tiện, có tính chất đại số tốt Dễ hiểu, dễ diễn giải, trực quan
Nhược điểm Đơn vị khó hình dung Phải tính căn, mất tính chất cộng
Sử dụng khi Tính toán lý thuyết, chứng minh Trình bày kết quả, báo cáo
Giá trị Luôn ≥ 0 Luôn ≥ 0

2. Mối quan hệ

Công thức cơ bản: $$\sigma = \sqrt{\sigma^2}$$

$$\sigma^2 = \sigma \times \sigma$$

Tính chất:

  • Cả hai đều đo độ phân tán
  • Cả hai đều luôn không âm: $\sigma^2 \geq 0$, $\sigma \geq 0$
  • Cả hai đều bằng 0 khi và chỉ khi dữ liệu hoàn toàn đồng nhất

3. Ưu nhược điểm chi tiết

Phương sai:

Ưu điểm:

  • Dễ tính toán, không cần tính căn
  • Có tính chất đại số tốt: Var(X+Y) = Var(X) + Var(Y) (nếu độc lập)
  • Được sử dụng rộng rãi trong lý thuyết thống kê
  • Là nền tảng cho nhiều phép kiểm định (ANOVA, F-test)
  • Dễ tính đạo hàm, tối ưu hóa

Nhược điểm:

  • Đơn vị bình phương khó hình dung (cm², $², điểm²)
  • Khó diễn giải cho người không chuyên
  • Giá trị có thể rất lớn, khó so sánh

Độ lệch chuẩn:

Ưu điểm:

  • Cùng đơn vị với dữ liệu gốc → dễ hiểu
  • Dễ diễn giải: “Dữ liệu dao động trung bình σ đơn vị quanh trung bình”
  • Liên quan đến quy tắc 68-95-99.7 (phân phối chuẩn)
  • Phù hợp để trình bày kết quả nghiên cứu
  • Sử dụng trong khoảng tin cậy, kiểm định giả thuyết

Nhược điểm:

  • Phải tính căn bậc hai
  • Mất tính chất cộng: $\sigma(X+Y) \neq \sigma(X) + \sigma(Y)$
  • Phức tạp hơn trong tính toán lý thuyết

4. Khi nào dùng số nào?

Dùng PHƯƠNG SAI khi:

Tính toán thống kê lý thuyết:

  • Chứng minh định lý, tính chất
  • Phân tích toán học

So sánh nhiều nhóm:

  • Phân tích phương sai (ANOVA)
  • Kiểm định F
  • So sánh độ đồng đều

Mô hình hóa:

  • Hồi quy tuyến tính
  • Mô hình thống kê
  • Machine Learning

Khi cần tính chất cộng:

  • Var(X + Y) = Var(X) + Var(Y)

Dùng ĐỘ LỆCH CHUẨN khi:

Báo cáo kết quả nghiên cứu:

  • Trình bày trong bài báo khoa học
  • Báo cáo thống kê mô tả
  • Tóm tắt dữ liệu

Diễn giải cho người không chuyên:

  • Thuyết trình
  • Báo cáo kinh doanh
  • Giảng dạy

Khoảng tin cậy và kiểm định:

  • Confidence intervals
  • Hypothesis testing
  • Z-scores, T-scores

Quy tắc thực nghiệm:

  • Áp dụng quy tắc 68-95-99.7
  • Phát hiện giá trị ngoại lệ (outliers)

VII. BÀI TẬP MẪU VÀ HƯỚNG DẪN GIẢI

Dạng 1: Tính phương sai và SD từ dữ liệu thô

Bài 1: Cân nặng của 6 học sinh (kg): 45, 48, 50, 52, 55, 60. Tính phương sai mẫu $s^2$ và độ lệch chuẩn $s$.

Lời giải chi tiết:

Bước 1: Tính trung bình: $$\overline{x} = \frac{45 + 48 + 50 + 52 + 55 + 60}{6} = \frac{310}{6} \approx 51.67 \text{ kg}$$

Bước 2: Sử dụng công thức nhanh: $$\sum x_i^2 = 45^2 + 48^2 + 50^2 + 52^2 + 55^2 + 60^2$$ $$= 2025 + 2304 + 2500 + 2704 + 3025 + 3600 = 16,158$$

Bước 3: Tính phương sai mẫu: $$s^2 = \frac{\sum x_i^2 – n\overline{x}^2}{n-1}$$ $$= \frac{16,158 – 6(51.67)^2}{6-1}$$ $$= \frac{16,158 – 16,020.67}{5}$$ $$= \frac{137.33}{5} = 27.47 \text{ kg}^2$$

Bước 4: Tính độ lệch chuẩn: $$s = \sqrt{27.47} \approx 5.24 \text{ kg}$$

Kết luận:

  • Phương sai mẫu: $s^2 \approx 27.47$ kg²
  • Độ lệch chuẩn: $s \approx 5.24$ kg
  • Cân nặng dao động trung bình khoảng 5.24 kg quanh giá trị 51.67 kg

Dạng 2: Tính từ bảng tần số

Bài 2: Điểm thi môn Toán của một lớp:

Điểm ($x_i$) 5 6 7 8 9 10
Số HS ($f_i$) 2 5 10 8 4 1

Tính phương sai mẫu và độ lệch chuẩn.

Lời giải:

Bước 1: Tính tổng tần số: $$n = \sum f_i = 2 + 5 + 10 + 8 + 4 + 1 = 30$$

Bước 2: Tính trung bình: $$\overline{x} = \frac{\sum f_i x_i}{\sum f_i}$$ $$= \frac{2(5) + 5(6) + 10(7) + 8(8) + 4(9) + 1(10)}{30}$$ $$= \frac{10 + 30 + 70 + 64 + 36 + 10}{30} = \frac{220}{30} \approx 7.33$$

Bước 3: Tính $\sum f_i x_i^2$: $$\sum f_i x_i^2 = 2(25) + 5(36) + 10(49) + 8(64) + 4(81) + 1(100)$$ $$= 50 + 180 + 490 + 512 + 324 + 100 = 1,656$$

Bước 4: Tính phương sai mẫu: $$s^2 = \frac{\sum f_i x_i^2 – n\overline{x}^2}{n-1}$$ $$= \frac{1,656 – 30(7.33)^2}{29}$$ $$= \frac{1,656 – 1,613.27}{29} = \frac{42.73}{29} \approx 1.47$$

Bước 5: Tính độ lệch chuẩn: $$s = \sqrt{1.47} \approx 1.21 \text{ điểm}$$

Kết luận:

  • Phương sai: $s^2 \approx 1.47$ điểm²
  • Độ lệch chuẩn: $s \approx 1.21$ điểm
  • Điểm dao động trung bình 1.21 điểm quanh 7.33 điểm

Dạng 3: Ứng dụng tính chất

Bài 3: Biến ngẫu nhiên X có $E(X) = 50$ và $Var(X) = 25$. Đặt $Y = 2X + 10$. Tính $E(Y)$, $Var(Y)$ và $SD(Y)$.

Lời giải:

Tính E(Y): $$E(Y) = E(2X + 10) = 2E(X) + 10 = 2(50) + 10 = 110$$

Tính Var(Y): $$Var(Y) = Var(2X + 10) = Var(2X) = 2^2 \cdot Var(X) = 4 \times 25 = 100$$

(Hằng số +10 không ảnh hưởng đến phương sai)

Tính SD(Y): $$SD(Y) = \sqrt{Var(Y)} = \sqrt{100} = 10$$

Kết luận:

  • $E(Y) = 110$
  • $Var(Y) = 100$
  • $SD(Y) = 10$

Dạng 4: So sánh độ phân tán

Bài 4: Hai lớp có kết quả như sau:

  • Lớp A: $\overline{x}_A = 7$ điểm, $s_A = 1.5$ điểm
  • Lớp B: $\overline{x}_B = 8$ điểm, $s_B = 1.2$ điểm

Lớp nào đồng đều hơn?

Lời giải:

Để so sánh độ đồng đều khi trung bình khác nhau, ta dùng hệ số biến thiên (CV).

Lớp A: $$CV_A = \frac{s_A}{\overline{x}_A} \times 100% = \frac{1.5}{7} \times 100% = 21.43%$$

Lớp B: $$CV_B = \frac{s_B}{\overline{x}_B} \times 100% = \frac{1.2}{8} \times 100% = 15%$$

So sánh:

  • $CV_B = 15% < CV_A = 21.43%$
  • Lớp B đồng đều hơn (độ phân tán tương đối thấp hơn)

Kết luận: Mặc dù lớp A có điểm trung bình thấp hơn nhưng lớp B có độ đồng đều cao hơn khi xét theo tỷ lệ với trung bình.

Dạng 5: Biến ngẫu nhiên rời rạc

Bài 5: X có bảng phân phối xác suất:

X 0 1 2 3
P(X) 0.1 0.3 0.4 0.2

Tính Var(X) và σ(X).

Lời giải:

Bước 1: Tính kỳ vọng E(X): $$E(X) = \sum x_i p_i = 0(0.1) + 1(0.3) + 2(0.4) + 3(0.2)$$ $$= 0 + 0.3 + 0.8 + 0.6 = 1.7$$

Bước 2: Tính $E(X^2)$: $$E(X^2) = \sum x_i^2 p_i = 0^2(0.1) + 1^2(0.3) + 2^2(0.4) + 3^2(0.2)$$ $$= 0 + 0.3 + 1.6 + 1.8 = 3.7$$

Bước 3: Tính phương sai: $$Var(X) = E(X^2) – [E(X)]^2 = 3.7 – (1.7)^2 = 3.7 – 2.89 = 0.81$$

Bước 4: Tính độ lệch chuẩn: $$\sigma(X) = \sqrt{Var(X)} = \sqrt{0.81} = 0.9$$

Kết luận:

  • Phương sai: Var(X) = 0.81
  • Độ lệch chuẩn: σ(X) = 0.9

VIII. MẸO VÀ LƯU Ý QUAN TRỌNG

1. Các sai lầm thường gặp

SAI LẦM 1: Nhầm lẫn giữa chia n và chia (n-1)

Sai:

  • Mẫu nhưng chia cho n
  • Tổng thể nhưng chia cho (n-1)

Đúng:

  • Tổng thể: Chia cho $N$
  • Mẫu: Chia cho $(n-1)$

Cách nhớ: “Mẫu trừ 1”

SAI LẦM 2: Quên bình phương độ lệch

Sai:

  • Tính $\sum (x_i – \overline{x})$ rồi chia

Đúng:

  • Phải tính $\sum (x_i – \overline{x})^2$ (có bình phương)

SAI LẦM 3: Nhầm σ² và 2σ

Sai:

  • Nghĩ rằng σ² = σ × 2

Đúng:

  • $\sigma^2 = \sigma \times \sigma$ (bình phương, không phải nhân 2)
  • $\sigma = \sqrt{\sigma^2}$ (lấy căn)

SAI LẦM 4: Cộng phương sai khi không độc lập

Sai:

  • Var(X + Y) = Var(X) + Var(Y) (áp dụng khi X, Y phụ thuộc)

Đúng:

  • Công thức chỉ đúng khi X và Y độc lập
  • Nếu không độc lập, cần thêm hiệp phương sai

2. Công thức nhớ nhanh

Công thức phương sai:

“Trung bình của bình phương trừ bình phương của trung bình”

$$\sigma^2 = \overline{x^2} – \overline{x}^2$$

Giải thích:

  • $\overline{x^2}$: Trung bình của các số đã bình phương
  • $\overline{x}^2$: Bình phương của số trung bình

Công thức độ lệch chuẩn:

“Căn của phương sai”

$$\sigma = \sqrt{\sigma^2}$$

Đơn giản: Chỉ cần lấy căn bậc hai của phương sai

3. Kiểm tra kết quả

Kiểm tra logic:

Phương sai và SD luôn không âm:

  • $\sigma^2 \geq 0$
  • $\sigma \geq 0$
  • Nếu tính được số âm → SAI!

Phương sai = 0 khi và chỉ khi dữ liệu đồng nhất:

  • $\sigma = 0 \Leftrightarrow$ tất cả dữ liệu bằng nhau

SD càng lớn → dữ liệu càng phân tán:

  • SD nhỏ: dữ liệu tập trung
  • SD lớn: dữ liệu rải rác

Kiểm tra đơn vị:

Phương sai: Đơn vị bình phương

  • Chiều cao (cm) → σ² (cm²)
  • Điểm số (điểm) → σ² (điểm²)
  • Tiền (đồng) → σ² (đồng²)

Độ lệch chuẩn: Cùng đơn vị gốc

  • Chiều cao (cm) → σ (cm)
  • Điểm số (điểm) → σ (điểm)
  • Tiền (đồng) → σ (đồng)

4. Mẹo tính nhanh

Mẹo 1: Dùng công thức $\overline{x^2} – \overline{x}^2$

  • Nhanh hơn định nghĩa
  • Ít phải tính độ lệch từng giá trị

Mẹo 2: Dùng máy tính cho dữ liệu lớn

  • Máy Casio: MODE → STAT → 1-VAR
  • Nhập dữ liệu → xem kết quả σₓ hoặc sₓ
  • Tiết kiệm thời gian, tránh sai sót

Mẹo 3: Nhận biết nhanh

  • Dữ liệu đều → σ² = 0
  • Dữ liệu càng “rải rác” → σ càng lớn

Mẹo 4: Nếu biết phương sai

  • Chỉ cần lấy căn bậc hai để được SD
  • Không cần tính lại từ đầu

Mẹo 5: Với dữ liệu chuẩn hóa

  • Nếu dữ liệu đã chuẩn hóa (Z-score)
  • Thì $\overline{x} = 0$ và $\sigma = 1$

IX. KẾT LUẬN

Bài viết đã trình bày đầy đủ và chi tiết về hai đại lượng quan trọng đo độ phân tán trong thống kê:

Phương sai (Variance):

  • Công thức tổng thể: $\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2$
  • Công thức mẫu: $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \overline{x})^2$
  • Công thức nhanh: $\sigma^2 = \overline{x^2} – \overline{x}^2$
  • Đặc điểm: Đo độ phân tán, đơn vị bình phương
  • Khi dùng: Tính toán lý thuyết, phân tích thống kê

Độ lệch chuẩn (Standard Deviation):

  • Công thức: $\sigma = \sqrt{\sigma^2}$ hoặc $s = \sqrt{s^2}$
  • Đặc điểm: Căn bậc hai của phương sai, cùng đơn vị với dữ liệu gốc
  • Khi dùng: Trình bày kết quả, dễ diễn giải
  • Quy tắc 68-95-99.7: Áp dụng với phân phối chuẩn

Mối quan hệ:

  • SD = √(Phương sai)
  • Phương sai = SD × SD
  • Cả hai đều đo độ phân tán
  • SD dễ diễn giải hơn vì cùng đơn vị

Phương sai của biến ngẫu nhiên:

  • $Var(X) = E(X^2) – [E(X)]^2$
  • Tính chất: Var(aX + b) = a²Var(X)
  • Var(X + Y) = Var(X) + Var(Y) (nếu độc lập)

Bài tập thực hành:

  • 5 dạng bài có lời giải chi tiết từng bước
  • Từ dữ liệu thô, bảng tần số, đến biến ngẫu nhiên
  • Ứng dụng tính chất, so sánh độ phân tán

Bảng công thức tóm tắt toàn bộ

PHƯƠNG SAI:

Tổng thể:

Định nghĩa:     σ² = (1/N) Σ(xᵢ - μ)²
Công thức nhanh: σ² = x̄² - x̄²

Mẫu:

Định nghĩa:     s² = [1/(n-1)] Σ(xᵢ - x̄)²
Công thức nhanh: s² = [Σxᵢ² - nx̄²]/(n-1)

Dữ liệu tần số:

σ² = (Σfᵢxᵢ²/Σfᵢ) - x̄²

ĐỘ LỆCH CHUẨN:

Tổng thể: σ = √σ²
Mẫu:      s = √s²

BIẾN NGẪU NHIÊN:

Var(X) = E(X²) - [E(X)]²

Tính chất:

Var(c) = 0
Var(aX) = a²Var(X)
Var(X + b) = Var(X)
Var(X + Y) = Var(X) + Var(Y)  [nếu độc lập]
Var(aX + b) = a²Var(X)

HỆ SỐ BIẾN THIÊN:

CV = (σ/μ) × 100%    [tổng thể]
CV = (s/x̄) × 100%    [mẫu]

PHỤ LỤC: QUY TRÌNH TÍNH TOÁN CHUẨN

Quy trình 6 bước tính phương sai và độ lệch chuẩn:

Bước 1: XÁC ĐỊNH LOẠI DỮ LIỆU

  • Tổng thể hay mẫu?
  • Dữ liệu thô hay có tần số?

Bước 2: TÍNH TRUNG BÌNH

  • $\overline{x} = \frac{\sum x_i}{n}$ hoặc $\frac{\sum f_i x_i}{\sum f_i}$

Bước 3: TÍNH ĐỘ LỆCH

  • $d_i = x_i – \overline{x}$
  • Kiểm tra: $\sum d_i = 0$

Bước 4: BÌNH PHƯƠNG ĐỘ LỆCH

  • $d_i^2 = (x_i – \overline{x})^2$

Bước 5: TÍNH PHƯƠNG SAI

  • Tổng thể: $\sigma^2 = \frac{\sum d_i^2}{N}$
  • Mẫu: $s^2 = \frac{\sum d_i^2}{n-1}$

Bước 6: TÍNH ĐỘ LỆCH CHUẨN

  • $s = \sqrt{s^2}$
  • Kiểm tra đơn vị
ThS. Nguyễn Văn An

ThS. Nguyễn Văn An

(Người kiểm duyệt, ra đề)

Chức vụ: Tổ trưởng chuyên môn Tổ Toán tại Edus

Trình độ: Cử nhân Sư phạm Toán học, Thạc sĩ Lý luận & Phương pháp dạy học môn Toán, Chức danh nghề nghiệp giáo viên THPT – Hạng II, Tin học ứng dụng cơ bản, Ngoại ngữ B1, Chứng chỉ bồi dưỡng năng lực tổ trưởng chuyên môn

Kinh nghiệm: 12+ năm kinh nghiệm tại Trường THPT chuyên Trần Đại Nghĩa