Công thức tính trung bình, trung vị, mốt – So sánh và ứng dụng

Trang chủ > Công Thức > Bài hiện tại.

I. GIỚI THIỆU VỀ SỐ ĐẶC TRƯNG

1. Số đặc trưng là gì?

Định nghĩa: Số đặc trưng là các con số đại diện cho xu hướng trung tâm (central tendency) của một tập dữ liệu, giúp chúng ta hiểu được đặc điểm chính của dữ liệu đó.

Ba số đặc trưng quan trọng nhất trong thống kê:

  • Trung bình (Mean): Giá trị trung bình cộng của tất cả dữ liệu
  • Trung vị (Median): Giá trị nằm ở vị trí giữa khi sắp xếp dữ liệu
  • Mốt (Mode): Giá trị xuất hiện nhiều nhất trong dữ liệu

Vai trò của số đặc trưng:

  • Tóm tắt thông tin: Biến hàng trăm, hàng nghìn số liệu thành một con số duy nhất
  • Mô tả đặc điểm: Cho biết giá trị “điển hình” của tập dữ liệu
  • So sánh: Giúp so sánh giữa các nhóm dữ liệu khác nhau
  • Ra quyết định: Cung cấp cơ sở để đưa ra các quyết định

3. So sánh nhanh ba số

Số đặc trưng Ý nghĩa Ưu điểm Nhược điểm
Trung bình Giá trị trung bình cộng Sử dụng tất cả dữ liệu Chịu ảnh hưởng của giá trị ngoại lệ
Trung vị Giá trị ở giữa Không bị ảnh hưởng bởi ngoại lệ Không dùng hết thông tin
Mốt Giá trị phổ biến nhất Dễ hiểu, trực quan Có thể có nhiều mốt hoặc không có

Giải thích chi tiết:

Trung bình:

  • Tính toán: Cộng tất cả giá trị rồi chia cho số lượng
  • Ưu điểm: Sử dụng mọi thông tin, phù hợp với phép tính toán tiếp theo
  • Nhược điểm: Một giá trị cực đoan có thể làm sai lệch kết quả

Trung vị:

  • Tính toán: Sắp xếp rồi lấy giá trị ở giữa
  • Ưu điểm: Ổn định, không bị ảnh hưởng bởi giá trị ngoại lệ
  • Nhược điểm: Bỏ qua thông tin về độ lớn của các giá trị

Mốt:

  • Tính toán: Tìm giá trị xuất hiện nhiều nhất
  • Ưu điểm: Đơn giản, áp dụng được với dữ liệu định tính
  • Nhược điểm: Không luôn tồn tại hoặc có thể có nhiều giá trị

II. CÔNG THỨC TÍNH TRUNG BÌNH

1. Định nghĩa trung bình cộng

Trung bình cộng (Mean/Average): Là tổng của tất cả các giá trị trong tập dữ liệu chia cho số lượng giá trị.

Ký hiệu:

  • $\overline{x}$ (đọc là “x bar” hoặc “x trung bình”) – dùng cho mẫu
  • $\mu$ (chữ cái Hy Lạp “mu”) – dùng cho tổng thể trong thống kê

Ý nghĩa: Trung bình cộng thể hiện giá trị “điển hình” nếu tất cả các giá trị được phân bổ đều.

2. Công thức trung bình với dữ liệu không nhóm

Trường hợp 1: Dữ liệu đơn giản (không có tần số)

Công thức: $$\boxed{\overline{x} = \frac{x_1 + x_2 + x_3 + … + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n}}$$

Trong đó:

  • $x_i$: Giá trị thứ i trong tập dữ liệu ($i = 1, 2, 3, …, n$)
  • $n$: Tổng số giá trị trong tập dữ liệu
  • $\sum$ (chữ cái Hy Lạp “sigma”): Ký hiệu tổng (sum)

Cách tính:

  1. Cộng tất cả các giá trị lại với nhau
  2. Chia tổng đó cho số lượng giá trị

Ví dụ 1: Tính điểm trung bình của 5 học sinh có điểm lần lượt: 7, 8, 6, 9, 5

Lời giải:

  • Số học sinh: $n = 5$
  • Tổng điểm: $7 + 8 + 6 + 9 + 5 = 35$
  • Điểm trung bình: $$\overline{x} = \frac{35}{5} = 7$$

Kết luận: Điểm trung bình của 5 học sinh là 7 điểm.


Trường hợp 2: Dữ liệu có tần số

Khi một số giá trị xuất hiện nhiều lần, ta dùng công thức có tần số để tính nhanh hơn.

Công thức: $$\boxed{\overline{x} = \frac{x_1 n_1 + x_2 n_2 + x_3 n_3 + … + x_k n_k}{n_1 + n_2 + n_3 + … + n_k} = \frac{\sum_{i=1}^{k} x_i n_i}{\sum_{i=1}^{k} n_i}}$$

Trong đó:

  • $x_i$: Giá trị thứ i
  • $n_i$: Tần số (số lần xuất hiện) của giá trị $x_i$
  • $k$: Số lượng giá trị khác nhau trong dữ liệu

Ví dụ 2: Điểm thi môn Toán của một lớp được thống kê như sau:

Điểm ($x_i$) 5 6 7 8 9 10
Số học sinh ($n_i$) 2 5 8 10 4 1

Tính điểm trung bình của lớp.

Lời giải:

Bước 1: Tính tích $x_i \times n_i$ cho từng điểm:

  • $5 \times 2 = 10$
  • $6 \times 5 = 30$
  • $7 \times 8 = 56$
  • $8 \times 10 = 80$
  • $9 \times 4 = 36$
  • $10 \times 1 = 10$

Bước 2: Tính tổng:

  • Tử số: $10 + 30 + 56 + 80 + 36 + 10 = 222$
  • Mẫu số: $2 + 5 + 8 + 10 + 4 + 1 = 30$

Bước 3: Tính trung bình: $$\overline{x} = \frac{222}{30} = 7.4$$

Kết luận: Điểm trung bình của lớp là 7.4 điểm.

3. Công thức trung bình với dữ liệu nhóm

Khi dữ liệu được nhóm thành các khoảng (ví dụ: chiều cao từ 150-155cm, 155-160cm,…), ta cần tính giá trị đại diện cho mỗi nhóm.

Công thức: $$\boxed{\overline{x} = \frac{\sum_{i=1}^{k} m_i n_i}{\sum_{i=1}^{k} n_i}}$$

Trong đó:

  • $m_i$: Giá trị đại diện (trung điểm) của nhóm thứ i
  • $m_i = \frac{\text{Cận dưới} + \text{Cận trên}}{2}$
  • $n_i$: Tần số (số quan sát) của nhóm thứ i
  • $k$: Số nhóm

Ví dụ 3: Chiều cao của 100 học sinh được thống kê như sau:

Chiều cao (cm) [150-155) [155-160) [160-165) [165-170) [170-175)
Số học sinh ($n_i$) 10 25 35 20 10

Tính chiều cao trung bình của 100 học sinh.

Lời giải:

Bước 1: Tính giá trị đại diện cho mỗi nhóm:

  • $m_1 = \frac{150 + 155}{2} = 152.5$ cm
  • $m_2 = \frac{155 + 160}{2} = 157.5$ cm
  • $m_3 = \frac{160 + 165}{2} = 162.5$ cm
  • $m_4 = \frac{165 + 170}{2} = 167.5$ cm
  • $m_5 = \frac{170 + 175}{2} = 172.5$ cm

Bước 2: Tính tích $m_i \times n_i$:

  • $152.5 \times 10 = 1525$
  • $157.5 \times 25 = 3937.5$
  • $162.5 \times 35 = 5687.5$
  • $167.5 \times 20 = 3350$
  • $172.5 \times 10 = 1725$

Bước 3: Tính tổng:

  • Tử số: $1525 + 3937.5 + 5687.5 + 3350 + 1725 = 16225$
  • Mẫu số: $10 + 25 + 35 + 20 + 10 = 100$

Bước 4: Tính trung bình: $$\overline{x} = \frac{16225}{100} = 162.25 \text{ cm}$$

Kết luận: Chiều cao trung bình là 162.25 cm.

4. Các loại trung bình khác

Ngoài trung bình cộng, còn có các loại trung bình khác được sử dụng trong các tình huống cụ thể:

Trung bình nhân (Geometric Mean)

Công thức: $$\overline{x}_g = \sqrt[n]{x_1 \times x_2 \times x_3 \times … \times x_n}$$

Dùng khi:

  • Tính tỷ lệ tăng trưởng trung bình
  • Tính lãi suất trung bình qua nhiều kỳ
  • Dữ liệu có tính chất nhân

Ví dụ: Lợi nhuận của công ty tăng 10%, 20%, 15% qua 3 năm. Tỷ lệ tăng trưởng trung bình là: $$\overline{x}_g = \sqrt[3]{1.10 \times 1.20 \times 1.15} = \sqrt[3]{1.518} \approx 1.149$$ Tăng trưởng trung bình: 14.9%/năm

Trung bình điều hòa (Harmonic Mean)

Công thức: $$\overline{x}_h = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + … + \frac{1}{x_n}}$$

Dùng khi:

  • Tính vận tốc trung bình
  • Tính giá trung bình khi mua với số lượng khác nhau
  • Dữ liệu là tỷ lệ hoặc tốc độ

Ví dụ: Đi từ A đến B với vận tốc 60 km/h, từ B về A với vận tốc 40 km/h. Vận tốc trung bình: $$\overline{v} = \frac{2}{\frac{1}{60} + \frac{1}{40}} = \frac{2}{\frac{2+3}{120}} = \frac{240}{5} = 48 \text{ km/h}$$

5. Tính chất của trung bình

Tính chất 1: Nếu tất cả các giá trị bằng nhau và bằng $a$: $$\overline{x} = a$$

Tính chất 2: Nếu thêm (hoặc bớt) cùng một số $a$ vào mọi giá trị: $$\overline{x}_{\text{mới}} = \overline{x} + a$$

Ví dụ: Điểm trung bình lớp là 7. Nếu cộng thêm 1 điểm cho tất cả học sinh, điểm trung bình mới là $7 + 1 = 8$.

Tính chất 3: Nếu nhân (hoặc chia) mọi giá trị với số $k$: $$\overline{x}_{\text{mới}} = k \times \overline{x}$$

Ví dụ: Lương trung bình là 10 triệu. Nếu tăng lương 20% (nhân với 1.2), lương trung bình mới là $10 \times 1.2 = 12$ triệu.

Tính chất 4: Giá trị trung bình luôn nằm giữa giá trị nhỏ nhất và lớn nhất: $$\text{Min} \leq \overline{x} \leq \text{Max}$$

III. CÔNG THỨC TÍNH TRUNG VỊ

1. Định nghĩa trung vị

Trung vị (Median): Là giá trị nằm ở vị trí giữa của tập dữ liệu khi các giá trị được sắp xếp theo thứ tự tăng dần (hoặc giảm dần).

Ký hiệu:

  • $M_e$ (Median)
  • $Q_2$ (Quartile thứ 2)

Đặc điểm quan trọng: Trung vị chia tập dữ liệu thành hai phần bằng nhau:

  • 50% dữ liệu có giá trị $\leq M_e$
  • 50% dữ liệu có giá trị $\geq M_e$

2. Công thức tính trung vị với dữ liệu không nhóm

Quy trình chung:

Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần (hoặc giảm dần)

Bước 2: Xác định vị trí trung vị dựa vào số lượng dữ liệu $n$

Trường hợp 1: Số lượng dữ liệu lẻ ($n$ lẻ)

Công thức: $$\boxed{M_e = x_{\frac{n+1}{2}}}$$

Trung vị là giá trị ở vị trí $\frac{n+1}{2}$ sau khi sắp xếp.

Ví dụ 1: Tìm trung vị của dữ liệu: 3, 7, 2, 9, 5

Lời giải:

Bước 1: Sắp xếp tăng dần: 2, 3, 5, 7, 9

Bước 2: Xác định vị trí:

  • $n = 5$ (lẻ)
  • Vị trí giữa: $\frac{5+1}{2} = \frac{6}{2} = 3$

Bước 3: Trung vị là giá trị ở vị trí thứ 3: $$M_e = 5$$

Kết luận: Trung vị là 5.

Trường hợp 2: Số lượng dữ liệu chẵn ($n$ chẵn)

Công thức: $$\boxed{M_e = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2}}$$

Trung vị là trung bình cộng của hai giá trị ở giữa (vị trí $\frac{n}{2}$ và $\frac{n}{2}+1$).

Ví dụ 2: Tìm trung vị của dữ liệu: 4, 1, 7, 3, 9, 6

Lời giải:

Bước 1: Sắp xếp tăng dần: 1, 3, 4, 6, 7, 9

Bước 2: Xác định vị trí:

  • $n = 6$ (chẵn)
  • Vị trí giữa: $\frac{6}{2} = 3$ và $3 + 1 = 4$

Bước 3: Trung vị là trung bình của 2 giá trị ở vị trí 3 và 4: $$M_e = \frac{4 + 6}{2} = \frac{10}{2} = 5$$

Kết luận: Trung vị là 5.

3. Công thức tính trung vị với dữ liệu có tần số

Khi dữ liệu được cho dưới dạng bảng tần số, ta sử dụng tần số tích lũy để tìm trung vị.

Quy trình:

Bước 1: Tính tổng số quan sát: $N = \sum n_i$

Bước 2: Tính tần số tích lũy cho từng giá trị

Bước 3: Tìm giá trị có tần số tích lũy $\geq \frac{N}{2}$ lần đầu tiên

Ví dụ 3: Điểm thi của một lớp:

Giá trị ($x_i$) 5 6 7 8 9
Tần số ($n_i$) 3 5 7 4 1

Tìm trung vị.

Lời giải:

Bước 1: Tính tổng: $$N = 3 + 5 + 7 + 4 + 1 = 20$$

Bước 2: Tính tần số tích lũy:

Giá trị ($x_i$) 5 6 7 8 9
Tần số ($n_i$) 3 5 7 4 1
Tần số tích lũy 3 8 15 19 20

Bước 3: Tìm trung vị:

  • $\frac{N}{2} = \frac{20}{2} = 10$
  • Tần số tích lũy $\geq 10$ lần đầu tiên là 15 (ứng với $x = 7$)

Kết luận: $M_e = 7$

4. Công thức tính trung vị với dữ liệu nhóm

Khi dữ liệu được nhóm thành các khoảng, ta dùng công thức nội suy để tính trung vị.

Công thức: $$\boxed{M_e = L + \frac{\frac{N}{2} – F}{f} \times h}$$

Trong đó:

  • $L$: Cận dưới của nhóm chứa trung vị
  • $N$: Tổng số quan sát
  • $F$: Tần số tích lũy trước nhóm chứa trung vị
  • $f$: Tần số của nhóm chứa trung vị
  • $h$: Độ rộng của nhóm (Cận trên – Cận dưới)

Cách xác định nhóm chứa trung vị: Nhóm có tần số tích lũy $\geq \frac{N}{2}$ lần đầu tiên.

Ví dụ 4: Thu nhập hàng tháng của 50 người (đơn vị: triệu đồng)

Thu nhập [5-10) [10-15) [15-20) [20-25) [25-30)
Số người ($n_i$) 8 15 18 6 3

Tìm thu nhập trung vị.

Lời giải:

Bước 1: Tính tần số tích lũy:

Thu nhập [5-10) [10-15) [15-20) [20-25) [25-30)
Số người 8 15 18 6 3
Tích lũy 8 23 41 47 50

Bước 2: Xác định nhóm chứa trung vị:

  • $N = 50$
  • $\frac{N}{2} = 25$
  • Nhóm có tần số tích lũy $\geq 25$ lần đầu tiên: [15-20) (tích lũy 41)

Bước 3: Xác định các tham số:

  • $L = 15$ (cận dưới nhóm [15-20))
  • $F = 23$ (tần số tích lũy trước nhóm chứa trung vị)
  • $f = 18$ (tần số nhóm [15-20))
  • $h = 20 – 15 = 5$ (độ rộng nhóm)

Bước 4: Tính trung vị: $$M_e = 15 + \frac{25 – 23}{18} \times 5$$ $$= 15 + \frac{2}{18} \times 5$$ $$= 15 + \frac{10}{18}$$ $$= 15 + 0.556$$ $$= 15.556$$

Kết luận: Thu nhập trung vị là khoảng 15.56 triệu đồng/tháng.

5. Ý nghĩa của trung vị

Ưu điểm:

Không bị ảnh hưởng bởi giá trị ngoại lệ:

Đây là ưu điểm lớn nhất của trung vị. Giá trị cực đoan không làm thay đổi trung vị.

Ví dụ minh họa: Thu nhập của 5 người (triệu đồng/tháng):

  • Dữ liệu: 5, 6, 7, 8, 100

So sánh:

  • Trung bình: $\overline{x} = \frac{5+6+7+8+100}{5} = \frac{126}{5} = 25.2$ triệu
  • Trung vị: $M_e = 7$ triệu (giá trị ở giữa)

Nhận xét: Trung bình là 25.2 triệu bị kéo lên bởi giá trị 100, không đại diện cho thu nhập phổ biến. Trung vị 7 triệu phản ánh chính xác hơn.

Phù hợp với dữ liệu lệch:

Khi phân phối dữ liệu không đối xứng (có độ lệch), trung vị là thước đo tốt hơn.

Dễ hiểu và trực quan:

Khái niệm “giá trị ở giữa” dễ hiểu hơn nhiều so với “tổng chia số lượng”.

Nhược điểm:

  • Không sử dụng hết thông tin (chỉ quan tâm vị trí, không quan tâm độ lớn)
  • Khó tính toán hơn trung bình
  • Không phù hợp cho các phép tính đại số tiếp theo

IV. CÔNG THỨC TÍNH MỐT

1. Định nghĩa mốt

Mốt (Mode): Là giá trị xuất hiện nhiều nhất (có tần số lớn nhất) trong tập dữ liệu.

Ký hiệu:

  • $M_o$ (Mode)

Đặc điểm quan trọng:

  • Có thể có 0 mốt (không có giá trị nào lặp lại)
  • Có thể có 1 mốt (đơn mốt – unimodal)
  • Có thể có 2 mốt (song mốt – bimodal)
  • Có thể có nhiều mốt (đa mốt – multimodal)

2. Cách tìm mốt với dữ liệu không nhóm

Nguyên tắc: Đếm số lần xuất hiện của mỗi giá trị, chọn giá trị có tần số lớn nhất.

Ví dụ 1: Tìm mốt của dữ liệu điểm thi: 5, 7, 6, 7, 8, 7, 9, 6, 7

Lời giải:

Bước 1: Đếm tần số:

  • Điểm 5: xuất hiện 1 lần
  • Điểm 6: xuất hiện 2 lần
  • Điểm 7: xuất hiện 4 lần ← nhiều nhất
  • Điểm 8: xuất hiện 1 lần
  • Điểm 9: xuất hiện 1 lần

Bước 2: Xác định mốt: $$M_o = 7 \text{ (xuất hiện 4 lần)}$$

Kết luận: Mốt là 7 điểm.

Ví dụ 2: Dữ liệu: 1, 2, 3, 4, 5 (mỗi giá trị xuất hiện 1 lần)

Kết luận: Không có mốt (hoặc có thể nói tất cả đều là mốt)

Ví dụ 3: Dữ liệu: 2, 2, 2, 5, 5, 5, 8

Lời giải:

  • Giá trị 2: xuất hiện 3 lần
  • Giá trị 5: xuất hiện 3 lần
  • Giá trị 8: xuất hiện 1 lần

Kết luận:hai mốt (song mốt – bimodal): $M_o = 2$ và $M_o = 5$

3. Các trường hợp đặc biệt

Trường hợp Tên gọi Ví dụ Số mốt
Không có giá trị lặp Không mốt (No mode) 1, 2, 3, 4, 5 0
Một giá trị lặp nhiều nhất Đơn mốt (Unimodal) 1, 2, 2, 3 1
Hai giá trị lặp bằng nhau Song mốt (Bimodal) 1, 1, 2, 3, 3 2
Nhiều giá trị lặp bằng nhau Đa mốt (Multimodal) 1,1, 2,2, 3,3 ≥ 3

4. Công thức tính mốt với dữ liệu nhóm

Khi dữ liệu được nhóm, ta dùng công thức nội suy để ước tính mốt.

Công thức: $$\boxed{M_o = L + \frac{d_1}{d_1 + d_2} \times h}$$

Trong đó:

  • $L$: Cận dưới của nhóm mốt (nhóm có tần số lớn nhất)
  • $d_1$: Hiệu giữa tần số nhóm mốt và nhóm trước
    • $d_1 = f_{mốt} – f_{trước}$
  • $d_2$: Hiệu giữa tần số nhóm mốt và nhóm sau
    • $d_2 = f_{mốt} – f_{sau}$
  • $h$: Độ rộng của nhóm

Ví dụ 4: Cân nặng của 80 học sinh (kg)

Cân nặng [40-45) [45-50) [50-55) [55-60) [60-65)
Số học sinh 10 18 35 12 5

Tìm mốt.

Lời giải:

Bước 1: Xác định nhóm mốt:

  • Nhóm có tần số lớn nhất: [50-55) với tần số 35

Bước 2: Xác định các tham số:

  • $L = 50$ (cận dưới nhóm mốt)
  • Tần số nhóm trước [45-50): 18
  • Tần số nhóm mốt [50-55): 35
  • Tần số nhóm sau [55-60): 12
  • $d_1 = 35 – 18 = 17$
  • $d_2 = 35 – 12 = 23$
  • $h = 55 – 50 = 5$

Bước 3: Áp dụng công thức: $$M_o = 50 + \frac{17}{17 + 23} \times 5$$ $$= 50 + \frac{17}{40} \times 5$$ $$= 50 + \frac{85}{40}$$ $$= 50 + 2.125$$ $$= 52.125$$

Kết luận: Mốt (cân nặng phổ biến nhất) là khoảng 52.125 kg.

5. Ý nghĩa của mốt

Ưu điểm:

Dễ hiểu và trực quan:

  • Khái niệm “giá trị phổ biến nhất” rất dễ nắm bắt
  • Không cần tính toán phức tạp

Phù hợp với dữ liệu định tính:

  • Có thể áp dụng cho dữ liệu không phải số (màu sắc, thương hiệu, sở thích)
  • Ví dụ: Màu sắc ưa thích nhất? → Mốt
  • Ví dụ: Thương hiệu điện thoại bán chạy nhất? → Mốt

Áp dụng được với mọi loại dữ liệu:

  • Dữ liệu định tính: màu sắc, giới tính, nghề nghiệp
  • Dữ liệu định lượng: điểm số, thu nhập, chiều cao

Ứng dụng thực tế:

Trong kinh doanh:

  • Size giày bán chạy nhất → Nhập nhiều hàng size mốt
  • Món ăn được đặt nhiều nhất → Chuẩn bị nguyên liệu cho món mốt
  • Sản phẩm best-seller → Đầu tư marketing cho sản phẩm mốt

Trong thời trang:

  • Màu sắc thịnh hành nhất
  • Kiểu dáng được ưa chuộng

Trong y tế:

  • Nhóm máu phổ biến nhất
  • Triệu chứng thường gặp nhất

Nhược điểm:

Không ổn định:

  • Thay đổi nhiều khi thêm/bớt dữ liệu
  • Không phù hợp với dữ liệu có phân bố đều

Có thể không tồn tại:

  • Khi tất cả giá trị xuất hiện với tần số như nhau

Có thể có nhiều giá trị:

  • Khó xác định “giá trị điển hình” khi có nhiều mốt

Không sử dụng hết thông tin:

  • Chỉ quan tâm tần số, bỏ qua độ lớn của giá trị

V. SO SÁNH VÀ LỰA CHỌN SỐ ĐẶC TRƯNG

1. Bảng so sánh tổng hợp

Tiêu chí Trung bình Trung vị Mốt
Định nghĩa Tổng chia số lượng Giá trị ở giữa Giá trị phổ biến nhất
Sử dụng dữ liệu Tất cả giá trị Tất cả giá trị (vị trí) Chỉ tần số
Ảnh hưởng ngoại lệ ✅ Có (rất nhiều) ❌ Không ❌ Không
Tính duy nhất Luôn có duy nhất 1 Luôn có duy nhất 1 0, 1 hoặc nhiều
Dữ liệu định tính ❌ Không dùng được ❌ Không dùng được ✅ Dùng được
Phù hợp Phân bố đối xứng Phân bố lệch Dữ liệu rời rạc
Tính toán tiếp ✅ Dễ dàng ❌ Khó khăn ❌ Khó khăn

2. Khi nào dùng số nào?

Dùng TRUNG BÌNH khi:

Dữ liệu phân bố đối xứng, không có giá trị ngoại lệ

  • Phân bố chuẩn (bell curve)
  • Dữ liệu tập trung quanh giá trị trung tâm

Cần sử dụng tất cả thông tin có trong dữ liệu

  • Muốn tính toán chính xác nhất
  • Mỗi giá trị đều quan trọng

Cần làm các phép tính tiếp theo

  • Tính phương sai, độ lệch chuẩn
  • Phân tích thống kê nâng cao

Ví dụ ứng dụng:

  • Điểm trung bình của lớp
  • Nhiệt độ trung bình trong tháng
  • Chiều cao trung bình của học sinh

Dùng TRUNG VỊ khi:

Dữ liệu có giá trị ngoại lệ (outliers)

  • Một vài giá trị rất lớn hoặc rất nhỏ so với phần còn lại
  • Muốn số đặc trưng đại diện cho “giá trị điển hình”

Phân bố dữ liệu lệch (skewed distribution)

  • Lệch phải: có giá trị lớn cực đoan
  • Lệch trái: có giá trị nhỏ cực đoan

Quan tâm đến “giá trị ở giữa”

  • 50% dữ liệu trên, 50% dữ liệu dưới
  • Chia đôi tập dữ liệu

Ví dụ ứng dụng:

  • Thu nhập trung vị (vì thu nhập thường lệch phải)
  • Giá nhà trung vị trong khu vực
  • Thời gian hoàn thành công việc trung vị

Dùng MỐT khi:

Dữ liệu định tính (không phải số)

  • Màu sắc: đỏ, xanh, vàng
  • Nghề nghiệp: bác sĩ, kỹ sư, giáo viên
  • Thương hiệu: Apple, Samsung, Xiaomi

Muốn biết giá trị “phổ biến nhất”

  • Sản phẩm bán chạy nhất
  • Size quần áo được mua nhiều nhất
  • Món ăn được đặt nhiều nhất

Dữ liệu rời rạc với tần số rõ ràng

  • Số con trong gia đình
  • Số lần đi bệnh viện
  • Điểm số (5, 6, 7, 8, 9, 10)

Ví dụ ứng dụng:

  • Size giày nam bán chạy nhất: 42
  • Màu xe hơi phổ biến: đen
  • Giờ cao điểm giao thông: 7-8h sáng

3. Ví dụ so sánh

Tình huống: Lương của 7 nhân viên trong công ty (triệu đồng/tháng): $$5, 6, 7, 8, 9, 10, 100$$

Tính toán ba số đặc trưng:

Trung bình: $$\overline{x} = \frac{5 + 6 + 7 + 8 + 9 + 10 + 100}{7} = \frac{145}{7} \approx 20.7 \text{ triệu}$$

Trung vị:

  • Dữ liệu đã sắp xếp: 5, 6, 7, 8, 9, 10, 100
  • $n = 7$ (lẻ), vị trí giữa: $\frac{7+1}{2} = 4$
  • $M_e = 8$ triệu

Mốt:

  • Tất cả giá trị xuất hiện 1 lần
  • Không có mốt

Nhận xét và phân tích:

Số đặc trưng Giá trị Đánh giá
Trung bình 20.7 triệu ❌ Không đại diện (bị 100 triệu kéo lên)
Trung vị 8 triệu ✅ Đại diện tốt (lương điển hình)
Mốt Không có ❌ Không hữu ích

Kết luận: Trong trường hợp này, trung vị = 8 triệu là số đặc trưng tốt nhất vì:

  • Không bị ảnh hưởng bởi lương CEO (100 triệu)
  • Phản ánh lương phổ biến của nhân viên
  • Có ý nghĩa thực tế: 50% nhân viên lương ≤ 8 triệu, 50% lương ≥ 8 triệu

4. Mối quan hệ giữa ba số

Mối quan hệ giữa trung bình, trung vị và mốt phụ thuộc vào hình dạng phân phối dữ liệu.

Phân phối đối xứng (Symmetric Distribution):

$$\boxed{\overline{x} = M_e = M_o}$$

Ba số đặc trưng trùng nhau, nằm ở trung tâm của phân phối.

Ví dụ: Phân phối chuẩn (đường cong hình chuông)

Phân phối lệch phải (Right-skewed / Positive skew):

$$\boxed{M_o < M_e < \overline{x}}$$

Có một số giá trị rất lớn kéo trung bình lên cao.

Đặc điểm:

  • Đuôi dài bên phải
  • Nhiều giá trị nhỏ, ít giá trị lớn
  • Trung bình bị kéo về phía giá trị lớn

Ví dụ: Thu nhập (có người giàu rất giàu), giá nhà

Phân phối lệch trái (Left-skewed / Negative skew):

$$\boxed{\overline{x} < M_e < M_o}$$

Có một số giá trị rất nhỏ kéo trung bình xuống thấp.

Đặc điểm:

  • Đuôi dài bên trái
  • Nhiều giá trị lớn, ít giá trị nhỏ
  • Trung bình bị kéo về phía giá trị nhỏ

Ví dụ: Tuổi nghỉ hưu (hầu hết 60-65, một số nghỉ sớm)

VI. BÀI TẬP MẪU VÀ HƯỚNG DẪN GIẢI

Dạng 1: Tính trung bình

Bài 1: Điểm kiểm tra môn Toán của 8 học sinh: 5, 7, 6, 8, 7, 9, 6, 8. Tính điểm trung bình?

Lời giải:

Cách 1: Tính trực tiếp $$\overline{x} = \frac{5 + 7 + 6 + 8 + 7 + 9 + 6 + 8}{8} = \frac{56}{8} = 7$$

Kết luận: Điểm trung bình là 7 điểm.

Bài 2: Bảng thống kê điểm thi môn Văn:

Điểm ($x_i$) 5 6 7 8 9 10
Số HS ($n_i$) 3 7 12 8 5 2

Tính điểm trung bình của lớp.

Lời giải:

Bước 1: Tính tích $x_i \times n_i$:

  • $5 \times 3 = 15$
  • $6 \times 7 = 42$
  • $7 \times 12 = 84$
  • $8 \times 8 = 64$
  • $9 \times 5 = 45$
  • $10 \times 2 = 20$

Bước 2: Tính tổng:

  • Tử số: $15 + 42 + 84 + 64 + 45 + 20 = 270$
  • Mẫu số: $3 + 7 + 12 + 8 + 5 + 2 = 37$

Bước 3: Tính trung bình: $$\overline{x} = \frac{270}{37} \approx 7.297 \approx 7.3$$

Kết luận: Điểm trung bình của lớp là khoảng 7.3 điểm.

Dạng 2: Tính trung vị

Bài 3: Cho dữ liệu: 12, 8, 15, 10, 14, 9, 11. Tìm trung vị?

Lời giải:

Bước 1: Sắp xếp tăng dần: $$8, 9, 10, \mathbf{11}, 12, 14, 15$$

Bước 2: Xác định vị trí:

  • $n = 7$ (lẻ)
  • Vị trí giữa: $\frac{7+1}{2} = 4$

Bước 3: Trung vị là giá trị thứ 4: $$M_e = 11$$

Kết luận: Trung vị là 11.

Bài 4: Cho dữ liệu: 5, 3, 8, 6, 2, 9. Tìm trung vị?

Lời giải:

Bước 1: Sắp xếp tăng dần: $$2, 3, \mathbf{5, 6}, 8, 9$$

Bước 2: Xác định vị trí:

  • $n = 6$ (chẵn)
  • Hai vị trí giữa: 3 và 4

Bước 3: Trung vị là trung bình của hai giá trị giữa: $$M_e = \frac{5 + 6}{2} = \frac{11}{2} = 5.5$$

Kết luận: Trung vị là 5.5.

Bài 5: Cân nặng (kg) của 50 học sinh:

Cân nặng [40-45) [45-50) [50-55) [55-60)
Số HS ($n_i$) 8 15 20 7

Tìm cân nặng trung vị.

Lời giải:

Bước 1: Tính tần số tích lũy:

Cân nặng [40-45) [45-50) [50-55) [55-60)
Số HS 8 15 20 7
Tích lũy 8 23 43 50

Bước 2: Xác định nhóm chứa trung vị:

  • $N = 50$, $\frac{N}{2} = 25$
  • Nhóm có tích lũy $\geq 25$ lần đầu: [50-55) (tích lũy 43)

Bước 3: Xác định tham số:

  • $L = 50$, $F = 23$, $f = 20$, $h = 5$

Bước 4: Tính trung vị: $$M_e = 50 + \frac{25 – 23}{20} \times 5 = 50 + \frac{2 \times 5}{20} = 50 + 0.5 = 50.5$$

Kết luận: Cân nặng trung vị là 50.5 kg.

Dạng 3: Tìm mốt

Bài 6: Dữ liệu: 3, 5, 7, 5, 8, 5, 9, 7, 5. Tìm mốt?

Lời giải:

Đếm tần số:

  • 3: xuất hiện 1 lần
  • 5: xuất hiện 4 lần ← nhiều nhất
  • 7: xuất hiện 2 lần
  • 8: xuất hiện 1 lần
  • 9: xuất hiện 1 lần

Kết luận: $M_o = 5$ (xuất hiện nhiều nhất – 4 lần)

Bài 7: Chiều cao học sinh (cm):

Chiều cao [150-155) [155-160) [160-165) [165-170)
Số HS 12 25 30 18

Tìm mốt.

Lời giải:

Bước 1: Xác định nhóm mốt:

  • Nhóm có tần số lớn nhất: [160-165) (tần số 30)

Bước 2: Xác định tham số:

  • $L = 160$
  • $d_1 = 30 – 25 = 5$
  • $d_2 = 30 – 18 = 12$
  • $h = 5$

Bước 3: Tính mốt: $$M_o = 160 + \frac{5}{5 + 12} \times 5$$ $$= 160 + \frac{5}{17} \times 5$$ $$= 160 + \frac{25}{17}$$ $$\approx 160 + 1.47 = 161.47$$

Kết luận: Mốt (chiều cao phổ biến nhất) là khoảng 161.47 cm.

Dạng 4: So sánh ba số

Bài 8: Cho dữ liệu: 2, 3, 5, 5, 5, 8, 12, 18, 25. Tính và so sánh $\overline{x}$, $M_e$, $M_o$?

Lời giải:

Tính trung bình: $$\overline{x} = \frac{2 + 3 + 5 + 5 + 5 + 8 + 12 + 18 + 25}{9} = \frac{83}{9} \approx 9.22$$

Tính trung vị:

  • Dữ liệu đã sắp xếp: 2, 3, 5, 5, 5, 8, 12, 18, 25
  • $n = 9$ (lẻ), vị trí giữa = 5
  • $M_e = 5$

Tìm mốt:

  • Giá trị 5 xuất hiện 3 lần (nhiều nhất)
  • $M_o = 5$

So sánh: $$M_o = M_e = 5 < \overline{x} = 9.22$$

Nhận xét:

  • Phân phối lệch phải (có các giá trị lớn 12, 18, 25)
  • Trung bình bị kéo lên bởi các giá trị lớn
  • Trung vị và mốt trùng nhau, đại diện tốt hơn cho giá trị “điển hình”

VII. MẸO VÀ LƯU Ý QUAN TRỌNG

1. Các sai lầm thường gặp

SAI LẦM 1: Quên sắp xếp trước khi tìm trung vị

Sai:

  • Dữ liệu: 5, 2, 8, 3, 9
  • Lấy giá trị giữa trực tiếp: $M_e = 8$ ❌

Đúng:

  • Sắp xếp: 2, 3, 5, 8, 9
  • $M_e = 5$ ✓

Lưu ý: Luôn luôn sắp xếp dữ liệu trước khi tìm trung vị!

SAI LẦM 2: Tính sai trung vị khi n chẵn

Sai:

  • Dữ liệu: 1, 3, 5, 7 (n=4)
  • Chỉ lấy 1 giá trị: $M_e = 3$ hoặc $M_e = 5$ ❌

Đúng:

  • Lấy trung bình cộng 2 giá trị giữa:
  • $M_e = \frac{3 + 5}{2} = 4$ ✓

SAI LẦM 3: Nhầm tần số và giá trị khi tính trung bình

Sai:

  • Điểm 7 có 5 học sinh đạt
  • Tính: $\overline{x} = \frac{7 + 5}{…}$ ❌

Đúng:

  • $x_i \times n_i = 7 \times 5 = 35$ ✓
  • Rồi cộng vào tổng

SAI LẦM 4: Nhầm mốt là nhóm có tần số lớn nhất

Sai:

  • Nhóm [50-55) có tần số lớn nhất
  • Kết luận: Mốt là nhóm [50-55) ❌

Đúng:

  • Mốt là GIÁ TRỊ, không phải nhóm
  • Phải dùng công thức nội suy để tính giá trị mốt
  • $M_o = 52.125$ (kg) ✓

2. Mẹo tính nhanh

Mẹo 1: Tính trung bình nhanh

Kỹ thuật “chọn gốc”: Khi các số gần nhau, chọn một số tròn làm gốc.

Ví dụ: Tính trung bình: 98, 101, 99, 102

Cách thông thường: $\overline{x} = \frac{98 + 101 + 99 + 102}{4} = \frac{400}{4} = 100$

Cách nhanh (chọn gốc 100):

  • Độ lệch so với 100: -2, +1, -1, +2
  • Trung bình độ lệch: $\frac{-2+1-1+2}{4} = 0$
  • Trung bình = Gốc + Độ lệch TB = 100 + 0 = 100 ✓

Mẹo 2: Nhớ công thức trung vị

Khẩu quyết:

“Lẻ thì lấy giữa, chẵn thì lấy hai”

  • n lẻ: Lấy 1 giá trị ở giữa
  • n chẵn: Lấy trung bình 2 giá trị ở giữa

Vị trí:

  • n lẻ: vị trí $\frac{n+1}{2}$
  • n chẵn: vị trí $\frac{n}{2}$ và $\frac{n}{2}+1$

Mẹo 3: Tìm mốt nhanh

Với dữ liệu nhỏ:

  • Viết lại dữ liệu, nhóm các số giống nhau
  • Đếm trực quan

Ví dụ: 3, 5, 5, 5, 7, 7, 9

  • Nhóm: 3(1 lần), 5(3 lần), 7(2 lần), 9(1 lần)
  • Mốt: 5

Với bảng tần số:

  • Tìm dòng có tần số lớn nhất
  • Giá trị tương ứng là mốt

3. Kiểm tra kết quả

Kiểm tra trung bình:

✅ Trung bình phải nằm giữa giá trị nhỏ nhất và lớn nhất: $\text{Min} \leq \overline{x} \leq \text{Max}$

Ví dụ:

  • Dữ liệu: 5, 7, 9
  • Min = 5, Max = 9
  • $\overline{x} = 7$ → Hợp lệ ✓
  • Nếu tính được $\overline{x} = 12$ → Sai! ❌

Kiểm tra trung vị:

✅ Trung vị phải “ở giữa” dữ liệu:

  • Số giá trị $\leq M_e$ ≈ Số giá trị $\geq M_e$

Ví dụ:

  • Dữ liệu: 1, 2, 3, 4, 5
  • $M_e = 3$
  • Có 2 số ≤ 3 (là 1, 2)
  • Có 2 số ≥ 3 (là 4, 5)
  • Cân bằng → Đúng ✓

Kiểm tra mốt:

✅ Mốt phải là giá trị CÓ TRONG dữ liệu:

Ví dụ:

  • Dữ liệu: 2, 3, 5, 5, 5, 7
  • Tính được $M_o = 5$ → Đúng ✓
  • Nếu tính được $M_o = 4$ → Sai! (4 không có trong dữ liệu) ❌

Lưu ý: Với dữ liệu nhóm, mốt có thể không nằm chính xác trong dữ liệu gốc.

4. Công thức tóm tắt

Bảng công thức cần nhớ:

Loại Công thức Ghi chú
Trung bình đơn $\overline{x} = \frac{\sum x_i}{n}$ Cộng tất cả chia số lượng
Trung bình có tần số $\overline{x} = \frac{\sum x_i n_i}{\sum n_i}$ Nhân tần số rồi cộng
Trung bình nhóm $\overline{x} = \frac{\sum m_i n_i}{\sum n_i}$ $m_i$ là trung điểm nhóm
Trung vị (n lẻ) $M_e = x_{\frac{n+1}{2}}$ Sau khi sắp xếp
Trung vị (n chẵn) $M_e = \frac{x_{n/2} + x_{n/2+1}}{2}$ Trung bình 2 giá trị giữa
Trung vị nhóm $M_e = L + \frac{N/2 – F}{f} \times h$ Nội suy tuyến tính
Mốt Giá trị có tần số lớn nhất Đếm trực tiếp
Mốt nhóm $M_o = L + \frac{d_1}{d_1+d_2} \times h$ Công thức King

VIII. KẾT LUẬN

Bài viết đã trình bày đầy đủ và chi tiết về ba số đặc trưng quan trọng nhất trong thống kê:

Trung bình (Mean):

  • Công thức cơ bản: $\overline{x} = \frac{\sum x_i}{n}$
  • Công thức có tần số: $\overline{x} = \frac{\sum x_i n_i}{\sum n_i}$
  • Công thức dữ liệu nhóm: $\overline{x} = \frac{\sum m_i n_i}{\sum n_i}$
  • Đặc điểm: Sử dụng tất cả thông tin, nhạy cảm với giá trị ngoại lệ
  • Khi dùng: Dữ liệu đối xứng, không có ngoại lệ

Trung vị (Median):

  • Công thức n lẻ: $M_e = x_{\frac{n+1}{2}}$
  • Công thức n chẵn: $M_e = \frac{x_{n/2} + x_{n/2+1}}{2}$
  • Công thức dữ liệu nhóm: $M_e = L + \frac{N/2 – F}{f} \times h$
  • Đặc điểm: Không bị ảnh hưởng bởi ngoại lệ
  • Khi dùng: Dữ liệu lệch, có giá trị cực đoan

Mốt (Mode):

  • Cách tìm: Giá trị xuất hiện nhiều nhất
  • Công thức dữ liệu nhóm: $M_o = L + \frac{d_1}{d_1+d_2} \times h$
  • Đặc điểm: Dễ hiểu, áp dụng được với dữ liệu định tính
  • Khi dùng: Tìm giá trị phổ biến nhất

So sánh và lựa chọn:

  • Hiểu rõ ưu nhược điểm từng số
  • Chọn số phù hợp với dữ liệu và mục đích
  • Phân phối đối xứng: $\overline{x} = M_e = M_o$
  • Phân phối lệch phải: $M_o < M_e < \overline{x}$
  • Phân phối lệch trái: $\overline{x} < M_e < M_o$

Bài tập thực hành:

  • 8 bài tập có lời giải chi tiết
  • 4 dạng bài: trung bình, trung vị, mốt, so sánh
  • Từ cơ bản đến nâng cao

Các chủ đề liên quan:

Cơ bản:

  • Độ lệch chuẩn và phương sai
  • Tứ phân vị và khoảng tứ phân vị
  • Giá trị ngoại lệ (outliers)
  • Biểu đồ hộp (box plot)

Nâng cao:

  • Phân phối xác suất
  • Kiểm định giả thuyết
  • Phân tích tương quan
  • Hồi quy tuyến tính

Ứng dụng:

  • Thống kê mô tả trong R/Python
  • Excel cho phân tích dữ liệu
  • SPSS và các phần mềm thống kê
  • Trực quan hóa dữ liệu

📖 Nguồn học thêm:

  • Sách giáo khoa Toán 10, 12 (chương Thống kê)
  • Khóa học Thống kê cơ bản online
  • Video bài giảng trên YouTube
  • Trang web học thống kê: Khan Academy, Coursera

Bảng công thức tóm tắt nhanh

TRUNG BÌNH:

Đơn giản:    x̄ = (x₁ + x₂ + ... + xₙ) / n
Có tần số:   x̄ = Σ(xᵢ × nᵢ) / Σnᵢ
Dữ liệu nhóm: x̄ = Σ(mᵢ × nᵢ) / Σnᵢ

TRUNG VỊ:

n lẻ:        Mₑ = x₍ₙ₊₁₎/₂
n chẵn:      Mₑ = (xₙ/₂ + xₙ/₂₊₁) / 2
Dữ liệu nhóm: Mₑ = L + [(N/2 - F) / f] × h

MỐT:

Trực tiếp:   Giá trị có tần số lớn nhất
Dữ liệu nhóm: Mₒ = L + [d₁/(d₁+d₂)] × h
ThS. Nguyễn Văn An

ThS. Nguyễn Văn An

(Người kiểm duyệt, ra đề)

Chức vụ: Tổ trưởng chuyên môn Tổ Toán tại Edus

Trình độ: Cử nhân Sư phạm Toán học, Thạc sĩ Lý luận & Phương pháp dạy học môn Toán, Chức danh nghề nghiệp giáo viên THPT – Hạng II, Tin học ứng dụng cơ bản, Ngoại ngữ B1, Chứng chỉ bồi dưỡng năng lực tổ trưởng chuyên môn

Kinh nghiệm: 12+ năm kinh nghiệm tại Trường THPT chuyên Trần Đại Nghĩa