Chọn đến phần học sinh cần nhanh chóng thông qua mục lục bằng cách click đến phần đó
- I. GIỚI THIỆU VỀ CỠ MẪU
- 1. Cỡ mẫu là gì?
- 2. Tại sao phải tính cỡ mẫu?
- 3. Các yếu tố ảnh hưởng đến cỠ mẫu
- II. CÔNG THỨC TÍNH CỠ MẪU CHO TRUNG BÌNH (μ)
- 1. Công thức cơ bản (tổng thể vô hạn hoặc rất lớn)
- 2. Bảng tra giá trị Z theo độ tin cậy
- 3. Cách xác định σ khi chưa biết
- 4. Ví dụ minh họa chi tiết
- III. CÔNG THỨC TÍNH CỠ MẪU CHO TỶ LỆ (p)
- 1. Công thức cơ bản (tổng thể vô hạn)
- 2. Cách xác định p khi chưa biết
- 3. Bảng tra nhanh cỠ mẫu (p = 0.5, worst case)
- 4. Ví dụ minh họa chi tiết
- IV. CÔNG THỨC HIỆU CHỈNH CHO TỔNG THỂ HỮU HẠN
- 1. Khi nào cần hiệu chỉnh?
- 2. Công thức hiệu chỉnh (Finite Population Correction – FPC)
- 3. Ví dụ minh họa
- V. CÔNG THỨC ĐẶC BIỆT VÀ TRƯỜNG HỢP NÂNG CAO
- 1. Cỡ mẫu cho so sánh hai nhóm độc lập
- 2. Cỡ mẫu khi dùng phân phối t-Student
- 3. Tăng cỡ mẫu để dự phòng
- VI. BẢNG TRA CỨU NHANH VÀ CÔNG CỤ HỖ TRỢ
- 1. Bảng tra nhanh theo độ tin cậy 95%, p=0.5
- 2. Công thức nhanh thường dùng (độ tin cậy 95%)
- VII. CÁC SAI LẦM THƯỜNG GẶP VÀ LƯU Ý
- 1. Sai lầm phổ biến khi tính cỠ mẫu
- 2. Lưu ý quan trọng khi áp dụng
- VIII. KẾT LUẬN VÀ TÓM TẮT
- Bảng tổng hợp công thức
- Quy trình 5 bước tính cỠ mẫu
- Sơ đồ quyết định nhanh
- Kết luận
I. GIỚI THIỆU VỀ CỠ MẪU
1. Cỡ mẫu là gì?
Định nghĩa:
Cỡ mẫu (sample size), ký hiệu là n, là số lượng đơn vị quan sát (cá thể, đối tượng, trường hợp) được chọn từ tổng thể để tiến hành nghiên cứu, khảo sát, điều tra hoặc thí nghiệm.
Ví dụ thực tế:
- Khảo sát giáo dục: Điều tra 500 học sinh về ý kiến học online → n = 500
- Nghiên cứu y học: Thử nghiệm thuốc mới trên 100 bệnh nhân → n = 100
- Kiểm tra chất lượng: Lấy mẫu 200 sản phẩm từ lô hàng → n = 200
- Nghiên cứu thị trường: Phỏng vấn 1,000 người tiêu dùng → n = 1,000
- Dịch tễ học: Xét nghiệm 300 người trong vùng dịch → n = 300
Mối quan hệ giữa mẫu và tổng thể:
TỔNG THỂ (N) MẪU (n)
[Toàn bộ đối tượng] ------> [Phần đại diện]
↓ ↓
Không khảo sát hết Khảo sát để suy rộng
2. Tại sao phải tính cỡ mẫu?
Việc xác định cỡ mẫu phù hợp là bước quan trọng quyết định chất lượng nghiên cứu. Cỡ mẫu không phù hợp sẽ dẫn đến nhiều vấn đề:
A. Cỡ mẫu quá nhỏ (n nhỏ) – Under-sampling
❌ Vấn đề:
- Không đại diện: Kết quả không phản ánh đúng tổng thể
- Sai số lớn: Độ tin cậy thấp, kết luận không chắc chắn
- Dễ bị ảnh hưởng: Một vài giá trị bất thường làm sai lệch kết quả
- Thiếu sức mạnh thống kê: Không phát hiện được sự khác biệt có ý nghĩa
Ví dụ: Khảo sát ý kiến 10 người trong trường có 5,000 sinh viên → Kết quả không có giá trị đại diện.
B. Cỡ mẫu quá lớn (n lớn) – Over-sampling
❌ Vấn đề:
- Tốn kém: Chi phí cao về thời gian, tiền bạc, nhân lực
- Không hiệu quả: Lãng phí nguồn lực khi độ chính xác không tăng đáng kể
- Khó quản lý: Khó kiểm soát chất lượng thu thập dữ liệu
- Phức tạp: Xử lý và phân tích dữ liệu mất nhiều thời gian
Ví dụ: Khảo sát 3,000 người khi chỉ cần 384 người là đủ → Lãng phí 2,616 mẫu.
C. Cỡ mẫu phù hợp – Optimal Sample Size
✅ Lợi ích:
- Độ chính xác đảm bảo: Kết quả đủ tin cậy để kết luận
- Tối ưu chi phí: Cân bằng giữa độ chính xác và nguồn lực
- Khả thi thực hiện: Dễ quản lý và thu thập dữ liệu
- Suy rộng được: Kết quả áp dụng cho toàn bộ tổng thể
- Có giá trị khoa học: Được cộng đồng khoa học công nhận
Nguyên tắc vàng: “Không quá nhiều, không quá ít – Vừa đủ để tin cậy, vừa đủ để khả thi!”
3. Các yếu tố ảnh hưởng đến cỠ mẫu
Có 4 yếu tố chính quyết định cỡ mẫu cần thiết:
Yếu tố 1: Độ tin cậy (Confidence Level – CL)
Định nghĩa: Xác suất mà kết quả ước lượng từ mẫu chứa giá trị thực của tổng thể.
Các mức thường dùng:
- 90% (1 – α = 0.90): Nghiên cứu thăm dó, sơ bộ
- 95% (1 – α = 0.95): Chuẩn mực trong hầu hết nghiên cứu
- 99% (1 – α = 0.99): Nghiên cứu y học, dược, an toàn cao
Quy luật: Độ tin cậy càng cao → Cỡ mẫu càng lớn
Yếu tố 2: Sai số cho phép (Margin of Error – E)
Định nghĩa: Độ sai lệch tối đa cho phép giữa ước lượng từ mẫu và giá trị thực của tổng thể.
Các mức thường dùng:
- ±1% – ±2%: Rất chính xác (nghiên cứu quan trọng)
- ±3% – ±5%: Phổ biến nhất (cân bằng chất lượng và chi phí)
- ±7% – ±10%: Nghiên cứu sơ bộ, thăm dò
Quy luật: Sai số càng nhỏ → Cỡ mẫu càng lớn
Yếu tố 3: Độ phân tán của tổng thể
Với biến định lượng: Độ lệch chuẩn (σ)
- σ lớn → Tổng thể phân tán → Cần mẫu lớn
- σ nhỏ → Tổng thể đồng nhất → Cần mẫu nhỏ
Với biến định tính: Tỷ lệ (p)
- p gần 0.5 → Độ biến thiên lớn → Cần mẫu lớn
- p gần 0 hoặc 1 → Độ biến thiên nhỏ → Cần mẫu nhỏ
Yếu tố 4: Kích thước tổng thể (N)
Quy tắc:
- N rất lớn (>100,000): Không ảnh hưởng đáng kể đến n
- N trung bình (1,000-100,000): Ảnh hưởng nhẹ
- N nhỏ (<1,000): Cần hiệu chỉnh công thức
Ngưỡng quan trọng: Khi n > 5%N → Cần hiệu chỉnh
II. CÔNG THỨC TÍNH CỠ MẪU CHO TRUNG BÌNH (μ)
1. Công thức cơ bản (tổng thể vô hạn hoặc rất lớn)
Khi nghiên cứu về giá trị trung bình của một biến định lượng (ví dụ: chiều cao, cân nặng, thu nhập, điểm số, thời gian,…), sử dụng công thức:
$$\boxed{n = \left(\frac{Z_{\alpha/2} \cdot \sigma}{E}\right)^2}$$
Giải thích các thành phần:
- n: Cỡ mẫu cần tính (số đơn vị cần điều tra)
- $Z_{\alpha/2}$: Giá trị tới hạn từ phân phối chuẩn hóa (tra bảng Z)
- Phụ thuộc vào độ tin cậy mong muốn
- $\alpha$ = 1 – Độ tin cậy
- σ (sigma): Độ lệch chuẩn của tổng thể
- Đo lường mức độ phân tán của dữ liệu
- Có cùng đơn vị với biến nghiên cứu
- E: Sai số cho phép (margin of error)
- Độ chính xác mong muốn
- Có cùng đơn vị với biến nghiên cứu
Đơn vị: Tất cả các đại lượng σ và E phải có cùng đơn vị.
2. Bảng tra giá trị Z theo độ tin cậy
Giá trị $Z_{\alpha/2}$ được tra từ bảng phân phối chuẩn tắc:
| Độ tin cậy | α | α/2 | $Z_{\alpha/2}$ | Khi nào dùng? |
|---|---|---|---|---|
| 90% | 0.10 | 0.05 | 1.645 | Nghiên cứu thăm dò, sơ bộ |
| 95% | 0.05 | 0.025 | 1.96 | Chuẩn mực chung (phổ biến nhất) |
| 99% | 0.01 | 0.005 | 2.576 | Nghiên cứu y học, dược, an toàn |
| 99.9% | 0.001 | 0.0005 | 3.291 | Nghiên cứu đặc biệt quan trọng |
Giá trị thường dùng nhất: $Z_{0.025} = 1.96$ (độ tin cậy 95%)
Mẹo nhớ nhanh:
- 90% → Z ≈ 1.65
- 95% → Z ≈ 2
- 99% → Z ≈ 2.58
3. Cách xác định σ khi chưa biết
Trong thực tế, σ của tổng thể thường không biết trước. Có 4 cách xác định:
Cách 1: Sử dụng nghiên cứu trước
Tham khảo các nghiên cứu tương tự đã công bố, lấy σ từ đó.
Ví dụ: Nghiên cứu chiều cao học sinh lớp 12, tham khảo nghiên cứu năm trước cho biết σ = 8 cm.
Cách 2: Khảo sát thử (Pilot Study)
Tiến hành khảo sát thử với mẫu nhỏ (30-50 đơn vị) để ước lượng độ lệch chuẩn mẫu (s), sau đó dùng s thay cho σ.
Quy trình:
- Lấy mẫu thử n = 30-50
- Tính độ lệch chuẩn mẫu s
- Ước lượng: σ ≈ s
- Tính cỡ mẫu chính thức
Cách 3: Ước lượng từ khoảng giá trị
Nếu biết giá trị lớn nhất và nhỏ nhất có thể, sử dụng công thức ước lượng:
$$\sigma \approx \frac{\text{Max} – \text{Min}}{4}$$
Lý do: Trong phân phối chuẩn, khoảng cách từ Min đến Max xấp xỉ 4σ.
Ví dụ: Điểm số từ 0 đến 100 → $\sigma \approx \frac{100 – 0}{4} = 25$
Cách 4: Ước lượng an toàn (Conservative Estimate)
Khi hoàn toàn không có thông tin, sử dụng σ lớn nhất có thể trong phạm vi hợp lý để đảm bảo cỡ mẫu đủ lớn.
Nguyên tắc: Thà ước lượng cao hơn (cỡ mẫu lớn hơn) còn hơn thiếu.
4. Ví dụ minh họa chi tiết
Ví dụ 1: Nghiên cứu chiều cao học sinh
Đề bài: Một nhà nghiên cứu muốn ước lượng chiều cao trung bình của học sinh lớp 12 trong thành phố. Từ nghiên cứu trước, biết độ lệch chuẩn chiều cao là 8 cm. Muốn ước lượng với độ tin cậy 95% và sai số không quá ±2 cm. Hỏi cần điều tra bao nhiêu học sinh?
Lời giải:
Bước 1: Xác định các thông số
- Độ tin cậy = 95% → α = 0.05 → α/2 = 0.025 → $Z_{0.025} = 1.96$
- σ = 8 cm (độ lệch chuẩn)
- E = 2 cm (sai số cho phép)
Bước 2: Áp dụng công thức $$n = \left(\frac{Z_{\alpha/2} \cdot \sigma}{E}\right)^2 = \left(\frac{1.96 \times 8}{2}\right)^2$$
$$= \left(\frac{15.68}{2}\right)^2 = (7.84)^2 = 61.4656$$
Bước 3: Làm tròn lên
Cỡ mẫu phải là số nguyên và luôn làm tròn lên (không làm tròn xuống): $$n = 62 \text{ học sinh}$$
Kết luận: Cần điều tra tối thiểu 62 học sinh để đảm bảo độ chính xác mong muốn.
Ví dụ 2: Nghiên cứu cân nặng trẻ sơ sinh
Đề bài: Bệnh viện muốn ước lượng cân nặng trung bình của trẻ sơ sinh. Nghiên cứu trước cho biết σ = 0.5 kg. Muốn độ tin cậy 99% với sai số không quá ±0.1 kg. Cần quan sát bao nhiêu trẻ?
Lời giải:
Bước 1: Xác định thông số
- Độ tin cậy = 99% → $Z_{0.005} = 2.576$
- σ = 0.5 kg
- E = 0.1 kg
Bước 2: Tính toán $$n = \left(\frac{2.576 \times 0.5}{0.1}\right)^2 = \left(\frac{1.288}{0.1}\right)^2 = (12.88)^2 = 165.8944$$
Bước 3: Làm tròn $$n = 166 \text{ trẻ sơ sinh}$$
Nhận xét: Độ tin cậy cao hơn (99% so với 95%) dẫn đến cỠ mẫu lớn hơn đáng kể.
III. CÔNG THỨC TÍNH CỠ MẪU CHO TỶ LỆ (p)
1. Công thức cơ bản (tổng thể vô hạn)
Khi nghiên cứu về tỷ lệ/phần trăm của một đặc tính (ví dụ: tỷ lệ ủng hộ, tỷ lệ mắc bệnh, tỷ lệ hài lòng, tỷ lệ lỗi,…), sử dụng công thức:
$$\boxed{n = \frac{Z_{\alpha/2}^2 \cdot p(1-p)}{E^2}}$$
Giải thích các thành phần:
- n: Cỡ mẫu cần tính
- $Z_{\alpha/2}$: Giá trị tới hạn (tra bảng Z như phần II)
- p: Tỷ lệ ước tính của đặc tính trong tổng thể (0 < p < 1)
- Biểu diễn dưới dạng thập phân (VD: 60% = 0.6)
- E: Sai số cho phép (margin of error)
- Lưu ý quan trọng: Cũng phải dưới dạng thập phân
- VD: ±5% = 0.05, ±3% = 0.03
Đơn vị: p và E đều là số không có đơn vị (dạng thập phân hoặc %)
2. Cách xác định p khi chưa biết
Có 3 cách xác định tỷ lệ p:
Cách 1: Sử dụng thông tin từ nghiên cứu trước
Tham khảo các nghiên cứu, khảo sát tương tự đã thực hiện.
Ví dụ: Nghiên cứu trước cho biết 60% học sinh hài lòng → p = 0.6
Cách 2: Khảo sát thử (Pilot Study)
Tiến hành khảo sát thử quy mô nhỏ để ước lượng p.
Ví dụ: Khảo sát thử 50 người, có 30 người ủng hộ → p = 30/50 = 0.6
Cách 3: Không có thông tin → Dùng p = 0.5 (Phổ biến nhất)
Lý do toán học:
Tích p(1-p) đạt giá trị cực đại khi p = 0.5:
- p = 0.5 → p(1-p) = 0.5 × 0.5 = 0.25 (cực đại)
- p = 0.3 → p(1-p) = 0.3 × 0.7 = 0.21 (nhỏ hơn)
- p = 0.8 → p(1-p) = 0.8 × 0.2 = 0.16 (nhỏ hơn)
Ý nghĩa thực tế:
- Dùng p = 0.5 cho cỠ mẫu lớn nhất (worst-case scenario)
- Đảm bảo “an toàn” cho mọi trường hợp
- Thường dùng khi khảo sát ý kiến, thái độ chưa biết trước
Công thức đơn giản khi p = 0.5:
$$n = \frac{Z_{\alpha/2}^2 \cdot 0.25}{E^2} = \frac{Z_{\alpha/2}^2}{4E^2}$$
3. Bảng tra nhanh cỠ mẫu (p = 0.5, worst case)
Bảng này cho cỠ mẫu tối đa cần thiết với các mức sai số khác nhau:
| Sai số E | Độ tin cậy 90% | Độ tin cậy 95% | Độ tin cậy 99% |
|---|---|---|---|
| ±1% (0.01) | 6,766 | 9,604 | 16,590 |
| ±2% (0.02) | 1,692 | 2,401 | 4,148 |
| ±3% (0.03) | 752 | 1,067 | 1,843 |
| ±4% (0.04) | 423 | 600 | 1,037 |
| ±5% (0.05) | 271 | 384 | 664 |
| ±7% (0.07) | 139 | 196 | 339 |
| ±10% (0.10) | 68 | 96 | 166 |
Cách sử dụng bảng:
- Chọn độ tin cậy mong muốn (thường là 95%)
- Chọn sai số cho phép (thường là ±3% đến ±5%)
- Đọc cỠ mẫu tương ứng
Ví dụ: Muốn độ tin cậy 95% và sai số ±5% → Cần n = 384 mẫu
Lưu ý: Đây là cỠ mẫu tối đa. Nếu biết p khác 0.5, cỠ mẫu thực tế sẽ nhỏ hơn.
4. Ví dụ minh họa chi tiết
Ví dụ 3: Khảo sát mức độ hài lòng
Đề bài: Nhà trường muốn khảo sát tỷ lệ học sinh hài lòng với phương pháp học online. Muốn độ tin cậy 95% và sai số không quá ±4%. Một nghiên cứu trước cho biết khoảng 60% học sinh hài lòng. Hỏi cần khảo sát bao nhiêu học sinh?
Lời giải:
Bước 1: Xác định thông số
- Độ tin cậy = 95% → Z = 1.96
- p = 0.6 (60% hài lòng từ nghiên cứu trước)
- E = 0.04 (sai số ±4%)
Bước 2: Áp dụng công thức $$n = \frac{Z^2 \cdot p(1-p)}{E^2} = \frac{(1.96)^2 \times 0.6 \times 0.4}{(0.04)^2}$$
$$= \frac{3.8416 \times 0.24}{0.0016} = \frac{0.9220}{0.0016} = 576.24$$
Bước 3: Làm tròn $$n = 577 \text{ học sinh}$$
Kết luận: Cần khảo sát tối thiểu 577 học sinh.
Ví dụ 4: Ước lượng tỷ lệ sản phẩm lỗi (không biết p)
Đề bài: Nhà máy muốn ước lượng tỷ lệ sản phẩm lỗi trong quy trình sản xuất. Chưa có thông tin về tỷ lệ lỗi. Muốn độ tin cậy 95% và sai số ±3%. Cần kiểm tra bao nhiêu sản phẩm?
Lời giải:
Vì không biết p → Dùng p = 0.5 (an toàn nhất)
Bước 1: Xác định thông số
- Độ tin cậy = 95% → Z = 1.96
- p = 0.5 (giả định worst case)
- E = 0.03 (±3%)
Bước 2: Tính toán $$n = \frac{(1.96)^2 \times 0.5 \times 0.5}{(0.03)^2}$$
$$= \frac{3.8416 \times 0.25}{0.0009} = \frac{0.9604}{0.0009} = 1067.11$$
Bước 3: Làm tròn $$n = 1,068 \text{ sản phẩm}$$
Ví dụ 5: So sánh khi biết p trước
Đề bài: Cùng bài toán như Ví dụ 4, nhưng giả sử từ kinh nghiệm biết tỷ lệ lỗi khoảng 10%. Tính lại cỠ mẫu?
Lời giải:
Bước 1: Thông số
- Z = 1.96
- p = 0.1 (10% lỗi)
- E = 0.03
Bước 2: Tính $$n = \frac{(1.96)^2 \times 0.1 \times 0.9}{(0.03)^2}$$
$$= \frac{3.8416 \times 0.09}{0.0009} = \frac{0.3457}{0.0009} = 384.15$$
Bước 3: Làm tròn $$n = 385 \text{ sản phẩm}$$
So sánh:
- Không biết p (dùng p=0.5): Cần 1,068 sản phẩm
- Biết p=0.1: Chỉ cần 385 sản phẩm
- Chênh lệch: 683 sản phẩm (64% ít hơn!)
Bài học: Thông tin về p giúp giảm đáng kể cỠ mẫu cần thiết.
IV. CÔNG THỨC HIỆU CHỈNH CHO TỔNG THỂ HỮU HẠN
1. Khi nào cần hiệu chỉnh?
Các công thức ở phần II và III áp dụng cho tổng thể vô hạn hoặc rất lớn. Khi tổng thể có kích thước hữu hạn và tương đối nhỏ, cần hiệu chỉnh công thức.
Nguyên tắc hiệu chỉnh:
$$\boxed{\text{Nếu } \frac{n_0}{N} > 5% \text{ (hoặc 0.05) → Cần hiệu chỉnh}}$$
Trong đó:
- $n_0$: Cỡ mẫu ban đầu (tính từ công thức cơ bản)
- $N$: Kích thước tổng thể
Ví dụ kiểm tra:
Trường hợp 1: N = 1,000, $n_0$ = 384 $$\frac{384}{1000} = 38.4% > 5%$$ → ✅ Cần hiệu chỉnh
Trường hợp 2: N = 100,000, $n_0$ = 384 $$\frac{384}{100000} = 0.384% < 5%$$ → ❌ Không cần hiệu chỉnh
2. Công thức hiệu chỉnh (Finite Population Correction – FPC)
Khi cần hiệu chỉnh, sử dụng công thức:
$$\boxed{n = \frac{n_0}{1 + \frac{n_0 – 1}{N}}}$$
Hoặc công thức tương đương (dễ tính hơn):
$$\boxed{n = \frac{n_0 \cdot N}{n_0 + N – 1}}$$
Trong đó:
- $n_0$: Cỡ mẫu ban đầu (từ công thức cơ bản phần II hoặc III)
- $N$: Kích thước tổng thể
- $n$: Cỡ mẫu sau hiệu chỉnh (luôn nhỏ hơn $n_0$)
Tính chất:
- Cỡ mẫu sau hiệu chỉnh luôn nhỏ hơn cỠ mẫu ban đầu: $n < n_0$
- N càng nhỏ, hiệu chỉnh càng lớn (giảm cỠ mẫu càng nhiều)
- Khi N rất lớn, $n \approx n_0$ (hiệu chỉnh không đáng kể)
3. Ví dụ minh họa
Ví dụ 6: Khảo sát trong trường đại học
Đề bài: Một trường đại học có 2,000 sinh viên. Muốn khảo sát ý kiến với độ tin cậy 95%, sai số ±5%, p=0.5. Tính cỠ mẫu cần thiết?
Lời giải:
Bước 1: Tính cỠ mẫu ban đầu
Với độ tin cậy 95%, E=0.05, p=0.5: $$n_0 = \frac{(1.96)^2 \times 0.5 \times 0.5}{(0.05)^2} = \frac{0.9604}{0.0025} = 384.16$$
Làm tròn: $n_0 = 384$
Bước 2: Kiểm tra cần hiệu chỉnh không? $$\frac{n_0}{N} = \frac{384}{2000} = 19.2% > 5%$$
→ ✅ Cần hiệu chỉnh
Bước 3: Áp dụng công thức hiệu chỉnh $$n = \frac{n_0}{1 + \frac{n_0 – 1}{N}} = \frac{384}{1 + \frac{383}{2000}}$$
$$= \frac{384}{1 + 0.1915} = \frac{384}{1.1915} = 322.32$$
Hoặc dùng công thức thứ hai: $$n = \frac{384 \times 2000}{384 + 2000 – 1} = \frac{768000}{2383} = 322.32$$
Bước 4: Làm tròn $$n = 323 \text{ sinh viên}$$
Kết luận:
- Không hiệu chỉnh: Cần 384 sinh viên
- Sau hiệu chỉnh: Chỉ cần 323 sinh viên
- Tiết kiệm: 61 mẫu (16%)
Ví dụ 7: Khảo sát trong công ty nhỏ
Đề bài: Một công ty có 150 nhân viên. Áp dụng công thức cơ bản tính ra cần $n_0 = 108$ nhân viên. Tính cỠ mẫu sau hiệu chỉnh?
Lời giải:
Bước 1: Kiểm tra $$\frac{108}{150} = 72% > 5%$$ → Rất cần hiệu chỉnh!
Bước 2: Hiệu chỉnh $$n = \frac{108 \times 150}{108 + 150 – 1} = \frac{16200}{257} = 63.04$$
$$n = 63 \text{ nhân viên}$$
Kết quả:
- Ban đầu: 108 nhân viên
- Sau hiệu chỉnh: 63 nhân viên
- Giảm: 45 nhân viên (42% ít hơn!)
Nhận xét: Với tổng thể nhỏ, hiệu chỉnh giúp tiết kiệm đáng kể.
V. CÔNG THỨC ĐẶC BIỆT VÀ TRƯỜNG HỢP NÂNG CAO
1. Cỡ mẫu cho so sánh hai nhóm độc lập
Khi nghiên cứu so sánh trung bình của hai nhóm độc lập (ví dụ: so sánh thuốc A vs B, phương pháp 1 vs 2), cỠ mẫu cho mỗi nhóm là:
$$\boxed{n_1 = n_2 = \frac{2(Z_{\alpha/2} + Z_\beta)^2 \sigma^2}{(\mu_1 – \mu_2)^2}}$$
Trong đó:
- $n_1, n_2$: Cỡ mẫu của nhóm 1 và nhóm 2 (thường bằng nhau)
- $Z_{\alpha/2}$: Giá trị Z theo độ tin cậy (như trước)
- $Z_\beta$: Giá trị Z theo “power” của kiểm định
- Power = 1 – β (xác suất phát hiện sự khác biệt khi nó tồn tại)
- Power thường chọn 80% → β = 0.20 → $Z_{0.20} = 0.84$
- Power 90% → $Z_{0.10} = 1.28$
- $\sigma$: Độ lệch chuẩn chung
- $\mu_1 – \mu_2$: Chênh lệch có ý nghĩa mà bạn muốn phát hiện
Ví dụ: So sánh hiệu quả hai phương pháp dạy. Muốn phát hiện chênh lệch điểm số ít nhất 5 điểm, với σ = 10, độ tin cậy 95%, power 80%:
$$n = \frac{2(1.96 + 0.84)^2 \times 10^2}{5^2} = \frac{2 \times 7.84 \times 100}{25} = \frac{1568}{25} = 62.72$$
→ Cần 63 người/nhóm, tổng 126 người.
2. Cỡ mẫu khi dùng phân phối t-Student
Khi σ chưa biết và cỠ mẫu nhỏ (n < 30), về mặt lý thuyết nên dùng phân phối t thay vì Z.
Vấn đề: Để tra bảng t cần biết bậc tự do (df = n-1), nhưng để tính n lại cần giá trị t → Vòng lặp!
Giải pháp thực tế:
- Bước 1: Ước lượng n ban đầu bằng Z
- Bước 2: Dùng n ước lượng để tra t (df = n-1)
- Bước 3: Tính lại n với giá trị t
- Bước 4: Nếu n mới khác nhiều, lặp lại bước 2-3
Lưu ý: Khi n ≥ 30, phân phối t ≈ phân phối Z, nên dùng Z đơn giản hơn.
3. Tăng cỡ mẫu để dự phòng
Trong thực tế, không phải ai được khảo sát cũng trả lời (non-response). Do đó, cần tăng cỠ mẫu dự phòng:
$$\boxed{n_{\text{adjusted}} = \frac{n}{1 – f}}$$
Trong đó:
- $n$: Cỡ mẫu tính được
- $f$: Tỷ lệ không phản hồi dự kiến (non-response rate)
- $n_{\text{adjusted}}$: Cỡ mẫu sau điều chỉnh
Ví dụ tỷ lệ không phản hồi:
- Khảo sát online: 30-40% không phản hồi
- Khảo sát điện thoại: 20-30%
- Phỏng vấn trực tiếp: 10-15%
- Khảo sát bắt buộc: 5-10%
Ví dụ: Cần 400 mẫu, dự kiến 20% không trả lời: $$n_{adj} = \frac{400}{1 – 0.20} = \frac{400}{0.8} = 500$$
→ Cần khảo sát 500 người để đảm bảo có 400 phản hồi.
VI. BẢNG TRA CỨU NHANH VÀ CÔNG CỤ HỖ TRỢ
1. Bảng tra nhanh theo độ tin cậy 95%, p=0.5
Bảng này cho cỠ mẫu với các kích thước tổng thể khác nhau:
| Sai số | N = ∞ | N = 1,000 | N = 5,000 | N = 10,000 | N = 50,000 |
|---|---|---|---|---|---|
| ±1% | 9,604 | 965 | 3,288 | 4,899 | 8,057 |
| ±2% | 2,401 | 706 | 1,622 | 2,098 | 2,291 |
| ±3% | 1,067 | 516 | 880 | 964 | 1,045 |
| ±4% | 600 | 375 | 536 | 566 | 593 |
| ±5% | 384 | 278 | 357 | 370 | 381 |
| ±7% | 196 | 155 | 185 | 192 | 195 |
| ±10% | 96 | 88 | 94 | 95 | 96 |
Cách sử dụng:
- Chọn hàng theo sai số mong muốn (thường ±3% hoặc ±5%)
- Chọn cột theo kích thước tổng thể
- Đọc cỠ mẫu tại ô giao nhau
Ví dụ: Tổng thể 5,000 người, muốn sai số ±5% → Cần 357 mẫu
2. Công thức nhanh thường dùng (độ tin cậy 95%)
Công thức siêu nhanh cho tỷ lệ (p = 0.5):
$$\boxed{n \approx \frac{1}{E^2}}$$
(Với Z = 1.96 ≈ 2 và p(1-p) = 0.25)
Ví dụ áp dụng:
- E = 5% = 0.05 → $n \approx \frac{1}{0.0025} = 400$
- E = 3% = 0.03 → $n \approx \frac{1}{0.0009} = 1,111$
- E = 10% = 0.10 → $n \approx \frac{1}{0.01} = 100$
Lưu ý: Đây là ước lượng nhanh, kết quả chính xác hơn một chút so với công thức đầy đủ.
VII. CÁC SAI LẦM THƯỜNG GẶP VÀ LƯU Ý
1. Sai lầm phổ biến khi tính cỠ mẫu
Sai lầm 1: Nhầm lẫn công thức
❌ SAI: Dùng công thức cho trung bình khi bài toán về tỷ lệ (hoặc ngược lại)
✅ ĐÚNG:
- Biến định lượng (chiều cao, cân nặng, thu nhập) → Công thức trung bình
- Biến định tính (tỷ lệ ủng hộ, tỷ lệ mắc bệnh) → Công thức tỷ lệ
Sai lầm 2: Quên làm tròn lên
❌ SAI: Tính ra n = 384.16 → Lấy n = 384
✅ ĐÚNG: Luôn làm tròn LÊN → n = 385
Lý do: Cỡ mẫu phải đủ để đảm bảo độ chính xác, làm tròn xuống sẽ giảm độ chính xác.
Sai lầm 3: Không hiệu chỉnh khi N nhỏ
❌ SAI: Tổng thể N = 500, tính ra n = 384, dùng luôn
✅ ĐÚNG: Kiểm tra 384/500 = 76.8% > 5% → Cần hiệu chỉnh → n ≈ 218
Sai lầm 4: Nhầm lẫn đơn vị E
❌ SAI: Sai số ±5%, thay E = 5 vào công thức
✅ ĐÚNG: Phải đổi thành thập phân: E = 0.05
Ví dụ sai: $$n = \frac{(1.96)^2 \times 0.25}{5^2} = \frac{0.9604}{25} = 0.038$$ (Vô lý!)
Ví dụ đúng: $$n = \frac{(1.96)^2 \times 0.25}{(0.05)^2} = \frac{0.9604}{0.0025} = 384.16$$
Sai lầm 5: Dùng sai giá trị Z
❌ SAI: Độ tin cậy 95% → Dùng Z = 0.95
✅ ĐÚNG: Độ tin cậy 95% → Z = 1.96 (tra bảng)
Sai lầm 6: Không dự phòng cho non-response
❌ SAI: Cần 400 mẫu, phát 400 phiếu
✅ ĐÚNG: Dự kiến 20% không trả lời → Phát 500 phiếu
2. Lưu ý quan trọng khi áp dụng
Lưu ý 1: Chọn độ tin cậy
📌 90% (Z = 1.645):
- Nghiên cứu thăm dò, sơ bộ
- Ít quan trọng, chi phí hạn chế
📌 95% (Z = 1.96):
- Chuẩn mực cho hầu hết nghiên cứu
- Cân bằng giữa độ chính xác và chi phí
- Khuyến nghị sử dụng
📌 99% (Z = 2.576):
- Nghiên cứu y học, dược phẩm
- Vấn đề an toàn, sức khỏe con người
- Chi phí cao nhưng cần thiết
Lưu ý 2: Chọn sai số cho phép
📌 ±1% – ±2%:
- Rất chính xác, tốn kém
- Nghiên cứu quan trọng về chính sách
- Ví dụ: Điều tra dân số quốc gia
📌 ±3% – ±5%:
- Phổ biến nhất
- Cân bằng tốt giữa chất lượng và chi phí
- Đủ chính xác cho hầu hết mục đích
📌 ±7% – ±10%:
- Nghiên cứu sơ bộ, pilot study
- Khám phá ban đầu
- Chi phí hạn chế
Lưu ý 3: Luôn cộng thêm dự phòng
📌 Mức dự phòng khuyến nghị:
- 10-15%: Khảo sát tại chỗ, giám sát chặt
- 15-20%: Khảo sát điện thoại, có động viên
- 20-30%: Khảo sát online, qua email
- 30-40%: Khảo sát không có động viên, tự nguyện
Công thức: $n_{final} = n \times (1 + \text{tỷ lệ dự phòng})$
Ví dụ: Cần 400 mẫu, dự phòng 20%: $$n_{final} = 400 \times 1.20 = 480$$
Lưu ý 4: Xem xét tính khả thi
✅ Cân nhắc thực tế:
- Ngân sách có đủ không?
- Thời gian cho phép bao lâu?
- Có đủ nhân lực thu thập không?
- Dễ tiếp cận đối tượng không?
Nếu cỠ mẫu tính ra quá lớn:
- Tăng sai số E một chút (từ 3% lên 5%)
- Giảm độ tin cậy (từ 99% xuống 95%)
- Tìm thêm nguồn kinh phí
- Kéo dài thời gian nghiên cứu
VIII. KẾT LUẬN VÀ TÓM TẮT
Bảng tổng hợp công thức
| Trường hợp | Công thức | Khi nào dùng? |
|---|---|---|
| Trung bình (tổng thể lớn) | $n = \left(\frac{Z \cdot \sigma}{E}\right)^2$ | Ước lượng μ, N lớn hoặc vô hạn |
| Tỷ lệ (tổng thể lớn) | $n = \frac{Z^2 \cdot p(1-p)}{E^2}$ | Ước lượng p, N lớn hoặc vô hạn |
| Tỷ lệ, không biết p | $n = \frac{Z^2}{4E^2}$ | Dùng p=0.5, an toàn nhất |
| Hiệu chỉnh tổng thể nhỏ | $n = \frac{n_0 \cdot N}{n_0 + N – 1}$ | Khi $\frac{n_0}{N} > 5%$ |
| Dự phòng non-response | $n_{adj} = \frac{n}{1-f}$ | Điều chỉnh cho không phản hồi |
Quy trình 5 bước tính cỠ mẫu
Bước 1: Xác định loại bài toán ✅
- Nghiên cứu về trung bình (μ) → Dùng công thức trung bình
- Nghiên cứu về tỷ lệ (p) → Dùng công thức tỷ lệ
Bước 2: Chọn độ tin cậy và tra Z ✅
- 90% → Z = 1.645
- 95% → Z = 1.96 (phổ biến nhất)
- 99% → Z = 2.576
Bước 3: Xác định sai số cho phép E ✅
- Chọn dựa trên yêu cầu độ chính xác
- Nhớ đổi sang dạng thập phân (5% = 0.05)
Bước 4: Tính $n_0$ theo công thức phù hợp ✅
- Xác định σ (cho trung bình) hoặc p (cho tỷ lệ)
- Áp dụng công thức, làm tròn LÊN
Bước 5: Hiệu chỉnh và dự phòng ✅
- Kiểm tra $n_0/N > 5%$ → Hiệu chỉnh
- Cộng thêm % dự phòng cho non-response
Sơ đồ quyết định nhanh
BẮT ĐẦU
↓
Nghiên cứu về gì?
├─ Trung bình (chiều cao, cân nặng, điểm số...)
│ → Dùng: n = (Z·σ/E)²
│
└─ Tỷ lệ (%, tỷ lệ ủng hộ, tỷ lệ lỗi...)
→ Dùng: n = Z²·p(1-p)/E²
├─ Biết p → Dùng p đó
└─ Không biết p → Dùng p=0.5
↓
Tính được n₀
↓
Kiểm tra: n₀/N > 5%?
├─ CÓ → Hiệu chỉnh: n = n₀·N/(n₀+N-1)
└─ KHÔNG → Giữ nguyên n = n₀
↓
Dự phòng non-response
→ n_final = n/(1-f)
↓
KẾT QUẢ CUỐI CÙNG
Kết luận
Tính toán cỠ mẫu chính xác là bước quan trọng quyết định thành công của nghiên cứu:
Đảm bảo chất lượng:
- Kết quả có độ tin cậy cao
- Kết luận có giá trị khoa học
- Có thể suy rộng cho tổng thể
Tối ưu nguồn lực:
- Tiết kiệm thời gian, chi phí
- Sử dụng hiệu quả ngân sách
- Tránh lãng phí nhân lực
Tăng tính khả thi:
- Dễ thực hiện thu thập dữ liệu
- Quản lý chất lượng tốt hơn
- Hoàn thành đúng tiến độ
Nguyên tắc vàng khi tính cỠ mẫu:
“Không quá nhiều, không quá ít – Vừa đủ để tin cậy, vừa đủ để khả thi!”
ThS. Nguyễn Văn An
(Người kiểm duyệt, ra đề)
Chức vụ: Tổ trưởng chuyên môn Tổ Toán tại Edus
Trình độ: Cử nhân Sư phạm Toán học, Thạc sĩ Lý luận & Phương pháp dạy học môn Toán, Chức danh nghề nghiệp giáo viên THPT – Hạng II, Tin học ứng dụng cơ bản, Ngoại ngữ B1, Chứng chỉ bồi dưỡng năng lực tổ trưởng chuyên môn
Kinh nghiệm: 12+ năm kinh nghiệm tại Trường THPT chuyên Trần Đại Nghĩa
