Công Thức Tính Cỡ Mẫu (n): Trung Bình, Tỷ Lệ & Hiệu Chỉnh

Mục lục [Ẩn]

Chọn đến phần học sinh cần nhanh chóng thông qua mục lục bằng cách click đến phần đó

I. GIỚI THIỆU VỀ CỠ MẪU
1. Cỡ mẫu là gì?
2. Tại sao phải tính cỡ mẫu?
3. Các yếu tố ảnh hưởng đến cỠ mẫu
II. CÔNG THỨC TÍNH CỠ MẪU CHO TRUNG BÌNH (μ)
1. Công thức cơ bản (tổng thể vô hạn hoặc rất lớn)
2. Bảng tra giá trị Z theo độ tin cậy
3. Cách xác định σ khi chưa biết
4. Ví dụ minh họa chi tiết
III. CÔNG THỨC TÍNH CỠ MẪU CHO TỶ LỆ (p)
1. Công thức cơ bản (tổng thể vô hạn)
2. Cách xác định p khi chưa biết
3. Bảng tra nhanh cỠ mẫu (p = 0.5, worst case)
4. Ví dụ minh họa chi tiết
IV. CÔNG THỨC HIỆU CHỈNH CHO TỔNG THỂ HỮU HẠN
1. Khi nào cần hiệu chỉnh?
2. Công thức hiệu chỉnh (Finite Population Correction – FPC)
3. Ví dụ minh họa
V. CÔNG THỨC ĐẶC BIỆT VÀ TRƯỜNG HỢP NÂNG CAO
1. Cỡ mẫu cho so sánh hai nhóm độc lập
2. Cỡ mẫu khi dùng phân phối t-Student
3. Tăng cỡ mẫu để dự phòng
VI. BẢNG TRA CỨU NHANH VÀ CÔNG CỤ HỖ TRỢ
1. Bảng tra nhanh theo độ tin cậy 95%, p=0.5
2. Công thức nhanh thường dùng (độ tin cậy 95%)
VII. CÁC SAI LẦM THƯỜNG GẶP VÀ LƯU Ý
1. Sai lầm phổ biến khi tính cỠ mẫu
2. Lưu ý quan trọng khi áp dụng
VIII. KẾT LUẬN VÀ TÓM TẮT
Bảng tổng hợp công thức
Quy trình 5 bước tính cỠ mẫu
Sơ đồ quyết định nhanh
Kết luận

I. GIỚI THIỆU VỀ CỠ MẪU

1. Cỡ mẫu là gì?

Định nghĩa:

Cỡ mẫu (sample size), ký hiệu là n, là số lượng đơn vị quan sát (cá thể, đối tượng, trường hợp) được chọn từ tổng thể để tiến hành nghiên cứu, khảo sát, điều tra hoặc thí nghiệm.

Ví dụ thực tế:

Khảo sát giáo dục: Điều tra 500 học sinh về ý kiến học online → n = 500
Nghiên cứu y học: Thử nghiệm thuốc mới trên 100 bệnh nhân → n = 100
Kiểm tra chất lượng: Lấy mẫu 200 sản phẩm từ lô hàng → n = 200
Nghiên cứu thị trường: Phỏng vấn 1,000 người tiêu dùng → n = 1,000
Dịch tễ học: Xét nghiệm 300 người trong vùng dịch → n = 300

Mối quan hệ giữa mẫu và tổng thể:

TỔNG THỂ (N)                    MẪU (n)
[Toàn bộ đối tượng]  ------>  [Phần đại diện]
       ↓                           ↓
  Không khảo sát hết        Khảo sát để suy rộng

2. Tại sao phải tính cỡ mẫu?

Việc xác định cỡ mẫu phù hợp là bước quan trọng quyết định chất lượng nghiên cứu. Cỡ mẫu không phù hợp sẽ dẫn đến nhiều vấn đề:

A. Cỡ mẫu quá nhỏ (n nhỏ) – Under-sampling

❌ Vấn đề:

Không đại diện: Kết quả không phản ánh đúng tổng thể
Sai số lớn: Độ tin cậy thấp, kết luận không chắc chắn
Dễ bị ảnh hưởng: Một vài giá trị bất thường làm sai lệch kết quả
Thiếu sức mạnh thống kê: Không phát hiện được sự khác biệt có ý nghĩa

Ví dụ: Khảo sát ý kiến 10 người trong trường có 5,000 sinh viên → Kết quả không có giá trị đại diện.

B. Cỡ mẫu quá lớn (n lớn) – Over-sampling

❌ Vấn đề:

Tốn kém: Chi phí cao về thời gian, tiền bạc, nhân lực
Không hiệu quả: Lãng phí nguồn lực khi độ chính xác không tăng đáng kể
Khó quản lý: Khó kiểm soát chất lượng thu thập dữ liệu
Phức tạp: Xử lý và phân tích dữ liệu mất nhiều thời gian

Ví dụ: Khảo sát 3,000 người khi chỉ cần 384 người là đủ → Lãng phí 2,616 mẫu.

C. Cỡ mẫu phù hợp – Optimal Sample Size

✅ Lợi ích:

Độ chính xác đảm bảo: Kết quả đủ tin cậy để kết luận
Tối ưu chi phí: Cân bằng giữa độ chính xác và nguồn lực
Khả thi thực hiện: Dễ quản lý và thu thập dữ liệu
Suy rộng được: Kết quả áp dụng cho toàn bộ tổng thể
Có giá trị khoa học: Được cộng đồng khoa học công nhận

Nguyên tắc vàng: “Không quá nhiều, không quá ít – Vừa đủ để tin cậy, vừa đủ để khả thi!”

3. Các yếu tố ảnh hưởng đến cỠ mẫu

Có 4 yếu tố chính quyết định cỡ mẫu cần thiết:

Yếu tố 1: Độ tin cậy (Confidence Level – CL)

Định nghĩa: Xác suất mà kết quả ước lượng từ mẫu chứa giá trị thực của tổng thể.

Các mức thường dùng:

90% (1 – α = 0.90): Nghiên cứu thăm dó, sơ bộ
95% (1 – α = 0.95): Chuẩn mực trong hầu hết nghiên cứu
99% (1 – α = 0.99): Nghiên cứu y học, dược, an toàn cao

Quy luật: Độ tin cậy càng cao → Cỡ mẫu càng lớn

Yếu tố 2: Sai số cho phép (Margin of Error – E)

Định nghĩa: Độ sai lệch tối đa cho phép giữa ước lượng từ mẫu và giá trị thực của tổng thể.

Các mức thường dùng:

±1% – ±2%: Rất chính xác (nghiên cứu quan trọng)
±3% – ±5%: Phổ biến nhất (cân bằng chất lượng và chi phí)
±7% – ±10%: Nghiên cứu sơ bộ, thăm dò

Quy luật: Sai số càng nhỏ → Cỡ mẫu càng lớn

Yếu tố 3: Độ phân tán của tổng thể

Với biến định lượng: Độ lệch chuẩn (σ)

σ lớn → Tổng thể phân tán → Cần mẫu lớn
σ nhỏ → Tổng thể đồng nhất → Cần mẫu nhỏ

Với biến định tính: Tỷ lệ (p)

p gần 0.5 → Độ biến thiên lớn → Cần mẫu lớn
p gần 0 hoặc 1 → Độ biến thiên nhỏ → Cần mẫu nhỏ

Yếu tố 4: Kích thước tổng thể (N)

Quy tắc:

N rất lớn (>100,000): Không ảnh hưởng đáng kể đến n
N trung bình (1,000-100,000): Ảnh hưởng nhẹ
N nhỏ (<1,000): Cần hiệu chỉnh công thức

Ngưỡng quan trọng: Khi n > 5%N → Cần hiệu chỉnh

II. CÔNG THỨC TÍNH CỠ MẪU CHO TRUNG BÌNH (μ)

1. Công thức cơ bản (tổng thể vô hạn hoặc rất lớn)

Khi nghiên cứu về giá trị trung bình của một biến định lượng (ví dụ: chiều cao, cân nặng, thu nhập, điểm số, thời gian,…), sử dụng công thức:

$$\boxed{n = \left(\frac{Z_{\alpha/2} \cdot \sigma}{E}\right)^2}$$

Giải thích các thành phần:

n: Cỡ mẫu cần tính (số đơn vị cần điều tra)
$Z_{\alpha/2}$: Giá trị tới hạn từ phân phối chuẩn hóa (tra bảng Z)
- Phụ thuộc vào độ tin cậy mong muốn
- $\alpha$ = 1 – Độ tin cậy
σ (sigma): Độ lệch chuẩn của tổng thể
- Đo lường mức độ phân tán của dữ liệu
- Có cùng đơn vị với biến nghiên cứu
E: Sai số cho phép (margin of error)
- Độ chính xác mong muốn
- Có cùng đơn vị với biến nghiên cứu

Đơn vị: Tất cả các đại lượng σ và E phải có cùng đơn vị.

2. Bảng tra giá trị Z theo độ tin cậy

Giá trị $Z_{\alpha/2}$ được tra từ bảng phân phối chuẩn tắc:

Độ tin cậy	α	α/2	$Z_{\alpha/2}$	Khi nào dùng?
90%	0.10	0.05	1.645	Nghiên cứu thăm dò, sơ bộ
95%	0.05	0.025	1.96	Chuẩn mực chung (phổ biến nhất)
99%	0.01	0.005	2.576	Nghiên cứu y học, dược, an toàn
99.9%	0.001	0.0005	3.291	Nghiên cứu đặc biệt quan trọng

Giá trị thường dùng nhất: $Z_{0.025} = 1.96$ (độ tin cậy 95%)

Mẹo nhớ nhanh:

90% → Z ≈ 1.65
95% → Z ≈ 2
99% → Z ≈ 2.58

3. Cách xác định σ khi chưa biết

Trong thực tế, σ của tổng thể thường không biết trước. Có 4 cách xác định:

Cách 1: Sử dụng nghiên cứu trước

Tham khảo các nghiên cứu tương tự đã công bố, lấy σ từ đó.

Ví dụ: Nghiên cứu chiều cao học sinh lớp 12, tham khảo nghiên cứu năm trước cho biết σ = 8 cm.

Cách 2: Khảo sát thử (Pilot Study)

Tiến hành khảo sát thử với mẫu nhỏ (30-50 đơn vị) để ước lượng độ lệch chuẩn mẫu (s), sau đó dùng s thay cho σ.

Quy trình:

Lấy mẫu thử n = 30-50
Tính độ lệch chuẩn mẫu s
Ước lượng: σ ≈ s
Tính cỡ mẫu chính thức

Cách 3: Ước lượng từ khoảng giá trị

Nếu biết giá trị lớn nhất và nhỏ nhất có thể, sử dụng công thức ước lượng:

$$\sigma \approx \frac{\text{Max} – \text{Min}}{4}$$

Lý do: Trong phân phối chuẩn, khoảng cách từ Min đến Max xấp xỉ 4σ.

Ví dụ: Điểm số từ 0 đến 100 → $\sigma \approx \frac{100 – 0}{4} = 25$

Cách 4: Ước lượng an toàn (Conservative Estimate)

Khi hoàn toàn không có thông tin, sử dụng σ lớn nhất có thể trong phạm vi hợp lý để đảm bảo cỡ mẫu đủ lớn.

Nguyên tắc: Thà ước lượng cao hơn (cỡ mẫu lớn hơn) còn hơn thiếu.

4. Ví dụ minh họa chi tiết

Ví dụ 1: Nghiên cứu chiều cao học sinh

Đề bài: Một nhà nghiên cứu muốn ước lượng chiều cao trung bình của học sinh lớp 12 trong thành phố. Từ nghiên cứu trước, biết độ lệch chuẩn chiều cao là 8 cm. Muốn ước lượng với độ tin cậy 95% và sai số không quá ±2 cm. Hỏi cần điều tra bao nhiêu học sinh?

Lời giải:

Bước 1: Xác định các thông số

Độ tin cậy = 95% → α = 0.05 → α/2 = 0.025 → $Z_{0.025} = 1.96$
σ = 8 cm (độ lệch chuẩn)
E = 2 cm (sai số cho phép)

Bước 2: Áp dụng công thức $$n = \left(\frac{Z_{\alpha/2} \cdot \sigma}{E}\right)^2 = \left(\frac{1.96 \times 8}{2}\right)^2$$

$$= \left(\frac{15.68}{2}\right)^2 = (7.84)^2 = 61.4656$$

Bước 3: Làm tròn lên

Cỡ mẫu phải là số nguyên và luôn làm tròn lên (không làm tròn xuống): $$n = 62 \text{ học sinh}$$

Kết luận: Cần điều tra tối thiểu 62 học sinh để đảm bảo độ chính xác mong muốn.

Ví dụ 2: Nghiên cứu cân nặng trẻ sơ sinh

Đề bài: Bệnh viện muốn ước lượng cân nặng trung bình của trẻ sơ sinh. Nghiên cứu trước cho biết σ = 0.5 kg. Muốn độ tin cậy 99% với sai số không quá ±0.1 kg. Cần quan sát bao nhiêu trẻ?

Lời giải:

Bước 1: Xác định thông số

Độ tin cậy = 99% → $Z_{0.005} = 2.576$
σ = 0.5 kg
E = 0.1 kg

Bước 2: Tính toán $$n = \left(\frac{2.576 \times 0.5}{0.1}\right)^2 = \left(\frac{1.288}{0.1}\right)^2 = (12.88)^2 = 165.8944$$

Bước 3: Làm tròn $$n = 166 \text{ trẻ sơ sinh}$$

Nhận xét: Độ tin cậy cao hơn (99% so với 95%) dẫn đến cỠ mẫu lớn hơn đáng kể.

III. CÔNG THỨC TÍNH CỠ MẪU CHO TỶ LỆ (p)

1. Công thức cơ bản (tổng thể vô hạn)

Khi nghiên cứu về tỷ lệ/phần trăm của một đặc tính (ví dụ: tỷ lệ ủng hộ, tỷ lệ mắc bệnh, tỷ lệ hài lòng, tỷ lệ lỗi,…), sử dụng công thức:

$$\boxed{n = \frac{Z_{\alpha/2}^2 \cdot p(1-p)}{E^2}}$$

Giải thích các thành phần:

n: Cỡ mẫu cần tính
$Z_{\alpha/2}$: Giá trị tới hạn (tra bảng Z như phần II)
p: Tỷ lệ ước tính của đặc tính trong tổng thể (0 < p < 1)
- Biểu diễn dưới dạng thập phân (VD: 60% = 0.6)
E: Sai số cho phép (margin of error)
- Lưu ý quan trọng: Cũng phải dưới dạng thập phân
- VD: ±5% = 0.05, ±3% = 0.03

Đơn vị: p và E đều là số không có đơn vị (dạng thập phân hoặc %)

2. Cách xác định p khi chưa biết

Có 3 cách xác định tỷ lệ p:

Cách 1: Sử dụng thông tin từ nghiên cứu trước

Tham khảo các nghiên cứu, khảo sát tương tự đã thực hiện.

Ví dụ: Nghiên cứu trước cho biết 60% học sinh hài lòng → p = 0.6

Cách 2: Khảo sát thử (Pilot Study)

Tiến hành khảo sát thử quy mô nhỏ để ước lượng p.

Ví dụ: Khảo sát thử 50 người, có 30 người ủng hộ → p = 30/50 = 0.6

Cách 3: Không có thông tin → Dùng p = 0.5 (Phổ biến nhất)

Lý do toán học:

Tích p(1-p) đạt giá trị cực đại khi p = 0.5:

p = 0.5 → p(1-p) = 0.5 × 0.5 = 0.25 (cực đại)
p = 0.3 → p(1-p) = 0.3 × 0.7 = 0.21 (nhỏ hơn)
p = 0.8 → p(1-p) = 0.8 × 0.2 = 0.16 (nhỏ hơn)

Ý nghĩa thực tế:

Dùng p = 0.5 cho cỠ mẫu lớn nhất (worst-case scenario)
Đảm bảo “an toàn” cho mọi trường hợp
Thường dùng khi khảo sát ý kiến, thái độ chưa biết trước

Công thức đơn giản khi p = 0.5:

$$n = \frac{Z_{\alpha/2}^2 \cdot 0.25}{E^2} = \frac{Z_{\alpha/2}^2}{4E^2}$$

3. Bảng tra nhanh cỠ mẫu (p = 0.5, worst case)

Bảng này cho cỠ mẫu tối đa cần thiết với các mức sai số khác nhau:

Sai số E	Độ tin cậy 90%	Độ tin cậy 95%	Độ tin cậy 99%
±1% (0.01)	6,766	9,604	16,590
±2% (0.02)	1,692	2,401	4,148
±3% (0.03)	752	1,067	1,843
±4% (0.04)	423	600	1,037
±5% (0.05)	271	384	664
±7% (0.07)	139	196	339
±10% (0.10)	68	96	166

Cách sử dụng bảng:

Chọn độ tin cậy mong muốn (thường là 95%)
Chọn sai số cho phép (thường là ±3% đến ±5%)
Đọc cỠ mẫu tương ứng

Ví dụ: Muốn độ tin cậy 95% và sai số ±5% → Cần n = 384 mẫu

Lưu ý: Đây là cỠ mẫu tối đa. Nếu biết p khác 0.5, cỠ mẫu thực tế sẽ nhỏ hơn.

4. Ví dụ minh họa chi tiết

Ví dụ 3: Khảo sát mức độ hài lòng

Đề bài: Nhà trường muốn khảo sát tỷ lệ học sinh hài lòng với phương pháp học online. Muốn độ tin cậy 95% và sai số không quá ±4%. Một nghiên cứu trước cho biết khoảng 60% học sinh hài lòng. Hỏi cần khảo sát bao nhiêu học sinh?

Lời giải:

Bước 1: Xác định thông số

Độ tin cậy = 95% → Z = 1.96
p = 0.6 (60% hài lòng từ nghiên cứu trước)
E = 0.04 (sai số ±4%)

Bước 2: Áp dụng công thức $$n = \frac{Z^2 \cdot p(1-p)}{E^2} = \frac{(1.96)^2 \times 0.6 \times 0.4}{(0.04)^2}$$

$$= \frac{3.8416 \times 0.24}{0.0016} = \frac{0.9220}{0.0016} = 576.24$$

Bước 3: Làm tròn $$n = 577 \text{ học sinh}$$

Kết luận: Cần khảo sát tối thiểu 577 học sinh.

Ví dụ 4: Ước lượng tỷ lệ sản phẩm lỗi (không biết p)

Đề bài: Nhà máy muốn ước lượng tỷ lệ sản phẩm lỗi trong quy trình sản xuất. Chưa có thông tin về tỷ lệ lỗi. Muốn độ tin cậy 95% và sai số ±3%. Cần kiểm tra bao nhiêu sản phẩm?

Lời giải:

Vì không biết p → Dùng p = 0.5 (an toàn nhất)

Bước 1: Xác định thông số

Độ tin cậy = 95% → Z = 1.96
p = 0.5 (giả định worst case)
E = 0.03 (±3%)

Bước 2: Tính toán $$n = \frac{(1.96)^2 \times 0.5 \times 0.5}{(0.03)^2}$$

$$= \frac{3.8416 \times 0.25}{0.0009} = \frac{0.9604}{0.0009} = 1067.11$$

Bước 3: Làm tròn $$n = 1,068 \text{ sản phẩm}$$

Ví dụ 5: So sánh khi biết p trước

Đề bài: Cùng bài toán như Ví dụ 4, nhưng giả sử từ kinh nghiệm biết tỷ lệ lỗi khoảng 10%. Tính lại cỠ mẫu?

Lời giải:

Bước 1: Thông số

Z = 1.96
p = 0.1 (10% lỗi)
E = 0.03

Bước 2: Tính $$n = \frac{(1.96)^2 \times 0.1 \times 0.9}{(0.03)^2}$$

$$= \frac{3.8416 \times 0.09}{0.0009} = \frac{0.3457}{0.0009} = 384.15$$

Bước 3: Làm tròn $$n = 385 \text{ sản phẩm}$$

So sánh:

Không biết p (dùng p=0.5): Cần 1,068 sản phẩm
Biết p=0.1: Chỉ cần 385 sản phẩm
Chênh lệch: 683 sản phẩm (64% ít hơn!)

Bài học: Thông tin về p giúp giảm đáng kể cỠ mẫu cần thiết.

IV. CÔNG THỨC HIỆU CHỈNH CHO TỔNG THỂ HỮU HẠN

1. Khi nào cần hiệu chỉnh?

Các công thức ở phần II và III áp dụng cho tổng thể vô hạn hoặc rất lớn. Khi tổng thể có kích thước hữu hạn và tương đối nhỏ, cần hiệu chỉnh công thức.

Nguyên tắc hiệu chỉnh:

$$\boxed{\text{Nếu } \frac{n_0}{N} > 5% \text{ (hoặc 0.05) → Cần hiệu chỉnh}}$$

Trong đó:

$n_0$: Cỡ mẫu ban đầu (tính từ công thức cơ bản)
$N$: Kích thước tổng thể

Ví dụ kiểm tra:

Trường hợp 1: N = 1,000, $n_0$ = 384 $$\frac{384}{1000} = 38.4% > 5%$$ → ✅ Cần hiệu chỉnh

Trường hợp 2: N = 100,000, $n_0$ = 384 $$\frac{384}{100000} = 0.384% < 5%$$ → ❌ Không cần hiệu chỉnh

2. Công thức hiệu chỉnh (Finite Population Correction – FPC)

Khi cần hiệu chỉnh, sử dụng công thức:

$$\boxed{n = \frac{n_0}{1 + \frac{n_0 – 1}{N}}}$$

Hoặc công thức tương đương (dễ tính hơn):

$$\boxed{n = \frac{n_0 \cdot N}{n_0 + N – 1}}$$

Trong đó:

$n_0$: Cỡ mẫu ban đầu (từ công thức cơ bản phần II hoặc III)
$N$: Kích thước tổng thể
$n$: Cỡ mẫu sau hiệu chỉnh (luôn nhỏ hơn $n_0$)

Tính chất:

Cỡ mẫu sau hiệu chỉnh luôn nhỏ hơn cỠ mẫu ban đầu: $n < n_0$
N càng nhỏ, hiệu chỉnh càng lớn (giảm cỠ mẫu càng nhiều)
Khi N rất lớn, $n \approx n_0$ (hiệu chỉnh không đáng kể)

3. Ví dụ minh họa

Ví dụ 6: Khảo sát trong trường đại học

Đề bài: Một trường đại học có 2,000 sinh viên. Muốn khảo sát ý kiến với độ tin cậy 95%, sai số ±5%, p=0.5. Tính cỠ mẫu cần thiết?

Lời giải:

Bước 1: Tính cỠ mẫu ban đầu

Với độ tin cậy 95%, E=0.05, p=0.5: $$n_0 = \frac{(1.96)^2 \times 0.5 \times 0.5}{(0.05)^2} = \frac{0.9604}{0.0025} = 384.16$$

Làm tròn: $n_0 = 384$

Bước 2: Kiểm tra cần hiệu chỉnh không? $$\frac{n_0}{N} = \frac{384}{2000} = 19.2% > 5%$$

→ ✅ Cần hiệu chỉnh

Bước 3: Áp dụng công thức hiệu chỉnh $$n = \frac{n_0}{1 + \frac{n_0 – 1}{N}} = \frac{384}{1 + \frac{383}{2000}}$$

$$= \frac{384}{1 + 0.1915} = \frac{384}{1.1915} = 322.32$$

Hoặc dùng công thức thứ hai: $$n = \frac{384 \times 2000}{384 + 2000 – 1} = \frac{768000}{2383} = 322.32$$

Bước 4: Làm tròn $$n = 323 \text{ sinh viên}$$

Kết luận:

Không hiệu chỉnh: Cần 384 sinh viên
Sau hiệu chỉnh: Chỉ cần 323 sinh viên
Tiết kiệm: 61 mẫu (16%)

Ví dụ 7: Khảo sát trong công ty nhỏ

Đề bài: Một công ty có 150 nhân viên. Áp dụng công thức cơ bản tính ra cần $n_0 = 108$ nhân viên. Tính cỠ mẫu sau hiệu chỉnh?

Lời giải:

Bước 1: Kiểm tra $$\frac{108}{150} = 72% > 5%$$ → Rất cần hiệu chỉnh!

Bước 2: Hiệu chỉnh $$n = \frac{108 \times 150}{108 + 150 – 1} = \frac{16200}{257} = 63.04$$

$$n = 63 \text{ nhân viên}$$

Kết quả:

Ban đầu: 108 nhân viên
Sau hiệu chỉnh: 63 nhân viên
Giảm: 45 nhân viên (42% ít hơn!)

Nhận xét: Với tổng thể nhỏ, hiệu chỉnh giúp tiết kiệm đáng kể.

V. CÔNG THỨC ĐẶC BIỆT VÀ TRƯỜNG HỢP NÂNG CAO

1. Cỡ mẫu cho so sánh hai nhóm độc lập

Khi nghiên cứu so sánh trung bình của hai nhóm độc lập (ví dụ: so sánh thuốc A vs B, phương pháp 1 vs 2), cỠ mẫu cho mỗi nhóm là:

$$\boxed{n_1 = n_2 = \frac{2(Z_{\alpha/2} + Z_\beta)^2 \sigma^2}{(\mu_1 – \mu_2)^2}}$$

Trong đó:

$n_1, n_2$: Cỡ mẫu của nhóm 1 và nhóm 2 (thường bằng nhau)
$Z_{\alpha/2}$: Giá trị Z theo độ tin cậy (như trước)
$Z_\beta$: Giá trị Z theo “power” của kiểm định
- Power = 1 – β (xác suất phát hiện sự khác biệt khi nó tồn tại)
- Power thường chọn 80% → β = 0.20 → $Z_{0.20} = 0.84$
- Power 90% → $Z_{0.10} = 1.28$
$\sigma$: Độ lệch chuẩn chung
$\mu_1 – \mu_2$: Chênh lệch có ý nghĩa mà bạn muốn phát hiện

Ví dụ: So sánh hiệu quả hai phương pháp dạy. Muốn phát hiện chênh lệch điểm số ít nhất 5 điểm, với σ = 10, độ tin cậy 95%, power 80%:

$$n = \frac{2(1.96 + 0.84)^2 \times 10^2}{5^2} = \frac{2 \times 7.84 \times 100}{25} = \frac{1568}{25} = 62.72$$

→ Cần 63 người/nhóm, tổng 126 người.

2. Cỡ mẫu khi dùng phân phối t-Student

Khi σ chưa biết và cỠ mẫu nhỏ (n < 30), về mặt lý thuyết nên dùng phân phối t thay vì Z.

Vấn đề: Để tra bảng t cần biết bậc tự do (df = n-1), nhưng để tính n lại cần giá trị t → Vòng lặp!

Giải pháp thực tế:

Bước 1: Ước lượng n ban đầu bằng Z
Bước 2: Dùng n ước lượng để tra t (df = n-1)
Bước 3: Tính lại n với giá trị t
Bước 4: Nếu n mới khác nhiều, lặp lại bước 2-3

Lưu ý: Khi n ≥ 30, phân phối t ≈ phân phối Z, nên dùng Z đơn giản hơn.

3. Tăng cỡ mẫu để dự phòng

Trong thực tế, không phải ai được khảo sát cũng trả lời (non-response). Do đó, cần tăng cỠ mẫu dự phòng:

$$\boxed{n_{\text{adjusted}} = \frac{n}{1 – f}}$$

Trong đó:

$n$: Cỡ mẫu tính được
$f$: Tỷ lệ không phản hồi dự kiến (non-response rate)
$n_{\text{adjusted}}$: Cỡ mẫu sau điều chỉnh

Ví dụ tỷ lệ không phản hồi:

Khảo sát online: 30-40% không phản hồi
Khảo sát điện thoại: 20-30%
Phỏng vấn trực tiếp: 10-15%
Khảo sát bắt buộc: 5-10%

Ví dụ: Cần 400 mẫu, dự kiến 20% không trả lời: $$n_{adj} = \frac{400}{1 – 0.20} = \frac{400}{0.8} = 500$$

→ Cần khảo sát 500 người để đảm bảo có 400 phản hồi.

VI. BẢNG TRA CỨU NHANH VÀ CÔNG CỤ HỖ TRỢ

1. Bảng tra nhanh theo độ tin cậy 95%, p=0.5

Bảng này cho cỠ mẫu với các kích thước tổng thể khác nhau:

Sai số	N = ∞	N = 1,000	N = 5,000	N = 10,000	N = 50,000
±1%	9,604	965	3,288	4,899	8,057
±2%	2,401	706	1,622	2,098	2,291
±3%	1,067	516	880	964	1,045
±4%	600	375	536	566	593
±5%	384	278	357	370	381
±7%	196	155	185	192	195
±10%	96	88	94	95	96

Cách sử dụng:

Chọn hàng theo sai số mong muốn (thường ±3% hoặc ±5%)
Chọn cột theo kích thước tổng thể
Đọc cỠ mẫu tại ô giao nhau

Ví dụ: Tổng thể 5,000 người, muốn sai số ±5% → Cần 357 mẫu

2. Công thức nhanh thường dùng (độ tin cậy 95%)

Công thức siêu nhanh cho tỷ lệ (p = 0.5):

$$\boxed{n \approx \frac{1}{E^2}}$$

(Với Z = 1.96 ≈ 2 và p(1-p) = 0.25)

Ví dụ áp dụng:

E = 5% = 0.05 → $n \approx \frac{1}{0.0025} = 400$
E = 3% = 0.03 → $n \approx \frac{1}{0.0009} = 1,111$
E = 10% = 0.10 → $n \approx \frac{1}{0.01} = 100$

Lưu ý: Đây là ước lượng nhanh, kết quả chính xác hơn một chút so với công thức đầy đủ.

VII. CÁC SAI LẦM THƯỜNG GẶP VÀ LƯU Ý

1. Sai lầm phổ biến khi tính cỠ mẫu

Sai lầm 1: Nhầm lẫn công thức

❌ SAI: Dùng công thức cho trung bình khi bài toán về tỷ lệ (hoặc ngược lại)

✅ ĐÚNG:

Biến định lượng (chiều cao, cân nặng, thu nhập) → Công thức trung bình
Biến định tính (tỷ lệ ủng hộ, tỷ lệ mắc bệnh) → Công thức tỷ lệ

Sai lầm 2: Quên làm tròn lên

❌ SAI: Tính ra n = 384.16 → Lấy n = 384

✅ ĐÚNG: Luôn làm tròn LÊN → n = 385

Lý do: Cỡ mẫu phải đủ để đảm bảo độ chính xác, làm tròn xuống sẽ giảm độ chính xác.

Sai lầm 3: Không hiệu chỉnh khi N nhỏ

❌ SAI: Tổng thể N = 500, tính ra n = 384, dùng luôn

✅ ĐÚNG: Kiểm tra 384/500 = 76.8% > 5% → Cần hiệu chỉnh → n ≈ 218

Sai lầm 4: Nhầm lẫn đơn vị E

❌ SAI: Sai số ±5%, thay E = 5 vào công thức

✅ ĐÚNG: Phải đổi thành thập phân: E = 0.05

Ví dụ sai: $$n = \frac{(1.96)^2 \times 0.25}{5^2} = \frac{0.9604}{25} = 0.038$$ (Vô lý!)

Ví dụ đúng: $$n = \frac{(1.96)^2 \times 0.25}{(0.05)^2} = \frac{0.9604}{0.0025} = 384.16$$

Sai lầm 5: Dùng sai giá trị Z

❌ SAI: Độ tin cậy 95% → Dùng Z = 0.95

✅ ĐÚNG: Độ tin cậy 95% → Z = 1.96 (tra bảng)

Sai lầm 6: Không dự phòng cho non-response

❌ SAI: Cần 400 mẫu, phát 400 phiếu

✅ ĐÚNG: Dự kiến 20% không trả lời → Phát 500 phiếu

2. Lưu ý quan trọng khi áp dụng

Lưu ý 1: Chọn độ tin cậy

📌 90% (Z = 1.645):

Nghiên cứu thăm dò, sơ bộ
Ít quan trọng, chi phí hạn chế

📌 95% (Z = 1.96):

Chuẩn mực cho hầu hết nghiên cứu
Cân bằng giữa độ chính xác và chi phí
Khuyến nghị sử dụng

📌 99% (Z = 2.576):

Nghiên cứu y học, dược phẩm
Vấn đề an toàn, sức khỏe con người
Chi phí cao nhưng cần thiết

Lưu ý 2: Chọn sai số cho phép

📌 ±1% – ±2%:

Rất chính xác, tốn kém
Nghiên cứu quan trọng về chính sách
Ví dụ: Điều tra dân số quốc gia

📌 ±3% – ±5%:

Phổ biến nhất
Cân bằng tốt giữa chất lượng và chi phí
Đủ chính xác cho hầu hết mục đích

📌 ±7% – ±10%:

Nghiên cứu sơ bộ, pilot study
Khám phá ban đầu
Chi phí hạn chế

Lưu ý 3: Luôn cộng thêm dự phòng

📌 Mức dự phòng khuyến nghị:

10-15%: Khảo sát tại chỗ, giám sát chặt
15-20%: Khảo sát điện thoại, có động viên
20-30%: Khảo sát online, qua email
30-40%: Khảo sát không có động viên, tự nguyện

Công thức: $n_{final} = n \times (1 + \text{tỷ lệ dự phòng})$

Ví dụ: Cần 400 mẫu, dự phòng 20%: $$n_{final} = 400 \times 1.20 = 480$$

Lưu ý 4: Xem xét tính khả thi

✅ Cân nhắc thực tế:

Ngân sách có đủ không?
Thời gian cho phép bao lâu?
Có đủ nhân lực thu thập không?
Dễ tiếp cận đối tượng không?

Nếu cỠ mẫu tính ra quá lớn:

Tăng sai số E một chút (từ 3% lên 5%)
Giảm độ tin cậy (từ 99% xuống 95%)
Tìm thêm nguồn kinh phí
Kéo dài thời gian nghiên cứu

VIII. KẾT LUẬN VÀ TÓM TẮT

Bảng tổng hợp công thức

Trường hợp	Công thức	Khi nào dùng?
Trung bình (tổng thể lớn)	$n = \left(\frac{Z \cdot \sigma}{E}\right)^2$	Ước lượng μ, N lớn hoặc vô hạn
Tỷ lệ (tổng thể lớn)	$n = \frac{Z^2 \cdot p(1-p)}{E^2}$	Ước lượng p, N lớn hoặc vô hạn
Tỷ lệ, không biết p	$n = \frac{Z^2}{4E^2}$	Dùng p=0.5, an toàn nhất
Hiệu chỉnh tổng thể nhỏ	$n = \frac{n_0 \cdot N}{n_0 + N – 1}$	Khi $\frac{n_0}{N} > 5%$
Dự phòng non-response	$n_{adj} = \frac{n}{1-f}$	Điều chỉnh cho không phản hồi

Quy trình 5 bước tính cỠ mẫu

Bước 1: Xác định loại bài toán ✅

Nghiên cứu về trung bình (μ) → Dùng công thức trung bình
Nghiên cứu về tỷ lệ (p) → Dùng công thức tỷ lệ

Bước 2: Chọn độ tin cậy và tra Z ✅

90% → Z = 1.645
95% → Z = 1.96 (phổ biến nhất)
99% → Z = 2.576

Bước 3: Xác định sai số cho phép E ✅

Chọn dựa trên yêu cầu độ chính xác
Nhớ đổi sang dạng thập phân (5% = 0.05)

Bước 4: Tính $n_0$ theo công thức phù hợp ✅

Xác định σ (cho trung bình) hoặc p (cho tỷ lệ)
Áp dụng công thức, làm tròn LÊN

Bước 5: Hiệu chỉnh và dự phòng ✅

Kiểm tra $n_0/N > 5%$ → Hiệu chỉnh
Cộng thêm % dự phòng cho non-response

Sơ đồ quyết định nhanh

BẮT ĐẦU
    ↓
Nghiên cứu về gì?
    ├─ Trung bình (chiều cao, cân nặng, điểm số...)
    │   → Dùng: n = (Z·σ/E)²
    │
    └─ Tỷ lệ (%, tỷ lệ ủng hộ, tỷ lệ lỗi...)
        → Dùng: n = Z²·p(1-p)/E²
             ├─ Biết p → Dùng p đó
             └─ Không biết p → Dùng p=0.5
    ↓
Tính được n₀
    ↓
Kiểm tra: n₀/N > 5%?
    ├─ CÓ → Hiệu chỉnh: n = n₀·N/(n₀+N-1)
    └─ KHÔNG → Giữ nguyên n = n₀
    ↓
Dự phòng non-response
    → n_final = n/(1-f)
    ↓
KẾT QUẢ CUỐI CÙNG

Kết luận

Tính toán cỠ mẫu chính xác là bước quan trọng quyết định thành công của nghiên cứu:

Đảm bảo chất lượng:

Kết quả có độ tin cậy cao
Kết luận có giá trị khoa học
Có thể suy rộng cho tổng thể

Tối ưu nguồn lực:

Tiết kiệm thời gian, chi phí
Sử dụng hiệu quả ngân sách
Tránh lãng phí nhân lực

Tăng tính khả thi:

Dễ thực hiện thu thập dữ liệu
Quản lý chất lượng tốt hơn
Hoàn thành đúng tiến độ

Nguyên tắc vàng khi tính cỠ mẫu:

“Không quá nhiều, không quá ít – Vừa đủ để tin cậy, vừa đủ để khả thi!”

ThS. Nguyễn Văn An

(Người kiểm duyệt, ra đề)

Chức vụ: Tổ trưởng chuyên môn Tổ Toán tại Edus

Trình độ: Cử nhân Sư phạm Toán học, Thạc sĩ Lý luận & Phương pháp dạy học môn Toán, Chức danh nghề nghiệp giáo viên THPT – Hạng II, Tin học ứng dụng cơ bản, Ngoại ngữ B1, Chứng chỉ bồi dưỡng năng lực tổ trưởng chuyên môn

Kinh nghiệm: 12+ năm kinh nghiệm tại Trường THPT chuyên Trần Đại Nghĩa

MÔN TOáN 1

MÔN TIếNG VIệT 1

MÔN TIếNG ANH 1

MÔN Tự NHIêN Và Xã HộI 1

MÔN ĐạO ĐứC 1

MÔN GIáO DụC ĐịA PHươNG 1

MÔN TOáN 2

MÔN TIếNG VIệT 2

MÔN TIếNG ANH 2

MÔN Tự NHIêN Và Xã HộI 2

MÔN ĐạO ĐứC 2

MÔN ÂM NHạC 2

MÔN Mỹ THUậT 2

MÔN HĐ TRảI NGHIệM, HướNG NGHIệP 2

MÔN GIáO DụC ĐịA PHươNG 2

MÔN TOáN 3

MÔN TIếNG VIệT 3

MÔN TIếNG ANH 3

MÔN Tự NHIêN Và Xã HộI 3

MÔN ĐạO ĐứC 3

MÔN TIN HọC 3

MÔN HĐ TRảI NGHIệM, HướNG NGHIệP 3

MÔN CôNG NGHệ 3

MÔN ÂM NHạC 3

MÔN GIáO DụC THể CHấT 3

MÔN GIáO DụC ĐịA PHươNG 3

MÔN TOáN 4

MÔN TIếNG VIệT 4

MÔN TIếNG ANH 4

MÔN LịCH Sử Và ĐịA Lí 4

MÔN KHOA HọC 4

MÔN ĐạO ĐứC 4

MÔN TIN HọC 4

MÔN CôNG NGHệ 4

MÔN HĐ TRảI NGHIệM, HướNG NGHIệP 4

MÔN ÂM NHạC 4

MÔN GIáO DụC THể CHấT 4

MÔN GIáO DụC ĐịA PHươNG 4

MÔN TOáN 5

MÔN TIếNG VIệT 5

MÔN TIếNG ANH 5

MÔN LịCH Sử Và ĐịA Lí 5

MÔN KHOA HọC 5

MÔN ĐạO ĐứC 5

MÔN TIN HọC 5

MÔN HOạT ĐộNG TRảI NGHIệM 5

MÔN CôNG NGHệ 5

MÔN NGữ VăN 6

MÔN TOáN 6

MÔN TIếNG ANH 6

MÔN KHOA HọC Tự NHIêN 6

MÔN LịCH Sử Và ĐịA Lí 6

MÔN GDCD 6

MÔN CôNG NGHệ 6

MÔN TIN HọC 6

MÔN HOạT ĐộNG TRảI NGHIệM 6

MÔN NGữ VăN 7

MÔN TOáN 7

MÔN TIếNG ANH 7

MÔN KHOA HọC Tự NHIêN 7

MÔN LịCH Sử Và ĐịA Lí 7

MÔN GDCD 7

MÔN CôNG NGHệ 7

MÔN TIN HọC 7

MÔN HOạT ĐộNG TRảI NGHIệM 7

MÔN NGữ VăN 8

MÔN TOáN 8

MÔN TIếNG ANH 8

MÔN KHOA HọC Tự NHIêN 8

MÔN LịCH Sử Và ĐịA Lí 8

MÔN GDCD 8

MÔN CôNG NGHệ 8

MÔN TIN HọC 8

MÔN HOạT ĐộNG TRảI NGHIệM 8

MÔN NGữ VăN 9

MÔN TOáN 9

MÔN TIếNG ANH 9

MÔN KHOA HọC Tự NHIêN 9

MÔN LịCH Sử Và ĐịA Lí 9

MÔN GDCD 9