Trị số P và nghiên cứu về khẩu trang
GS Nguyễn Tuấn
Một bạn đọc msg tôi hỏi là tại sao trị số P = 0.02 trong nghiên cứu về hiệu quả của khẩu trang trên Nat Med [1] không được xem là có ý nghĩa thống kê. Câu trả lời hơi dài dòng và là đề tài của rất rất nhiều nghiên cứu trong quá khứ. Nhân dịp câu hỏi này, tôi xin bàn qua về trị số P và cách hiệu chỉnh khi phải kiểm định nhiều giả thuyết khoa học — một vấn đề mà nhiều đồng nghiệp trong nước ít khi để ý.
1. Một chút lí thuyết
Trong kiểm định giả thuyết khoa học, trị số P không phải dễ hiểu. Trong nghiên cứu khoa học chúng ta kiểm định 1 giả thuyết khoa học bằng hai giả thuyết thống kê: giả thuyết vô hiệu H0 phát biểu rằng hai nhóm không khác nhau (can thiệp không có hiệu quả); giả thuyết chánh HA là hai nhóm khác nhau (can thiệp có hiệu quả). Lí do phải có giả thuyết vô hiệu là vì chúng ta làm khoa học trên nền tảng của chủ nghĩa phản nghiệm (falsificationism).
Trong thực tế, khi P = 0.02, nhiều người hiểu rằng xác suất giả thuyết vô hiệu, P(HA0), là 2%. Mà, 2% là thấp hơn 5%, nên kết quả này có ý nghĩa thống kê, can thiệp có hiệu quả. Nhưng cách hiểu đó sai. Ý nghĩa thật của P = 0.02 là: nếu can thiệp không có hiệu quả (tức H0 đúng) thì xác suất mà chúng ta quan sát được dữ liệu như nghiên cứu này là 2%. Trị số P là xác suất có điều kiện: P(dữ liệu | H0 đúng). Trị số P không phải là P(H0), càng không phải là P(HA) như nhiều người nghĩ.
Do đó, một kết quả với P = 0.04 hay 0.02 hay 0.01 chưa đủ chứng cớ để nói can thiệp có hiệu quả.
2. Thực tế kiểm định nhiều giả thuyết
Thông thường, khi một sự ảnh hưởng có trị số P < 0.05 thì người ta xem là “statistically significant” (có ý nghĩa thống kê) và xem đó là một khám phá, một phát hiện có ý nghĩa. Trị số P do đó rất quan trọng, vì người ta căn cứ vào đó mà tuyên bố khám phá. Có thể nói rằng trong khoa học, trị số P < 0.05 gần như là một cái sổ thông hành cho công bố khoa học.
Nhưng khi chúng ta kiểm định nhiều giả thuyết thì trị số P có vấn đề và lệ thuộc vào nó sẽ dẫn đến khám phá sai (dương tính giả). Khi chúng ta kiểm định 1 giả thuyết khoa học, chúng ta chấp nhận sai sót 5% và đúng 95%. Khi chúng ta kiểm định 2 giả thuyết độc lập thì xác suất đúng cả hai giả thuyết là 0.95*0.95 = 0.9025, và xác suất có ít nhứt 1 kết quả dương tính giả là 1-0.9025 = 0.0975, tức gần 10% (chớ không phải 5% như lúc ban đầu). Càng kiểm định nhiều giả thuyết thì xác suất dương tính giả càng cao. Chẳng hạn như tác giả kiểm định 26 giả thuyết, thì xác suất có ít nhứt 1 kết quả dương tính giả là 1-(1-0.05)^26 = 0.736 hay ~74%, rất cao.
Điều này có nghĩa là nếu trong số 26 kiểm định giả thuyết (như bài báo trên Nat Med [1]), mà tác giả quan sát trị số P = 0.02 hay P = 0.01 thì chúng ta phải nghi ngờ rằng đây là phát hiện dương tính giả.
3. Tiêu chuẩn mới
Cứ mỗi phát hiện có P = 0.05 thì xác suất mà chúng ta sai (dương tính giả) là chừng 30%. Phát biểu này có thể chứng minh khá dễ dàng, nhưng tôi sẽ không bàn ở đây vì chỉ làm rắc rối vấn đề.
Do đó, để giảm xác suất dương tính giả, một số nhà nghiên cứu đã đề nghị là phải giảm ngưỡng trị số P xuống 0.001 [2] hay 0.005 [3] để giảm xác suất dương tính giả xuống chừng 5%. Nhiều tập san y khoa lớn đã bắt đầu áp dụng tiêu chuẩn mới (P < 0.001, P < 0.005) để tuyên bố một phát hiện.
Riêng trong chuyên ngành di truyền học thì một kết quả với P < 0.00000005 (hay 10^(-8)) thì mới được xem là một khám phá. Trong vật lí, họ dùng tiêu chuẩn 5 signa, tương đương với ngưỡng trị số P là 0.0000003 (hay 3*10^(-7)) thì mới xem là khám phá [4].
Với ngưỡng trị số P tương đối dễ dãi P<0.005 thì không có một khác biệt nào trong bài báo trên Nat Med [1] được xem là có ý nghĩa thống kê.
4. Hiệu chỉnh
Để điều chỉnh cho vấn đề dương tính giả trong điều kiện kiểm định nhiều giả thuyết, chúng ta cần phải áp dụng vài phương pháp ‘phạt’. Phạt cho việc kiểm định nhiều giả thuyết. Nếu không có lí thuyết thì kiểm định nhiều giả thuyết được xem là một hình thức tra tấn dữ liệu, một thói quen xấu trong khoa học. Có nhiều phương pháp để điều chỉnh cho trị số P, như Bonferroni, Duncan, Tukey, Holm, Benjanini-Hochberg, v.v.
Tôi hay dùng phương pháp Benjanini-Hochberg (BH) [5] trong các nghiên cứu di truyền học, vì đã được ‘chứng minh’ là có hiệu quả giảm nguy cơ dương tính giả tốt nhứt trong tất cả phương pháp. Bài báo BH đã có hơn 63000 lần trích dẫn kể từ khi công bố vào năm 1995, và trở thành một trong những công trình có ảnh hưởng lớn nhứt trong lịch sử khoa học thống kê!
Nếu chúng ta áp dụng phương pháp BH cho nghiên cứu trên Nature Medicine [1] thì sẽ thấy không có bất cứ một trị số P nào có ý nghĩa thống kê cả. Và, không thể nào kết luận rằng đeo khẩu trang có hiệu quả ngăn chận lây nhiễm virus.
5. Thực tế
Tình hình thực tế là dù chứng cớ khoa học là vậy, nhưng một số nơi ra qui định đeo khẩu trang nơi công cộng. Tuy nhiên, đây là vấn đề còn nhiều tranh cãi. Ở Úc thì các giới chức y tế không khuyến cáo công chúng đeo khẩu tra nếu không có triệu chứng. Ở Anh, Giáo sư Jonathan Van-Tam (Deputy Chief Medical Officer) nói rằng chưa đủ chứng cớ khoa học để khuyến cáo đeo khẩu trang đại trà [6]. Giáo sư Van-Tam nói đúng theo kết quả của nghiên cứu. Xin ghi bên lề rằng Giáo sư Jonathan Van-Tam (tên đầy đủ là Jonathan Stafford Nguyen Van-Tam), là cháu nội của ông Nguyễn Văn Tâm, từng là Thủ tướng Quốc gia Việt Nam (Chánh phủ thời Bảo Đại), và cháu gọi tướng Nguyễn Văn Hinh là bác.
Ấy vậy mà tựa đề bài báo viết như là một tiếng hét về hiệu quả của đeo khẩu trang: “The science is clear” (khoa học đã rõ ràng) [7]. Thiệt vậy không? Theo tôi thì “the science is uncertain” mới rõ ràng hơn.
====
[1] https://www.nature.com/articles/s41591-020-0843-2 [2] https://jamanetwork.com/journ…/jama/article-abstract/2676503The Proposal to Lower P Value Thresholds to .005 [3] https://www.pnas.org/content/110/48/19313
Revised standards for statistical evidence [4] https://blogs.scientificamerican.com/…/five-sigmawhats-that/ [5] Benjamini Y, Hochberg Y. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society. Series B 1995;57:289-300
Gọi q là xác suất dương tính giả mà chúng ta chấp nhận (ví dụ như q = 0.05), phương pháp BH tìm k = max{i: p(i) < i/m*q}, trong đó p(i) là trị số P của kiểm định lần i và m là tổng số lần kiểm định. Nếu không tìm ra k, thì không bác bỏ giả thuyết nào; còn không thì bác bỏ giả thuyết H(i).
[6] https://www.telegraph.co.uk/…/uk-says-no-need-wear-masks-pu… [7] https://www.theguardian.com/…/why-wear-a-mask-may-be-our-be…