[COVID-19] Trị số P và nghiên cứu về khẩu trang

Thien Khiem 06/04/2020 COVID-19, Tài liệu, Tin tức 803 Lượt xem

Rate this post

Trị số P và nghiên cứu về khẩu trang

GS Nguyễn Tuấn

Một bạn đọc msg tôi hỏi là tại sao trị số P = 0.02 trong nghiên cứu về hiệu quả của khẩu trang trên Nat Med [1] không được xem là có ý nghĩa thống kê. Câu trả lời hơi dài dòng và là đề tài của rất rất nhiều nghiên cứu trong quá khứ. Nhân dịp câu hỏi này, tôi xin bàn qua về trị số P và cách hiệu chỉnh khi phải kiểm định nhiều giả thuyết khoa học — một vấn đề mà nhiều đồng nghiệp trong nước ít khi để ý.

1. Một chút lí thuyết

Trong kiểm định giả thuyết khoa học, trị số P không phải dễ hiểu. Trong nghiên cứu khoa học chúng ta kiểm định 1 giả thuyết khoa học bằng hai giả thuyết thống kê: giả thuyết vô hiệu H0 phát biểu rằng hai nhóm không khác nhau (can thiệp không có hiệu quả); giả thuyết chánh HA là hai nhóm khác nhau (can thiệp có hiệu quả). Lí do phải có giả thuyết vô hiệu là vì chúng ta làm khoa học trên nền tảng của chủ nghĩa phản nghiệm (falsificationism).

Chánh sách đeo hay không đeo khẩu trang có khi tùy thuộc vào kết quả nghiên cứu với trị số P < 0.05. Nhưng có đến 30% các kết quả nghiên cứu với P = 0.05 là dương tính giả.
Hình dưới cho thấy cách đeo khẩu trang đúng và sai. Đa số người dân đeo khẩu trang sai cách.

Trong thực tế, khi P = 0.02, nhiều người hiểu rằng xác suất giả thuyết vô hiệu, P(HA0), là 2%. Mà, 2% là thấp hơn 5%, nên kết quả này có ý nghĩa thống kê, can thiệp có hiệu quả. Nhưng cách hiểu đó sai. Ý nghĩa thật của P = 0.02 là: nếu can thiệp không có hiệu quả (tức H0 đúng) thì xác suất mà chúng ta quan sát được dữ liệu như nghiên cứu này là 2%. Trị số P là xác suất có điều kiện: P(dữ liệu | H0 đúng). Trị số P không phải là P(H0), càng không phải là P(HA) như nhiều người nghĩ.

Do đó, một kết quả với P = 0.04 hay 0.02 hay 0.01 chưa đủ chứng cớ để nói can thiệp có hiệu quả.

2. Thực tế kiểm định nhiều giả thuyết

Thông thường, khi một sự ảnh hưởng có trị số P < 0.05 thì người ta xem là “statistically significant” (có ý nghĩa thống kê) và xem đó là một khám phá, một phát hiện có ý nghĩa. Trị số P do đó rất quan trọng, vì người ta căn cứ vào đó mà tuyên bố khám phá. Có thể nói rằng trong khoa học, trị số P < 0.05 gần như là một cái sổ thông hành cho công bố khoa học.

Nhưng khi chúng ta kiểm định nhiều giả thuyết thì trị số P có vấn đề và lệ thuộc vào nó sẽ dẫn đến khám phá sai (dương tính giả). Khi chúng ta kiểm định 1 giả thuyết khoa học, chúng ta chấp nhận sai sót 5% và đúng 95%. Khi chúng ta kiểm định 2 giả thuyết độc lập thì xác suất đúng cả hai giả thuyết là 0.95*0.95 = 0.9025, và xác suất có ít nhứt 1 kết quả dương tính giả là 1-0.9025 = 0.0975, tức gần 10% (chớ không phải 5% như lúc ban đầu). Càng kiểm định nhiều giả thuyết thì xác suất dương tính giả càng cao. Chẳng hạn như tác giả kiểm định 26 giả thuyết, thì xác suất có ít nhứt 1 kết quả dương tính giả là 1-(1-0.05)^26 = 0.736 hay ~74%, rất cao.

Đây là bài báo rất quan trọng và gây ảnh hưởng lớn trong khoa học. Trong bài báo tác giả chỉ ra rằng đa số (có thể 90-95%) các phát hiện từ các nghiên cứu khoa học là sai. Sai một phần là do thiết kế nghiên cứu, do kiểm định nhiều giả thuyết (tức ‘tra tấn dữ liệu’), và lệ thuộc vào trị số P. Chúng ta phải đọc mỗi bài báo khoa học với hoài nghi lành mạnh.

Điều này có nghĩa là nếu trong số 26 kiểm định giả thuyết (như bài báo trên Nat Med [1]), mà tác giả quan sát trị số P = 0.02 hay P = 0.01 thì chúng ta phải nghi ngờ rằng đây là phát hiện dương tính giả.

3. Tiêu chuẩn mới

Cứ mỗi phát hiện có P = 0.05 thì xác suất mà chúng ta sai (dương tính giả) là chừng 30%. Phát biểu này có thể chứng minh khá dễ dàng, nhưng tôi sẽ không bàn ở đây vì chỉ làm rắc rối vấn đề.

Do đó, để giảm xác suất dương tính giả, một số nhà nghiên cứu đã đề nghị là phải giảm ngưỡng trị số P xuống 0.001 [2] hay 0.005 [3] để giảm xác suất dương tính giả xuống chừng 5%. Nhiều tập san y khoa lớn đã bắt đầu áp dụng tiêu chuẩn mới (P < 0.001, P < 0.005) để tuyên bố một phát hiện.

Riêng trong chuyên ngành di truyền học thì một kết quả với P < 0.00000005 (hay 10^(-8)) thì mới được xem là một khám phá. Trong vật lí, họ dùng tiêu chuẩn 5 signa, tương đương với ngưỡng trị số P là 0.0000003 (hay 3*10^(-7)) thì mới xem là khám phá [4].

Với ngưỡng trị số P tương đối dễ dãi P<0.005 thì không có một khác biệt nào trong bài báo trên Nat Med [1] được xem là có ý nghĩa thống kê.

4. Hiệu chỉnh

Để điều chỉnh cho vấn đề dương tính giả trong điều kiện kiểm định nhiều giả thuyết, chúng ta cần phải áp dụng vài phương pháp ‘phạt’. Phạt cho việc kiểm định nhiều giả thuyết. Nếu không có lí thuyết thì kiểm định nhiều giả thuyết được xem là một hình thức tra tấn dữ liệu, một thói quen xấu trong khoa học. Có nhiều phương pháp để điều chỉnh cho trị số P, như Bonferroni, Duncan, Tukey, Holm, Benjanini-Hochberg, v.v.

Tôi hay dùng phương pháp Benjanini-Hochberg (BH) [5] trong các nghiên cứu di truyền học, vì đã được ‘chứng minh’ là có hiệu quả giảm nguy cơ dương tính giả tốt nhứt trong tất cả phương pháp. Bài báo BH đã có hơn 63000 lần trích dẫn kể từ khi công bố vào năm 1995, và trở thành một trong những công trình có ảnh hưởng lớn nhứt trong lịch sử khoa học thống kê!

Biểu đồ so sánh số virus trên mỗi mẫu phát tán qua đường droplets và khí dung (erosol) giữa nhóm đeo khẩu trang và không đeo khẩu trang. Chú ý phần dữ liệu erosol, sự khác biệt chỉ ở 4 cá nhân có giá trị ngoại vi.
Nguồn: 10.1038/s41591-020-0843-2

Nếu chúng ta áp dụng phương pháp BH cho nghiên cứu trên Nature Medicine [1] thì sẽ thấy không có bất cứ một trị số P nào có ý nghĩa thống kê cả. Và, không thể nào kết luận rằng đeo khẩu trang có hiệu quả ngăn chận lây nhiễm virus.

5. Thực tế

Tình hình thực tế là dù chứng cớ khoa học là vậy, nhưng một số nơi ra qui định đeo khẩu trang nơi công cộng. Tuy nhiên, đây là vấn đề còn nhiều tranh cãi. Ở Úc thì các giới chức y tế không khuyến cáo công chúng đeo khẩu tra nếu không có triệu chứng. Ở Anh, Giáo sư Jonathan Van-Tam (Deputy Chief Medical Officer) nói rằng chưa đủ chứng cớ khoa học để khuyến cáo đeo khẩu trang đại trà [6]. Giáo sư Van-Tam nói đúng theo kết quả của nghiên cứu. Xin ghi bên lề rằng Giáo sư Jonathan Van-Tam (tên đầy đủ là Jonathan Stafford Nguyen Van-Tam), là cháu nội của ông Nguyễn Văn Tâm, từng là Thủ tướng Quốc gia Việt Nam (Chánh phủ thời Bảo Đại), và cháu gọi tướng Nguyễn Văn Hinh là bác.

Ấy vậy mà tựa đề bài báo viết như là một tiếng hét về hiệu quả của đeo khẩu trang: “The science is clear” (khoa học đã rõ ràng) [7]. Thiệt vậy không? Theo tôi thì “the science is uncertain” mới rõ ràng hơn.

====

[1] https://www.nature.com/articles/s41591-020-0843-2

[2] https://jamanetwork.com/journ…/jama/article-abstract/2676503
The Proposal to Lower P Value Thresholds to .005

[3] https://www.pnas.org/content/110/48/19313
Revised standards for statistical evidence

[4] https://blogs.scientificamerican.com/…/five-sigmawhats-that/

[5] Benjamini Y, Hochberg Y. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society. Series B 1995;57:289-300

Gọi q là xác suất dương tính giả mà chúng ta chấp nhận (ví dụ như q = 0.05), phương pháp BH tìm k = max{i: p(i) < i/m*q}, trong đó p(i) là trị số P của kiểm định lần i và m là tổng số lần kiểm định. Nếu không tìm ra k, thì không bác bỏ giả thuyết nào; còn không thì bác bỏ giả thuyết H(i).

[6] https://www.telegraph.co.uk/…/uk-says-no-need-wear-masks-pu…

[7] https://www.theguardian.com/…/why-wear-a-mask-may-be-our-be…