Một nhóm nghiên cứu ở Thượng Hải mới công bố một bài báo khoa học [1] cho rằng SARS-Cov-2 aka virus Vũ Hán có nguồn gốc từ … Ấn Độ! Hay chưa?
Ông Tập sẽ hân hoan chào đón kết quả này. Ông Trump sẽ giơ tay lên trời và văng tục “What the hell?” và sẽ tham vấn các giáo sư Mĩ. Ông thủ tướng Úc của tôi sẽ gãi đầu nói “Sao nó nói Úc cũng là nguồn gốc virus này cà?”
Nhưng trước khi chấp nhận kết quả của họ, chúng ta phải tìm hiểu xem cách họ nghiên cứu ra sao.
Họ làm nghiên cứu cũng đơn giản, vì toàn sử dụng dữ liệu của người khác. Họ download tất cả 4571 bộ gen của SARS-Cov-2 từ 17 quốc gia về máy tính (dữ liệu này có trên thư viện của Mĩ). Họ dựa vào cái sequence / strain NC_045512 và tính toán tỉ lệ đột biến cho mỗi nước. Giả định đằng sau là nơi nào có tỉ lệ đột biến thấp thì đó có thể là nguồn gốc của virus. Rồi sau đó họ dùng phương pháp Chi squared test để so sánh giữa gía trị quan sát và kì vọng, và hễ P < 0.05 thì họ sẽ nói “voila!”
Với giả định và cách làm đó, họ phát hiện những nơi có đột biến thấp là: Ấn Độ, Bangladesh, Saudi Arabia, và Mĩ. Có Úc nữa, nhưng P > 0.05. Họ lí giải rằng vì Ấn Độ và Bangladesh gần nhau, nên virus có nguồn gốc từ vùng này là khả tín. Họ còn đoán rằng virus đã hoành hành ở đây từ tháng 7 hay 8, 2019! Wow!
Thật ra, nếu chiếu theo kết quả của họ, họ phải nói virus này xuất phát từ … Mĩ. Tại sao? Tại vị trị số P của Mĩ rất thấp (xem bảng số liệu). Nhưng tác giả lờ đi và tấn công vào Ấn Độ. Chắc ngán lão Trump?
Người ngoài khoa học và không am hiểu về genetics thì có lẽ khen tác giả làm hay. Nhưng người biết genetics thì sẽ thấy ngay tác giả phạm phải sai lầm. Tôi có thể chỉ ra 5 sai lầm chánh trong nghiên cứu này:
Sai lầm 1: tác giả chỉ có bộ gen virus của 17 nước, và các bộ gen này cũng được chọn rất ư là chọn lọc (không ngẫu nhiên), thì làm sao nói được nguồn gốc. Họ không có bộ gen từ (ví dụ như) Việt Nam, Phi châu, Âu châu, v.v. thì làm sao dám nói nơi nào là nơi xuất phát. Sai lầm cơ bản.
Sai lầm 2: mỗi nước có cỡ mẫu (số genome) rất khác nhau. Chưa hết, họ chỉ chọn những bộ nào có 29K nucleotide trở lên, tức là bỏ qua các đột biến có thể hiếm! Như vậy không thể nói về nguồn gốc từ cái ‘selection bias’ như vậy.
Sai lầm 3: tác giả chỉ chọn 1 sequence NC_045512 để tính toán cũng là một bias. Có hàng ngàn sequence, và nếu 1 sequence có ý nghĩa thống kê thì điều đó vẫn có thể là dương tính giả, chớ không phải thật. Dùng ngưỡng P < 0.05 trong bối cảnh này là quá ‘simplistic’. Sai lầm này khó nhận ra, nhưng rất quan trọng.
Sai lầm 4: tác giả dùng kiểm định Ki bình phương, nhưng vấn đề là cách tính giá trị kì vọng lệ thuộc vào data chớ không phải theory, và do đó kết luận cũng sai. Cái sai quan trọng hơn nữa là tác giả không phân tích sự khác biệt giữa các nước (between-country) mà chỉ tập trung vào mỗi nước (within-country) và do đó làm bias phương sai và trị số P.
Sai lầm 5: tác giả nhắm mắt trước các dữ liệu dịch tễ học rõ ràng chỉ về phía Tàu là nguồn gốc. Đây là loại confirmation bias, vì nó phù hợp với giả thuyết của tác giả.
Các chuyên gia virology khác cũng nói nghiên cứu này ‘flawed’ [2] nhưng họ tập trung vào việc dùng software sai và phylogenetics.
Do đó, tôi nghĩ kết luận của tác giả sai vì phương pháp chọn bộ gen thiếu hệ thống và phương pháp phân tích sai. Đây là một ca tiêu biểu về nghiên cứu Covid-19 có phẩm chất thấp, và chỉ gây nhiễu, chớ chẳng đóng góp gì cho khoa học. Tóm lại, chưa có bằng chứng gì để nói virus Vũ Hán xuất phát từ Ấn Độ, nhưng ai cũng biết nó xuất hiện đầu tiên ở Vũ Hán.
____