Đọc dữ liệu về số ca nhiễm và tử vong giữa các tỉnh thành, tôi phát hiện một xu hướng thú vị: nơi nào có mật độ dân số càng cao thì số ca nhiễm cũng càng cao, và số ca nhiễm càng cao có liên quan mật thiết với số ca tử vong. Từ đó, chúng ta có thể ‘xếp hạng’ các tỉnh thành nào có tử vong cao/thấp so với kì vọng.
Hình 1: Mối liên quan giữa mật độ dân số và số ca nhiễm (tính bằng đơn vị log) cho 62 tỉnh thành có ghi nhận số ca nhiễm
Biểu đồ 1 phản ảnh mối liên quan giữa mật độ dân số và số ca nhiễm (tính bằng đơn vị log) cho 62 tỉnh thành có ghi nhận số ca nhiễm. Như có thể thấy, tỉnh thành nào có mật độ dân số cao thì tính trung bình cũng ghi nhận nhiều số ca nhiễm. Đứng đầu là TPHCM như chúng ta biết. Nhưng các tỉnh thành khác như Hà Nội, Đà Nẵng, Tiền Giang và Bình Dương cũng nằm trong nhóm có mật độ dân số cao và có nhiều ca nhiễm. Ngược lại, các tỉnh miền Tây Bắc và Đông Bắc thì có số ca nhiễm rất thấp và mật độ dân số cũng thấp nhứt nước.
Hình 2:Mối liên quan giữa mật độ dân số và tỉ lệ tử vong (tính trên số ca nhiễm hay còn gọi là CFR) của 62 tỉnh thành.
Biểu đồ 2 phản ảnh mối liên quan giữa mật độ dân số và tỉ lệ tử vong (tính trên số ca nhiễm hay còn gọi là CFR). Tuy có mối liên quan dương tính (tỉnh thành với mật độ dân số cao thì nguy cơ tử vong cũng cao), nhưng mối liên quan nói chung là không chặt chẽ như giữa mật độ dân số và số ca nhiễm, vì mức độ phân tán khá cao.
Biểu đồ 3 cho thấy mối liên quan giữa số ca nhiễm và số ca tử vong cho 42 tỉnh thành nào có hơn 100 ca nhiễm và có ghi nhận số ca tử vong. Chúng ta thấy mối liên quan rất cao, với hệ số tương quan 0.9 (tối đa là 1). Biểu đồ này cho thấy qui luật dân gian: càng nhiễm nhiều thì số ca tử vong càng nhiều.
Hình 3: Mối liên quan giữa số ca nhiễm và số ca tử vong cho 42 tỉnh thành nào có hơn 100 ca nhiễm và có ghi nhận số ca tử vong. Biểu đồ này cho thấy chỉ cần biết số ca nhiễm là có thể đoán số ca tử vong khá tốt.
Phương trình là: log(số ca tử vong) = -6.356 + 1.202*log(số ca nhiễm)
Ví dụ: tỉnh có 4000 ca nhiễm, chúng ta có thể dự báo số ca tử vong là exp(-6.356+1.202*log(4000)) = 37.
Chúng ta có thể dùng qui luật đó để so sánh tỉ lệ tử vong giữa các tỉnh thành. Bởi vì số ca tử vong là tương đối thấp so với số ca nhiễm, nên chúng ta có thể giả định rằng số ca tử vong tuân theo luật phân bố Poisson. Gọi số ca tử vong là Y, giả định đó có nghĩa là Y ~ Poisson(mu), trong đó ‘mu’ là tỉ lệ nhiễm. Mô hình hồi qui Poisson với tỉnh/thành là predictor có thể viết như sau: log(mu) = a + beta*tỉnh. Hệ số ‘b’ so sánh tỉ lệ tử vong của tỉnh với giá trị kì vọng, và do đó cho chúng ta biết tỉnh thành nào có tỉ lệ tử vong cao hay thấp ra sao. Kết quả tính toán này được trình bày trong Hình 4.
Hình 4: So sánh hệ số tử vong giữa các tỉnh thành. Cách đọc: những tỉnh nào có hệ số ‘estimate’ dương có nghĩa là tỉ lệ tử vong cao hơn giá trị kì vọng; ngược lại, tỉnh thành nào có giá trị âm có nghĩa là tỉ lệ tử vong thấp hơn kì vọng. Nhưng vì do dao động mẫu, nên phải xem xét đến trị số P. Trị số P < 0.01 có thể xem là có ý nghĩa thống kê (significant), còn trị số P > 0.01 thì xem như không có khác biệt giữa tỉ lệ tử vong của tỉnh thành đó và giá trị kì vọng.
Ví dụ cách diễn giải: Tỉnh Bà Rịa – Vũng Tàu có hệ số 0.65, có nghĩa là tỉ lệ tử vong ở tỉnh này cao hơn exp(0.65) = 1.9 lần so vì kì vọng dựa vào số ca nhiễm, và sự khác biệt này đáng chú ý vì trị số P = 0.009. Ngược lại, Bạc Liêu có hệ số -0.14, có nghĩa là tỉ lệ tử vong ở đây thấp hơn kì vọng chừng 14% (1 – exp(-0.14)), nhưng vì trị số P = 0.85, nên sự khác biệt này không đáng chú ý, có thể do yếu tố ngẫu nhiên.
Trong Hình 4, những tỉnh nào có hệ số ‘estimate’ dương có nghĩa là tỉ lệ tử vong cao hơn giá trị kì vọng; ngược lại, tỉnh thành nào có giá trị âm có nghĩa là tỉ lệ tử vong thấp hơn kì vọng. Nhưng vì do dao động mẫu, nên phải xem xét đến trị số P. Trị số P < 0.01 có thể xem là có ý nghĩa thống kê (significant), còn trị số P > 0.01 thì xem như không có khác biệt giữa tỉ lệ tử vong của tỉnh thành đó và giá trị kì vọng.
Advertisement
Ví dụ như tỉnh Bà Rịa – Vũng Tàu ghi nhận 4287 ca nhiễm và 46 ca tử vong, và mô hình này cho biết con số tử vong cao gấp exp(0.65) = 1.9 lần so với giá trị kì vọng (24 ca). Ngược lại, Bắc Giang ghi nhận 5886 ca nhiễm và với con số này số ca tử vong kì vọng là 33 ca, nhưng trong thực tế chỉ ghi nhận 13 ca tử vong. Do đó, số ca tử vong ở Bắc Giang thấp hơn số ca trị kì vọng 60% [1 – exp(-0.93) = 0.60].
Như có thể thấy, chỉ có Bắc Giang có tỉ lệ tử vong thấp hơn kì vọng. Còn lại, các tỉnh thành có tỉ lệ tử vong cao là: HCM, Bến Tre, Vĩnh Long, Tiền Giang, Sóc Trăng, Bình Thuận, Đà Nẵng, Đồng Tháp, Cần Thơ, Tây Ninh. Các tỉnh khác cũng có tỉ lệ tử vong cao đáng chú ý là Bà Rịa – Vũng Tàu, Bình Dương, Long An, Khánh Hoà, Phú Yên, Trà Vinh, Hà Nội.
Tóm lại, các dữ liệu này cho thấy (a) số ca tử vong có liên quan mật thiết với số ca nhiễm; và (b) số ca nhiễm có liên quan với mật độ dân số. Điều này cho thấy chiến lược chống dịch cần phải xem xét đến mật độ dân số.
PS: Dĩ nhiên, đây chỉ là một thể thao trí não thôi, vì tất cả những con số về số ca nhiễm và tử vong có xác suất rất cao là đều sai. Nhưng cái note này cũng chỉ ra rằng với số liệu hạn chế như vậy, chúng ta vẫn có thể trả lời vài câu hỏi quan trọng bằng phương pháp mô hình thống kê.
Số liệu về dân số và mật độ dân số lấy từ Tổng cục Thống kê (hi vọng là đúng).
GS. Nguyễn Văn Tuấn