Chào các bạn đồng nghiệp tương lai và hiện tại của MedAcademy!
Chắc hẳn trong quá trình học tập và nghiên cứu, các bạn đã từng trăn trở với câu hỏi: “Liệu có cách nào dự đoán chính xác hơn kết quả điều trị cho bệnh nhân dựa trên những thông tin chúng ta thu thập được?”


Hôm nay, chúng mình sẽ cùng nhau khám phá một công cụ vô cùng mạnh mẽ trong thống kê y sinh: Mô hình hồi quy tuyến tính (Linear Regression), và đặc biệt, cách áp dụng nó trong R để giải quyết những “ca khó” trong dữ liệu. 


Hiểu một cách đơn giản, hồi quy tuyến tính là một phương pháp thống kê cho phép chúng ta tìm ra mối quan hệ tuyến tính giữa một biến phụ thuộc (ví dụ: huyết áp sau điều trị) và một hoặc nhiều biến độc lập (ví dụ: tuổi, giới tính, BMI). Trong y khoa, nó giúp chúng ta:
Dự đoán kết quả điều trị: Ước lượng khả năng thành công của một phác đồ dựa trên các yếu tố tiên lượng.
Xác định các yếu tố nguy cơ: Tìm ra những biến số có ảnh hưởng lớn đến bệnh tật.
Đánh giá hiệu quả can thiệp: Đo lường mức độ thay đổi của biến mục tiêu sau khi áp dụng một biện pháp can thiệp.
Ví dụ, một nghiên cứu muốn tìm hiểu xem liệu tuổi tác, chỉ số đường huyết lúc đói và mức cholesterol có ảnh hưởng đến chỉ số HbA1c (một chỉ số kiểm soát đường huyết dài hạn) ở bệnh nhân tiểu đường hay không. Lúc này, chúng ta có thể sử dụng mô hình hồi quy tuyến tính, với HbA1c là biến phụ thuộc và tuổi tác, đường huyết lúc đói, cholesterol là các biến độc lập.

1. Chuẩn bị dữ liệu: Đảm bảo dữ liệu của bạn đã được làm sạch, kiểm tra tính hợp lệ và xử lý các giá trị thiếu.
2. Kiểm tra phân phối: Hồi quy tuyến tính có một số giả định về phân phối của dữ liệu. Hãy kiểm tra xem các biến của bạn có tuân theo phân phối chuẩn hay không.
3. Xây dựng mô hình: Sử dụng hàm `lm()` trong R để xây dựng mô hình. Ví dụ:
“`R
model <- lm(HbA1c ~ Tuoi + DuongHuyet + Cholesterol, data = diabetes_data)
summary(model)
“`
Trong đó, `HbA1c` là biến phụ thuộc, `Tuoi`, `DuongHuyet`, `Cholesterol` là các biến độc lập và `diabetes_data` là tên dataframe chứa dữ liệu.

4. Đánh giá mô hình: Sử dụng hàm `summary()` để xem kết quả và đánh giá mức độ phù hợp của mô hình.

Trong quá trình xây dựng mô hình, chúng mình có thể gặp phải một vài vấn đề “khó nhằn”:
+ Đa cộng tuyến (Multicollinearity): Các biến độc lập có mối tương quan cao với nhau. Điều này có thể làm sai lệch kết quả và gây khó khăn trong việc giải thích.
Chẩn đoán: Sử dụng ma trận tương quan (`cor()`) và chỉ số VIF (Variance Inflation Factor) với package `car` trong R.
Xử lý: Loại bỏ bớt một số biến hoặc kết hợp các biến có tương quan cao.
+ Phương sai không đồng nhất (Heteroscedasticity): Phương sai của sai số không đồng đều trên các mức của biến độc lập.
Chẩn đoán: Vẽ đồ thị phân tán (scatter plot) giữa phần dư và giá trị dự đoán, hoặc sử dụng kiểm định Breusch-Pagan (package `lmtest`).
Xử lý: Sử dụng mô hình hồi quy trọng số (weighted regression) hoặc biến đổi dữ liệu.
+ Điểm ngoại lệ (Outliers): Các điểm dữ liệu có giá trị quá khác biệt so với phần còn lại.
Chẩn đoán: Vẽ đồ thị phân tán và sử dụng các chỉ số như Cook’s distance.
Xử lý: Cẩn thận xem xét và quyết định có nên loại bỏ hay điều chỉnh các điểm ngoại lệ này không.

Giả sử chúng mình có một nghiên cứu về ảnh hưởng của các yếu tố đến huyết áp tâm thu (Systolic Blood Pressure – SBP) ở bệnh nhân cao huyết áp. Các biến chúng ta thu thập được bao gồm: Tuổi (Age), Giới tính (Gender), BMI (Body Mass Index) và mức độ hoạt động thể chất (Physical Activity – đo bằng số bước chân mỗi ngày).
Chúng ta xây dựng mô hình hồi quy tuyến tính trong R như sau:
“`R
model_hbp <- lm(SBP ~ Age + Gender + BMI + PhysicalActivity, data = hypertension_data)
summary(model_hbp)
“`
Kết quả cho thấy BMI và mức độ hoạt động thể chất có ảnh hưởng đáng kể đến SBP. Chúng ta có thể sử dụng kết quả này để tư vấn cho bệnh nhân về việc duy trì cân nặng hợp lý và tăng cường vận động để kiểm soát huyết áp tốt hơn.

Hồi quy tuyến tính là một công cụ mạnh mẽ, nhưng đừng quên kiểm tra các giả định và xử lý các vấn đề thường gặp.
Thực hành càng nhiều, các bạn sẽ càng tự tin hơn trong việc áp dụng nó vào nghiên cứu của mình.
Luôn đặt câu hỏi và tìm kiếm sự giúp đỡ khi cần thiết. Chúng mình luôn ở đây để hỗ trợ các bạn!
Hy vọng bài viết này sẽ giúp các bạn hiểu rõ hơn về mô hình hồi quy tuyến tính và cách áp dụng nó trong R. Đừng ngần ngại chia sẻ những kinh nghiệm và câu hỏi của bạn ở phần bình luận nhé! 

Hãy cùng MedAcademy khám phá những điều thú vị trong thống kê y sinh và nâng cao năng lực nghiên cứu của mình! 

Advertisement