Cách sử dụng Packages để nâng tầm phân tích dữ liệu y sinh

TS Nguyễn Đăng Kiên 22/05/2025 Diễn đàn Y khoa 101 Lượt xem

Rate this post

Chào các bạn đồng nghiệp tương lai và hiện tại của MedAcademy! Chúng mình biết rằng, giữa bộn bề công việc lâm sàng và học tập, việc tiếp cận và xử lý dữ liệu y sinh đôi khi có thể là một thách thức lớn

. Câu hỏi đặt ra là: Làm thế nào để “biến” đống dữ liệu khô khan thành những thông tin hữu ích, hỗ trợ đắc lực cho quyết định lâm sàng và các công trình nghiên cứu khoa học?

Trong lĩnh vực y sinh, phân tích dữ liệu đóng vai trò then chốt. Nó không chỉ giúp chúng mình hiểu rõ hơn về cơ chế bệnh sinh, mà còn hỗ trợ chẩn đoán chính xác và lựa chọn phác đồ điều trị tối ưu. Hôm nay, chúng mình sẽ cùng nhau khám phá bộ 3 “vũ khí” lợi hại trong thế giới phân tích dữ liệu y sinh, đó là: `tidyverse`, `ggpubr` và `pheatmap`. Các bạn đừng lo lắng, chúng mình sẽ cố gắng trình bày một cách dễ hiểu nhất để ai cũng có thể “bắt nhịp” được nhé!

Tidyverse: “Bộ công cụ đa năng” giúp chúng mình “dọn dẹp” và “biến hình” dữ liệu một cách gọn gàng, ngăn nắp.

Với các package như `dplyr` (xử lý dữ liệu), `tidyr` (tái cấu trúc dữ liệu), `readr` (đọc dữ liệu), và đặc biệt là `ggplot2` (vẽ biểu đồ), `tidyverse` sẽ giúp các bạn “hô biến” dữ liệu thô thành những bảng biểu, đồ thị trực quan và dễ hiểu.

Ví dụ: Trong một nghiên cứu về bệnh tiểu đường, chúng ta có thể sử dụng `dplyr` để lọc ra những bệnh nhân có chỉ số HbA1c cao hơn 7%, sau đó dùng `ggplot2` để vẽ biểu đồ phân bố tuổi của nhóm bệnh nhân này.

Ggpubr: “Chuyên gia tạo biểu đồ chuẩn mực” giúp chúng mình tạo ra những biểu đồ đẹp mắt, chuyên nghiệp, đạt chuẩn công bố khoa học.

Dựa trên nền tảng `ggplot2`, `ggpubr` cung cấp các hàm đơn giản để tạo các loại biểu đồ phổ biến như biểu đồ cột, biểu đồ thanh, biểu đồ phân tán, đồng thời tích hợp các kiểm định thống kê (t-test, ANOVA…) trực tiếp vào biểu đồ.

Ví dụ: Chúng ta có thể sử dụng `ggpubr` để so sánh hiệu quả của hai loại thuốc điều trị tăng huyết áp trên hai nhóm bệnh nhân khác nhau, đồng thời hiển thị giá trị p-value trực tiếp trên biểu đồ để đánh giá sự khác biệt có ý nghĩa thống kê.

Pheatmap: “Nghệ sĩ biểu đồ nhiệt” giúp chúng mình khám phá mối liên hệ giữa các biến số trong dữ liệu ma trận.

`Pheatmap` cho phép chúng ta tạo ra những biểu đồ nhiệt (heatmaps) đầy màu sắc, giúp trực quan hóa các mối tương quan giữa các gene, protein, hoặc các chỉ số sinh hóa khác nhau.

Ví dụ: Trong nghiên cứu về ung thư, chúng ta có thể sử dụng `pheatmap` để biểu diễn mức độ biểu hiện của hàng ngàn gene trên các mẫu bệnh phẩm khác nhau, từ đó phát hiện ra những gene có vai trò quan trọng trong quá trình phát triển của bệnh.

487463203 122123326916744214 1382069332276285375 n

Làm thế nào để bắt đầu?

1. Cài đặt các package: Mở R hoặc RStudio và gõ lệnh: `install.packages(c(“tidyverse”, “ggpubr”, “pheatmap”))`

2. Tải các package: `library(tidyverse)`, `library(ggpubr)`, `library(pheatmap)`

Ví dụ code đơn giản:

“`r

# Tidyverse

library(dplyr)

library(ggplot2)

data <- data.frame(age = rnorm(100, mean = 40, sd = 10), group = sample(c(“A”, “B”), 100, replace = TRUE))

data %>% filter(age > 30) %>% ggplot(aes(x = age)) + geom_histogram()

# Ggpubr

library(ggpubr)

data$result <- rnorm(100, mean = ifelse(data$group == “A”, 5, 7), sd = 2)

ggbarplot(data, x = “group”, y = “result”, stat = “identity”)

# Pheatmap

library(pheatmap)

data_matrix <- matrix(rnorm(100), nrow = 10)

pheatmap(data_matrix, cluster_rows = TRUE, cluster_columns = TRUE)

“`

Lời kết: Hy vọng bài viết này đã giúp các bạn có cái nhìn tổng quan và dễ tiếp cận hơn về các package `tidyverse`, `ggpubr` và `pheatmap`. Đừng ngần ngại thử nghiệm và áp dụng chúng vào công việc nghiên cứu và lâm sàng của mình nhé!

Viêm da cơ địa: Từ rối loạn hàng rào da đến viêm mạn tính

Viêm da cơ địa là một bệnh viêm da mạn tính, tái phát nhiều lần, thuộc nhóm bệnh dị ứng và thường khởi phát sớm ở trẻ em. Bệnh đặc trưng bởi tình trạng rối loạn hàng rào bảo vệ da kết hợp với đáp ứng miễn dịch ưu thế Th2, làm da dễ khô, dễ kích ứng và dễ viêm khi tiếp xúc với dị nguyên từ môi trường.

Y khoa Diễn đàn Y khoa, y tế sức khoẻ, kiến thức lâm sàng, chẩn đoán và điều trị, phác đồ, diễn đàn y khoa, hệ sinh thái y khoa online, mới nhất và đáng tin cậy.

Cách sử dụng Packages để nâng tầm phân tích dữ liệu y sinh

Giới thiệu TS Nguyễn Đăng Kiên

Bài liên quan

Xem các bài tương tự

Viêm da cơ địa: Từ rối loạn hàng rào da đến viêm mạn tính