Nhi vừa thực hiện xong thí nghiệm thứ 2 cho project ‘xgboost ứng dụng’. Trong thí nghiệm này ta dùng cơ chế tập hợp mô hình cây quyết định của xgboost để chọn ra tổ hợp 50-100 genes quan trọng nhất phân biệt tế bào tuyến vú lành tính và ung thư, từ một bộ dữ liệu 1926 genes. Tương tự với random forest, đơn vị cấu trúc của xgbbost là cácbooster, trong mỗi booster là quy luật hình cây từ 1 hay nhiều features; thông tin importance gain của mỗi features được theo dõi và ghi lại trong từng booster. Ta có thể biết mô hình xgboost đã dùng bao nhiêu genes để đạt trãng thái tối ưu ?, tính gain importance trung bình cho mỗi gene, biết cách thức mà các gene phối hợp với nhau trong các booster, và chuyển thông tin cấu trúc này thành sơ đồ mạng lưới.
Nguồn: Lê Ngọc Khả Nhi – Biomedical Data Science Initiativies