Anh chị nào làm trong mảng bioinformatic hoặc metagenomic thì có thể đã biết có 2 hướng phổ biến để làm binning sequence là: composition base (k-mers) và abundance base (cũng có tác giả sử dụng cả 2 features trên). Với kinh nghiệm cá nhân, cũng như đọc các nghiên cứu trước, tôi đưa ra một vài nhận định về ưu điểm và hạn chế của 2 phương pháp này.
Composition base:
Phương pháp này dựa trên mô hình bag of word trong NLP. Ý tưởng chính là trích rút ra frequency (tần suất) của k-mers (A,T,G,C).Ưu điểm:
- Tương đối đơn giản.
- Chạy nhanh.
- Không tốn tài nguyên máy tính (RAM).
Nhược điểm:
- Không hiệu quả khi phân biệt 2 loài giống nhau (similar), đặc biệt nếu 2 loài cùng genus và có composition tương đối giống nhau thì phương pháp này phân biệt không tốt.
Abundance base
Ưu điểm:- Hiệu quả hơn composition base trong việc phân biệt các loài gần giống nhau.
Nhược điểm:
- Chạy tốn tài nguyên : thời gian, bộ nhớ.
- Đôi khi nhiều sequence có abundance profile tương đối giống nhau lại không thuộc cùng một loài: có thể do nó ngẫu nhiên giống nhau, hoặc sự suất hiện của loài nọ có liên hệ với sự xuất hiện của loài kia.
No comments:
Post a Comment