Tuesday, January 10, 2017

Vài nhận định cá nhân khi làm binning short gun sequences


Anh chị nào làm trong mảng bioinformatic hoặc metagenomic thì có thể đã biết có 2 hướng phổ biến để làm binning sequence là: composition base (k-mers) và abundance base (cũng có tác giả sử dụng cả 2 features trên). Với kinh nghiệm cá nhân, cũng như đọc các nghiên cứu trước, tôi đưa ra một vài nhận định về ưu điểm và hạn chế của 2 phương pháp này.

Composition base:

Phương pháp này dựa trên mô hình bag of word trong NLP. Ý tưởng chính là trích rút ra frequency (tần suất) của k-mers (A,T,G,C).
Ưu điểm:
  • Tương đối đơn giản.
  • Chạy nhanh.
  • Không tốn tài nguyên máy tính (RAM).

Nhược điểm:
  • Không hiệu quả khi phân biệt 2 loài giống nhau (similar), đặc biệt nếu 2 loài cùng genus và có composition tương đối giống nhau thì phương pháp này phân biệt không tốt.

Abundance base

Ưu điểm:
    • Hiệu quả hơn composition base trong việc phân biệt các loài gần giống nhau.

    Nhược điểm:
    • Chạy tốn tài nguyên : thời gian, bộ nhớ.
    • Đôi khi nhiều sequence có abundance profile tương đối giống nhau lại không thuộc cùng một loài: có thể do nó ngẫu nhiên giống nhau, hoặc sự suất hiện của loài nọ có liên hệ với sự xuất hiện của loài kia.
    Tóm lại, cả chục năm nay người ta vẫn đang cố gắng để hiểu về thế giới vi sinh vật bằng phương pháp metagenomic. Tuy cũng đã thu được nhiều thành tựu nhưng vẫn còn rất nhiều việc để làm.

    No comments:

    Post a Comment