scrm: Mô phỏng hiệu quả các trình tự dài với tái tổ hợp
Trong lĩnh vực sinh học tính toán, việc mô phỏng các trình tự gen đóng vai trò quan trọng trong việc nghiên cứu dữ liệu di truyền quần thể và các quá trình nhân khẩu học. Tuy nhiên, việc mô phỏng các bộ dữ liệu lớn, tương tự như dữ liệu được tạo ra bởi giải trình tự thế hệ mới, vẫn là một thách thức lớn. Bài viết này giới thiệu về scrm
, một phương pháp mới giúp mô phỏng hiệu quả và chính xác sự kết hợp, thu hẹp khoảng cách giữa các phương pháp hiện tại và mô hình chính xác. Nếu bạn đang tìm kiếm một công cụ mạnh mẽ để tạo ra các bộ dữ liệu di truyền có cấu trúc liên kết chính xác, thì đây là bài viết dành cho bạn.
scrm
, viết tắt của "sequential coalescent with recombination model" (mô hình kết hợp tuần tự với tái tổ hợp), là một công cụ được phát triển để giải quyết những hạn chế của các phương pháp mô phỏng hiện tại. Các chương trình mô phỏng dựa trên phương pháp kết hợp như ms rất hiệu quả đối với các trình tự ngắn và vừa. Tuy nhiên, khi chiều dài trình tự tăng lên, số lượng sự kiện tái tổ hợp cũng tăng theo cấp số nhân, khiến cho việc mô phỏng toàn bộ nhiễm sắc thể trở nên bất khả thi.
scrm
cung cấp một giải pháp bằng cách đưa ra một phương pháp gần đúng mới, cho phép người dùng kiểm soát độ chính xác tùy ý, từ SMC' (sequentially Markov coalescence) đến CWR (coalescent with recombination) đầy đủ. Điều này cho phép mô phỏng các trình tự có độ dài tùy ý với cấu trúc liên kết gần như chính xác.
scrm
dựa trên mô hình tuần tự để xây dựng biểu đồ tái tổ hợp tổ tiên (ARG) của Wiuf và Hein. Sau khi lấy mẫu một phả hệ ban đầu ở một đầu của nhiễm sắc thể, nó di chuyển dọc theo trình tự và cập nhật phả hệ khi gặp các sự kiện tái tổ hợp. Để giải quyết vấn đề tăng trưởng theo cấp số nhân của ARG,
scrm
bổ sung ba sửa đổi:
scrm
sử dụng cấu trúc dữ liệu dựa trên cây hiệu quả về bộ nhớ, mã hóa sự tái tổ hợp dưới dạng lá không cục bộ thay vì phân chia trong đồ thị.Bằng cách điều chỉnh ngưỡng này, người dùng có thể kiểm soát sự cân bằng giữa tốc độ và độ chính xác, cho phép mô phỏng các trình tự геном lớn mà không ảnh hưởng đến cấu trúc liên kết.
scrm
được triển khai dưới dạng mã nguồn mở hiệu quả bằng C++11. Giao diện dòng lệnh được thiết kế tương thích với ms, cho phép
scrm
được sử dụng thay thế trực tiếp.
scrm
cũng hỗ trợ các mẫu tại các thời điểm khác nhau và các tỷ lệ tái tổ hợp khác nhau dọc theo trình tự. Nó được tối ưu hóa cho kích thước mẫu hàng ngàn cá thể.
Việc triển khai đã được xác nhận bằng cách so sánh các mô phỏng chính xác với ms. Không tìm thấy sai lệch đáng kể nào khi sử dụng các bài kiểm tra và Kolmogorov-Smirnov.
Sự liên kết di truyền được tạo ra cho các mức độ gần đúng khác nhau đã được so sánh bằng cách sử dụng mối tương quan của tổng chiều dài nhánh cục bộ của phả hệ tại hai vị trí như một hàm của khoảng cách của chúng. "Cửa sổ chính xác" của scrm
tương tự như tham số lịch sử của MaCS. Tuy nhiên, vì MaCS bỏ qua tất cả các sự tái tổ hợp không cục bộ, nên nó mô phỏng quá nhiều liên kết cho các vị trí trong lịch sử của nó. Do đó, nó không hội tụ về CWR khi giảm độ gần đúng, trong khi
scrm
thì có.
Trong các cài đặt thích hợp, scrm
mô phỏng liên kết chính xác về cơ bản trên 20 mẫu với chi phí thời gian chạy tuyến tính là 0,1 giây trên mỗi megabase.
scrm
là một công cụ mạnh mẽ và hiệu quả để mô phỏng các trình tự di truyền dài với sự tái tổ hợp. Phương pháp gần đúng của nó cho phép người dùng kiểm soát sự cân bằng giữa tốc độ và độ chính xác, làm cho nó phù hợp với nhiều ứng dụng trong sinh học tính toán. Với khả năng mô phỏng các bộ dữ liệu ở quy mô геном với cấu trúc liên kết chính xác về cơ bản,
scrm
mở ra những khả năng mới để nghiên cứu dữ liệu di truyền quần thể và các quá trình nhân khẩu học.
Nếu bạn đang tìm kiếm một công cụ mô phỏng kết hợp tiên tiến, hãy xem xét scrm
. Việc triển khai mã nguồn mở và khả năng tương thích với ms khiến nó trở thành một bổ sung có giá trị cho bộ công cụ sinh học tính toán của bạn.
Bài viết liên quan