Đóng góp của các nhà khoa học Việt Nam trên cơ sở dữ liệu gien thế giới

Các nhà khoa học Việt Nam đã giải trình tự gien của vi-rút SARS-CoV-2 lưu hành tại Việt Nam và đăng tải tại các cơ sở dữ liệu mở uy tín của Mỹ và Đức. Qua đó góp phần làm sáng tỏ nguồn gốc của vi-rút SARS-CoV-2 cũng như mối liên hệ giữa các ca nhiễm Covid-19 tại nước ta.

Cán bộ Viện Công nghệ sinh học nghiên cứu giải trình tự gien.
Cán bộ Viện Công nghệ sinh học nghiên cứu giải trình tự gien.

Trong cuộc chiến chống dịch Covid-19, bên cạnh những nỗ lực trên tuyến đầu của đội ngũ cán bộ y tế còn có sự tham gia tích cực của cộng đồng khoa học ở các lĩnh vực khác nhau, như dịch tễ học, miễn dịch học, khoa học dữ liệu, hệ gien học. Nhờ vậy, khả năng tiếp cận và đối phó với dịch Covid-19 đã và đang thay đổi. Các nhà dịch tễ học đã xây dựng các mô hình diễn biến và dự báo quy mô của dịch. Các nhà miễn dịch học nghiên cứu cơ chế lây lan và gây bệnh của vi-rút. Các nhà khoa học dữ liệu phân tích, hiển thị các dữ liệu về dịch bệnh giúp các nhà quản lý cũng như người dân có thể dễ dàng tiếp cận thông tin về tình hình dịch bệnh. Trong đó, các nhà khoa học hệ gien đã có những đóng góp quan trọng khi nhanh chóng xác định trình tự gien của vi-rút SARS-CoV-2, góp phần làm sáng tỏ nguồn gốc của dịch bệnh hay nghiên cứu sản xuất vắc-xin.

Trong dịch SARS năm 2003, các nhà khoa học phải mất hơn ba tháng để giải trình tự bộ gien chủng vi-rút SARS-CoV, thì với dịch Covid-19, thời gian để xác định trình tự gien vi-rút SARS-CoV-2 đã rút ngắn đáng kể. Quá trình này được hoàn tất chỉ trong vài ngày nhờ những tiến bộ trong công nghệ giải trình tự gien. Bên cạnh đó, các nhà khoa học đã chia sẻ các dữ liệu nghiên cứu một cách nhanh chóng trên các cơ sở dữ liệu mở, giúp người dùng trên khắp thế giới có thể truy cập dễ dàng từ in-tơ-nét.

Hiện, thông tin trình tự gien của vi-rút SARS-CoV-2 được chia sẻ chủ yếu tại Cơ sở dữ liệu Ngân hàng gien (Genbank) của Trung tâm Thông tin công nghệ sinh học quốc gia Mỹ (NCBI), có trụ sở tại bang Maryland và Cơ sở dữ liệu của Tổ chức Sáng kiến toàn cầu chia sẻ dữ liệu cúm (GISAID), có trụ sở tại Munich, Đức.

Ngân hàng gien của Mỹ là một cơ sở dữ liệu mở, cho phép lưu trữ thông tin trình tự gien và các trình tự prô-tê-in của hơn 100.000 loài sinh vật được giải trình tự bởi các phòng thí nghiệm trên khắp thế giới. Cơ sở dữ liệu này cũng có sự liên kết với các cơ sở dữ liệu trình tự gien uy tín khác, như của Phòng Thí nghiệm sinh học phân tử châu Âu (EMBL) và Ngân hàng dữ liệu gien của Nhật Bản (DDBJ). Mỗi một trình tự sau khi đăng ký trên ngân hàng gien đều được cung cấp một mã số riêng biệt giúp cho việc truy cập được dễ dàng và nhanh chóng. Trung tâm Thông tin công nghệ sinh học quốc gia Mỹ cũng tích hợp công cụ phần mềm trên trình duyệt cho phép trình tìm kiếm tương tự trình tự hoặc so sánh một trình tự, với các trình tự khác trong cơ sở dữ liệu gien của ngân hàng trong thời gian rất ngắn.

Đầu tháng 1-2020, các nhà khoa học Trung Quốc đã giải mã được hoàn toàn bộ gien của SARS-CoV-2 và công bố đầu tiên trên Ngân hàng gien Mỹ (mã số MN908947). Tính đến nay, các nhà nghiên cứu trên toàn thế giới đã đăng tải vào cơ sở dữ liệu này 433 trình tự gien của vi-rút SARS-CoV-2. Thông tin trình tự gien của vi-rút SARS-CoV-2 lưu hành tại Việt Nam đã được các nhà khoa học trong nước giải trình tự và chia sẻ trên Ngân hàng gien của Mỹ. Trong đó, có bốn trình tự vùng gien (mã số từ MT127113-MT127116) do Viện Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đăng tải ngày 27-3 và hai trình tự giải toàn bộ hệ gien (mã số MT192772.1, MT192773.1) do Viện Pasteur TP Hồ Chí Minh đăng tải ngày 17-3.

Đối với cơ sở dữ liệu của Tổ chức Sáng kiến toàn cầu chia sẻ dữ liệu cúm (GISAID) được thành lập bởi sự kêu gọi của một nhóm nhà nghiên cứu y học hàng đầu thế giới, nhằm chia sẻ dữ liệu cúm gia cầm khi nhiều quốc gia đối mặt với nguy cơ bùng phát dịch cúm gia cầm gây ra bởi vi-rút cúm A/H5N1. Kể từ khi ra mắt, tổ chức này đã đóng vai trò thiết yếu trong việc chia sẻ dữ liệu giữa các Trung tâm hợp tác của Tổ chức Y tế thế giới (WHO) để đưa ra các khuyến nghị về vắc-xin cúm hằng năm. Bên cạnh cung cấp các dữ liệu mở về bệnh cúm, khi dịch Covid-19 bùng phát, nền tảng trực tuyến của GISAID cũng đã cho phép các nhà khoa học đăng tải dữ liệu trình tự gien của vi-rút SARS-CoV-2 và cho phép người dùng truy cập miễn phí. Hiện, đã có hơn 2.600 trình tự gien của SARS-CoV-2 được đăng tải trên cơ sở dữ liệu của GISAID, thông tin được hiển thị dưới dạng cây phả hệ, biểu đồ phân bố toàn cầu của vi-rút SARS-CoV-2. Đến nay, các nhà nghiên cứu tại Viện Vệ sinh dịch tễ trung ương đã đăng tải trên cơ sở dữ liệu này sáu trình tự gien được giải từ mẫu bệnh phẩm của người bệnh tại Hà Nội, Vĩnh Phúc, Thanh Hóa và Quảng Ninh.

Việc giải trình tự gien và chia sẻ về trình tự gien của SARS-CoV-2 lưu hành tại Việt Nam đã khẳng định năng lực của các cơ sở khoa học trong nước trước tình hình thực tiễn. Hy vọng trong thời gian tới, sẽ có thêm các trình tự gien của vi-rút SARS-CoV-2 được các nhà khoa học trong nước xác định, góp phần làm sáng tỏ nguồn gốc của vi-rút và mối liên hệ giữa các ca nhiễm Covid-19 tại nước ta.