Khái niệm, đặc điểm của hệ gen người và ý nghĩa của Dự án Hệ gen người
Trungtamthuoc.com - Bài viết này chúng tôi sẽ phân tích khái niệm, đặc điểm của hệ gen người và ý nghĩa của việc nghiên cứu hệ gen người. Bên cạnh đó còn phân tích ý nghĩa của Dự án Hệ gen người.
Trường Đại học Dược Hà Nội, Bộ môn Hóa Sinh - Khoa Công Nghệ Sinh Học
Giáo trình GEN DƯỢC HỌC - ẢNH HƯỞNG CỦA GEN ĐẾN ĐÁP ỨNG THUỐC, Tải PDF sách TẠI ĐÂY
CHỦ BIÊN
PGS.TS. Phùng Thanh Hương
PGS.TS. Đỗ Hồng Quảng
CÁC TÁC GIẢ THAM GIA BIÊN SOẠN
PGS.TS. Phùng Thanh Hương
PGS.TS. Đỗ Hồng Quảng
PGS.TS. Nguyễn Văn Rư
PGS.TS. Nguyễn Thị Lập
TS. Nguyễn Quốc Bình
1 Khái niệm hệ gen
Gen: Là đơn vị cấu trúc và chức năng của di truyền. Mỗi gen là một đoạn ADN với kích thước trung bình khoảng vài nghìn cặp nucleotid (cặp base - bp), sẽ có thể phiên mã thành các loại ARN có chức năng khác nhau bao gồm chức năng mã hóa (mARN) và các chức năng khác. Do đó, gen cũng bao gồm gen mã hóa và gen không mã hóa. Mỗi gen nằm ở một vị trí nhất định trên nhiễm sắc thể (NST) gọi là locus. Do NST trong tế bào lưỡng bội tồn tại thành một cặp nên ở mỗi locus, gen cũng tồn tại thành cặp gồm 2 alen, trong đó 1 alen nguồn gốc từ bố và 1 alen nguồn gốc từ mẹ.
Hệ gen (genome): Là toàn bộ các phân tử ADN trong tế bào của một loài sinh vật, bao gồm cả vùng mã hóa và vùng không mã hóa của ADN. Hệ gen nhân (nuclear DNA) chỉ toàn bộ các đơn vị di truyền chứa trong một bộ đơn bội (n) nhiễm sắc thể của loài Mỗi giao tử bình thường chứa một hệ gen đơn bội, mỗi tế bào sinh dưỡng chứa hệ gen lưỡng bội. Hệ gen của người là sự phân bố ở các vị trí xác định của các gen trên chuỗi ADN trên 24 NST của người (22 NST thường và NST giới X, Y). Bên cạnh hệ gen nhân còn có hệ gen ty thể (mtDNA) mã hóa cho ARN ty thể và mã hóa khoảng 5% protein của ty thể.
Hệ gen nhân – ADN nhân tế bào: Là bộ hoàn chỉnh các trình tự ADN trên 23 cặp nhiễm sắc thể trong nhân tế bào. Hệ gen người bao gồm cả các ADN mã hóa protein và ADN không mã hóa. Hệ gen người, được chứa đựng trong các tế bào mầm (2 tế bào giới tính gồm một tinh trùng và một trứng được tạo ra trong giai đoạn giảm phân của quá trình sinh sản hữu tính trước khi thụ tinh để tạo ra một hợp tử) bao gồm ba tỷ cặp base, trong khi hệ gen lưỡng bội (tìm thấy trong các tế bào sinh dưỡng) có số lượng ADN gấp 2 lần. Kích thước hệ gen người đã được biết là 3234,83 Mb (Mega basepairs) và như vậy, mỗi hệ gen lưỡng bội có kích thước 6469,66 Mb.
Hệ gen ngoài nhân - ADN ty thể (mtADN): Ngày nay người ta còn quan tâm đến các gen ngoài nhân, các gen nằm trên ADN của ty thể. Trong một tế bào sinh dưỡng bình thường, gen trong nhân chỉ có hai bản nhưng gen trong ty thể có hàng nghìn bản, vì mỗi tế bào chỉ có một nhân nhưng có tới trên một nghìn ty thể.
ADN ty thể (mitochondrial ADN, mtADN): Là ADN nằm trong ty thể, loại bảo quan của các tế bảo nhân chuẩn, thực hiện chức năng chuyển đổi năng lượng hóa học từ chất dinh dưỡng thành dạng năng lượng tế bào có thể sử dụng là ATP. ADN ty thể của người là một phần quan trọng đầu tiên của hệ gen người được giải mã. Trình tự ADN của mADN cũng đã được xác định cho một số lượng lớn các sinh vật và cá thể, bao gồm cả một số sinh vật đã tuyệt chủng.
Trong hầu hết các loài, kể cả loài người, mtADN được thừa kế duy nhất từ mẹ. Đó là do khi thụ tinh thì hợp tử thừa kế bào tương và các bào quan chỉ có nguồn gốc từ tế bào trứng của mẹ, trong đó có mtADN, còn tinh trùng chỉ đóng góp vào ADN nhân và bỏ lại các bảo quan bên ngoài hợp tử.
Đối với hệ gen ty thể, các sinh vật đa bào thường có mADN dạng vòng, tuy nhiên đã phát hiện cấu trúc mtADN thẳng ở nhiều sinh vật đơn bào, như Trùng lông (Ciliate Tetrahymena) hoặc các loại Tảo xanh (Chlamydomonas reinhardtii), và một số sinh vật đa bảo như một số loài có ty bảo (Cnidaria). Mỗi ty thể được ước tính có chứa 2 – 10 bản mtADN.
2 Đặc điểm hệ gen của người
2.1 Quy mô của hệ gen người
Hệ gen nhân đơn bội của người ước tính có kích thước khoảng hơn ba tỷ cặp base. Trong mỗi tế bào lưỡng bội, tổng kích thước của các phân tử ADN nhân vào khoảng 206,62 cm và với số tế bảo cỏ nhân trung bình là 3.1012, kích thước của toàn bộ ADN nhân trong một cơ thể người ước tính khoảng 6,2 tỷ km, gấp khoảng 41 lần khoảng cách từ trái đất tới mặt trời. Trong khi đó, trọng lượng của toàn bộ số ADN này chỉ vào khoảng 19,39 g, tương đương kích thước một viên kim cương 100 carat. Trong toàn hệ gen người, các gen mã hóa chiếm khoảng 1,5%. Tuy chỉ chiếm tỷ lệ nhỏ nhưng hơn 85% đột biến gây bệnh xảy ra ở vùng mã hóa.
Kích thước của các gen nói chung rất biến thiên, có gen có thể lớn hơn 2 triệu bp (gen Dystrophin), phần lớn gen khoảng vài nghìn bp. Không có mối tương quan trực tiếp giữa kích thước của protein với chiều dài của gen mã hóa nổ, mặc dù người ta thấy các chuỗi peptid lớn tương ứng với những gen lớn. Số lượng gen trên mỗi NST cũng rất khác nhau. NST số 1 là NST lớn nhất chứa 2079 gen, trong khi đó NST X chỉ chứa 830 gen NST Y nhỏ nhất chứa 72 gen.
Đối với hệ gen ty thể, một tế bào người chứa lượng mADN trung bình có kích thước dao động tử 2,85 triệu bp - 0,09 cm tới 110,7 triệu bp - 3,62 cm, tùy theo số lượng phân tử ADN trong ty thể. mtADN chiếm khoảng 0,90 - 1,21% tổng số ADN trong một tế bào lưỡng bội.
Hệ gen người là một trong những hệ gen phức tạp nhất. Trước kia, trong nhiều thập kỷ, người ta cho rằng nhiễm sắc thể người chứa khoảng 100.000 gen, trải dài trên 3,2 tỷ bp của toàn bộ ADN. Tuy nhiên, ngày nay khoa học đã chứng minh được rằng số nucleotid trong hệ gen của một sinh vật không nhất thiết phải tỷ lệ với số vùng mã hóa. Trong thực tế, hệ gen người chứa khoảng 21.000 gen mã hóa, ít hơn so với cây lúa gạo (51.000) và không cao hơn nhiều so với loài giun tuyến trùng (18.000),
So với loài gần nhất về mặt tiến hóa là tinh tinh, hệ gen người tương đồng tới 99%. Trong khi đó, khi so sánh hệ gen của những cá thể người giống nhau thì mức độ tương đồng lên tới 99,6%. Mặc dù các cá thể người chỉ khác nhau ở 0,4% hệ gen nhưng đã bao gồm hơn 4 triệu loại biến thể, mang lại sự đa dạng về đặc điểm di truyền. Hầu như ít có 2 cá thể người có hệ gen hoàn toàn giống nhau.
2.2 Thành phần của hệ gen người
ADN của người và của tế bảo sinh vật nhân chuẩn (Eukaryota) gồm các trình tự mã hóa protein (exon) xen kẽ với những trình tự không mã hóa protein (intron). Các trình tự ADN trong hệ gen được chia làm các loại sau:
- ADN có trình tự duy nhất: là các gen mã hóa cho các protein, chiếm khoảng 1,5% hệ gen. Thuật ngữ gen đã có gần một thế kỷ (Johansen, 1909) nhưng sự khám phá về gen vẫn còn tiếp tục. Theo định nghĩa truyền thống, gen là vật chất di truyền quyết định một tình trạng xác định, hay chính xác hơn, theo Mendel, gen là một đoạn ADN mã hóa một protein xác định. Nhưng sau này người ta thấy không nhất thiết một gen quyết định một tính trạng mà có thể có nhiều gen cùng quyết định một tính trạng và sự biểu hiện của gen phụ thuộc nhiều nhân tố nên hình thành loại tính trạng di truyền đa nhân tố.
Gen cấu trúc ở người là một đoạn ADN gồm các đoạn exon xen kẽ intron. Toàn bộ các đoạn intron và exon này sẽ phiên mã thành phân tử mARN tiền thân. Phân tử mARN tiền thân này sẽ cắt loại các đoạn intron và nối các đoạn mARN phiên mã từ exon để tạo thành phân tử mARN thuần thục và tiếp tục tham gia dịch mã thành phân tử protein đặc hiệu tương ứng (Hình 1.2). Số lượng các intron và exon trong một gen không giống nhau ở các gen.
Sở dĩ gen mã hóa cho protein là bởi cử 3 nucleotid liên tiếp trên gen (gọi là 1 bộ ba mã hóa - codon) sẽ quy định 1 bộ ba ribonucleotid trên phân tử mARN tương ứng và 1 acid amin tương ứng của phân tử protein đặc hiệu (Hình 1.3). Vì vậy, trình tự nucleotid của gen sẽ quy định trình tự acid amin của phân tử protein tương ứng.
- Các trình tự lập: Trong số các trình tự không mã hóa của hệ gen người (chiếm khoảng hơn 98%), có khoảng 3% là các đoạn nucleotid lặp lại được gọi là các trình tự lặp đơn giản (simple sequence repeats - SSRs hoặc short tandem repeats) hoặc các ADN vệ tinh (satellite DNA). Tùy theo kích thước mà chúng được chia thành 3 loại: Microsatellite (1 - 5 bp) lặp lại khoảng 10 – 50 lần trong một đơn vị, minisatellite (12 - 100 bp) lặp lại vài nghìn lần và satellite (5 - 50 bp) hay tandem repeat lặp lại khoảng 1 triệu lần trên 1 sợi ADN. Ngoài ra, có các đoạn trình tự lặp có thể chiếm tỷ lệ khá lớn, tới trên 5% hệ gen, có tính bảo tồn cao.
- Ngoài ra, hệ gen người còn có các gen nhảy (transposon), là những đoạn ADN có khả năng tích hợp vào bất cứ vị trí nào của hệ gen.
3 Dự án hệ gen người
Genomics là ngành khoa học nghiên cứu về hệ gen của một loài hoặc một cá thể bao gồm từ cấu trúc đến chức năng các thành phần trong hệ gen, biểu hiện gen, điều hòa gen, lập bản đồ gen, sửa chữa gen, vai trò của hệ gen trong tiến hóa... và các kỹ thuật trong nghiên cứu về gen. Các nghiên cứu genomics có những đóng góp quan trọng trong sự phát triển của công nghệ sinh học, y sinh học và các thành tựu trong y dược, giúp phát triển những công cụ phòng bệnh, chẩn đoán, điều trị tiên tiến, an toàn, hợp lý và hiệu quả.
Bên cạnh các nghiên cứu về hệ gen của nhiều loại sinh vật thuộc các bậc khác nhau trong sinh giới, những dự án nghiên cứu genomics quy mô lớn nhất, với sự phối hợp của các trung tâm genomics lớn trên thế giới thường về hệ gen người. Khởi đầu với Dự án Hệ gen người (Human Genome Project - HGP) vào năm 1990 và kết thúc năm 2003 như một nền móng vững chắc để khởi động một số dự án toàn cầu tiếp theo về hệ gen người như Dự án Hapmap (năm 2002) và Dự án 1000 hệ gen (năm 2008). Kết quả của các dự án này không chỉ giúp giải mã hệ gen con người mà còn làm sáng tỏ sự khác biệt về di truyền giữa các cá thể và dẫn đến những sự phát triển đột phá trong nhiều lĩnh vực liên quan. Tiếp nối những dự án toàn cầu đó, nhiều quốc gia cũng đã có những dự án 1000 hệ gen của riêng mình để làm rõ các đặc điểm di truyền đặc trưng và ứng dụng đặc hiệu cho từng quốc gia, từng chủng tộc.
Dưới đây là giới thiệu về Dự án toàn cầu đầu tiên, có những ảnh hưởng mạnh mẽ nhất: Dự án Hệ gen người (HGP).
3.1 Giới thiệu về Dự án Hệ gen người
Dự án hệ gen người (Human Genome Project - HGP) là một trong những công trình to lớn nhất và là nhiệm vụ đầy tham vọng trong lịch sử nghiên cứu y sinh học. Khởi đầu năm 1990, dự án thực hiện trong 13 năm với sự tham gia của hàng nghìn nhà khoa học thuộc 20 viện và trung tâm hàng đầu về nghiên cứu hệ gen ở 6 quốc gia. Mục tiêu ban đầu của dự án bao gồm:
- Xác định khoảng 100.000 gen trong hệ gen người.
- Xác định trình tự của 3 tỷ bp trong hệ gen người.
- Lưu giữ kết quả trong các cơ sở dữ liệu.
- Phát triển các công cụ phân tích dữ liệu.
- Giải quyết các vấn đề về đạo đức, pháp lý và xã hội phát sinh trong nghiên cứu hê gen.
Dự án HGP tạo ra trình tự hoàn chỉnh đầu tiên của hệ gen người, với trình tự dự thảo đầu tiên và phân tích ban đầu được công bố vào ngày 12 tháng 02 năm 2001. Hệ gen của con người là hệ gen đầu tiên của tất cả các loài động vật có xương sống được giải trình tự gần như hoàn toàn. Vào tháng 4 năm 2003, dự án đã công bố kết quả giải mã 92% hệ gen người với độ chính xác 99%, vẫn còn gần 400 chỗ trống (gaps) chưa được giải mã, trong đó chủ yếu là các đoạn lặp phức tạp. Do đó, sau khi kết thúc dự án HGP, các nỗ lực vẫn tiếp tục để làm sáng tỏ các khoảng trống đỏ. Vào ngày 31/3/2022, Dự án Telomere-to- Telomere (T2T) đã công bố việc giải mã hoàn toàn các khoảng trống còn lại và lần đầu tiên toàn bộ hệ gen hoàn chỉnh của con người được giải trình tự hoàn toàn.
Có khoảng 19.000 - 20.000 gen mã hóa protein ở người. Ước tính số lượng gen của con người đã được điều chỉnh nhiều lần so với dự đoán ban đầu từ 100.000 hoặc nhiều hơn khi chất lượng phân tích chuỗi gen và phương pháp xác định gen đã được cải thiện, và có thể tiếp tục giảm hơn nữa. Chuỗi mã hóa protein chỉ chiếm một phần rất nhỏ của hệ gen (khoảng 1,5%), và phần còn lại được liên kết với các phân tử ARN không mã hóa, trình tự ADN điều hòa, LINE, SINE, intron và các trình tự không mã hóa chưa xác định.
3.2 Ý nghĩa của dự án hệ gen người
3.2.1 Ảnh hưởng đối với công nghệ sinh học
Trước hết, một trong những di sản quan trọng nhất của Dự án HGP là tất cả các trình tự gen người sau khi giải mã đều nhanh chóng được công bố rộng rãi cho cộng đồng khoa học dưới dạng cơ sở dữ liệu mở. Đây cũng là sự mở đầu của việc chia sẻ rộng rãi các dữ liệu nghiên cứu y sinh học.
Thứ hai, Dự án HGP mở ra sự phát triển vượt bậc của ngành khoa học proteomics, giúp xác định cấu trúc, chức năng và định lượng các protein của người.
Thứ ba, Dự án HGP mở ra sự hiểu biết hoàn toàn mới về tiến hóa trong sinh giới. Cùng với việc hoàn thành giải mã hệ gen người, hàng nghìn loài khác cũng đã được giải mã hệ gen, việc so sánh dữ liệu hệ gen của các loài giúp hoàn thiện việc xây dựng cây tiến hóa của sinh giới.
Thứ tư, Dự án HGP thúc đẩy sự phát triển ứng dụng của các công cụ tính toán tin sinh học trong nghiên cứu y sinh học, giúp hình thành và quản lý những bộ dữ liệu khổng lỗ về trình tự của các hệ gen. Ngày nay, tin sinh học đã trở thành một công cụ không thể thiếu trong nghiên cứu hệ gen và giải trình tự gen.
Thứ năm, dự án HGP khởi động cho sự khám phá các phần khác nhau trong hệ gen người, làm sáng tỏ cấu trúc, chức năng và sự tương tác giữa các phần đó. Ví dụ như tiếp nổi dự án HGP, dự án ENCODE (Encyclopedia Of DNA Elements) được khởi động từ năm 2003 bởi Bộ Y tế Hoa Kỳ nhằm mục đích khám phá các vùng chức năng của hệ gen người, tạo ra cơ sở dữ liệu quan trọng về mạng lưới điều hòa biểu hiện gen. Cũng từ Dự án HGP, đã ra đời các hệ gen quy chiếu của người, giúp làm đối chứng chuẩn cho các nghiên cứu tiếp theo về gen người.
Cuối cùng, các dự án khám phá hệ gen người đã thúc đẩy sự phát triển vượt bậc của công nghệ giải trình tự gen, theo thời gian, đã có sự gia tăng đáng kể về độ chính xác của kết quả giải trình tự ADN trong khi giảm đáng kể về thời gian và chi phí cho xét nghiệm gen và giải trình tự gen (Hình 1.4).
Đường thẳng màu trắng là ước tính mức giảm chi phí giải trình tự 1 hệ gen theo định luật Moore; Đường cong màu xanh là chi phí giải trình tự 1 hệ gen trong thực tế
3.2.2 Ảnh hưởng đối với y sinh được học
Dự án HGP đã khởi động việc khám phá hệ gen của hàng chục nghìn người khác nhau, tạo ra những bộ dữ liệu khổng lồ, trên cơ sở đó, các nhà khoa học tiếp tục khám phá và so sánh hệ gen người trong trạng thái bình thường khỏe mạnh và trong các bệnh lý để tìm hiểu và khám phá các chỉ dấu sinh học giúp cho việc chẩn đoán, theo dõi điều trị và tiên lượng của nhiều bệnh khác nhau bao gồm cả các bệnh di truyền và bệnh không di truyền. Nhiều bệnh hiểm trước kia rất khó để chẩn đoán và tìm nguyên nhân thì nhờ những khám phá về hệ gen người, đã có thể biết được nguyên nhân do đột biến gen, từ đó một mặt phát triển thành các bộ kit chẩn đoán, sàng lọc di truyền, mặt khác dẫn tới những giải pháp điều trị phù hợp, bao gồm cả những biện pháp trị liệu công nghệ cao để sửa chữa/ thay thế các khiếm khuyết về gen như gen trị liệu hay công nghệ tế bào gốc. Bên cạnh các bệnh di truyền, sự hiểu biết về hệ gen người có những đóng góp to lớn cho các tiến bộ trong lĩnh vực điều trị ung thư. Ví dụ như các dự án về hệ gen ung thư (International Cancer Genome Consortium và Cancer Genome Atlas) đem lại những hiểu biết sâu sắc lần đầu tiên về sự khác biệt giữa tế bào ung thư và tế bào khỏe mạnh, các cơ chế bệnh sinh của nhiều loại ung thư khác nhau. Sàng lọc gen gây ung thư, giúp phát hiện và điều trị sớm ung thư, đặc biệt đối với những người có tiền sử mắc ung thư trong gia đình đã được ứng dụng rộng rãi hiện nay, đem lại cơ hội sống khỏe mạnh cho rất nhiều người. Mặt khác, từ hiểu biết về cơ chế bệnh sinh của các bệnh đã dẫn đến khám phá của nhiều đích phân tử, dẫn tới sự ra đời của nhiều nhóm thuốc điều trị tiên tiến như các các thuốc điều trị đích, giúp cải thiện đáng kể hiệu quả điều trị, kéo dài thời gian sống và giảm các tác dụng không mong muốn trong điều trị ung thư.
Một ứng dụng quan trọng khác của các khám phá về hệ gen người là hiểu biết về ảnh hưởng của gen tới đáp ứng của từng cá thể bệnh nhân đối với thuốc điều trị, với sự phát hiện của các biến thể gen ảnh hưởng tới được động học, dược lực học của thuốc. Lần đầu tiên, xét nghiệm gen được ứng dụng trong việc lựa chọn thuốc phù hợp cho từng cá thể bệnh nhân để nhằm đem lại hiệu quả tốt nhất và an toàn nhất cho người bệnh. Từ đó ra đời xu hướng mới của y học hiện đại mà ngày nay đang phát triển nhanh chóng trong nhiều nhóm điều trị khác nhau: cá thể hóa điều trị.
3.2.3 Ảnh hưởng trong các lĩnh vực khác
Bên cạnh những giá trị to lớn đối với sự phát triển của y sinh được học và công nghệ sinh học, Dự án HGP còn có những ảnh hưởng đối với nhiều lĩnh vực khác. Ví dụ như trong pháp y, xét nghiệm ADN đã trở thành một công cụ quan trọng và hiệu quả bên cạnh các dấu vân tay hay các xét nghiệm truyền thống khác.
Ngoài ra, Dự án HGP làm thay đổi nhận thức và hệ thống pháp luật về các vấn đề như sự bảo mật riêng tư đối với dữ liệu di truyền, quyền con người, chống lại nạn phân biệt chủng tộc khi biết rằng, không có sự khác biệt đáng kể về trình tự gen giữa các màu da khác nhau...
4 Kết luận
Trên cơ sở phân tích khái niệm, đặc điểm của hệ gen người và ý nghĩa của việc nghiên cứu hệ gen người giúp hiểu biết và nghiên cứu về nguồn gốc sự sống và đặc biệt nghiên cứu về nguyên nhân gây bệnh cũng như cơ sở khoa học trong việc điều trị. Trên cơ sở đó các nhà khoa học có thể nghiên cứu khám phá ra những phương pháp điều trị và thuốc điều trị đặc hiệu và trúng đích.
5 Tài liệu tham khảo
1. Alexander J. Gates et al. A wealth of discovery built on the Human Genome Project - by the numbers Nature | Vol 590 | 11 February (2021). 2.
Allison Piovesan et al, On the length, weight and GC content of the human genome BMC Res Notes (2019) 12:106.
3. Leroy Hood and Lee Rowen, The uman enome roject: big science transform biology and medicine. Genome Medicine (2013), 5:79.
4. Nurk et al., The complete sequence of a human genome Science 376, 44-53 (2022).