Формула
1. Способ секвенирования молекул нуклеиновых кислот из образца с применением уникальных молекулярных индексов (UMI), где каждый уникальный молекулярный индекс (UMI) представляет собой олигонуклеотидную последовательность, которая может быть использована для идентификации индивидуальной молекулы фрагмента двухцепочечной ДНК, содержащейся в образце, включающий:
(a) прикрепление адапторов к обоим концам фрагментов двухцепочечной ДНК, находящейся в образце, где каждый из адапторов включает двухцепочечную гибридизованную область, одноцепочечное 5'-плечо, одноцепочечное 3'-плечо и физический UMI на одной цепочке или на каждой цепочке адапторов, в результате чего получают продукты присоединения адаптора к ДНК;
(b) амплификацию обеих цепочек продуктов присоединения адаптора к ДНК с образованием множества амплифицированных полинуклеотидов;
(c) секвенирование множества амплифицированных полинуклеотидов, в результате чего получают множество прочтений, каждое из которых ассоциировано с физическим UMI;
(d) идентификацию множества физических UMI, ассоциированных с множеством прочтений;
(e) идентификацию множества виртуальных UMI, ассоциированных с множеством прочтений, где каждый виртуальный UMI представляет собой последовательность, находящуюся во фрагменте ДНК в образце; и
(f) определение последовательностей фрагментов двухцепочечной ДНК, находящейся в образце, с использованием множества прочтений, полученных в этапе (с), множества физических UMI, идентифицированных при выполнении этапа (d), и множества виртуальных UMI, идентифицированных в этапе (е).
2. Способ по п. 1, где этап (f) включает:
для каждого из одного или более фрагментов двухцепочечной ДНК, находящейся в образце, объединение (i) прочтений, имеющих первый физический UMI и по меньшей мере один виртуальный UMI, и (ii) прочтений, имеющих второй физический UMI и по меньшей мере один виртуальный UMI, для определения консенсусной нуклеотидной последовательности; и
для каждого из одного или более фрагментов двухцепочечной ДНК, находящейся в образце, определение последовательности, исходя из консенсусной нуклеотидной последовательности.
3. Способ по п. 1, в котором множество физических UMI включает случайные UMI.
4. Способ по п. 1, в котором множество физических UMI включает неслучайные UMI.
5. Способ по п. 4, в котором каждый неслучайный UMI отличается от любого другого неслучайного UMI, находящихся в адапторах, по меньшей мере двумя нуклеотидами в соответствующих положениях последовательности неслучайных UMI.
6. Способ по п. 5, в котором множество физических UMI включает не более чем приблизительно 10000 уникальных неслучайных UMI.
7. Способ по п. 6, в котором множество физических UMI включает не более чем приблизительно 1000 уникальных неслучайных UMI.
8. Способ по п. 7, в котором множество физических UMI включает не более чем приблизительно 500 уникальных неслучайных UMI.
9. Способ по п. 8, в котором множество физических UMI включает не более чем приблизительно 100 уникальных неслучайных UMI.
10. Способ по п. 9, в котором множество физических UMI включает приблизительно 96 уникальных неслучайных UMI.
11. Способ по п. 1, в котором прикрепление адапторов к обоим концам фрагментов двухцепочечной ДНК включает связывание адапторов с обоими концами фрагментов двухцепочечной ДНК.
12. Способ по п. 1, в котором этап (f) включает применение прочтений, имеющих общий физический UMI и общий виртуальный UMI, для определения последовательности фрагмента ДНК образца.
13. Способ по п. 1, в котором множество физических UMI включает менее 12 нуклеотидов.
14. Способ по п. 13, в котором множество UMI включает не более 6 нуклеотидов.
15. Способ по п. 13, в котором множество UMI включает не более 4 нуклеотидов.
16. Способ по п. 1, в котором каждый из адапторов включает физический UMI на каждой цепочке адапторов в двухцепочечной гибридизованной области.
17. Способ по п. 16, в котором физический UMI находится на конце или вблизи конца двухцепочечной гибридизованной области, причем конец двухцепочечной гибридизованной области противоположен 3'-плечу или 5'-плечу.
18. Способ по п. 17, в котором физический UMI находится на конце двухцепочечной гибридизованной области или на расстоянии одного нуклеотида от конца двухцепочечной гибридизованной области.
19. Способ по п. 18, в котором каждый из адапторов включает в двухцепочечной гибридизованной области тринуклеотид 5'-TGG-3' или тринуклеотид 3-АСС-5', соседствующий с физическим UMI.
20. Способ по п. 19, в котором каждый из адапторов включает последовательность праймера прочтения на каждой цепочке двухцепочечной гибридизованной области.
21. Способ по п. 1, в котором каждый из адапторов включает физический UMI только на одной из цепочек адапторов на одноцепочечном 5'-плече или одноцепочечном 3'-плече.
22. Способ по п. 21, в котором этап (f) включает:
(i) объединение прочтений, имеющих один и тот же первый физический UMI, в первую группу с целью получения первой консенсусной нуклеотидной последовательности;
(ii) объединение прочтений, имеющих один и тот же второй физический UMI, во вторую группу с целью получения второй консенсусной нуклеотидной последовательности; и
(iii) определение из первой и второй консенсусных нуклеотидных последовательностей последовательности одного из фрагментов двухцепочечной ДНК, содержащихся в образце.
23. Способ по п. 22, в котором этап (iii) включает: (1) получение третьей консенсусной нуклеотидной последовательности из информации о местоположении и информации о последовательности первой и второй консенсусных нуклеотидных последовательностей, и (2) определение последовательности одного из фрагментов двухцепочечной ДНК из третьей консенсусной нуклеотидной последовательности.
24. Способ по п. 21, в котором этап (е) включает идентификацию множества виртуальных UMI, причем каждый из адапторов включает физический UMI только на одноцепочечном 5'-плече или одноцепочечном 3'-плече.
25. Способ по п. 24, в котором этап (f) включает:
(i) объединение прочтений, имеющих первый физический UMI и по меньшей мере один виртуальный UMI в направлении прочтения, и прочтений, имеющих второй физический UMI и по меньшей мере один виртуальный UMI в направлении прочтения, для определения консенсусной нуклеотидной последовательности; и
(ii) определение последовательности одного из фрагментов двухцепочечной ДНК, содержащихся в образце, на основании данных консенсусной нуклеотидной последовательности.
26. Способ по п. 1, в котором каждый из адапторов включает физический UMI на каждой цепочке адапторов в двухцепочечной области адапторов, причем физический UMI одной цепочки комплементарен физическому UMI другой цепочки.
27. Способ по п. 26, в котором этап (f) включает:
(i) объединение прочтений, имеющих первый физический UMI, по меньшей мере один виртуальный UMI и второй физический UMI в направлении 5'-3', и прочтений, имеющих второй физический UMI, по меньшей мере один виртуальный UMI и первый физический UMI в направлении 5'-3', для определения консенсусной нуклеотидной последовательности; и
(ii) определение последовательности одного из фрагментов двухцепочечной ДНК, содержащихся в образце, на основании данных консенсусной нуклеотидной последовательности.
28. Способ по п. 1, в котором каждый из адапторов включает первый физический UMI на 3'-плече адаптора и второй физический UMI на 5'-плече адаптора, причем первый физический UMI и второй физический UMI не комплементарны друг другу.
29. Способ по п. 28, в котором этап (f) включает:
(i) объединение прочтений, имеющих первый физический UMI, по меньшей мере один виртуальный UMI и второй физический UMI в направлении 5'-3', и прочтений, имеющих третий физический UMI, по меньшей мере один виртуальный UMI и четвертый физический UMI в направлении 5'-3', для определения консенсусной нуклеотидной последовательности; и
(ii) определение последовательности одного из фрагментов двухцепочечной ДНК, содержащихся в образце, на основании данных консенсусной нуклеотидной последовательности.
30. Способ по п. 1, в котором по меньшей мере некоторые из виртуальных UMI получены из подпоследовательностей, находящихся на концах или вблизи концов фрагментов двухцепочечной ДНК, содержащихся в образце.
31. Способ по п. 1, в котором один или более физических UMI и/или один или более виртуальных UMI уникальным образом ассоциированы с фрагментом двухцепочечной ДНК, содержащимся в образце.
32. Способ по п. 1, в котором фрагменты двухцепочечной ДНК, содержащиеся в образце, включают более приблизительно 1000 фрагментов ДНК.
33. Способ по п. 1, в котором множество виртуальных UMI включают UMI, содержащие от приблизительно 6 п.о. до приблизительно 24 п.о. (пар оснований).
34. Способ по п. 33, в котором множество виртуальных UMI включают UMI, содержащие от приблизительно 6 п.о. до приблизительно 10 п.о.
35. Способ по п. 1, в котором получение множества прочтений в операции (с) включает: получение двух прочтений парных концов от каждого из амплифицированных полинуклеотидов, где два прочтения парных концов включают длинное прочтение и короткое прочтение, причем длинное прочтение имеет большую длину, чем короткое прочтение.
36. Способ по п. 35, в котором этап (f) включает:
объединение пар прочтений, ассоциированных с первым физическим UMI, в первую группу и объединение пар прочтений, ассоциированных со вторым физическим UMI, во вторую группу, где первый и второй физические UMI уникальным образом ассоциированы с двухцепочечным фрагментом, находящимся в образце; и
определение последовательности двухцепочечного фрагмента, содержащегося в образце, на основании информации о последовательности длинных прочтений, имеющихся в первой группе, и информации о последовательности длинных прочтений, имеющихся во второй группе.
37. Способ по п. 35, в котором длина длинного прочтения составляет приблизительно 500 п.о. или более.
38. Способ по п. 35, в котором длина короткого прочтения составляет приблизительно 50 п.о. или менее.
39. Способ по п. 1, отличающийся тем, что способ включает подавление ошибок, возникающих при выполнении одной или более из следующих операций: ПЦР, создания библиотеки, объединения в кластеры и секвенирования.
40. Способ по п. 1, в котором амплифицированные полинуклеотиды включают аллели с аллельными частотами, составляющими приблизительно менее 1%.
41. Способ по п. 40, в котором амплифицированные полинуклеотиды включают молекулу внеклеточной ДНК, образованную в опухоли, и аллель является индикатором опухоли.
42. Способ по п. 1, в котором секвенирование множества амплифицированных полинуклеотидов включает получение прочтений, содержащих по меньшей мере приблизительно 100 п.о.
43. Способ получения дуплексного адаптора секвенирования, имеющего физический UMI на каждой цепочке, где способ включает:
предоставление предварительного адаптора секвенирования, включающего двухцепочечную гибридизованную область, два одноцепочечных плеча и липкий конец, включающий 5'-CCANNNNANNNNTGG-3' на конце двухцепочечной гибридизованной области, отстоящий еще дальше от двух одноцепочечных плеч;
достройку одной цепочки двухцепочечной гибридизованной области с использованием в качестве матрицы липкого конца, в результате чего образуется продукт достройки; и
применение рестрикционного фермента Хсm1 для расщепления двухцепочечного конца продукта достройки, в результате чего образуется дуплексный адаптор секвенирования, имеющий на каждой цепочке физический UMI.
44. Способ по п. 43, в котором предварительный адаптор секвенирования содержит на каждой цепочке последовательность праймера прочтения.
45. Компьютерный программный продукт, включающий энергонезависимый машиночитаемый носитель, на котором хранится программный код, выполнение которого одним или более процессорами компьютерной системы приводит к осуществлению компьютерной системой способа получения информации о строении интересующей последовательности, находящейся в образце; в способе применяют уникальные молекулярные индексы (UMI), которые представляют собой олигонуклеотидные последовательности, которые могут быть использованы для идентификации индивидуальных молекул фрагментов двухцепочечной ДНК, содержащихся в образце, причем программный код включает:
код для получения прочтений множества амплифицированных полинуклеотидов, где множество амплифицированных полинуклеотидов получено амплификацией фрагментов двухцепочечной ДНК, содержащейся в образце, содержащем интересующую последовательность, и присоединением адапторов к фрагментам двухцепочечной ДНК;
код для идентификации множества физических UMI в прочтениях множества амплифицированных полинуклеотидов, где каждый физический UMI находится в адапторе, присоединенном к одному из фрагментов двухцепочечной ДНК;
код для идентификации множества виртуальных UMI в прочтениях множества амплифицированных полинуклеотидов, где каждый виртуальный UMI находится в индивидуальной молекуле одного из фрагментов двухцепочечной ДНК; и
код для определения последовательностей фрагментов двухцепочечной ДНК на основании прочтений множества амплифицированных полинуклеотидов, множества физических UMI и множества виртуальных UMI, что приводит к уменьшению погрешностей в прочитанных последовательностях фрагментов двухцепочечной ДНК.
46. Компьютерный программный продукт по п. 45, в котором каждый из адапторов включает двухцепочечную гибридизованную область, одноцепочечное 5'-плечо, одноцепочечное 3'-плечо и физический уникальный молекулярный индекс (UMI) на одной цепочке или на каждой цепочке адапторов.
47. Компьютерный программный продукт по п. 45, в котором код для определения последовательностей фрагментов двухцепочечной ДНК включает:
(i) код для объединения прочтений, имеющих один и тот же первый физический UMI, в первую группу с целью получения первой консенсусной нуклеотидной последовательности;
(ii) код для объединения прочтений, имеющих один и тот же второй физический UMI, во вторую группу с целью получения второй консенсусной нуклеотидной последовательности; и
(iii) код для определения последовательности одного из фрагментов двухцепочечной ДНК, содержащихся в образце, на основании данных первой и второй консенсусных нуклеотидных последовательностей.
48. Компьютерный программный продукт по п. 45, в котором код для определения последовательностей фрагментов двухцепочечной ДНК включает:
(i) код для объединения прочтений последовательности, имеющих первый физический UMI, по меньшей мере один виртуальный UMI и второй физический UMI в направлении 5'-3', и прочтений последовательности, имеющих второй физический UMI, по меньшей мере один виртуальный UMI и первый физический UMI в направлении 5'-3', для определения консенсусной нуклеотидной последовательности; и
(ii) код для определения последовательности одного из фрагментов двухцепочечной ДНК, содержащихся в образце, на основании данных консенсусной нуклеотидной последовательности.
49. Компьютерная система, включающая:
один или более процессоров;
один или более машиночитаемых носителей для хранения информации, на которых хранятся инструкции, которые способен выполнять компьютер, при выполнении которых компьютерная система осуществляет способ получения информации о структуре интересующей последовательности, находящейся в образце, причем способ включает применение уникальных молекулярных индексов (UMI), которые представляют собой олигонуклеотидные последовательности, которые могут быть использованы для идентификации индивидуальных молекул фрагментов двухцепочечной ДНК, содержащихся в образце, где инструкции включают:
получение прочтений множества амплифицированных полинуклеотидов, где множество амплифицированных полинуклеотидов получено амплификацией фрагментов двухцепочечной ДНК, содержащейся в образце, содержащем интересующую последовательность, и присоединением адапторов к фрагментам двухцепочечной ДНК;
идентификацию множества физических UMI в полученных прочтениях множества амплифицированных полинуклеотидов, где каждый физический UMI находится в адапторе, присоединенном к одному из фрагментов двухцепочечной ДНК;
идентификацию множества виртуальных UMI в полученных прочтениях множества амплифицированных полинуклеотидов, где каждый виртуальный UMI находится в индивидуальной молекуле одного из фрагментов двухцепочечной ДНК; и
определение последовательностей фрагментов двухцепочечной ДНК с использованием последовательностей множества амплифицированных полинуклеотидов, множества физических UMI и множества виртуальных UMI, что приводит к уменьшению погрешностей в прочитанных последовательностях фрагментов двухцепочечной ДНК.
50. Компьютерная система по п. 49, в которой определение последовательностей фрагментов двухцепочечной ДНК включает:
(i) объединение прочтений, имеющих один и тот же первый физический UMI, в первую группу с целью получения первой консенсусной нуклеотидной последовательности;
(ii) объединение прочтений, имеющих один и тот же второй физический UMI, во вторую группу с целью получения второй консенсусной нуклеотидной последовательности; и
(iii) определение из первой и второй консенсусных нуклеотидных последовательностей последовательности одного из фрагментов двухцепочечной ДНК.
51. Компьютерная система по п. 49, в которой определение последовательностей фрагментов двухцепочечной ДНК включает:
(i) объединение прочтений, имеющих первый физический UMI, по меньшей мере один виртуальный UMI и второй физический UMI в направлении 5'-3', и прочтений, имеющих второй физический UMI, по меньшей мере один виртуальный UMI и первый физический UMI в направлении 5'-3', для определения консенсусной нуклеотидной последовательности; и
(ii) определение последовательности одного из фрагментов двухцепочечной ДНК из консенсусной нуклеотидной последовательности.
52. Способ секвенирования молекул нуклеиновых кислот из образца, включающий:
(a) присоединение адапторов к обоим концам фрагментов двухцепочечной ДНК, находящейся в образце,
где каждый из адапторов включает двухцепочечную гибридизованную область, одноцепочечное 5'-плечо, одноцепочечное 3'-плечо и физический уникальный молекулярный индекс (UMI) на одноцепочечном 5'-плече или одноцепочечном 3'-плече, и
где UMI представляет собой олигонуклеотидную последовательность, которая может быть использована для идентификации индивидуальной молекулы фрагмента двухцепочечной ДНК, содержащейся в образце;
(b) амплификацию обеих цепочек продуктов лигирования, полученных при выполнении этапа (а), в результате чего получают множество одноцепочечных амплифицированных полинуклеотидов;
(c) секвенирование множества амплифицированных полинуклеотидов, в результате чего получают множество прочтений, каждое из которых ассоциировано с физическим UMI;
(d) идентификацию множества физических UMI, ассоциированных с множеством прочтений; и
(e) определение последовательностей фрагментов двухцепочечной ДНК, находящейся в образце, с использованием множества последовательностей, полученных при выполнении этапа (с), и множества физических UMI, идентифицированных при выполнении этапа (d).
53. Способ секвенирования молекул нуклеиновых кислот из образца, включающий:
(а) присоединение адапторов к обоим концам фрагментов двухцепочечной ДНК, находящейся в образце,
где каждый из адапторов включает двухцепочечную гибридизованную область, одноцепочечное 5'-плечо, одноцепочечное 3'-плечо и физический уникальный молекулярный индекс (UMI), содержащий менее 12 нуклеотидов, на одной цепочке или на каждой цепочке адапторов,
где UMI представляет собой олигонуклеотидную последовательность, которая может быть использована для идентификации индивидуальной молекулы фрагмента двухцепочечной ДНК, содержащейся в образце;
(b) амплификацию обеих цепочек продуктов лигирования, полученных при выполнении этапа (а), в результате чего получают множество одноцепочечных амплифицированных полинуклеотидов, каждый из которых включает физический UMI;
(c) секвенирование множества амплифицированных полинуклеотидов, в результате чего получают множество прочтений, каждое из которых ассоциировано с физическим UMI;
(d) идентификацию множества физических UMI, ассоциированных с множеством прочтений; и
(e) определение последовательностей фрагментов двухцепочечной ДНК, находящейся в образце, с использованием множества прочтений, полученных при выполнении этапа (с), и множества физических UMI, идентифицированных при выполнении этапа (d).