Мы живем в век информации и данных, и каждый день их создается все больше. По оценкам, сейчас на планете около десяти триллионов гигабайт цифровых данных, и около 2,5 миллиона гигабайт добавляются к этой сумме ежедневно. Эксабайт – это один миллиард гигабайт, а эксабайтные центры обработки данных в настоящее время используются для хранения большей части мировых данных. Эти центры могут быть размером с несколько футбольных полей и стоить до миллиарда долларов.
Многие ученые считают, что альтернативное решение заключается в молекуле, которая содержит нашу генетическую информацию: ДНК, которая эволюционировала для хранения огромных объемов информации с очень высокой плотностью. По словам Марка Бата, профессора биологической инженерии Массачусетского технологического института, в кофейной кружке, полной ДНК, теоретически можно хранить все данные человечества.
«Нам нужны новые решения для хранения огромных объемов данных, которые накапливаются в мире, особенно архивных данных», – сказал Бат. «ДНК в тысячу раз плотнее, чем даже флеш-память, и еще одно интересное свойство состоит в том, что после создания полимера ДНК он не потребляет никакой энергии. Вы можете записать ДНК, а затем хранить ее вечно».
ДНК уже использовалась для кодирования изображений и текста, и теперь Бат и его коллеги разработали метод извлечения нужного файла из смеси ДНК. Они сделали это с использованием частиц кремнезема(главный компонент почти всех земных горных пород), которые имеют размер всего шесть микрометров и помечены последовательностями ДНК, которые описывают содержимое. Ученые продемонстрировали, что метод работает, найдя отдельные изображения, которые были сохранены в виде последовательностей ДНК, из набора из двадцати изображений. Такой подход можно использовать для хранения 10-20 файлов. Их работа была недавно опубликована в журнале Nature Materials.
Стабильное хранение
Используемые нами компьютеры кодируют текст, файлы и другие данные, как комбинации нулей и единиц. ДНК можно использовать таким же образом, но она имеет четыре нуклеотидных основания вместо 0 и 1 – A, T, G и C. ДНК также чрезвычайно стабильна, она легко уплотняется и, как правило, легко синтезируется и секвенируется.
К сожалению, сейчас создание ДНК для этой цели было бы дорогостоящим. По оценкам, запись одного миллиона гигабайт будет стоить один триллион долларов. По оценкам Бата, стоимость должна снизиться примерно в шесть раз, чтобы быть конкурентоспособной по сравнению с популярным в настоящее время способом хранения – магнитной лентой. Но это падение цен может произойти в течение двух десятилетий или даже раньше, – предположил он. Другая проблема – найти способ отсортировать данные, чтобы можно было легко и быстро найти нужный фрагмент.
Прямо сейчас ПЦР используется для поиска правильной последовательности – праймеры с определенной известной последовательностью можно использовать для амплификации большей целевой последовательности в ДНК в виде процесса поиска. Но с этим методом есть проблемы. Во-первых, он использует ДНК, потому что это ферментативная реакция.
«Вы как бы сжигаете стог сена, чтобы найти иголку, потому что вся остальная ДНК не усиливается, и вы, по сути, выбрасываете ее», – сказал Бат.
В этом исследовании ученые создали частицы диоксида кремния, каждая из которых помечена короткими последовательностями ДНК или штрих-кодами, соответствующими более длинной последовательности в файле ДНК. Штрих-коды соответствуют меткам, таким как «кошка» или «самолет», и желаемое изображение можно получить, добавив праймеры, соответствующие определенным меткам. Например, к слову «кот» могут подойти такие праймеры, как «дикий» или «оранжевый». Праймеры также являются флуоресцентными, поэтому они могут легко определить местоположение совпадения в образце. Это также позволяет извлечь файл, не нанося вреда остальной части файла ДНК.
«На текущем этапе проверки нашей концепции скорость поиска составляет один килобайт в секунду. Скорость поиска в нашей файловой системе определяется размером данных на капсулу, который в настоящее время ограничен непомерно высокой стоимостью записи даже 100 мегабайт данных о ДНК и количество сортировщиков, которые мы можем использовать параллельно. Если синтез ДНК станет достаточно дешевым, мы сможем максимально увеличить размер данных, которые мы можем хранить в файле с нашим подходом», – сказал соавтор исследования и старший постдок Массачусетского технологического института Джеймс Банал.
Штрих-коды были длиной около 25 нуклеотидов. Если два штрих-кода помещены в каждый файл, 10 10 (десять миллиардов) различных файлов могут быть однозначно помечены, а с четырьмя метками можно однозначно пометить 10 20 (десять квинтиллионов) файлов.
Бат предположил, что этот метод хранения может быть идеальным для данных, которые необходимо хранить в течение длительного времени, но к которым не так часто обращаются.
Молекула, придающая конопле цитрусовый запах, может сделать ТГК менее тревожным. В правильной дозе каннабис оказывает… Читать далее
Исследование, проведенное учеными Принстонского университета, рассказывает, почему авиапассажиры так раздражительны в наши дни. Исследование под… Читать далее
Исследователи обнаружили, что стволовые клетки человека и модели эмбрионов можно заставить войти в состояние обратимого… Читать далее
Согласно новому исследованию Центра политики и экономики здравоохранения Университета Южной Калифорнии имени Шеффера, сельские жители… Читать далее
Не можете перестать проверять телефон, даже если не ждете никаких важных сообщений? Вините свой мозг.… Читать далее
Работа, опубликованная недавно в журнале Cannabis and Cannabinoid Research, посвященная влиянию употребления каннабиса на индекс… Читать далее