ГЕНЕТИЧЕСКИЙ И ДВОИЧНЫЙ КОД
30 сентября 2023
Любая информация, полученная вами от электронных девайсов — результат преобразования информации в двоичный код. Текст, который вы сейчас читаете — преобразован через двоичный код, музыка, играющая на фоне — тоже. И даже вы являетесь продуктом реализации кода — генетического. О том, что это такое, насколько генетический и двоичный коды близки друг другу и чем нам полезно это знание — читайте в нашей статье.
Память компьютера состоит из транзисторов, которые переключаются с высокого на низкий уровень напряжения. Напряжение скачет, и поэтому для демонстрации состояния системы используют цифровое обозначение: «0» — отсутствие или слабый сигнал, и «1» — наличие сигнала. Процессор детектирует состояние транзисторов и управляет девайсом, исходя из программных инструкций. Так он понимает, что код 01000111, согласно стандарту UTF-8, соответствует букве G, если говорить о текстовом контексте. Так же и наш антропоморфный мозг последовательной совокупности букв «я», «б», «л», «о», «к», «о» присваивает ассоциацию яблока. Мы также понимаем и язык благодаря заложенным ассоциациям. А личным ассоциациям, которые возникают при слове «яблоко», мы обязаны индивидуальным особенностям работы наших нейронных процессоров.
Внутри машины
Двоичный код также не имеет заранее определенного значения. Так, согласно тому же стандарту UTF-8, латинским буквам присвоено вполне определенные совокупности нулей и единиц (таблица 1). Мы можем изменить последовательность символов, главное сказать об этом процессору. То есть двоичный код — метод обработки информации в виде двух символов, который потом обрабатывается процессором в зависимости от его программных алгоритмов [2, 3]. Суть же генетического кода — кодирование информации о первичной структуре белка, который впоследствии будет выполнять специфическую функцию. Декодируют шифр особые белки, информация о которых также закодирована в геноме. Выходит, что шифровальная генетическая машина кодирует и послание, и ключи, его расшифровывающие [1].
В чем тогда сходство между двоичным и генетическим кодом?
Генетический код имеет следующие свойства:
  • Триплетность — каждой аминокислоте соответствует совокупность из трех нуклеотидов;
  • Вырожденность — одну аминокислоту, кроме метионина и триптофана, могут кодировать несколько триплетов;
  • Универсальность — генетический код един для всех организмов.
Кодирование информации в ДНК
Рисунок 1. Схема комплементарных связей между нуклеотидами в ДНК.
Можно ли рассматривать комплементарные пары A-T и G-C как принцип двоичности? С точки зрения функционирования в живой системе — нет.
ДНК можно рассматривать как субстрат, содержащий закодированную информацию, — две длинные цепи, скрученные в форме двойной спирали, основа структуры которой составляют четыре вида нуклеотидов: аденин (А), цитозин (Ц/C), гуанин (Г/G) и тимин (Т), а также сахар дезоксирибоза и фосфатная группа. По принципу комплементарности, или взаимодополняемости, нуклеотиды создают специфические пары в двух цепях: Тимин комплементарен Аденину, а Гуанин комплементарен Цитозину. Комплементарность образуется за счет водородных связей между параллельными основаниями (рисунок 1) и обеспечивает более стабильное хранение информации, менее подверженное фрагментации и распаду. Так, молекула РНК, представляющая единую цепь генетической информации, гораздо менее стабильна [4].
Генетический код имеет следующие свойства:
Предположим, у нас есть последовательность, несущая информацию о первичной структуре белка:
5’ -GATTACA-3’ — смысловая цепь
3’ -CTAATGT-5’ — антисмысловая цепь

В этом контексте информацию о белке будет нести верхняя цепь, тогда как нижняя будет иметь роль комплементарного аналога, который не будет транскрибироваться. Можно ли рассматривать, что смысловая цепь это «1», а антисмысловая цепь - «0»? В данном случае информация об отсутствии сигнала избыточна и не имеет никакого смысла для реализации генетической информации. Но есть одно «но».
В связи с экспоненциальным ростом емкости генерируемой информации и появлением потребности в хранении данных в течение длительного периода, у человечества возникла потребность в носителе с высокой емкостью, плотностью хранения и возможностью противостоять экстремальным условиям окружающей среды. ДНК становится привлекательной перспективой для тысячелетнего хранения данных. Чтобы понять перспективу хранения информации на естественной живительной кислоте, нужно кратко углубиться в историю хранения цифровых данных [6, 7].

Экскурсия по фиксированию данных начинается с костей, камней и бумаги, затем переходит к перфокартам, магнитным лентам, граммофонным пластинкам, дискетам. С развитием технологий в эксплуатацию вошли оптические диски, включая компакт-диски, DVD, Blu-ray и флэш-накопители. Но эти хранилища, будучи не биоразлагаемыми материалами, наносят вред окружающей среде, а также выделяют огромное количество тепловой энергии [7, 8].
Сегодня все цифровые данные хранятся при помощи технологий с ограниченным сроком годности. Карты памяти и чипы недолговечны — 5-7 лет, и информация на них рискует быть поврежденной. Жесткие диски повреждаются под действием высоких температур, влаги, магнитных полей и механических повреждений.

Если флэшка с вашими семейными фотографиями затеряется в песке и будет откопана через тысячи лет, — вся информация на ней будет стерта. Если кости закопать в глубоко в Землю, и откопать через ту же тысячу лет - она сохранит генетический материал, способный хранить в себе информацию.

Именно тут и можно учесть принцип комплементарности для создания искусственной двоичной системы. Предположим, мы использовали связи A-T как «0» и C-G как «1». Согласно подсчетам ученых, всю информацию, которую мир производит за год, можно уместить в 4 граммах одноцепочечной ДНК. Молекула представляет собой читаемое и надежное хранилище информации на протяжении тысячи лет, которое можно увеличить почти до бесконечности, высушивая молекулу и защищая от кислорода и воды [6-9].

Мало преимуществ ДНК как хранилища информации? Вот ещё несколько:
  • ДНК выдерживает диапазон температур от -800 C° до +800 C°;
  • Позволяет считывать информацию в обоих направлениях;
  • Безопасна и не может быть повреждена живыми организмами;
  • Возможность использовать не двоичный, а четверичный код, или же считывать информацию по рядом стоящим дуплетам, триплетам одной цепи и так далее.
Уже сейчас мы можем получать синтетические фрагменты ДНК, или же олигонуклеотиды, но этот процесс довольно трудоемкий и за раз можно получить фрагмент максимум из 50-100 нуклеотидов, в среднем — 19-21, аккурат под длину праймера для ПЦР или секвенирования. Также можно использовать гибридизацию ДНК — процесс соединения комплементарных одноцепочечных ДНК в одну молекулу.

Можно вырезать нужные последовательности из генома различных организмов, чей генетический код может соответствовать потенциально хранимой информации. Точечные замены в случае небольших несоответствий могут вноситься или вырезаться технологией редактирования генов Crispr/Cas9 [8-9].
Хранение информации в ДНК
С развитием тенденции хранения информации на ДНК, у человечества могут появиться самые разные вопросы для философского обсуждения: что, если один и тот же фрагмент ДНК будет хранить информацию о свадебном изображении, и о генетическом варианте предрасположенности к Альцгеймеру? Будем ли мы создавать организмы, как лабораторную кишечную палочку, только в качестве субстрата для хранения нужной информации? Или же юридические вопросы, где родители захотели поместить в ребенка некую информацию, о которой он даже не знает. В любом случае, только будущее покажет, какие проблемы и их решения нас ждут.
Вопросы, на которые только предстоит ответить
Список литературы
  1. Rodin AS, Szathmáry E, Rodin SN. On origin of genetic code and tRNA before translation. Biol Direct. 2011 Feb 22;6:14. doi: 10.1186/1745-6150-6-14. PMID: 21342520; PMCID: PMC3050877.
  2. Xia B, Pang J, Zhou X, Shan Z. Survey on binary code similarity search. J. Comput. Appl. 2022;42(4):985–998,
  3. Baldoni, R., Luna, G. A. D., Massarelli, L., Petroni, F., & Querzoni, L.: Unsupervised features extraction for binary similarity using graph embedding neural networks (2018). arxiv:1810.09683
  4. Koonin EV, Novozhilov AS. Origin and evolution of the universal genetic code. Annu Rev Genet. 2017;51(1):45–62.
  5. Perona JJ, Hadd A. Structural diversity and protein engineering of the aminoacyl-tRNA synthetases. Biochemistry. 2012;51(44):8705–8729.
  6. Zhirnov, V. V. & Rasic, D. 2018 Semiconductor Synthetic Biology Roadmap (Semiconductor Research Corporation 2018).
  7. Zhirnov, V., Zadegan, R. M., Sandhu, G. S., Church, G. M. & Hughes, W. L. Nucleic acid memory. Nat. Mater.10.1038/nmat4594 (2016).
  8. Church, G. M., Gao, Y. & Kosuri, S. Next-generation digital information storage in DNA. Science10.1126/science.1226355 (2012).
  9. Cao B, Zhang X, Cui S, Zhang Q. Adaptive coding for DNA storage with high storage density and low coverage. npj Syst. Biol. Appl. 2022;8:23. doi: 10.1038/s41540-022-00233-w.
Таблица 1. Латинский алфавит в двоичном коде согласно UTF-8
Приложение
ПОДЕЛИТЕСЬ В СОЦСЕТЯХ!
Мессенджеры
Отправляйте нам! Узнайте подробнее в мессенджерах или напишите нам на сайте
Задать вопрос на сайте
У ВАС ЕСТЬ МАТЕРИАЛЫ, КОТОРЫМИ ВЫ ХОТЕЛИ БЫ ПОДЕЛИТЬСЯ?
Made on
Tilda