Оказывается, последовательность любого белка представляет собой своеобразный текст, где каждая аминокислота выступает в роли слова. И подобно тому как LLM-модели для генерации текста анализируют очередность слов и другие закономерности, чтобы впоследствии «самим научиться» понимать язык, модель в новом исследовании «изучает» последовательности аминокислот, чтобы расшифровать «язык» белков.
Чтобы с помощью нейросети «вычленить» сложные взаимосвязи между последовательностью белка и его свойствами и сгенерировать новые, более точные варианты CRISPR-Cas, исследователи использовали языковую модель ProGen2, ранее созданную компанией Profluent, и обучили ее на массиве данных о CRISPR-системах всех типов. Этот самый полный на данный момент «атлас CRISPR-Cas» исследователи составили на основе миллионов последовательностей микробных геномов и метагеномов. После этого ученые сгенерировали с помощью модели 4 млн новых последовательностей Cas-белков, которые охватывали все семейства и были гораздо разнообразнее природных.
По словам главы компании Profluent Bio Али Мадани, их исследование показывает, как LLM генерируют разнообразные по последовательностям, и при этом функциональные, CRISPR-Cas системы, минуя эволюционные ограничения. Это «поможет создавать высокоспецифичные редакторы генома» с желаемыми характеристиками «под каждую отдельную задачу».
Далее исследователи сосредоточились на системе CRISPR-Cas II типа, или CRISPR-Cas9, которая лучше всего подходит для редактирования генома человека. Из сгенерированных последовательностей отобрали 209 наиболее перспективных Cas9-подобных белков и каждым из них отредактировали искусственно «выращенные» в лаборатории клетки человека. При этом оценивали как эффективность редактирования, то есть процент успешного изменения целевых участков ДНК, так и число «ошибочно» внесенных в геном изменений. Белок с самыми высокими показателями исследователи назвали OpenCRISPR-1 — при эффективности, как у природного Cas9, он вносил на 95% меньше ошибок! Команда выложила последовательность OpenCRISPR-1 в открытый доступ, чтобы другие ученые смогли ее протестировать и поделиться результатами.
Исследование Али Мадани и коллег — первый пример редактирования генома человека с помощью технологии, созданной нейросетью. Ученые надеются, что в будущем ИИ сделает разработку «генетических лекарств» более целенаправленной и доступной. Как отметил профессор Мануэль Каулих из Франкфуртского университета им. Гете, «Большие языковые модели превосходят традиционные методы по эффективности, масштабируемости и автоматизации. Они не только ускорят разработку лекарств от генетических заболеваний, но и расширят возможности исследований в области синтетической биологии, откроют новые подходы к терапии». Однако перед внедрением в терапию важно оценить долгосрочные эффекты, в том числе способность новых белков вызывать иммунный ответ.