Почему ученые лихорадочно пытаются документировать миллионы вирусных последовательностей по всему миру

Почему ученые лихорадочно пытаются документировать миллионы вирусных последовательностей по всему миру

Почему ученые лихорадочно пытаются документировать миллионы вирусных последовательностей по всему миру

Как геймер с опытом работы в микробиологии и большим интересом к искусственному интеллекту, я нахожу применение ИИ в аннотации вирусного генома увлекательным. Сложность и разнообразие вирусов делают их сложной темой для ученых, а традиционные методы описания их функций имеют ограничения.


Как любопытный геймер, углубляющийся в тонкости микробных экосистем, я столкнулся с этими неуловимыми существами, известными как вирусы. Они обладают загадочной природой, которая ставит учёных в тупик, несмотря на их доказанную способность заражать, уничтожать и манипулировать человеческими и бактериальными клетками в самых разных условиях — от обширных океанов до наших собственных кишок. Однако понимание более широких последствий присутствия вирусов в этих средах остается сложной задачей из-за их огромного разнообразия и замечательной способности к быстрой эволюции.

Как ярый поклонник тонкостей микробной жизни, я не могу не признать огромные проблемы, с которыми мы сталкиваемся, пытаясь изучить эти крошечные организмы в лабораторных условиях. Хотя некоторые микробы можно легко культивировать, многие другие остаются неуловимыми и не поддаются нашим усилиям. Причина заключается в том, что их естественная среда обитания изобилует множеством факторов, которые существенно влияют на их выживание и рост, выходя далеко за рамки того, что мы можем смоделировать в контролируемой лабораторной среде.

Системные биологи, в том числе и я, обычно обрабатывают ДНК, извлеченную из образцов, например фекалий пациентов. Мы различаем и изолируем сегменты вирусной ДНК в этих образцах. Впоследствии мы маркируем части вирусного генома, кодирующие белки, которые называются генами. Эти аннотации подробно описывают расположение, структуру и другие важные характеристики генов. Таким образом, исследователи смогут расшифровать потенциальные функции, выполняемые вирусами в их среде, и идентифицировать отдельные типы вирусов. Этот процесс включает сопоставление вирусных последовательностей из образцов с ранее меченными последовательностями, доступными в общедоступных базах данных вирусных генетических данных.

Несмотря на быстрое открытие учеными вирусных последовательностей в ДНК окружающей среды, наши возможности маркировать и анализировать эти гены значительно отстают. Следовательно, исследователи публикуют исследования вирусов в микробной среде обитания, основываясь лишь на небольшом проценте доступных данных.

Почему ученые лихорадочно пытаются документировать миллионы вирусных последовательностей по всему миру

Чтобы расширить возможности исследователей по изучению вирусов во всем мире, мы с моей командой разработали передовой метод аннотирования вирусных последовательностей с использованием искусственного интеллекта. Используя модели белкового языка, похожие на большие языковые модели, такие как ChatGPT, но специализированные для белков, мы успешно классифицировали до сих пор неопознанные вирусные последовательности. Этот прорыв позволяет исследователям не только расширить свои знания о вирусах, но и заняться сложными биологическими исследованиями, которые остаются неуловимыми с помощью существующих методов.

Аннотирование вирусов с помощью ИИ

Большие языковые модели получают ответы на запросы, определяя связи между словами на основе обширных текстовых данных, с которыми они столкнулись во время обучения. Например, когда вы спрашиваете чат-бота «Какая столица Франции?», он не обращается к заранее заданному списку столиц. Вместо этого он выводит ответ через понимание контекста и информации, почерпнутой из огромных коллекций текстов: «Париж — столица Франции».

Модели белкового языка функционируют как системы искусственного интеллекта, обученные выявлять связи между огромным количеством белковых последовательностей, полученных по всему миру. Изучая эти данные, эти модели потенциально раскрывают понимание фундаментальных свойств и роли вирусных белков.

«Мы задумались, смогут ли модели белкового языка определить роль недавно обнаруженной вирусной генетической последовательности среди всех аннотированных».

В нашем эксперименте мы научили нейронные сети распознавать закономерности в предварительно помеченных последовательностях вирусных белков, используя ранее существовавшие модели белкового языка. Впоследствии мы использовали эти обученные сети для присвоения аннотаций новым последовательностям вирусных белков. Этот метод позволяет нам понять, на каких особенностях конкретной вирусной последовательности фокусируется модель, чтобы сделать конкретный прогноз. Поступая таким образом, мы можем изолировать потенциальные значимые белки на основе их функций или организации генома, тем самым сужая обширную область поиска больших наборов данных.

Благодаря признанию менее тесно связанных между собой ролей вирусных генов, модели белкового языка предлагают свежий взгляд на расширение существующих методов, проливая свет на интригующие открытия в микробиологии. Например, моя исследовательская группа и я использовали нашу модель, чтобы обнаружить неоткрытую интегразу – белок, ответственный за передачу генетической информации – среди широко распространенных морских пикоцианобактерий Prochromococcus и Синехококк. Удивительно, но эта недавно открытая интеграза потенциально может способствовать переносу генов между этими бактериальными сообществами в океанах, повышая их способность процветать в различных условиях.

Наша языковая модель обнаружила новый вирусный белок с капсидом, который распространен в мировом океане. Мы были первыми, кто создал изображение, изображающее организацию его генов, показывая различные конфигурации генов, которые, как мы подозреваем, играют разные роли в его экосистеме.

Здесь представлены две из многих аннотаций, созданных нашим методом на основе первоначального анализа.

Анализ неизвестного

Большое количество недавно идентифицированных вирусов, насчитывающее сотни тысяч, остается неклассифицированным из-за их уникальных генетических последовательностей, которые не соответствуют известным семействам белков или обладают неизвестными функциями. Наше исследование показывает, что передовые модели белкового языка могут сыграть важную роль в изучении как потенциальных рисков, так и возможностей, которые представляет собой огромное количество неохарактеризованных вирусов на Земле.

В нашем исследовании конкретно изучались вирусы, присутствующие в мировом океане, но улучшение маркировки вирусных белков необходимо для более глубокого понимания их функций в отношении здоровья и болезней человека. Некоторые ученые, в том числе и мы, предполагают, что поведение вирусов в микробиоме кишечника человека может меняться, когда человек плохо себя чувствует. Эта теория предполагает, что вирусы могут служить индикаторами стресса в микробных популяциях.

Наш метод также имеет свои ограничения, поскольку он во многом зависит от наличия первоклассных аннотаций. Чтобы расширить свои возможности, исследователи сейчас создают усовершенствованные модели белкового языка, которые могут решать дополнительные задачи во время обучения. Одной из таких задач является прогнозирование белковых структур, позволяющее этим моделям идентифицировать сходные белки и повышающее их общую мощность.

Обеспечение доступности инструментов искусственного интеллекта для обработки белковых последовательностей на основе принципов данных FAIR (находимость, доступность, совместимость и возможность повторного использования) может значительно расширить возможности исследователей в этой области. Сделав эти ресурсы легкообнаружимыми, доступными, совместимыми и пригодными для повторного использования, ученые смогут эффективно использовать передовые методы искусственного интеллекта для совершения новых открытий, которые положительно влияют на здоровье человека.

Смотрите также

2024-05-20 15:50