белки

Новость9816ч назадОбзор

Исследователи представили OmniGene-4 — унифицированную фундаментальную био-языковую модель, построенную на архитектуре Mixture-of-Experts (MoE) базе Gemma-4-26B-A4B. Модель была обучена путем расширения словаря 28 028 биологическими токенами (ДНК, белки, вторичные структуры) и продолжения предобучения (CPT) на массиве данных объемом 32,5 ГБ. В ходе тестирования версия v3 показала точность 99,95% на стандартных тестах гомологии белков BioPAWS и 93,66% на вопросах базы знаний BixBench, что значительно превосходит базовую модель (прирост +14,5% и +6,7% соответственно). Особое внимание в работе уделено интерпретируемости: авторы проанализировали, как этапы обучения меняют маршрутизацию экспертов. Было установлено, что этап CPT преимущественно перестраивает средние слои трансформера (L_11–L_22), в то время как SFT влияет на финальные слои, обеспечивая выравнивание выходных данных. На уровне токенов выявлены специализированные эксперты, отвечающие за конкретные модальности, такие как нуклеотиды ДНК и аминокислоты, что подтверждает эффективность разделения знаний внутри модели.

ИИ в биологии MoE белки ДНК фундаментальные модели машинное обучение биоинформатика

bioRxiv — Bioinformatics Оригинал

Новость9516ч назад

Исследование представляет инновационный подход к предсказанию конформаций биомолекул, используя генеративные диффузионные модели, обученные на экспериментальных данных. Авторы предлагают метод «скрученного диффузионного сэмплера» (twisted diffusion sampler) в рамках модели Boltz-2, который позволяет моделировать альтернативные функционально важные состояния молекул без необходимости дополнительного переобучения нейросети. Методология основана на переосмыслении поиска конформаций как процесса сэмплирования из диффузионного распределения, обусловленного произвольным байесовским правдоподобием. В ходе экспериментов ученые успешно воспроизвели растянутые состояния фрагментов ДНК, мышечного белка титина и белка протокадгерина-15, а также открытые состояния ионного канала MscL, что согласуется с экспериментальными данными. Данный подход фактически является диффузионным аналогом управляемой молекулярной динамики. Результаты работы открывают новые возможности для изучения не равновесных и недостаточно представленных в экспериментах состояний макромолекулярных систем, что критически важно для понимания механизмов их работы.

структурная биология диффузионные модели байесовский вывод+3

bioRxiv — Bioinformatics Оригинал

Новость9512 апр.

В исследовании рассматривается критическая проблема мультимодального обучения в биоинформатике, а именно — деградация точности предсказаний при некорректном слиянии данных. Авторы анализируют процесс предсказания связывания Т-клеточного рецептора (TCR) с пептидом, где высокоточные последовательности белковых языковых моделей конфликтуют с зашумленными структурными графами, полученными из предсказанных фолдов. Для решения этой проблемы предложен фреймворк TRACE, использующий метод контрастивного выравнивания в стиле CLIP для обеспечения согласованности между последовательными и структурными представлениями каждой биологической сущности. Эксперименты на наборе данных TCHard RN показали, что наивное объединение последовательностей и графов часто уступает базовой модели, работающей только с последовательностями, или вовсе демонстрирует случайные результаты. Однако использование TRACE позволяет стабилизировать обучение и значительно повысить точность, даже при наличии сильного шума в графах или дефиците положительных меток. Результаты работы доказывают, что для надежной биоинформатики критически важен не просто набор модальностей, а способ ограничения их взаимодействия в процессе оптимизации.

биоинформатика машинное обучение TCR+3

bioRxiv — Bioinformatics Оригинал

Новость9512 апр.

Исследователи представили TFBindFormer — новую гибридную архитектуру на базе трансформера, предназначенную для высокоточного предсказания взаимодействий между транскрипционными факторами (ТФ) и ДНК. В отличие от существующих моделей, которые опираются преимущественно на последовательности ДНК и характеристики хроматина, TFBindFormer использует механизм перекрестного внимания (cross-attention) для интеграции специфических данных о белках, полученных из их последовательностей и структур. Это позволяет модели учитывать белок-зависимую специфичность связывания, которую ранее игнорировали вычислительные методы. Тестирование проводилось на сотнях клеточно-специфичных ТФ и сотнях миллионов геномных участков (bins). Результаты показали значительное превосходство над базовыми моделями, работающими только с ДНК, выраженное в существенном росте показателей AUPRC и AUROC. Данная разработка предлагает масштабируемый и эффективный фреймворк для полногеномного картирования регуляторных взаимодействий, что критически важно для понимания механизмов экспрессии генов без дорогостоящих экспериментов ChIP-seq.

биоинформатика трансформеры геномика+2

bioRxiv — Bioinformatics Оригинал

Новость958 апр.

Статья представляет собой обзор эволюции и влияния инициативы AlphaFold на структурную биологию и медицину, отмечая достижение AlphaFold 2024 года Нобелевской премии. Модели развивались от AF1 через AF2 (достигшую почти экспериментальной точности в сворачивании одиночных цепей белка) к AF3, которая расширяет предсказания на белок-лигандные, белок-нуклеиновые кислоты и белок-белковые комплексы. Архитектурные различия между версиями включают использование глубоких нейронных сетей в AF1, Evoformer для моделирования эволюционно связанных последовательностей в AF2 и Pairformer для парных аминокислотных взаимодействий в AF3. Ключевые результаты включают широкое внедрение инструментов AlphaFold, расширение структурного покрытия и повышение доступности через базу данных AlphaFold Database (AFDB). Основные приложения в медицине включают ускорение трансляционных исследований, особенно в разработке лекарств на основе структуры (SBDD) и изучении сложных макромолекулярных комплексов. Несмотря на достижения, остаются нерешённые задачи предсказания динамики белка и множественных конформационных состояний. Статья подчёркивает, что AlphaFold продолжает продвигать структурную биологию, особенно в биотехнологии и медицине, несмотря на существующие ограничения.

структурная биология drug discovery белки+4

Frontiers in AI — Medicine

Новость6522 мар.

В исследовании представлен новый метод машинного обучения ViSNet-PIMA для моделирования не только локальных, но и некольких взаимодействий в биомолекулах с использованием физически обоснованного мультипольного агрегатора (PIMA). Традиционные поля сил на основе машинного обучения (MLFF) ограничены моделированием локальных взаимодействий, что снижает точность расчетов для биомолекулярной динамики. ViSNet-PIMA демонстрирует превосходство над существующими передовыми MLFF моделями при предсказании энергий и сил для различных типов биомолекул и конформаций на наборах данных MD22 и AIMD-Chig. При интеграции PIMA-блоков в другие MLFF модели достигается прирост производительности на 55,1%, что подтверждает универсальность предложенного подхода. Исследователи также внедрили ViSNet-PIMA в симуляционную программу AI2BMD, используя схему трансферного обучения с предобучением и дообучением, что позволило заменить механические расчеты нековалентных взаимодействий в белковых фрагментах. Новый подход снижает ошибки расчетов энергии и сил в AI2BMD более чем на 50% для различных конформаций белков и процессов фолдинга/разворачивания белков. Данная работа расширяет возможности ab initio расчетов для целых биомолекул и усиливает применение ИИ-симуляций молекулярной динамики в биохимических исследованиях.

машинное обучение биомолекулярное моделирование вычислительная химия+2

bioRxiv — Bioinformatics Оригинал

OmniGene-4: Единая био-языковая модель MoE с интерпретируемостью на уровне роутера

Байесовское управление предсказанием структуры механических биомолекул с использованием скрученного диффузионного процесса

Когда мультимодальное слияние дает сбой: контрастивное выравнивание как необходимый стабилизатор для предсказания связывания TCR--пептид

TFBindFormer: Трансформер с механизмом перекрестного внимания для предсказания связывания транскрипционных факторов с ДНК

Трансформационное влияние ИИ-модели AlphaFold 3: эволюция, текущий статус и перспективы в структурной биологии

Улучшение моделирования некольких взаимодействий для ab initio биомолекулярных расчетов и симуляций с помощью ViSNet-PIMA