белковые последовательности

Новость8521 маяОбзор

В исследовании представлен TREAD (Transfer learning-based REpeat Annotation using Protein EmbeDdings) — новый метод машинного обучения для обнаружения повторяющихся мотивов в белках. В отличие от традиционных методов, таких как HMMER, которые полагаются на выравнивание последовательностей или вероятностные профили, TREAD переформулирует задачу обнаружения повторов как задачу аннотации на уровне остатков, используя эмбеддинги от языковых моделей белка (Protein Language Models). Методология позволяет модели имплицитно изучать специфические признаки повторов, обеспечивая высокую гибкость и масштабируемость. Тестирование на наборах данных RepeatsDB и Pfam показало, что TREAD не уступает или превосходит HMMER, особенно в условиях низкого объема данных и высокой дивергенции последовательностей. Практическая значимость подтверждена анализом $\beta$-пропеллерных белков в базе данных AlphaFold, где инструмент выявил новые паттерны экспансии в различных линиях эволюции. TREAD представляет собой масштабируемую альтернативу профильным методам и предлагает универсальный подход к аннотации мотивов на основе последовательностей.

белковые последовательности машинное обучение языковые модели белка биоинформатика структурная биология

bioRxiv — Bioinformatics Оригинал

белковые последовательности

За пределами профилей: контролируемая повторная аннотация с использованием белковых эмбеддингов