Исследование представляет гибридный фреймворк для аннотации геномов немодельных организмов, который преодолевает ограничения классического выравнивания последовательностей. Авторы объединили ab initio предсказание структур экзонов и интронов на базе модели Evo2 с картированием структурного сходства с использованием белковых эмбеддингов ESM-2. При применении метода на геноме морской миноги (sea lamprey) удалось получить 73 485 переведенных белковых моделей, из которых 35 395 имеют высокую или среднюю степень достоверности. Система позволила расширить каталог структурных локусов до 31 286, добавив 20 871 позицию, отсутствующую в базовой базе Ensembl. Ключевым достижением стало выявление 21 391 структурно подтвержденного локуса, которые не удалось идентифицировать стандартным поиском DIAMOND по человеческому протеому, включая более 21 000 локусов без обнаружимого сходства аминокислотных последовательностей с человеком. В тестах на секвенировании РНК единичных клеток (scRNA-seq) новый референс Ensembl+Evo2 значительно улучшил восстановление генов и позволил более детально описать четыре транскрипционных состояния иммунных клеток, включая программы VLRA+- и VLRB+-типа. Работа доказывает, что использование эмбеддингов позволяет извлекать биологический сигнал там, где традиционные методы сравнения последовательностей терпят неудачу.