Исследователи представили PLM-SAE — новый механистический фреймворк, использующий разреженные автокодировщики (SAE) для расшифровки сложных эмбеддингов белковых языковых моделей (PLM), таких как серия ESM. Основная проблема существующих моделей заключается в высокой степени запутанности латентных представлений, что мешает точному пониманию биофизических ограничений. Предложенный метод позволяет разделить эти представления на дискретные, биологически интерпретируемые активации, что значительно повышает точность предсказания эффектов мутаций (VEP). В ходе тестирования в режиме zero-shot модель ESM-3 показала существенный прогресс на 114 наборах данных глубокого мутационного сканирования, включая относительное улучшение на 80,8% для человеческой E3-убиквитинлигазы HECD1. Использование дифференцируемого механизма гейтинга обеспечило рост среднего коэффициента корреляции Спирмена на +0,138 в более чем 80% случаев. Кроме того, при применении к многозадачной архитектуре были достигнуты новые показатели SOTA на 17 наборах данных VenusMutHub, где точность предсказания связывания с малыми молекулами выросла на 169,0%. Данная работа закладывает фундамент для более глубокого понимания функциональности белков с помощью ИИ.