Исследование посвящено анализу механизмов работы белковых языковых моделей (PLM), таких как ESM-2 (650 млн параметров) и мультимодальная ESM-3 (1,4 млрд параметров). С помощью разреженных автоэнкодеров (SAE) ученые обнаружили, что 78% выученных признаков между этими разными архитектурами конвергируют, что значительно превышает уровень случайного совпадения (14,2%). Эти общие признаки несут основную функциональную информацию: их AUROC для предсказания функциональных сайтов составляет 0,925, в то время как уникальные для конкретной архитектуры признаки показывают лишь 0,661. Установлено, что структурные токены в ESM-3 не создают новый словарь признаков, а скорее «затачивают» существующий, делая его более биологически информативным (134 обогащенных термина GO против 29). Анализ механизмов внимания выявил конкретную геометрическую голову (L0H7), которая служит «бутылочным горлышком» для поступления структурной информации; ее абляция меняет предсказания вторичной структуры у 40% остатков. Работа доказывает существование общего биологического словаря, который модели находят независимо от модальностей обучения.