Исследователи представили OmniGene-4 — унифицированную фундаментальную био-языковую модель, построенную на архитектуре Mixture-of-Experts (MoE) базе Gemma-4-26B-A4B. Модель была обучена путем расширения словаря 28 028 биологическими токенами (ДНК, белки, вторичные структуры) и продолжения предобучения (CPT) на массиве данных объемом 32,5 ГБ. В ходе тестирования версия v3 показала точность 99,95% на стандартных тестах гомологии белков BioPAWS и 93,66% на вопросах базы знаний BixBench, что значительно превосходит базовую модель (прирост +14,5% и +6,7% соответственно). Особое внимание в работе уделено интерпретируемости: авторы проанализировали, как этапы обучения меняют маршрутизацию экспертов. Было установлено, что этап CPT преимущественно перестраивает средние слои трансформера (L_11–L_22), в то время как SFT влияет на финальные слои, обеспечивая выравнивание выходных данных. На уровне токенов выявлены специализированные эксперты, отвечающие за конкретные модальности, такие как нуклеотиды ДНК и аминокислоты, что подтверждает эффективность разделения знаний внутри модели.