В исследовании представлен TreeGazer — инновационный фреймворк, предназначенный для оптимизации процесса отбора белковых последовательностей для экспериментального анализа. В отличие от традиционных методов, использующих «черные ящики» белковых языковых моделей, TreeGazer интегрирует байесовскую оптимизацию непосредственно с топологией филогенетических деревьев. Это позволяет методу эффективно балансировать между эксплуатацией известных полезных свойств и исследованием областей с высокой неопределенностью модели. В ходе двух симуляций TreeGazer продемонстрировал превосходство над существующими стратегиями, создавая наборы данных, которые более точно представляют распределение свойств белков. Особую ценность метод представляет для работы в условиях дефицита данных (low-data settings), где он позволяет точно идентифицировать функциональные переходы между кладами. Благодаря использованию латентных представлений, связанных с филогенетической структурой, система обеспечивает биологически интерпретируемые прогнозы и может работать на обычных ноутбуках, не уступая по эффективности ресурсоемким подходам на основе эмбеддингов.