Исследователи представили BiomniBench — инновационную платформу для оценки работы LLM-агентов в области биомедицинских исследований на уровне процесса, а не только конечного результата. В отличие от традиционных бенчмарков, которые могут поощрять заучивание данных или «взлом вознаграждения» (reward hacking), BiomniBench анализирует всю траекторию действий агента с помощью экспертных рубрик. Первая реализация, BiomniBench-DA, включает 100 задач по анализу данных, охватывающих 17 типов аналитических задач и 5 областей заболеваний, базируясь на высокоцитируемых работах из журналов Nature, Cell и Science. Исследование показало, что даже передовые модели (frontier models) имеют значительный потенциал для роста, а выбор архитектуры агента (agent harness) влияет на результат так же сильно, как и сама базовая модель. Ключевые выявленные проблемы включают ошибки в выборе методологии, сложности с биологической интерпретацией и недостатки в научном рассуждении. Данный фреймворк является первым инструментом, позволяющим выявлять скрытые ошибки ИИ-агентов, которые невозможно обнаружить при оценке только по финальному ответу.