Новость8821 мар.
Исследование описывает опыт настройки LLM-as-a-Judge для оценки качества автоматической генерации клинических сводок в радиологии. Авторы проанализировали данные 30 пациентов с КТ брюшной полости, сравнивали оценки экспертов и шести различных LLM, выявив критерии для эффективной настройки таких систем. Результаты показывают, что критерии, эффективные для оценки человеком, не всегда подходят для LLM-оценки.