биомедицина

Исследование9511 июн.Обзор

В статье рассматривается критическая роль синтетических наборов данных в разработке моделей машинного обучения для биомедицины. Авторы, включая Victoriano et al., анализируют проблему «разрыва между симуляцией и реальностью» (simulation-to-reality gap), которая ограничивает способность моделей, обученных на синтетике, показывать высокие результаты в реальных клинических условиях. Исследование фокусируется на методологиях преодоления этого разрыва для повышения точности прогнозов. Основное внимание уделяется тому, как переход от чисто виртуальных экспериментов к получению глубоких биомедицинских инсайтов может трансформировать процесс разработки ИИ-решений. Работа подчеркивает, что без решения проблемы соответствия распределений данных между симуляцией и практикой, внедрение синтетических данных в медицину будет ограничено. Это имеет решающее значение для создания надежных диагностических систем, минимизирующих риски при переходе от лабораторных тестов к реальным пациентам.

синтетические данные машинное обучение биомедицина методология разработка ИИ

Nature Machine Intelligence Оригинал

Новость9511 июн.

Данное исследование, опубликованное в журнале npj Artificial Intelligence, представляет инновационный метод оптимизации обучения в контексте (In-Context Learning, ICL) для биомедицинских задач. Авторы предлагают использовать субмодулярную оптимизацию для отбора наиболее информативных и разнообразных примеров из обучающего набора, что позволяет значительно снизить потребность в объеме данных без потери точности моделей. Методология фокусируется на максимизации разнообразия контекстных примеров, что критически важно для специфических медицинских доменов с ограниченными наборами данных. В работе демонстрируется, что предложенный подход позволяет достигать сопоставимых или превосходящих результатов по сравнению с полномасштабным обучением, используя лишь малую часть доступных биомедицинских данных. Это имеет высокую практическую значимость для разработки специализированных медицинских ИИ-систем, где сбор и разметка экспертных данных обходятся дорого. Результаты исследования открывают путь к созданию более эффективных и адаптивных моделей для диагностики и анализа медицинских текстов и изображений.

биомедицина машинное обучение in-context learning+2

npj Artificial Intelligence Оригинал

Новость9510 июн.

Обзор посвящен роли государственных суперкомпьютерных мощностей в трансформации биомедицинских исследований, включая онкологию и геномику. Особое внимание уделяется созданию национальных ИИ-моделей, таким как проект Великобритании по созданию вакцин против рака, а также вопросам управления данными и этики.

суперкомпьютеры биомедицина онкология+4

Frontiers in AI — Medicine

Новость9515 мая

Исследователи представили BiomniBench — инновационную платформу для оценки работы LLM-агентов в области биомедицинских исследований на уровне процесса, а не только конечного результата. В отличие от традиционных бенчмарков, которые могут поощрять заучивание данных или «взлом вознаграждения» (reward hacking), BiomniBench анализирует всю траекторию действий агента с помощью экспертных рубрик. Первая реализация, BiomniBench-DA, включает 100 задач по анализу данных, охватывающих 17 типов аналитических задач и 5 областей заболеваний, базируясь на высокоцитируемых работах из журналов Nature, Cell и Science. Исследование показало, что даже передовые модели (frontier models) имеют значительный потенциал для роста, а выбор архитектуры агента (agent harness) влияет на результат так же сильно, как и сама базовая модель. Ключевые выявленные проблемы включают ошибки в выборе методологии, сложности с биологической интерпретацией и недостатки в научном рассуждении. Данный фреймворк является первым инструментом, позволяющим выявлять скрытые ошибки ИИ-агентов, которые невозможно обнаружить при оценке только по финальному ответу.

LLM биомедицина агенты ИИ+3

bioRxiv — Bioinformatics Оригинал

Новость5513 апр.

Статья освещает резонансный случай использования ChatGPT для попыток лечения рака кожи у 8-летней собаки породы стаффордширский бультерьер по кличке Рози. Владелец животного в течение двух лет пытался применять рекомендации, полученные от языковой модели, что спровоцировало масштабную дискуссию в экспертном сообществе о границах применения ИИ в ветеринарии и биомедицине. Основной вопрос заключается в рисках использования генеративного ИИ для постановки диагнозов и назначения протоколов лечения без участия квалифицированных специалистов. Кейс подчеркивает проблему «галлюцинаций» нейросетей и их неспособности нести ответственность за клинические решения. Данная ситуация служит важным прецедентом для обсуждения регулирования использования LLM (больших языковых моделей) в медицинских и ветеринарных целях, где цена ошибки — жизнь пациента. Исследование границ применимости ИИ в таких критических областях становится приоритетной задачей для биомедицинского сообщества.

ИИ в ветеринарии LLM биомедицина+2

Endpoints News Оригинал

Новость959 апр.

Исследование представляет автоматизированную платформу для систематического обзора биомедицинской литературы, направленную на решение проблемы галлюцинаций LLM при работе со сложными биологическими данными. В отличие от стандартных методов RAG, предлагаемый фреймворк заставляет модель анализировать каждую научную работу индивидуально на предмет соответствия конкретной гипотезе, что позволяет выявлять тонкие семантические противоречия. Методология фокусируется на поиске как подтверждающих, так и опровергающих доказательств, минимизируя риск чрезмерного обобщения данных. Эффективность системы была протестирована на задаче BioNLI, где она продемонстрировала высокую точность классификации поддержки или противоречия гипотезам. Использование ансамблевого подхода (ensemble approach) обеспечило более высокую стабильность и точность по сравнению с одиночными моделями. Результаты подтверждают практическую применимость метода для автоматизации доказательной базы в биомедицинских исследованиях и ускорения научного поиска.

LLM биомедицина систематический обзор+2

bioRxiv — Bioinformatics Оригинал

Новость652 апр.

Исследование посвящено разработке и оценке устойчивых алгоритмов случайных лесов (Random Forests) для геномной предсказательной аналитики в условиях загрязнённых данных. Авторы фокусируются на проблеме загрязнения данных — от ошибок записи до экстремальных выбросов, которые могут искажать статистические модели и снижать точность предсказаний. Методология включает симуляционное моделирование на синтетическом наборе данных животноводческого разведения с последующей валидацией на реальных растительных и животных данных. Сравнительный анализ различных подходов к робастификации показал, что трансформация данных является наиболее эффективной стратегией, обеспечивающей наилучшую производительность при наличии загрязнения. Исследование выявило, что ранжирование на основе устойчивых случайных лесов является надёжным первым выбором, тогда как методы взвешивания следует применять только при сохранении ранговой структуры. Практическая значимость заключается в возможности восстановления латентного сигнала для геномной селекции при наличии фенотипической коррупции, ошибок записи или несоответствия между обучающими и развернутыми данными. Стандартные случайные леса остаются оптимальными для чистых данных, но устойчивые версии следует применять параллельно при вероятности загрязнения. Методология может быть перенесена на другие методы машинного обучения, включая медицинские приложения в области геномики и персонализированной медицины.

машинное обучение геномика случайные леса+3

bioRxiv — Bioinformatics Оригинал

Исследование8523 мар.

В статье представлен новый фреймворк для анализа интерпретируемости моделей глубокого обучения, основанный на формальном понятии семантики модели из философии науки. Авторы аргументируют, что интерпретируемость является лишь одним из аспектов семантики модели, а не её полным описанием. Исследование иллюстрирует предложенный фреймворк примерами из биомедицинской области, демонстрируя практическую применимость подхода. Работа подчеркивает критическую важность понимания не только того, как работают медицинские ИИ-модели, но и того, что именно они представляют в семантическом смысле. Это особенно актуально для клинической практики, где врачи должны доверять рекомендациям алгоритмов. Фреймворк позволяет систематически анализировать неявные семантические аспекты моделей, которые часто остаются скрытыми при стандартной интерпретации. Статья опубликована в Nature Machine Intelligence, что указывает на высокую научную значимость работы. Подход может способствовать более надежному внедрению ИИ в медицинские приложения за счет улучшения прозрачности и доверия к алгоритмам.

интерпретируемость ИИ биомедицина глубокое обучение+2

Nature Machine Intelligence Оригинал

биомедицина

От виртуальных экспериментов к биомедицинским знаниям с помощью синтетических данных

Эффективное с использованием данных биомедицинское обучение в контексте: перспективный подход на основе субмодулярности с усилением разнообразия

Суверенные суперкомпьютеры с ИИ: глобальный обзор беспрецедентной инфраструктуры для биомедицинских исследований

BiomniBench: Оценка на уровне процессов LLM-агентов для реальных биомедицинских исследований

Заявление о том, что ChatGPT лечил рак у собаки Рози, вызвало дискуссии в сфере ИИ-биотехнологий

Количественная оценка научного консенсуса в биомедицинских гипотезах с помощью скрининга литературы с помощью LLM

Устойчивые случайные леса для геномной предсказательной аналитики: проблемы и решения

Интерпретируемость и неявная семантика моделей в биомедицине и глубоком обучении