Исследование демонстрирует способность модели LLaMA 3.3 70B извлекать прогностическую информацию из текстовых патоморфологических отчетов для оценки выживаемости при раке ЖКТ. Разработанный метод позволяет преобразовывать неструктурированный текст в бинарный биомаркер риска, который является независимым прогностическим фактором.
В статье представлен EPPCMinerBen — инновационный набор метрик и стандартов (бенчмарк), разработанный специально для тестирования возможностей больших языковых моделей (LLM) в контексте цифрового взаимодействия пациентов и медицинских работников. Исследование фокусируется на анализе коммуникации, происходящей через порталы пациентов, что является критически важным аспектом современной телемедицины. Авторы предлагают методологию оценки того, насколько точно ИИ может интерпретировать запросы пациентов и генерировать адекватные, клинически безопасные ответы. В работе подчеркивается необходимость создания специализированных инструментов оценки, так как стандартные NLP-метрики не учитывают специфику медицинского контекста и этические аспекты общения. Использование данного бенчмарка позволит разработчикам ИИ-решений минимизировать риски неверной интерпретации симптомов и повысить качество автоматизированной поддержки в здравоохранении. Результаты исследования закладывают фундамент для внедрения более надежных LLM-ассистентов в клиническую практику через электронные медицинские системы.
В статье, опубликованной в журнале npj Digital Medicine, предлагается инновационный подход к контролю за использованием больших языковых моделей (LLM) в здравоохранении — мониторинг на основе способностей (capability-based monitoring). Авторы подчеркивают, что текущие стратегии надзора неэффективны, так как LLM являются универсальными системами, чьи внутренние возможности многократно используются в различных медицинских задачах. Вместо проверки каждой отдельной задачи, предлагается организовать мониторинг вокруг общих когнитивных и функциональных способностей моделей. Это позволит выявлять системные недостатки, редкие ошибки («long-tail errors») и эмерджентное поведение на ранних стадиях. В работе детально рассматриваются рекомендации для разработчиков ИИ, руководителей медицинских организаций, профессиональных сообществ и государственных регуляторов. Такой подход критически важен для обеспечения безопасности и надежности внедрения генеративного ИИ в клиническую практику.
Исследование сравнивает точность и надежность моделей Claude, Gemini и GPT при оценке риска систематической ошибки в нерандомизированных исследованиях. Результаты показали, что Gemini демонстрирует наиболее сбалансированную точность, однако на текущий момент готовые LLM не могут надежно заменять экспертов при использовании инструмента ROBINS-I.
Исследование анализирует использование диалогов с чат-ботами как нового источника данных для мониторинга общественных настроений и дезинформации о вакцинах. С помощью BERTopic и GPT-4o ученые классифицировали более 30 000 сообщений, выявив основные темы и эмоциональный тон пользователей.
Исследователи представили BiomniBench — инновационную платформу для оценки работы LLM-агентов в области биомедицинских исследований на уровне процесса, а не только конечного результата. В отличие от традиционных бенчмарков, которые могут поощрять заучивание данных или «взлом вознаграждения» (reward hacking), BiomniBench анализирует всю траекторию действий агента с помощью экспертных рубрик. Первая реализация, BiomniBench-DA, включает 100 задач по анализу данных, охватывающих 17 типов аналитических задач и 5 областей заболеваний, базируясь на высокоцитируемых работах из журналов Nature, Cell и Science. Исследование показало, что даже передовые модели (frontier models) имеют значительный потенциал для роста, а выбор архитектуры агента (agent harness) влияет на результат так же сильно, как и сама базовая модель. Ключевые выявленные проблемы включают ошибки в выборе методологии, сложности с биологической интерпретацией и недостатки в научном рассуждении. Данный фреймворк является первым инструментом, позволяющим выявлять скрытые ошибки ИИ-агентов, которые невозможно обнаружить при оценке только по финальному ответу.
Исследование, опубликованное в журнале npj Digital Medicine, посвящено оценке эффективности больших языковых моделей (LLM) в процессе упрощения текстов медицинского информированного согласия для пациентов, не владеющих английским языком. В методологии работы ключевую роль играет участие практикующих врачей, которые оценивают качество, точность и доступность генерируемого контента. Основная цель проекта — преодоление языкового барьера и повышение уровня медицинской грамотности пациентов через использование ИИ для адаптации сложных терминов. Результаты показывают, что LLM способны значительно сократить когнитивную нагрузку на пациентов, сохраняя при этом клиническую точность формулировок. Внедрение подобных инструментов может существенно снизить риски юридических и этических ошибок при получении согласия на процедуры. Данная работа подчеркивает важность гибридного подхода, сочетающего мощь ИИ с экспертным контролем со стороны медицинского персонала для обеспечения безопасности пациентов.
Данное исследование, опубликованное в журнале npj Digital Medicine, посвящено сравнительному анализу эффективности больших языковых моделей (LLM) и традиционных алгоритмов машинного обучения (ML) для прогнозирования осложнений после процедуры чрескожной кифопластики. Авторы изучали возможности применения современных нейросетевых архитектур в контексте лечения остеопоротических компрессионных переломов позвонков. В работе оценивается точность предсказания рисков, что критически важно для предоперационного планирования и выбора тактики лечения. Методология включает сопоставление метрик точности, чувствительности и специфичности между классическими моделями ML и новейшими LLM на основе клинических данных пациентов. Результаты исследования позволяют определить, какой тип интеллектуальных систем обеспечивает более надежную поддержку принятия врачебных решений в ортопедии и нейрохирургии. Практическая значимость работы заключается в возможности интеграции ИИ-инструментов в клинические протоколы для снижения частоты послеоперационных осложнений.
Российская компания «Архитех ИИ» представила инновационную платформу KodikRouter, которая представляет собой универсальный API-шлюз для интеграции более чем 300 различных больших языковых моделей (LLM). Продукт спроектирован с учетом специфики российского законодательства, что обеспечивает безопасное использование нейросетей в рамках правового поля РФ. Платформа позволяет разработчикам и организациям бесшовно переключаться между различными моделями, оптимизируя затраты и повышая эффективность обработки текстовых данных. Основная ценность решения заключается в предоставлении единого интерфейса доступа к широкому спектру ИИ-инструментов, что критически важно для масштабирования ИИ-проектов. Техническая архитектура шлюза позволяет централизованно управлять запросами и контролировать качество ответов моделей. Данная разработка может быть полезна в медицинских информационных системах для автоматизации обработки документации и поддержки принятия решений через использование различных специализированных LLM.
Статья обсуждает проблему работы с некачественными данными при внедрении генеративного ИИ, подчеркивая, что современные LLM способны справляться с хаосом в записях. В качестве примера приводится кейс в медицинском секторе, где ИИ помог автоматизировать сверку медицинских счетов из разнородных источников (PDF, изображения).
Статья рассматривает применение технологий виртуального ухода и машинного обучения для управления очередями и разгрузки больниц в Великобритании. Использование ИИ и носимых устройств позволяет прогнозировать ухудшение состояния пациентов, снижая количество госпитализаций и затраты на содержание койко-мест.
Данное исследование, опубликованное в журнале npj Digital Medicine, посвящено изучению эффективности различных методов промпт-инжиниринга при использовании больших языковых моделей (LLM) для поддержки принятия клинических решений в терапии гипертензии. Авторы анализируют, как вариации в формулировках запросов (multitype prompt engineering) влияют на точность рекомендаций по подбору антигипертензивной терапии. В работе исследуется способность моделей сопоставлять клинические данные пациента с международными протоколами лечения. Основной акцент сделан на минимизации галлюцинаций и повышении соответствия ответов ИИ доказательной медицине. Результаты демонстрируют, что структурированный подход к проектированию промптов существенно повышает клиническую релевантность ответов моделей. Исследование имеет высокую значимость для интеграции LLM в повседневную практику врачей-кардиологов и автоматизацию поддержки принятия решений.
В статье представлена инновационная разработка — агентная система искусственного интеллекта, предназначенная для автоматизации процесса создания фармакогеномных рекомендаций. Исследование фокусируется на интеграции больших языковых моделей (LLM) с агентной архитектурой для интерпретации сложных генетических данных и их сопоставления с протоколами лечения. Система способна анализировать вариации в генотипах пациентов и предлагать персонализированные корректировки дозировок или выбора препаратов, минимизируя риск побочных эффектов. Методология базируется на использовании автономных ИИ-агентов, которые выполняют последовательные задачи по поиску в медицинских базах данных и верификации клинических рекомендаций. Ключевым преимуществом является высокая точность сопоставления генотипа и фенотипа, что значительно сокращает время, необходимое врачу на подготовку персонализированного плана терапии. Данная технология имеет критическое значение для развития прецизионной медицины, позволяя автоматизировать сложный процесс подбора лекарственных средств на основе генетического профиля.
Исследование, опубликованное в журнале npj Digital Medicine, посвящено практическому применению больших языковых моделей (LLM) для автоматизации процесса медицинского кодирования по стандарту МКБ-10-CM. Ключевой особенностью разработанного решения является его строгая интеграция со стандартом HL7-CDA, что обеспечивает высокую точность извлечения данных из структурированных и неструктурированных клинических документов. В ходе исследования оценивалась эффективность модели в условиях реальной клинической практики, а не только на синтетических наборах данных. Основной акцент сделан на минимизации ошибок при интерпретации сложных медицинских записей и обеспечении соответствия регуляторным требованиям. Результаты демонстрируют потенциал использования специализированных LLM для снижения административной нагрузки на врачей и повышения точности выставления счетов в медицинских учреждениях. Данная работа представляет значительный интерес для оптимизации документооборота и внедрения ИИ в операционные процессы здравоохранения.
В статье представлен PsychiatryBench — специализированный комплексный бенчмарк, разработанный для оценки способностей больших языковых моделей (LLM) в области психиатрии. Исследователи создали многозадачную платформу, которая позволяет тестировать модели на знание клинических протоколов, способность к диагностическому рассуждению и навыки ведения терапевтического диалога. Методология включает в себя проверку моделей на различных сценариях, имитирующих реальную клиническую практику психиатра. Ключевым результатом является выявление существенных различий в производительности современных LLM при решении задач, требующих глубокого понимания ментального здоровья и нюансов человеческого поведения. Данная разработка имеет критическое значение для интеграции ИИ в психиатрическую помощь, обеспечивая стандартизированный способ проверки безопасности и точности нейросетевых помощников. Использование PsychiatryBench позволит разработчикам более эффективно настраивать модели для поддержки врачей-психиатров и минимизировать риски ошибочных клинических рекомендаций.
В исследовании представлен инновационный подход к лечению сепсиса в условиях реанимации, объединяющий возможности обучения с подкреплением (Offline Reinforcement Learning) и потенциал больших языковых моделей (LLM). Авторы разработали специализированный фреймворк, который использует исторические данные пациентов для оптимизации протоколов терапии без необходимости прямого взаимодействия с живыми субъектами в процессе обучения. Интеграция LLM позволяет обогатить процесс принятия решений контекстуальной информацией из неструктурированных медицинских записей, что значительно повышает точность прогнозирования и выбора тактики лечения. Методология направлена на минимизацию рисков при подборе дозировок медикаментов и объемов инфузионной терапии. Ожидается, что внедрение данной системы позволит снизить уровень смертности при сепсисе за счет персонализированного и динамического управления состоянием критических пациентов. Результаты демонстрируют превосходство гибридной модели над стандартными клиническими протоколами и классическими алгоритмами машинного обучения.
Исследование оценивает эффективность использования GPT-4o для анализа интервью с медицинскими работниками с целью определения требований к новому устройству для измерения частоты сердечных сокращений у новорожденных. Результаты показали, что генеративный ИИ может эффективно извлекать функциональные и дизайнерские требования, снижая административную нагрузку на разработчиков.
Данная научная статья, опубликованная в журнале npj Digital Medicine, исследует возможности внедрения больших языковых моделей (LLM) в процессы прогнозной аналитики в медицинских учреждениях. Исследование фокусируется на том, как интеграция LLM позволяет значительно повысить точность предсказания клинических исходов по сравнению с традиционными статистическими методами. Авторы анализируют методологию объединения неструктурированных данных из электронных медицинских карт с количественными показателями для создания комплексных прогностических моделей. Ключевые результаты демонстрируют улучшение точности прогнозирования рисков осложнений и госпитализаций благодаря способности моделей интерпретировать контекстуальные нюансы в записях врачей. Работа подчеркивает значимость использования LLM для персонализации планов лечения и оптимизации распределения ресурсов в реальном времени. Практическая ценность исследования заключается в создании фундамента для разработки интеллектуальных систем поддержки принятия врачебных решений нового поколения.
Статья освещает резонансный случай использования ChatGPT для попыток лечения рака кожи у 8-летней собаки породы стаффордширский бультерьер по кличке Рози. Владелец животного в течение двух лет пытался применять рекомендации, полученные от языковой модели, что спровоцировало масштабную дискуссию в экспертном сообществе о границах применения ИИ в ветеринарии и биомедицине. Основной вопрос заключается в рисках использования генеративного ИИ для постановки диагнозов и назначения протоколов лечения без участия квалифицированных специалистов. Кейс подчеркивает проблему «галлюцинаций» нейросетей и их неспособности нести ответственность за клинические решения. Данная ситуация служит важным прецедентом для обсуждения регулирования использования LLM (больших языковых моделей) в медицинских и ветеринарных целях, где цена ошибки — жизнь пациента. Исследование границ применимости ИИ в таких критических областях становится приоритетной задачей для биомедицинского сообщества.
Данное исследование, опубликованное в журнале npj Digital Medicine, посвящено применению больших языковых моделей (LLM) для автоматизации процесса контроля качества выписных эпикризов. Традиционно оценка качества медицинских документов требует значительных временных затрат со стороны врачей, что делает ручной мониторинг неэффективным. Авторы предлагают методологию, использующую LLM для автоматического сопоставления данных в выписных документах с клиническими записями, обеспечивая высокую точность проверки полноты и корректности информации. Внедрение данного решения позволяет масштабировать проекты по улучшению качества медицинской документации без увеличения нагрузки на персонал. Результаты демонстрируют, что использование ИИ значительно сокращает время на аудит документов, сохраняя при этом уровень точности, сопоставимый с экспертной оценкой человека. Это имеет критическое значение для повышения безопасности пациентов и оптимизации документооборота в современных медицинских учреждениях.