Исследование предлагает фреймворк федеративного обучения для совместного скрининга расстройства аутистического спектра (РАС) у детей, подростков и взрослых без обмена чувствительными данными пациентов. Персонализированные подходы федеративного обучения достигли глобальной точности 97,2% для детей, 89,5% для подростков и 86,8% для взрослых, превзойдя традиционные централизованные модели. Метод обеспечивает масштабируемое, точное и защищённое конфиденциальностью решение для обнаружения РАС в реальной клинической практике.
Исследование посвящено разработке и оценке устойчивых алгоритмов случайных лесов (Random Forests) для геномной предсказательной аналитики в условиях загрязнённых данных. Авторы фокусируются на проблеме загрязнения данных — от ошибок записи до экстремальных выбросов, которые могут искажать статистические модели и снижать точность предсказаний. Методология включает симуляционное моделирование на синтетическом наборе данных животноводческого разведения с последующей валидацией на реальных растительных и животных данных. Сравнительный анализ различных подходов к робастификации показал, что трансформация данных является наиболее эффективной стратегией, обеспечивающей наилучшую производительность при наличии загрязнения. Исследование выявило, что ранжирование на основе устойчивых случайных лесов является надёжным первым выбором, тогда как методы взвешивания следует применять только при сохранении ранговой структуры. Практическая значимость заключается в возможности восстановления латентного сигнала для геномной селекции при наличии фенотипической коррупции, ошибок записи или несоответствия между обучающими и развернутыми данными. Стандартные случайные леса остаются оптимальными для чистых данных, но устойчивые версии следует применять параллельно при вероятности загрязнения. Методология может быть перенесена на другие методы машинного обучения, включая медицинские приложения в области геномики и персонализированной медицины.
Систематический обзор 36 эмпирических исследований (2020–2025) показывает применение методов объяснимого ИИ (SHAP, Grad-CAM, LIME) в медицинской визуализации, диагностике и реабилитации. Исследования демонстрируют соответствие методов объяснимости типам медицинских задач и частое комбинирование нескольких объяснителей для перекрёстной проверки интерпретаций.
Исследователи создали Celiac Microbiome Repository (CMR) — кураторскую открытую коллекцию данных секвенирования микробиома кишечника при целиакии. Цель проекта — решить проблему фрагментированности и гетерогенности данных, которые ранее были разбросаны по NCBI Sequence Read Archive (SRA) и Scopus. В CMR версии 1.0 включено 28 наборов данных, содержащих 3 245 образцов от пациентов из 13 стран, отобранных из 5 различных локаций тела. Все 16S данные были повторно обработаны через DADA2, а shotgun-данные — через MetaPhlAn4 для обеспечения сравнимости между исследованиями. Анализ показал, что хотя публичные образцы микробиома при целиакии накапливаются со скоростью примерно 140 в год, существуют значительные барьеры доступности: лишь 20 из 58 подходящих наборов данных имели как сырые данные, так и необходимую метаданную в публичных архивах. Ресурс имеет двухуровневую архитектуру с GitHub-бэкендом для программатического доступа и R Shiny-фронтендом для интерактивного исследования данных. Ключевая значимость работы заключается в создании инфраструктуры, которая позволяет исследовательскому сообществу проводить глобальные мета-анализы и применять методы машинного обучения для выявления новых биомаркеров и паттернов микробиома при целиакии, что в перспективе может улучшить диагностику и персонализированный подход к лечению.
Исследование представляет метод CCIDeconv — иерархическую модель машинного обучения (классификация и регрессия) для деконволюции клеточно-клеточных взаимодействий (CCI) на субклеточном уровне в данных транскриптомики одиночных клеток. Метод использует модифицированный скоринг CellChat для атрибуции взаимодействий к субклеточным компартментам — цитоплазме и ядру. Исследователи валидировали подход на девяти публичных наборах данных пространственной транскриптомики (sST) из различных тканей человека, проведя кросс-валидацию с исключением одного набора данных (leave-one-dataset-out). Результаты показали, что обучение на множестве типов тканей обеспечивает устойчивую производительность деконволюции на невидимых наборах данных. Ключевое открытие: модели без пространственных признаков достигли схожей производительности с моделями, включающими пространственные данные, при увеличении количества обучающих наборов, что открывает возможность точного предсказания субклеточных взаимодействий CCI из данных scRNA-seq при достаточном объёме обучающих данных. Метод позволяет исследователям анализировать паттерны субклеточных взаимодействий для понимания биологических механизмов в контексте здоровья и различных заболеваний.
Исследование представляет VaLPAS (Variation-Leveraged Phenomic Association Screen) — фреймворк на Python для анализа ассоциаций между паттернами экспрессии генов и белков в мульти-омиксных данных. Методология основана на статистических и машинно-обучающих подходах для выявления функциональных связей между молекулами неизвестной функции и молекулами с установленной функцицией по принципу 'вины по ассоциации'. Инструмент предназначен для заполнения пробелов в функциональной аннотации протеома, используя данные масс-спектрометрии и других экспериментальных методов. Исследователи продемонстрировали эффективность VaLPAS на мульти-омиксном датасете из дрожжей Rhodotorula toruloides, успешно идентифицировав высококонфиденциальные предсказания для подмножества генов и белков с неизвестной функцией. Код проекта открыт и размещён на GitHub под управлением PNNL-Predictive-Phenomics. Хотя исследование фокусируется на фундаментальной биологии и дрожжах, разработанный подход может быть адаптирован для анализа медицинских данных, включая предсказание функций белков-мишеней для лекарственных препаратов. Технология демонстрирует потенциал для интеграции в исследовательские протоколы по расшифровке протеома и функциональной геномики.
Статья представляет гибридную систему поддержки клинических решений для пациентов с гипертонией, объединяющую методы машинного обучения (K-Means кластеризация, PCA) с экспертными правилами. Система проанализировала 615 клинических записей и достигла 78.3% согласованности с экспертными оценками кардиологов. Подход позволяет генерировать персонализированные рекомендации по образу жизни на основе стратификации пациентов.
GraphHDBSCAN* — это новый алгоритм машинного обучения для кластеризации данных одноячеистого секвенирования РНК (scRNA-seq), широко используемого в биомедицинских исследованиях для анализа клеточного разнообразия. Метод представляет собой иерархическое расширение HDBSCAN*, которое работает непосредственно с графовой структурой данных, устраняя необходимость в ручной настройке гиперпараметров. В отличие от существующих подходов, фокусирующихся на плоских кластерах, GraphHDBSCAN* сохраняет иерархическую организацию клеток, выявляя как широкие типы клеток, так и их специализированные подтипы. Исследователи протестировали метод на множестве наборов данных scRNA-seq и продемонстрировали, что алгоритм восстанавливает биологически значимые иерархии, включая тонкую структуру субпопуляций моноцитов. Метод обеспечивает высококачественные плоские кластеризации, превосходящие широко используемые методы обнаружения сообществ. GraphHDBSCAN* особенно важен для онкологических исследований, иммунологии и разработки персонализированных терапий, где точное определение клеточных популяций критично для понимания механизмов заболеваний и оценки ответа на лечение.
Исследование представляет FoundedPBI — ансамблевый подход глубокого обучения для предсказания взаимодействий бактериофагов с бактериями на основе ДНК-последовательностей. Методология использует ансамбль из трёх современных ДНК-языковых моделей (Nucleotide Transformer v2, DNABERT-2, MegaDNA), обученных на прокариотических и бактериофаговых геномах, с агрегацией выходов в единый мета-эмбеддинг и последующей классификацией нейросетью. Ключевые результаты: на бенчмарке PredPHI модель достигла F1-оценки 76%, превзойдя текущий state-of-the-art PBIP на 7%, а на внутреннем наборе данных CI4CB — 93% F1-оценка, улучшив предыдущие методы на 4%. Особый вклад — адаптация стратегий агрегации контекста NLP для обработки целых бактериальных и фаговых геномов до 5 млн пар оснований, что в 50-100 раз превышает контекстные окна фундаментальных моделей (12-96K bp). Это критически важно для ускорения открытия пар фаг-бактерия, необходимых для фаговой терапии как альтернативы антибиотикам. Практическая значимость: метод снижает трудоёмкость экспериментального скрининга, позволяя предсказывать совместимость пар по ДНК-последовательностям без лабораторных тестов, что может революционизировать разработку персонализированных фаговых препаратов.
Исследование представляет scMagnifier — фреймворк консенсус-кластеризации для анализа данных одноядерного секвенирования РНК (scRNA-seq), который решает проблему выявления тонких подтипов клеток, чьи транскрипционные различия часто маскируются техническим шумом и разреженностью данных. Методология включает генерацию in silico возмущений кандидатных транскрипционных факторов (TF), распространение эффектов возмущений через кластер-специфичные сети регуляции генов (GRN) для симуляции профилей экспрессии после возмущения, и интеграцию результатов кластеризации across множественных возмущений в стабильные назначения подтипов. Дополнительно разработан rpcUMAP — визуализация, aware возмущений, обеспечивающая четкое разделение между подтипами клеток и помогающая выбрать оптимальное число кластеров. В бенчмарках как для single-batch, так и multi-batch данных scMagnifier последовательно улучшает разрешение и точность идентификации тонких типов клеток. При интеграции со методами пространственной кластеризации, такими как STAGATE, метод совместим с рабочими процессами пространственной транскриптомики и эффективно выявляет подтипы опухолевых клеток и их пространственную организацию в раке яичников. Это имеет значимость для персонализированной онкологии, позволяя точнее классифицировать опухолевые популяции для таргетной терапии.
Исследование представляет метод импутации пропущенных данных в системах мониторинга здоровья с использованием генеративно-состязательных сетей (GAN). Проблема потери данных в носимых устройствах критична для точности диагностики хронических заболеваний и раннего выявления патологий. Авторы разработали архитектуру GAN, которая обучается на полных временных рядах физиологических показателей и генерирует правдоподобные значения для пропущенных сегментов. Методология включает использование дискриминатора для оценки качества импутированных данных и генератора для их восстановления с сохранением временных зависимостей. Ключевые результаты показывают, что GAN-based импутация превосходит традиционные методы (линейная интерполяция, средние значения) по метрикам RMSE на 35-42% и MAE на 28-38% в тестах на реальных данных носимых датчиков. Исследование демонстрирует, что даже при потере до 40% данных система сохраняет точность классификации заболеваний на уровне 89-94%, что критично для клинического применения. Работа имеет прямое практическое значение для улучшения надёжности телемедицинских систем и носимых мониторов в условиях реального использования, где пропуски данных неизбежны из-за технических сбоев или неудобства ношения устройства.
Исследование применяет машинное обучение для предсказания подтипов MODY (GCK-MODY и HNF1A-MODY) до генетического тестирования. Гауссовский наивный байесовский классификатор показал ROC AUC 0.724 для GCK-MODY, а Random Forest — 0.712 для HNF1A-MODY. SHAP-анализ обеспечил интерпретируемость модели.
Исследование представляет двухэтапную объяснимую модель машинного обучения для прогнозирования риска диабета 2 типа, достигшую точности 97.14% на втором этапе с использованием 270 943 образцов из Руанды. Модель может быть интегрирована в мобильное приложение mUzima для помощи медработникам в выявлении групп риска и раннем скрининге заболевания.
Исследование посвящено применению дискретных диффузионных моделей для генерации реалистичных филогенетических деревьев опухолей, которые кодируют клональную родословную и приобретение мутаций при эволюции рака. Авторы обучают графовые трансформеры на наборе из примерно 12 500 синтетических филогенезов, охватывающих двенадцать различных эволюционных режимов, используя процесс обратного диффузионного шумоподавления на типизированных графах. Эксперименты по масштабированию выявили немонотонную зависимость между ёмкостью модели и её производительностью: модель среднего масштаба достигла высокой структурной валидности и близкого соответствия распределения тестовым данным, тогда как более глубокая модель провалилась при фиксированных гиперпараметрах оптимизации. Эксперименты с недостатком данных показали, что разнообразное обучение приводит к более переносимым представлениям по сравнению со специализацией на одном режиме. Результаты демонстрируют, что структурные ограничения филогенеза могут быть выучены неявно через безусловную дискретную диффузию. Это открывает перспективный путь к созданию генеративных моделей эволюции опухолей, что имеет прямое значение для персонализированной онкологии и понимания механизмов развития рака. Исследование вносит вклад в развитие методов машинного обучения для анализа онкологических данных.
Исследование применяет методы машинного обучения для классификации пациентов с боковым амиотрофическим склерозом (БАС) против контрольной группы на основе данных смешанных анкет, содержащих как структурированные переменные, так и свободный текст. Разработана утечка-свободная ML-пайплайн с LLM-экстракцией текста в таблицу и компактным лонгитюдным кодированием. Сравнены три конфигурации признаков: Pool1 (только структурированные данные), Pool2 (добавлены компактные суммарные признаки из первого временного пункта), Pool3 (дополнены описаниями изменений между T1 и T2). В итоговой конфигурации Pool3 Random Forest достиг точности 0.673, F1-взвешенного показателя 0.666 и коэффициента корреляции Мэттьюса 0.323 на holdout-тесте. Кросс-валидация показала F1-weighted 0.654 и MCC 0.312. Анализ ablation показал, что удаление компактного временного блока значительно снижает производительность, тогда как удаление текстового блока почти не влияет. Вывод: в малых клинических когортах ценность языковой обработки заключается не в статических признаках, а в компактном представлении лонгитюдных траекторий изменений.
KyDab (Kymouse Antibody Database) представляет собой специализированную базу данных для разработки и оценки искусственных интеллектуальных моделей в области открытия антител. База данных содержит результаты 11 исследований иммунизации на платформе Kymouse, охватывающих 51 иммуноген. В коллекции представлено более 120 000 парных последовательностей тяжелых и легких цепей антител с измерениями связывания для экспериментально охарактеризованных клонов. База данных фиксирует полные данные отбора с согласованными метаданными, включая как положительные, так и отрицательные экспериментальные результаты. Это обеспечивает ценный ресурс для обучения моделей машинного обучения в области разработки терапевтических антител. База данных доступна по адресу https://kydab.naturalantibody.com и будет постоянно обновляться новыми наборами данных.
Компания Optum Rx внедряет технологии искусственного интеллекта для выявления и предотвращения мошенничества, нецелевого расходования средств и злоупотреблений в фармацевтической сфере. Это решение направлено на снижение финансовых потерь, которые ежегодно достигают миллиардов долларов в системе здравоохранения США. ИИ-системы анализируют большие объёмы данных о транзакциях, рецептах и поведении аптек для выявления аномальных паттернов. Методология включает машинное обучение для классификации подозрительных операций и автоматизированного оповещения. Внедрение таких систем позволяет сократить время расследования и повысить точность выявления мошеннических схем. Это важный пример применения ИИ не в клинической практике, а в административно-финансовом управлении здравоохранением, что критически важно для устойчивости системы.
Представлен метод PRIMED — машинное обучение, объединяющее представления трёх белковых языковых моделей (ESM-2, ESM-3, ESM-C) для предсказания участков связывания белков с ДНК. Модель показала высокую точность (AUC 0.92-0.93) на тестовых наборах данных, что важно для структурного моделирования, инженерии белков и разработки терапевтических средств.
Исследование в журнале npj Digital Medicine посвящено применению цифровых физиологических биомаркеров для мониторинга динамики симптомов у пациентов со сложными хроническими заболеваниями. Работа фокусируется на внутриличностном анализе — отслеживании изменений у одного и того же человека во времени, что является более точным подходом по сравнению с межличностными сравнениями. Цифровые биомаркеры обычно собираются с помощью носимых устройств, смартфонов и сенсоров, которые непрерывно измеряют физиологические показатели. Методология включает машинное обучение для выявления паттернов в потоках данных и предсказания будущих изменений состояния. Ключевая значимость работы заключается в возможности раннего выявления обострений и персонализации лечения хронических заболеваний. Это открывает перспективы для создания систем предиктивной медицины, где алгоритмы ИИ могут предупреждать о ухудшении состояния до появления клинических симптомов. Исследование представляет собой важный шаг к внедрению непрерывного цифрового мониторинга в клиническую практику.
Протокол исследования валидации упрощённой модели ИИ-менторства для медицинского образования. ИИ использует unsupervised machine learning для группировки студентов по многомерным показателям успеваемости и генерации персонализированных текстовых рекомендаций. Пилотное исследование включает 40 студентов-медиков и преподавателей для оценки реализуемости и согласованности с оценками преподавателей.