Исследование посвящено разработке модели глубокого обучения для прогнозирования выживаемости пациентов с мелкоклеточным раком легкого. Авторы продемонстрировали, что объединение клинических данных с анализом цифровых патологических изображений (WSI) повышает точность прогноза общей и безрецидивной выживаемости.
Систематический обзор посвящен интеграции машинного обучения, IoMT и блокчейна для обеспечения безопасности и эффективности ухода за новорожденными в отделениях интенсивной терапии. Исследование выявляет возможности ML для ранней диагностики и прогнозирования рисков, а также подчеркивает необходимость создания единых систем для обеспечения целостности данных и непрерывного мониторинга.
Авторы представляют MCEEGNet — нейросетевую архитектуру на базе EEGNet, предназначенную для диагностики и количественной оценки тяжести депрессии по сигналам ЭЭГ. Модель демонстрирует высокую точность классификации (91.13%) и позволяет прогнозировать баллы по шкале PHQ-9, используя различные эмоциональные стимулы.
Исследование направлено на прогнозирование риска суицидальных мыслей у 908 женщин в Испании с использованием пяти моделей машинного обучения. Наилучшие результаты показала модель Random Forest, выявившая такие предикторы, как низкий вес ребенка при рождении, история ментальных расстройств и домашнее насилие.
Исследование посвящено разработке и сравнению моделей машинного обучения для раннего выявления инфекций при поступлении пациентов в отделение неотложной помощи. Наилучшие результаты показал алгоритм Random Forest, который на основе стандартных клинических показателей (СРБ, лейкоциты, температура и др.) продемонстрировал высокую точность прогнозирования.
В статье представлен PAIR (Pediatric AI Readiness) — специализированный фреймворк для оценки готовности медицинских учреждений к внедрению ИИ в педиатрии. Система охватывает семь ключевых доменов, включая этику, интеграцию в рабочие процессы и репрезентативность данных, чтобы обеспечить безопасное и эффективное применение технологий в детском здравоохранении.
Разработан модульный метод постобработки для снижения количества ложноположительных срабатываний при обнаружении детских переломов на рентгенограммах. Система использует поиск сложных отрицательных примеров и калиброванное слияние оценок, обеспечивая высокую точность (F1-score 0.88) и интерпретируемость через Grad-CAM.
В статье представлен новый метод классификации рака кожи, сочетающий глубокое обучение (архитектура DSRSENet) и фильтрацию классических признаков с помощью механизма SAMI. Использование метода оптимального выбора признаков (OFS) позволило достичь высокой точности обнаружения — до 95.66% на наборах данных HAM10000 и PAD_UFES_20.
Исследование представляет интерпретируемую модель машинного обучения для оценки риска сердечно-сосудистых заболеваний на основе данных 70 000 пациентов. Использование методов SHAP позволило сделать прогнозы прозрачными, выделив ключевые факторы риска, такие как возраст, давление и уровень холестерина, что критически важно для внедрения ИИ в клиническую практику.
Исследование оценивает эффективность модели nnU-Net как «второго читателя» для выявления метастазов в позвоночнике на КТ-снимках. Использование ИИ позволило обнаружить патологии в среднем на 228 дней раньше, чем это было сделано врачами при стандартном анализе.
В исследовании представлен BRIDGE-GRN — инновационный фреймворк на базе графового обучения, предназначенный для реконструкции направленных генных регуляторных сетей (GRN) на основе данных секвенирования РНК единичных клеток (scRNA-seq). Методология решает проблему разреженности данных и неполноты регуляторных априорных знаний путем разделения кодирования общего контекста графа и декодирования направленных ребер. Модель использует двухбашенную архитектуру, проецируя гены в специализированные пространства эмбеддингов ролей транскрипционных факторов и мишеней для асимметричной оценки связей. Для повышения устойчивости к шуму применяется кросс-видовая контрастивная регуляризация, выравнивающая представления графа при возмущениях ребер. Тестирование на данных мыши охватило пять типов клеток и три семейства сетей, показав, что BRIDGE-GRN превосходит или сравнивается с наиболее сильными современными аналогами. Результаты подтверждают высокую точность переноса обучения (transfer learning) в условия ограниченного количества данных и обеспечивают биологическую интерпретируемость через выявление когерентных регуляторных модулей.
В данной работе представлен комплексный вычислительный протокол для анализа динамики состояний Т-клеток, инфильтрирующих опухоли человека, на основе данных секвенирования РНК единичных клеток (scRNA-seq). Методология включает последовательное применение снижения размерности, построения траекторий псевдовремени (pseudotime trajectory inference) и анализа активности регулонов. Ключевой особенностью является интеграция вывода регулонов с реконструкцией сетей транскрипционных факторов (TF-TF networks), что позволяет идентифицировать специфические регуляторные модули, ответственные за переходы между состояниями клеток. Авторы уделяют особое внимание чувствительности параметров и робастности траекторий, обеспечивая согласованность фенотипических и регуляторных данных. Протокол направлен на глубокое понимание механизмов иммунного ответа в опухолевом микроокружении и доступен для воспроизведения через GitHub-репозиторий. Данный подход имеет высокую значимость для разработки таргетной иммунотерапии и понимания механизмов резистентности опухолей.
Исследование посвящено анализу механизмов работы белковых языковых моделей (PLM), таких как ESM-2 (650 млн параметров) и мультимодальная ESM-3 (1,4 млрд параметров). С помощью разреженных автоэнкодеров (SAE) ученые обнаружили, что 78% выученных признаков между этими разными архитектурами конвергируют, что значительно превышает уровень случайного совпадения (14,2%). Эти общие признаки несут основную функциональную информацию: их AUROC для предсказания функциональных сайтов составляет 0,925, в то время как уникальные для конкретной архитектуры признаки показывают лишь 0,661. Установлено, что структурные токены в ESM-3 не создают новый словарь признаков, а скорее «затачивают» существующий, делая его более биологически информативным (134 обогащенных термина GO против 29). Анализ механизмов внимания выявил конкретную геометрическую голову (L0H7), которая служит «бутылочным горлышком» для поступления структурной информации; ее абляция меняет предсказания вторичной структуры у 40% остатков. Работа доказывает существование общего биологического словаря, который модели находят независимо от модальностей обучения.
Исследователи разработали TriCyP (Tri-state Cysteine Predictor) — эффективную двухслойную нейронную сеть на базе эмбеддингов белковой языковой модели ESM-2, предназначенную для классификации функциональных состояний цистеина. Модель способна различать три состояния: координацию металлов, образование дисульфидных связей и наличие свободных тиолов. В ходе тестирования на независимом наборе данных TriCyP продемонстрировала исключительную точность с показателем AUROC = 0,99, превзойдя существующие методы прогнозирования. Авторы применили инструмент к масштабу протеома, проанализировав 2,7 миллиона остатков цистеина в 0,9 миллионах репрезентативных доменов ECOD. Исследование выявило закономерности распределения: дисульфидные связи преобладают в внеклеточных белках эукариот, а координация металлов сосредоточена в ядерных белках, что связано с обилием цинк-пальцевых транскрипционных факторов. Кроме того, метод позволил обнаружить ранее неизвестные семейства металл-связывающих белков и выявить области структурной неопределенности в моделях AlphaFold. Полученный каталог доступен сообществу как ресурс для дальнейших биоинформатических исследований.
В статье представлен DeSpotX — инновационная глубокая генеративная модель, разработанная для решения критической проблемы пространственной транскриптомики (ST): загрязнения сигналов экспрессии генов между соседними клетками. Авторы предлагают использовать так называемые «якорные гены» (гены, которые не экспрессируются в конкретном кластере клеток), чтобы сделать процесс разделения нативного сигнала и загрязнения математически однозначным (identifiable). Методология DeSpotX включает использование пространственной информации через взвешенное по расстоянию усреднение соседей и применение обучаемого диффузионного априорного распределения для предотвращения чрезмерной коррекции низкоуровневых сигналов. В ходе симуляций на пяти наборах данных и четырех платформах ST модель показала превосходные результаты с показателем AUROC >0.94, превзойдя лучшие существующие методы на 0.02–0.12 пункта. При тестировании на реальных тканях (мозг мыши и рак молочной железы) метод продемонстрировал повышение специфичности маркерных генов и более точную реконструкцию сетей межклеточной коммуникации. Исследование подтверждает, что итеративное использование DeSpotX позволяет значительно точнее определять источники лиганд-рецепторных сигналов, что критически важно для точной биологической интерпретации данных.
В исследовании представлен новый метод LOCALE, предназначенный для эффективного поиска в петабайт-масштабных репозиториях необработанных данных секвенирования, таких как NIH Sequence Read Archive (SRA). Авторы переосмысливают поиск последовательностей как задачу плотного поиска (dense retrieval), обучая векторные эмбеддинги, которые ранжируют локально выровненные последовательности выше невыровненных. В основе метода лежит использование энкодера DNABERT-2, обученного с применением функции потерь InfoNCE на биологически обоснованных аугментациях (замены, вставки и делеции). Результаты тестирования на бенчмарке из 50 акцессий SRA показали, что LOCALE сохраняет средний показатель Recall@Rq на уровне 62,4% при 10% уровне мутаций, в то время как все базовые модели показали результат ниже 60%. При масштабировании на 500 акцессий (15 Гбп) LOCALE продемонстрировал AUPRC 0,508 при 10% мутациях, что значительно превосходит показатель MetaGraph (0,129). Данная технология критически важна для биоинформатики и геномики, позволяя преодолеть ограничения точного k-мерного сопоставления и повысить устойчивость поиска к ошибкам секвенирования и биологической дивергенции.
В статье представлен ChemProFlow — инновационный вычислительный фреймворк, который меняет подход к анализу мембранного транспорта, переходя от белково-центричной модели к субстрат-центричной. Авторы интегрировали методы геометрического глубокого обучения (geometric deep learning) с геномным картированием на основе ортологии для предсказания транспортной способности молекул. Система ChemProFlow способна не только определять, будет ли молекула транспортироваться, но и классифицировать механизмы транспорта согласно базе данных Transporter Classification Database, а также идентифицировать конкретные микроорганизмы, кодирующие соответствующие системы. Данный подход позволяет масштабируемо выстраивать связи между субстратом, транспортером и организмом, что критически важно для фармакологии при прогнозировании транспорта лекарств и для биотехнологии при проектировании новых штаммов. Исследование демонстрирует высокую обобщающую способность метода на ранее неизвестных субстратах, обеспечивая высокопроизводительный анализ молекулярного транспорта в различных биологических контекстах.
В исследовании представлена инновационная двухэтапная архитектура для автоматической сегментации восьми сегментов печени по системе Куино на основе КТ и МРТ-изображений. Авторы решают критическую проблему: традиционные алгоритмы, обученные на здоровых органах, теряют точность при работе с гепатоцеллюлярной карциномой (ГЦК) из-за патологических деформаций структуры. Предложенный метод объединяет легкую нейросеть 3D UNet для изоляции объема печени и 3D графовую сверточную сеть (3D GCN) для анализа сложных анатомических связей. Для обеспечения топологической согласованности применяется стандартизированный пайплайн предобработки, нормализующий объем печени до 50 кадров по оси Z. В ходе слепого тестирования на новых клинических наборах данных модель показала высокую точность с коэффициентом Dice (mean Dice score) на уровне 0,828. Разработка имеет высокую практическую значимость, так как позволяет врачам быстро локализовать подозрительные узлы и опухоли в конкретных сегментах, а авторы предоставляют открытый доступ к коду и предобученным весам.
Исследователи представили крупнейший на сегодняшний день мультиомный датасет нейроэндокринных опухолей легкого (lung NETs), охватывающий 201 участника и 294 опухоли. В состав набора данных включены результаты секвенирования РНК, метилирования (EPIC 850K) и полногеномного секвенирования, что позволяет детально изучать молекулярные группы новообразований. Особую ценность представляет мультирегиональное полногеномное секвенирование 41 пациента для оценки внутриопухолевой гетерогенности, а также пространственная протеомика (64 участника) и пространственная транскриптомика (4 участника). Набор также содержит гистопатологические изображения (WSI) для 212 случаев, что открывает возможности для использования алгоритмов глубокого обучения (deep learning) для идентификации морфологических признаков конкретных молекулярных групп. Данный ресурс предназначен для комплексной характеристики опухолей и интеграции данных на различных масштабах, обеспечивая воспроизводимость исследований благодаря предоставлению всех скриптов и обработанных данных.
Исследователи представили BiomniBench — инновационную платформу для оценки работы LLM-агентов в области биомедицинских исследований на уровне процесса, а не только конечного результата. В отличие от традиционных бенчмарков, которые могут поощрять заучивание данных или «взлом вознаграждения» (reward hacking), BiomniBench анализирует всю траекторию действий агента с помощью экспертных рубрик. Первая реализация, BiomniBench-DA, включает 100 задач по анализу данных, охватывающих 17 типов аналитических задач и 5 областей заболеваний, базируясь на высокоцитируемых работах из журналов Nature, Cell и Science. Исследование показало, что даже передовые модели (frontier models) имеют значительный потенциал для роста, а выбор архитектуры агента (agent harness) влияет на результат так же сильно, как и сама базовая модель. Ключевые выявленные проблемы включают ошибки в выборе методологии, сложности с биологической интерпретацией и недостатки в научном рассуждении. Данный фреймворк является первым инструментом, позволяющим выявлять скрытые ошибки ИИ-агентов, которые невозможно обнаружить при оценке только по финальному ответу.