Авторы предлагают стандартизированную иерархическую модель для описания данных в вычислительной патологии, устраняя путаницу между биологическими единицами, лабораторными препаратами и цифровыми данными. Внедрение этого фреймворка на основе стандарта DICOM позволит повысить воспроизводимость исследований и упростить внедрение ИИ-моделей в клиническую практику.
Исследователи представили CROWN — новый специализированный датасет, предназначенный для обучения моделей машинного обучения, предсказывающих взаимодействия белков и лигандов. В отличие от существующих баз данных, таких как PDBBind, которые ограничены в объеме, или PLInder, lacking качества, CROWN использует автоматизированный конвейер предобработки для обеспечения высокой точности структур. Из исходных 649 915 систем после применения строгих фильтров (разрешение кристаллографии, полнота карманов, протонирование при физиологическом pH) было отобрано 153 005 высококачественных комплексов. Ключевой инновацией является этап минимизации энергии с использованием кастомных ограничений, что позволяет устранить структурную неоднородность, возникающую из-за различий в методах рефлексии кристаллографов, не искажая при этом экспериментальную геометрию связывания. Датасет обеспечивает четырехкратное увеличение разнообразия белков и видов по сравнению с PDBBind, при этом фокусируясь на геометрии атомов, а не на смещенных показателях аффинности. CROWN станет фундаментальным ресурсом для обучения генеративных моделей связывания, разработки скоринг-функций и бенчмаркинга методов предсказания взаимодействий.
В исследовании представлен масштабный унифицированный датасет пространственной транскриптомики, полученный с помощью платформы Stereo-seq. Авторы проанализировали 10 различных органов мыши, включая мозг, почки, легкие, тимус, кишечник, кожу, селезенку, яичники, семенники и матку, охватив 23 среза тканей на 21 чипе. Каждая выборка сопровождается соответствующими изображениями окрашивания ssDNA или гематоксилином и эозином (H&E). Датасет включает матрицы экспрессии с разрешением на уровне отдельных клеток (cell-bin) или квадратных бинов размером 50 мкм (bin-50), а также аннотации типов клеток. Исследование подтвердило надежность аннотаций через согласованность данных в разных срезах тканей и соответствие каноническим паттернам экспрессии маркерных генов. Сравнение показало преимущество разрешения cell-bin для точной аннотации типов клеток. Данный ресурс служит стандартизированной базой для разработки новых методов пространственной транскриптомики, бенчмаркинга и мультимодального анализа с применением глубокого обучения.