text mining

Новость8522 маяОбзор

В статье представлен cadmus — инструмент с открытым исходным кодом на языке Python, предназначенный для автоматизированного сбора и обработки полнотекстовых биомедицинских публикаций. Библиотека использует программный доступ к API таких ресурсов, как PubMed, Crossref, Europe PMC и PMC, позволяя исследователям формировать масштабные специализированные корпуса данных без ручного вмешательства. Инструмент поддерживает парсинг форматов PDF, HTML, XML и plain text, стандартизируя их для последующего интеллектуального анализа текстов (text mining). В ходе тестирования на корпусе публикаций по нарушениям развития (204 043 публикации) система показала уровень извлечения полных текстов 85,2% при наличии институциональных подписок и 54,4% без них. Для проверки точности извлечения использовался ScispaCy: сравнение 44 264 файлов из PubMed Central с данными cadmus показало среднюю косинусную близость 0,98, что подтверждает высокую верность данных. Анализ показал, что использование полных текстов вместо абстрактов удваивает охват уникальных биомедицинских концепций, значительно углубляя возможности анализа научной информации.

биоинформатика text mining обработка данных биомедицинская литература Python

bioRxiv — Bioinformatics Оригинал

cadmus: надежный конвейер для масштабируемого поиска полнотекстовой биомедицинской литературы