Random Forest

Новость4517 маяОбзор

Исследование посвящено использованию данных ДНК-метабаркодинга пыльцы, собранной пчелами, для разработки моделей машинного обучения, способных точно определять географическое происхождение образцов. Авторы проанализировали данные о сравнительной численности последовательностей ДНК пыльцы из трех различных проектов на западе США. В ходе работы тестировались алгоритмы обучения с учителем, включая Random Forest (Случайный лес) и k-Nearest Neighbors (k-ближайших соседей). Результаты показали высокую точность предсказания локации исключительно на основе состава пыльцевых сообществ без привлечения дополнительных параметров. Было установлено, что модели, обученные на сырых данных последовательностей, работают почти так же эффективно, как и модели на таксономически кластеризованных данных, что позволяет избежать трудоемкого процесса таксономического присвоения. Данная методология предлагает новый фреймворк для использования биологических данных в задачах геолокации и криминалистики.

машинное обучение геолокация ДНК-метабаркодинг биоинформатика Random Forest k-Nearest Neighbors

bioRxiv — Bioinformatics Оригинал

Оценка потенциала данных последовательностей пыльцы, собранной пчелами, для обучения моделей машинного обучения с целью геолокации происхождения образцов