В исследовании представлен новый метод LOCALE, предназначенный для эффективного поиска в петабайт-масштабных репозиториях необработанных данных секвенирования, таких как NIH Sequence Read Archive (SRA). Авторы переосмысливают поиск последовательностей как задачу плотного поиска (dense retrieval), обучая векторные эмбеддинги, которые ранжируют локально выровненные последовательности выше невыровненных. В основе метода лежит использование энкодера DNABERT-2, обученного с применением функции потерь InfoNCE на биологически обоснованных аугментациях (замены, вставки и делеции). Результаты тестирования на бенчмарке из 50 акцессий SRA показали, что LOCALE сохраняет средний показатель Recall@Rq на уровне 62,4% при 10% уровне мутаций, в то время как все базовые модели показали результат ниже 60%. При масштабировании на 500 акцессий (15 Гбп) LOCALE продемонстрировал AUPRC 0,508 при 10% мутациях, что значительно превосходит показатель MetaGraph (0,129). Данная технология критически важна для биоинформатики и геномики, позволяя преодолеть ограничения точного k-мерного сопоставления и повысить устойчивость поиска к ошибкам секвенирования и биологической дивергенции.