Исследователи разработали TriCyP (Tri-state Cysteine Predictor) — эффективную двухслойную нейронную сеть на базе эмбеддингов белковой языковой модели ESM-2, предназначенную для классификации функциональных состояний цистеина. Модель способна различать три состояния: координацию металлов, образование дисульфидных связей и наличие свободных тиолов. В ходе тестирования на независимом наборе данных TriCyP продемонстрировала исключительную точность с показателем AUROC = 0,99, превзойдя существующие методы прогнозирования. Авторы применили инструмент к масштабу протеома, проанализировав 2,7 миллиона остатков цистеина в 0,9 миллионах репрезентативных доменов ECOD. Исследование выявило закономерности распределения: дисульфидные связи преобладают в внеклеточных белках эукариот, а координация металлов сосредоточена в ядерных белках, что связано с обилием цинк-пальцевых транскрипционных факторов. Кроме того, метод позволил обнаружить ранее неизвестные семейства металл-связывающих белков и выявить области структурной неопределенности в моделях AlphaFold. Полученный каталог доступен сообществу как ресурс для дальнейших биоинформатических исследований.