Исследование анализирует риски систематических ошибок при создании моделей ИИ для онлайн-диагностики симптомов из-за самоотбора участников. Авторы выявили, что способы привлечения пользователей и процент прохождения повторных опросов существенно влияют на репрезентативность данных, что критично для обучения точных медицинских алгоритмов.
Исследование посвящено критической проблеме разработки малых интерферирующих РНК (siRNA) для таргетной терапии: риску побочных эффектов и нестабильности РНК. Авторы выявили системную ошибку в существующих in silico моделях — утечку данных (data leakage) при перекрестной проверке, что приводит к искусственному завышению точности прогнозов. В работе предложен новый строгий фреймворк, использующий z-кривые (3D-представление физико-химических свойств РНК) для контекстно-зависимого кодирования последовательностей. Разработанная модель достигла показателя AUC 0.845 на валидации без утечки данных, при этом скорость вычислений оказалась в 380 раз выше, чем у предыдущих решений. Исследование доказывает, что качество представления данных важнее сложности самой модели. Результаты работы создают фундамент для создания надежных и проверяемых методов дизайна последовательностей в области РНК-терапии.