
СБЕРБАНК [новости]
Учёные Сбера и НИУ ВШЭ оптимизировали обучение AI-моделей. Специалисты Лаборатории искусственного интеллекта Сбербанка и Высшей школы экономики разработали новый геометрический метод оверсемплинга под названием Simplicial SMOTE (Synthetic Minority Oversampling Technique), предназначенный для оптимизации работы с несбалансированными наборами данных. В отличие от традиционного алгоритма SMOTE, данный метод использует симплициальные комплексы, основанные на нескольких обучающих примерах, для генерации синтетических данных. Результаты исследования, которое было принято к публикации на междисциплинарной конференции KDD, показали, что новый метод улучшает покрытие истинного распределения данных и генерирует примеры миноритарного класса, более близкие к границе решения. Это особенно важно в ситуациях, где редкий класс (например, случаи мошенничества или заболевания) имеет большое значение. Традиционные методы, такие как случайное дублирование или глобальное семплирование, часто приводят к низкокачественной выборке. Simplicial SMOTE решает эту проблему, обеспечивая точное моделирование сложных структур данных и повышая качество классификаторов на несбалансированных наборах данных. Эксперименты на множестве тестовых датасетов подтвердили, что новый подход значительно улучшает метрики качества, такие как F1-мера и коэффициент корреляции Matthew, по сравнению с базовым SMOTE и его модификациями. Польза метода отмечена как для K-Nearest Neighbors (KNN), так и для более сложных классификаторов, таких как градиентный бустинг. Метод Simplicial SMOTE может быть применён в различных областях, включая финансы, медицину и маркетинг, где часто встречаются несбалансированные данные. Банки могут использовать его для выявления мошенничества, а медицинские центры — для диагностики редких заболеваний. Новый метод можно интегрировать в существующие алгоритмы оверсемплинга, повышая их точность без значительного роста вычислительных затрат. Разработанный подход способствует созданию более точных моделей машинного обучения и улучшает качество аналитики. Источник: www.sberbank.ru
