Методология скоринга

Как рассчитываются MACRO баллы? Какова общая структура кредитного подсчета on-chain?

Хотя методология, лежащая в основе разработки MACRO баллов, во многом опирается на традиционные концепции кредитного скоринга, используемые в сфере традиционного финансирования на протяжении десятилетий, между ними есть некоторые существенные различия.

Сбор данных и разработка характеристик

Благодаря тому, что блокчейн Ethereum находится в нашем распоряжении, мы можем собирать и извлекать обширные и глубокие данные. Этот набор данных включает в себя все транзакции и поведение заемщиков on-chain, зарегистрированные в некоторых ведущих протоколах DeFi с момента их создания (включая Compound, Aave и MakerDAO), а также несколько дополнительных точек данных, связанных с историей кошелька адресанта и транзакциями, которые не обязательно выполняются на платформах DeFi.

На основе нашего коллективного опыта, суждений и интуиции из этого набора данных было разработано несколько новых интересных функций. Большинство данных (далее "характеристики") являются числовыми, а некоторые разбиты на отдельные категории.

Определение целевой метки

Одним из наиболее важных аспектов любой методики кредитного скоринга является определение целевой метки - что именно мы пытаемся предсказать - и это также одно из ключевых отличий от традиционных механизмов кредитного скоринга. Учитывая изменчивый характер поведения on-chain заемщиков (когда один платеж может погасить несколько кредитов, нет фиксированных дат погашения и т.д.), мы используем различные понятия, когда речь идет о целевой метке.

Например, одна из наших гибридных целевых меток представляет собой информацию о том, ликвидировался ли заемщик в течение заранее определенного периода времени после даты займа и упал ли его коэффициент здоровья ниже определенного порога в течение того же периода времени. Другими словами, наша методология может быть использована для моделирования вероятности того, что заемщик будет ликвидирован или его коэффициент здоровья упадет ниже определенного порога в будущем.

Выбор признаков

Для того чтобы предоставить алгоритму машинного обучения только релевантный, высококачественный и высокопрогнозируемый набор признаков, выполняется несколько итераций для выбора лучшего подмножества признаков с помощью следующих подходов.

  • Оценка корреляции: Признаки, демонстрирующие высокую корреляцию между собой (определяется с помощью коэффициента корреляции Пирсона и VIF), исключаются. Это гарантирует, что ни один из признаков не представляет одинаковую информационную ценность и тем самым влияет на интерпретируемость нашей окончательной модели.

  • Анализ дисперсии: Признаки с очень низкой дисперсией между наблюдениями не добавляют никакой ценности к предсказательной силе алгоритма классификации и, соответственно, исключаются.

  • Вывод важности признаков: Используется несколько хорошо зарекомендовавших себя метрик важности признаков для определения и ранжирования признаков на основе их относительной важности, наблюдаемой во время обучения модели.

Сочетание вышеуказанных подходов позволяет нам составить короткий список наиболее подходящих признаков, необходимых для оценки риска, без ущерба для производительности модели.

Валидация модели

Для подтверждения того, что наша окончательная модель будет работать в производстве, используется несколько методов.

  • Традиционные метрики проверки, например, recall, F1 score, Area Under the Receiver Operating Characteristic Curve (AUROC) и индекс Джини.

  • Бэктестинг и стресс-тестирование: чтобы убедиться, что наша модель хорошо работает в различных временных и входных пространствах.

  • Проверка распределения: чтобы убедиться, что наши оценки демонстрируют соответствующую дискриминационную способность в различных категориях оценок, т.е. доля "хороших" наблюдений должна постепенно увеличиваться по мере продвижения от нижнего предела оценок к верхнему.

Формирование баллов на основе модели

С помощью нашей модели мы можем предсказать вероятность того, что компания не будет ликвидирована. После определенных преобразований эти прогнозируемые вероятности масштабируются до окончательного диапазона баллов от 300 до 850. Затем они используются для оценки потенциальных заемщиков на Spectral Finance.

Непрерывная эволюция

Учитывая быстрые темпы развития, высокую скорость обработки данных и относительно начальную стадию развития DeFi по сравнению с традиционным финансированием, наша методология скоринга не будет оставаться статичной. Наоборот, она будет постоянно развиваться в результате периодической статистической проверки с точки зрения стабильности, надежности и предсказательной силы. Перекалибровка или переработка модели будет регулярной деятельностью, когда это будет оправдано результатами оценки модели. Мы также намерены включать дополнительные источники данных или конкретные точки данных по мере их появления и только в том случае, если они повышают предсказательную силу нашей скоринговой методологии, сохраняя при этом ее надежность и другие характеристики.

Last updated