Одно из наиболее консервативных аспектов финансов, решение о предоставлении кредита кому-либо, трансформируется с помощью кредитного скоринга, управляемого ИИ. Это постепенное изменение для лиц, чья кредитная история богата и которые сотрудничают с банками в течение длительного периода времени. Однако это может изменить жизнь заемщиков с ограниченной кредитной историей и тех, кто находится в неформальной экономике. Они наконец могут быть обнаружены, а не оставаться невидимыми для системы. В этой статье обсуждается применение альтернативных данных для создания кредитных оценок на основе ИИ для физических лиц и малых предприятий, которые не имеют традиционной кредитной истории, риск несправедливости и предвзятости при отсутствии данных бюро, а также регуляторное стремление создать объяснимый ИИ при андеррайтинге недостаточно охваченных банковскими услугами групп населения.
Традиционные кредитные рейтинги предполагают наличие определенного финансового существования. Они предполагают, что у человека есть банковский счет, формальные финансовые продукты, и что он ранее брал кредит или пользовался кредитной картой. Они предполагают, что работодатели ведут платежные ведомости формальным образом, а торговцы работают в видимой части экономики — документированной части. На практике колоссальная доля мира устроена иначе. Молодые люди часто не имеют кредитов или карт. Мигранты могут иметь хорошую кредитную историю в своих странах происхождения и ничего в новых. Большинство их транзакций осуществляется наличными или на цифровых платформах, которые не отчитываются перед бюро: работники гиг-экономики, уличные торговцы, неформальные владельцы магазинов и большое количество микропредпринимателей. Там, где есть бюро, даже их охват может быть поверхностным или смещенным в сторону городского, формально занятого населения. Досье бюро таких заявителей выглядит пустым или почти пустым для кредиторов. Поскольку команды по управлению рисками обучены доверять данным бюро, они ошибаются в пользу осторожности. Результат предсказуем: увеличение отказов, сужение лимитов, повышение цен или полное исключение.
Эти заемщики не обязательно более рискованны; просто система глуха и слепа к сигналам, которые фактически характеризуют их финансовую жизнь. Базовая концепция применения ИИ к кредитному скорингу здесь проста. Там, где статистика бюро отсутствует или слишком скудна, ищите в другом месте. В современной жизни существует множество цифровых следов. Когда такие следы собираются ответственным образом с согласия и преобразуются в более организованные сигналы, они могут многое рассказать о стабильности человека, его потенциале заработка и шансах на погашение. Одним из первых и наиболее ценных источников часто являются телекоммуникационные данные. Операторы мобильной связи понимают, как кто-то регулярно пополняет предоплаченные балансы, использует ли один и тот же номер на протяжении многих лет или часто меняет, является ли его активность стабильной или хаотичной, и приобретает ли он пакеты данных одинакового размера. Человек, который сохраняет один номер с течением времени, пополняет номер и демонстрирует последовательные паттерны использования, как правило, более глубоко встроен в сообщество и более последователен в своем поведении по сравнению с тем, кто прекращает использование или меняет его. Наличие стабильности связано со снижением кредитного риска.
Другим источником информации является электронная коммерция и данные с цифровых платформ. Мало что может содержаться в досье бюро водителя службы вызова транспорта, но платформа может получить доступ к количеству поездок, доходу в неделю, данным об отменах, отзывам клиентов и продолжительности работы водителя. Микроторговец как продавец на торговой площадке оставляет историю выполненных заказов, сделанных возвратов, поступивших жалоб, нехватки товара и моделей роста. В случае неформального бизнеса данные платформы могут использоваться как ближайший эквивалент официальной финансовой отчетности. Далее следуют банковский счет, цифровой кошелек и данные о денежных потоках через API открытого банкинга. Хотя заемщик может не иметь длинной кредитной истории, у него также обычно есть счет, на который поступает зарплата, доход от подработок, денежные переводы или выручка от бизнеса. Путем анализа временных притоков и оттоков кредиторы могут оценить общий доход, его изменчивость, наличие или отсутствие буферов, и какая часть дохода уже выделена на регулярные расходы, такие как аренда, коммунальные услуги и существующие долги. В случае недостаточно охваченного банковскими услугами заемщика андеррайтинг денежных потоков часто более надежен, чем традиционная скоринговая карта, которая так сильно зависит от прошлых кредитов. Еще один уровень предоставляется API расчета зарплаты и трудоустройства.
В ситуациях, когда работодатели подключены к платежным сервисам, кредиторы могут подтвердить трудоустройство, ежемесячный заработок, продолжительность работы и изменения компенсации. Для тех, у кого есть несколько работ с частичной занятостью, эта составная картина будет гораздо более информативной, чем один платежный документ. Наконец, при правильном использовании поведенческие данные и данные на уровне устройства могут использоваться для помощи как в оценке мошенничества, так и в оценке рисков. Продолжительность времени, в течение которого человек использует одно и то же устройство, регулярность мест входа в систему, то, как он использует приложение в течение месяцев, а также время суток, когда он обычно совершает транзакции, могут предоставить индикаторы подлинности и стабильности. С этими сигналами следует обращаться осторожно, чтобы предотвратить косвенную дискриминацию, хотя они могут быть полезной поддержкой. Все эти источники объединяет то, что они рассказывают о реальной жизни человека и о том, как он живет, как зарабатывает и платит, даже когда ясно, что он никогда в жизни не прикасался к кредитной карте.
\
Эти другие источники данных плотно заполнены и неструктурированы. Структура телекоммуникационных логов, событий платформы, банковских транзакций и телеметрии устройств отличается от структуры традиционного отчета бюро. Они шумные, многомерные и заполнены идиосинкратическими паттернами. В этот момент необходим ИИ, в частности современное машинное обучение. Общий жизненный цикл начинается с агрегации данных. Кредиторы имеют доступ к телекоммуникационным партнерам, потокам открытого банкинга, API расчета зарплаты и партнерам платформ при условии соблюдения законов о защите данных и прямого согласия клиентов.
Они поглощают необработанные данные в безопасные среды и нормализуют их. Действия по пополнению телефона, кредит кошелька и заказы электронной коммерции преобразуются во временные ряды, имеющие регулярные форматы. Ненужные аномалии и дубликаты устраняются, а пропущенные значения обрабатываются. Из этого специалисты по данным конструируют признаки. Они создают сводные переменные, а не просто подают все необработанные транзакции в модель: средний ежемесячный чистый денежный поток; доля месяцев, где сбережения положительны; самый длинный последовательный период отсутствия платежей кредиторам; месяцы недостаточного заработка; рост или снижение заработка платформы; изменчивость рабочих часов; постоянство местоположения неделя за неделей.
Эти атрибуты пытаются сжать экономическую жизнь человека в числа, которые могут быть обработаны моделью. Градиентный бустинг деревьев, случайные леса и нейронные сети являются затем алгоритмами машинного обучения, которые обучаются на исторических данных, где результат уже известен. В случае кредитного скоринга результатом обычно является дефолт заемщика в течение определенного периода времени, скажем, шести или двенадцати месяцев. Модель узнает комбинации признаков, которые указывают на больший или меньший риск. Паттерны, обнаруженные среди человеческих андеррайтеров, не были бы идентифицированы человеческой проницательностью, такие как незначительные взаимодействия между волатильностью денежных потоков и сроком работы на платформе. Валидация критична. Модель применяется к данным, на которых она не обучалась, чтобы ее производительность была реальной, а не результатом переобучения.
Такие меры, как AUC, коэффициент Джини и статистика Колмогорова-Смирнова, используются для измерения способности к дискриминации, тогда как калибровочные графики указывают, идентичны ли прогнозируемые вероятности фактическим коэффициентам дефолта. В дополнение к основным цифрам кредиторы должны рассматривать производительность на основе сегмента: новые заемщики по сравнению с опытными заемщиками, различные профессии, регионы и диапазоны доходов. После развертывания модель будет затем оценивать новых заявителей на лету, и ответ будет предоставлен в течение нескольких секунд. Процесс не может на этом закончиться. Статистика меняется со временем, платформы развивают свою политику, и макроэкономика развивается.
\
:::tip Эта история была распространена в качестве релиза Sanya Kapoor в рамках Бизнес-блог программы HackerNoon.
:::
\


