Want to create interactive content? It’s easy in Genially!
HighLoad ++ 2021 - A. Sergeenko
Александр Сергеенко
Created on April 14, 2021
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Geniaflix Presentation
View
Vintage Mosaic Presentation
View
Shadow Presentation
View
Newspaper Presentation
View
Zen Presentation
View
Audio tutorial
View
Pechakucha Presentation
Transcript
FAST DATA
01
Монетизация потоковых данных в "Финтехе"
stateful
Latency, throughput
на основе ваших кредитных историй
go!
HighLoad++ 2021
www.neoflex.ru
обо мне
- Мне 30
- Работаю с Java (с 2016-по сей день), Scala (с 2018-по сей день)
- Интересы: распределённые вычисления, реактивная архитектура, потоковая обработка и Big Data
АлександрСергеенко
asergeenko@neoflex.ru
why stream processing?
- Пакетная обработка - вчерашняя реальность, которая зачастую не отвечает запросам рынка: spam prevention, next best offer, next best action, fraud prevention, network anomaly detection, IoT
- Медленный игрок - проигрывает, теряя деньги
- Чем ближе к real-time, тем выше требования к инфраструктуре
Low latencies
01
fast data
02
04
high throughput
fault tolerant
03
exactly once
обзор
О каких данных идет речь?
Берем кредит и приобретаем дом
Заемные средства
Кредитная организация
Дом!
Счастливый покупатель(Михаил)
№218-ФЗ "О кредитных историях"
Кредитное бюро
обзор
О каких данных идет речь?
Платим взносы по кредиту
Кредитная организация
Очередной платёж
Счастливый покупатель(Михаил)
№218-ФЗ "О кредитных историях"
Кредитное бюро
обзор
О каких данных идет речь?
Допустили просрочку по кредиту
Кредитная организация
Очередной платёж
Банкрот(Михаил)
№218-ФЗ "О кредитных историях"
Кредитное бюро
обзор
О каких данных идет речь?
Ищем выгодные кредитные предложения
Расскажите о кредитной истории Михаила
Банк №1
Дадите кредит?
Дадите кредит?
Расскажите о кредитной истории Михаила
Ищущий кредит(Михаил)
Кредитное бюро
Банк №1
обзор
резюмируя
Что может знать о вас кредитное бюро?
(практически все)
01
Когда, где, для чего и как вы приобретали кредиты
02
Насколько прилежно вы вносили оплату
03
В каких банках и других финансовых организациях вы пытались получить кредит
04
Ваш скоринговый балл (синтетический показатель платежеспособности)
резюмируя
Как можно монетизировать эти данные?
(законно)
Что можно из этого извлечь?
Что мы имеем?
События об изменении тех или иных показателей кредитной истории (запрос кредита в банке, просрочка выплат, досрочное погашение и так далее)
01
Массивы данных, пригодные для создания моделей машинного обучения различных сегментов предметной области
02
Кредитные истории
и, наверняка, что-то еще
резюмируя
Какие классы продуктов мы можем реализовать?
Триггеры
Скоринги
подробности дальше
продукты кредитных бюро
"Триггеры" на примере Михаила
Гипер-Кредит-Центр
Михаил - клиент двух банков: Гипер-Кредит-Центр и Вест-Бест-Оффер
Оба банка занимаются кредитованием физических лиц и очень хотят продать Михаилу очередной кредит.
Вест-Бест-Оффер
продукты кредитных бюро
"Триггеры" на примере Михаила
Оба банка являются клиентами одного и того же кредитного бюро, но Вест-Бест-Оффер приобрел у бюро продукт "Триггеры" для получения изменений кредитной истории Михаила.
Гипер-Кредит-Центр
Вест-Бест-Оффер
Кредитные истории
Кредитные истории
Триггеры
Кредитное бюро
продукты кредитных бюро
"Триггеры" на примере Михаила
Запрос кредитной истории
Гипер-Кредит-Центр(банк)
Кредитное бюро
Искатель выгодных кредитов (Михаил)
Кредитный менеджер (Ольга)
Однажды Михаил приходит в магазин, где менеджер банка Гипер-Кредит-Центр Ольга, отправив запрос кредитной истории в бюро и получив ответ, предлагает ему выходный кредит под 8% годовых.Михаил начинает свои подсчеты. А тем временем, где-то далеко, начинает свою работу плафторма потоковой обработки кредитных историй...
продукты кредитных бюро
"Триггеры" на примере Михаила
Запрашивает историю
Хочет кредит
Вовзращает историю
Предлагает кредит
Кредитное бюро
8%
Михаил хочет взять кредит!
Гипер-Кредит-Центр
Контрпредложение кредита
7%
Пока Михаил занят подсчётами процентов и переплат потоковая платформа фиксирует факт запроса кредитной истории Михаила от Гипер-Кредит-Центра. Наш второй участник - Вест-Бест-Оффер, купивший продукт "Триггеры", получает уведомление о попытке Михаила взять кредит.В порыве перехватить клиента Вест-Бест-Оффер присылает Михаилу СМС с предложением о кредите... под 7% годовых!
Вест-Бест-Оффер
продукты кредитных бюро
"Скоринги" на примере Михаила
Запрашивает скоринг
Хочет кредит
Вовзращает значение
Предлагает кредит
Кредитное бюро
8%
Гипер-Кредит-Центр
В ходе принятия решения о выдаче Михаилу кредита, Гипер-Кредит-Центр-Банк анализирует состоятельность Михаила, как плательщика.Банк может приобрести у бюро услугу "Скоринги", которая, в том числе, позволит получать оценку Михаила на основе данных его кредитной истории за все время.
Архитектура решения
Технологический стек
Stateless-сервисы потоковой обработки
хранилище data lake (deltalake)
STATEFUL-сервисы потоковой обработки, complex event processing
объектное хранилище
batch/streaming задачи формирования витрин и data lake
оперативное хранилище
Технологический стек
витрины мониторинга
репозиторий ml-моделей
message backbone
оркестрация контейнеров
и другие...
топология платформы
источники изменений
файлы
online-запросы
- Изменения кредитных историй
- пакетные запросы скоринга и кредитных историй
- списки субъектов для мониторинга
задача - максимально быстрый захват, обработка, сохранение и отправка бизнес-уведомлений клиентам
- запросы кредитных историй
- запросы скоринга
До 80,000,000 изменений в сутки с неравномерным распределением нагрузки
До 3,500,000 в сутки
value для клиента
возникновение изменения
обработка
потоки данных
ключевые подсистемы
привязка входных изменений к записи о субъекте. персонализация.до 15,000 запросов в секунду при пиковых нагрузках
MASTER DATA MANAGEMENT
обработка изменений кредитной истории, расчет показателей, формирование векторов для расчёта скорингов
feature store
пайплайныпредварительной обработки
загрузка и обработка входных запросов и файлов.до 100 гб в день/80,000,000 изменений
анализ событий, формирование проекций на подписки, формирование ответов.1,500-2,000 событий в секунду.
пайплайны триггеров
каждая из подсистем горизонтально-масштабируема. указаны текущие показатели нагрузки.
выводы
01
Потоковая обработка и технологии Fast Data становятся критически важными и необходимыми в большинстве аспектах работы с данными
02
Эффективная монетизация данных требует обеспечить минимальные задержки, что возможно только при использовании потокового подхода к обработке
03
"Классическая" BigData не теряет своей актуальности и по-прежнему применима для определённого спектра задач (например: аналитика, отчётность, мониторинг)
04
При построении потоковых платформ обработки данных следует уделить особое внимание реактивных подходам к архитектуре
fast data is hiring!
asergeenko@neoflex.ru
THANKS
stack:
Scalaakka apache flink apache spark hadoop