28 апреля 2021 года в Москве состоялась конференция Big Data и BI Day 2021, организованная аналитическим центром TAdviser. Участники мероприятия обсудили актуальные тренды в этой области, особенности практического применения инструментов Big Data и BI и экономические эффекты, которые можно от таких инструментов получить.
Конференцию посетили более сотни человек. В их числе представители Центробанка, ВТБ, Газпромбанка, Сбера, Министерства просвещения, Федерального казначейства, ДИТ Москвы, Департамента культуры города Москвы, Агентства промышленного развития города Москвы, X5 Retail Group, Unilever Rus, «Дикси», Ernst&Young, «Биннофарм Групп», «Инком-Недвижимости», Московского технологического института и многих других.
Бизнес — от ритейла и банков до металлообрабатывающих заводов — и госструктуры — от городских администраций до федеральных ведомств — так или иначе работают с большими данными. Этот процесс затронул всех. Нет больше «продавцов помидоров», как выразились спикеры от ритейла, есть крупные цифровые компании, которые нуждаются в соответствующих инструментах, позволяющих получать быстрый доступ к качественным данным. Своим опытом развития и использования таких инструментов поделились докладчики как со стороны вендоров, интеграторов, так и заказчики решений.
Государственная Big Data должна быть доступна всем гражданам
Государство уже прочно взяло на вооружение технологии Big Data. Сергей Сергиенко, советник министра цифрового развития РФ, рассказал участникам конференции TAdviser, в частности, о распределенной общегосударственной базе данных. Архитектура решения такова: в центре — единая информационная платформа, то, что называется Национальной системой управления данными (НСУД). В ней хранятся описания моделей данных, карты данных, нужных, чтобы понимать, в каких ведомствах и по каким нормативам ведется учет, как можно получить к этим данным доступ. Тут же обеспечивается контроль и мониторинг качества данных.
Еще один компонент общегосударственной базы — система межведомственного электронного взаимодействия (СМЭВ), которая, по словам докладчика, претерпевает большие изменения. Например, там уже реализован синхронный протокол обмена, который должен дать новые возможности, в частности, для госуслуг.
Третья часть системы включает в себя витрины данных от государственных поставщиков: ПФР, Росреестра, ФНС, МВД и так далее, так как сами данные находятся на стороне ведомств и потребителей этих данных, таких как «Цифровой профиль» или информационные системы федеральных органов исполнительной власти.
Появление подобных витрин дает возможности для аналитики. Раньше было практически невозможно узнать, например, долю выпускников, работающих по специальности: понадобилось бы поднимать бумаги многих ведомств и искать там, где данные, часто, были закрыты. А теперь витрины дают возможность делать распределенные запросы.
Эта модель на апрель 2021 года отрабатывается. Мы надеемся, что уже в 2021 году сможем часть задач решать именно таким образом, — сообщил Сергей Сергиенко. |
Перевод пилотных витрин в промышленную эксплуатацию, как ожидается, улучшит скорость получения данных, которая до этого момента существенно тормозилась асинхронной работой СМЭВ.
У нас нет никаких возможностей в нормативном поле, которые бы вынудили ведомства работать онлайн. А витрина — это та техническая основа, которая позволит перейти в онлайн и оказывать проактивные услуги, — подчеркнул Сергей Сергиенко. |
Для реализации новых госуслуг важна не только скорость доступа, но и скорость внесения изменений в данные. Ожидается, что витрины улучшат и этот процесс. Что касается безопасности и качества данных, то те, что размещаются в витринах, не оказываются в публичном доступе. Эти данные закрыты, но появляется возможность применять к ним правила и смотреть, проходят ли они, например, формато-логический контроль, сохраняют ли ссылочную целостность. Становится доступным целый пласт инструментов контроля качества.
На 2021 год запланирован выпуск 20 витрин. Еще 16 будет добавлено в 2022 году. Помимо витрин, к описываемой базе данных присоединится еще одна часть — подсистема информационно-аналитического обеспечения.
Ситуация с ковидом обнажила проблему: мы плохо ориентируемся в том, где и какие данные хранятся, и как с ними работать, — сказал Сергей Сергиенко, — поэтому должен быть создан подобный общероссийский data lake, обеспеченный свежими данными из первоисточников. |
Еще одно направление работы касается ИИ. В соответствии с указом президента о подготовке наборов данных для искусственного интеллекта, Министерство цифрового развития начало решать эту задачу.
И она очень хорошо легла на нашу информационную платформу, — замечает Сергиенко. — Теперь мы умеем описывать паспорта датасетов, делать разметки. К осени планируем добавить функционал, который позволит ФОИВам публиковать свои датасеты на открытом портале. |
Планируемые изменения расширяют сферу деятельности НСУД. Если изначально система мыслилась как площадка для обмена данными только между ФОИВ, то теперь всё, что связано с предоставлением данных научному сообществу, бизнесу и гражданам, тоже входит в зону интересов Министерства цифрового развития.
Мы работаем над этим, — подчеркнул Сергей Сергиенко. |
Превращаем месяцы в часы. Как ускорить работу с данными?
Обработка данных занимает много времени, но и до неё ещё нужно дойти. Ещё несколько лет назад время от идеи до начала разработки продукта могло составлять от нескольких месяцев до полугода. Никита Негго, исполнительный директор, лидер продукта «Лаборатория данных» Сбера, и Николай Корженевский, директор лаборатории «СберИндекс» Сбера, посчитали: получение данных занимало 2 месяца, на поиск инструментария и мощностей уходило еще 5 месяцев, вывод модели в промышленную эксплуатацию отнимал 14 дней.
У нас появилась идея кардинального изменения ситуации. Что-то вроде того, чтобы получать всё это за час, вкупе с полным инструментарием и актуальными библиотеками. Мы перешли к сервисной работе с данными, — рассказывает Никита Негго. |
Чтобы достичь этой цели, понадобилось изменить архитектуру решения, внедрить более 10 инструментов для работы с данными, около 500 AI- и ML-библиотек и фреймворков, предустановленных для быстрого старта на рабочем месте, организовать несколько каналов поставки данных. Широко используются возможности виртуализации и кластеризации на базе OpenStack и OpenShift.
Мы хотели взять данные Сбера и работать с ними, моделировать макроэкономические процессы. Но данные хранились в разных местах, за каждой порцией информации нужно было ходить в очередной департамент. Теперь всё изменилось, — рассказывает Николай Корженевский. |
Получившуюся сервисную модель используют внутренние потребители для создания своих цифровых продуктов.
«СберИндекс» был создан в февраля 2020 года, и уже через месяц его попросили радикально ускориться. Причина всем известна — пандемия. Нужен был портал, который наглядно показывает, что происходит в макроэкономике прямо сейчас.
Мы хотели посмотреть, как чувствует себя потребитель и бизнес в условиях карантина, потому что никто не понимал ничего: насколько все плохо, продолжает ли страна функционировать, что вообще происходит. При этом нельзя просто взять список всех транзакций в банке и поделить их количество в апреле на мартовские показатели, сделав вывод, что всё упало на 70%, — говорит он. — В этом случае будет очень много искажающих факторов. Поэтому в мае 2020 года мы запустили несколько метрик самочувствия потребителя: индекс его активности, изменение расходов. Причем мы, в отличие от Росстата, даем их в начале месяца и более оперативно. Также мы запустили статистику для бизнеса. Всё это звучит просто, но если погрузиться в процессы, то вы сразу поймете, какая это была нетривиальная задача. |
Для того, чтобы эффективно работать с моделями, построенными на большом количестве данных, понадобилась еще одна, методология — ModelOps. По словам Юрия Сироты, руководителя дирекции ИИ и анализа данных, банка «Уралсиб», внедрение математических моделей в продакшн имеет много общего с производством программного обеспечения, где, в свою очередь, уже хорошо зарекомендовала себя известная методология DevOps.
MLOps — это такой DevOps для машинного обучения. Цель данной методологии — упростить решение математических задач с помощью устоявшихся практик, обеспечивая гибкость и скорость.
В коммерческих организациях данные нужны, чаще всего, для монетизации. Немалую долю инструментов монетизации составляют искусственный интеллект и машинное обучение. Для того, чтобы применять эти инструменты, нужны правильные методики, — поясняет Юрий Сирота. |
Математические модели сложно интегрировать с фронт-офисными системами. А ведь нужна еще и непрерывная интеграция с источниками данных. Жизненный цикл моделей длинен, при этом постоянно требуются новые релизы. Отсутствие координации между математическим подразделением, занимающимся этими моделями, бизнесом и ИТ-подразделением, которое будет внедрять готовые модели в продакшн, приводит как к ошибкам, так и к задержкам. Без налаженного математического конвейера обновление моделей будет трудоемким. Невозможно поддерживать производственное математическое моделирование в долгосрочной перспективе.
MLOps сложнее, чем DevOps. Причина в том, что модели нужно создавать на самых свежих данных. В программной инженерии разработчик пишет код, который четко определен в программном пространстве, детерминирован: его отладили в тестовой среде, запустили в продакшн и он работает. В анализе данных, помимо написания самого кода, нужно контролировать гиперпараметры, и логика тут недетерминирована, зависима от данных. Код и математический алгоритм — это функция от данных. Меняются данные — меняется код. Приходится контролировать не только код, гиперпараметры и математические алгоритмы, но и сами датасеты. Это добавляет уровень сложности ко всей истории внедрения искусственного интеллекта.
Для решения этих проблем и создан MLOps. Методология поможет обеспечить контроль за версиями моделей, отследить всю родословную параметров, алгоритмов и данных, проверить их качество, а также улучшить безопасность и проконтролировать доступ, который смогут получить только доверенные пользователи.
Отечественная Big Data: можно ли импортозаместить Oracle?
Дмитрий Алексеев, заместитель руководителя департамента технологического развития общебанковских систем банка ВТБ, поднял острую для многих организаций тему — рассказал об опыте импортозамещения программного обеспечения. ВТБ слился с рядом дочерних банков и в связи с этим с 2019 года приступил к поэтапному объединению ИТ-ландшафта, а именно хранилищ данных, в единую ИТ-платформу. Три разрозненные базы данных увеличивали стоимость владения инфраструктурой, не давали развивать бизнес-функционал быстро, сроки доступа к информации увеличивались, а её рассогласованность попросту мешала, особенно в том случае, когда данные запрашивал регулятор и сроки предоставления были жесткими.
Устарели и решения, на которых были построены хранилища — настала пора сменить технологический стек, при этом подумав о том, чтобы отказаться от иностранного ПО.
У нас уже были случаи, когда санкции влияли на взаимодействие с производителем ПО, это уже реальные кейсы, — отмечает Дмитрий Алексеев. — В большей степени это касается американских и канадских производителей». |
На старте проекта были поставлены следующие цели:
- сократить объем дублированных данных, повысить качество данных;
- унифицировать технологический стек, сократить ТСО;
- сократить регламент загрузки данных;
- ускорить скорость разработки и время вывода цифровых продуктов в эксплуатацию;
- отказаться от решений, поддержка которых прекращена вендором.
Требования к новой технологической платформе были серьёзными. ВТБ нуждался в высокой функциональности решения, в производительности, хорошей русскоязычной техподдержке, оптимальной стоимости владения на горизонте в 5-10 лет, возможности влияния на планы по реализации нового функционала и, наконец, в отсутствии санкционных рисков и в продаже решения в виде программно-аппаратного комплекса, который впоследствии можно будет гибко масштабировать.
В результате выбор пал на отечественный продукт ArenaData. Спикер продемонстрировал результаты сравнительного тестирования кластера ПАК «Скала» с ArenaData DB и Oracle SuperClaster T5-8. Были развернуты два похожих контура, где сравнивались скорость выполнения запросов. Картина производительности была признана сопоставимой. Oracle слегка лидировал везде, кроме теста по запросу на обновление сумм по ГПП. В целом ArenaData DB показала хорошую производительность как в ходе синтетических тестов, так и на реальных нагрузках.
Ставить неапробированное решение сразу на всю платформу данных — слишком авантюрное занятие, особенно для банка. Поэтому сначала было решено испробовать ПАК на системе подготовки отчетности ВТБ, которая, по словам Дмитрия Алексеева, достаточно агрессивно растёт. В результате удалось в несколько раз повысить скорость построения отчётности, наполовину сократить стоимость владения платформой и на 100% исключить как санкционные риски, так и те, что связаны с волатильностью курса рубля.
Мой доклад звучит очень позитивно, — говорит Дмитрий Алексеев. — Безусловно, без проблем не обошлось, но у нас получалось их решать в штатном порядке, без каких-то взрывных ситуаций. |
Изменения в ВТБ переживают не только хранилища данных. В рамках глобальной цифровой трансформации банка планируются изменения или замена большого количества ключевых систем. Пока же готовую платформу по работе с данными предполагается получить к концу 2022 года.
В ходе стейдж-интервью снова затронули тему цифровой трансформации, так как и «Газпромбанк», который представлял Адель Валиуллин, исполнительный директор Департамента анализа данных и моделирования, с 2018 года находится в гуще активных внутренних изменений, только здесь они связаны не со слияниями, а с изменением стратегии. Банк, созданный изначально для корпоративного сектора, решил обратить внимание на розницу, так как доходность первого направления начала снижаться.
Один из проектов, созданный в рамках цифровой трансформации — Datalab — призван развивать собственное хранилище данных, аккумулирующее данные из всех внутренних источников и работающее потом в качестве «единого окна» на выдачу доступа к ним.
Это позволяет строить огромное количество моделей и извлекать пользу для бизнеса, — прокомментировал Адель Валиуллин, — Но процесс построения такого хранилища долог, мы до сих пор не подключили все источники, работаем над этим. Зато уже удалось запустить программы по внедрению проектов машинного обучения. Кроме того, появились хранилища, позволяющие использовать данные партнеров, например, сотовых операторов или интернет-компаний. Всё это позволяет строить более точные модели. |
Павел Ульихин, руководитель центра компетенций BI и RPA, «Объединенная металлургическая компания» заглянул в недалекое прошлое и рассказал, чем обернулось внедрение BI в их организации. Изначально стояла следующая цель: дать бизнес-пользователям инструмент для того, чтобы они могли самостоятельно, без привлечения ИТ-специалистов, строить отчеты и нужные дашборды на своих данных из хранилища. Цели выдать дашборды для топ-менеджеров, чтобы они принимали решения на совокупных данных, не ставилось.
Вначале компания столкнулась всё с той же проблемой выбора: сложно было остановиться на какой-то определенной BI-системе. Критериев выбора было 95. В результате к рассмотрению подошло четыре решения: Qlik Sense, SAP Lumira, Power BI и Tableau. Внедрена последняя.
После внедрения приступили к последующим этапам реализации плана. Были выделены сотрудники, которые прошли обучение и сформировали проектную команду, а затем могли бы вернуться каждый в свое подразделение и заняться разработкой на местах. Кроме того, подготовили множество инструкций и обучающих видеороликов, сформировали техническую и функциональную поддержку. Последняя занималась консультацией пользователей относительно сути работы с дашбордами.
Всего на проект от старта до финиша ушло 2 года. Было создано 35 инфопанелей, 3 регламента, база знаний, 3 линии поддержки. Закуплено 175 лицензий. Казалось бы — время наслаждаться плодами своих трудов. Но именно теперь ОМК столкнулась с новыми сложностями. Для начала дашборды стали популярны, ими заинтересовалось руководство. Тем же пользователям, кто создавал их, не хватало то квалификации, то времени, чтобы удовлетворить растущий интерес и запросы со стороны. Некоторые отделы вообще не могли выделить сотрудников, которые могли бы взять на себя задачу по BI.
Необходимость в постоянном обучении пользователей постоянно нарастала, а поддержка не всегда оказывала свои услуги качественно, плюс у них тоже не хватало времени на то, чтобы быстро реагировать на какие-то критичные инциденты.
Всё это означало, что проект не окончен. Для начала создали центр компетенций, причем он состоит всего из трех сотрудников, которые занимаются непосредственно разработкой. Лишь недавно в команде появился дата-инженер для создания быстрой отчетности. Но и это не стало точкой. Оказалось, что в управляющей компании одни потребности и запросы, на производстве — другие. Многие сотрудники вообще не знали, что в их организации есть BI-инструменты, которыми можно пользоваться самостоятельно. Это неудивительно, так как в «Объединенной металлургической компании» работает более 34 тыс. человек, в её составе вагоноремонтная компания (одна из крупнейших в стране), 6 металлургических и машиностроительных предприятий, металлосервисная и торговая сети.
В результате центр компетенций прошел тот путь выхода на рынок, который проходят все товары и услуги. Отличие было только одно: речь шла про рынок внутренний. На нулевом этапе проводились встречи, собрания, где сотрудники говорили о своих потребностях и узнавали от консультантов, в том числе от представителей вендора, как эти потребности удовлетворить именно средствами BI. Проводились внутренние конференции, демонстрации, была проделана как работа с ИТ, так и с менеджментом. Далее был выстроен централизованный процесс разработки, состоявший из поиска потребностей, анализа, оценки стоимости реализации, непосредственно разработки и дальнейшей поддержки, которая могла осуществляться как самими пользователями, так и центром компетенций, если сотрудники по объективным причинам не могли поддерживать дашборды самостоятельно.
Дальнейшая работа происходит в формате релизов и их обсуждений, дискуссий между заказчиками и исполнителями; таким образом формируются задачи и приоритеты для последующих релизов.
При этом самообслуживание никуда не делась. Мы считаем, что это правильное направление, и продолжаем его развивать и поддерживать, — подчеркивает Павел Ульихин. |
Ритейл сегодня — это большой цифровой бизнес. X5 Retail Group прошел длинный путь от «продавца помидоров» до диджитал-компании», говорит Екатерина Михальчук, директор по развитию аналитики, X5 Retail Group. В своем выступлении она рассказала историю, напоминающую ту, о которой поведал Павел Ульихин, только более масштабную. От нуля сотрудников и компетенций в области Big Data и BI ритейлер дошел до развитой agile-культуры, тысячи специалистов, сотни продуктовых команд, более 10 тыс. пользователей, ежедневно работающих с аналитикой. Хотя до недавнего времени в компании продолжали думать, что waterfall — «это наше всё», отмечает докладчица.
Глядя на эти цифры, сразу хочется спросить: где же брать такое количество квалифицированных специалистов? Тот же вопрос задала себе и сама X5 Retail Group. Ответ был такой же, какой дала и «Объединенная металлургическая компания» — нужно переходить к концепции самообслуживания, ведь чем более цифровизирована организация, тем сильнее нарастает её потребность в данных и отчетах.
Вначале было много опасений: у пользователей нет компетенций, нет инструментов, данные неподготовлены, к ним нет доступа, а главное — ни у кого нет достаточной мотивации. Что сделала компания? Организовала собственную платформу, которую обслуживает ИТ-подразделение. Платформа представляет собой промышленное BI-решение с каталогами данных, витринами (EDW) и аналитическим порталом. Команда X5Tech отвечает за то, чтобы данные были качественны и доступны на витринах, чтобы каталог наполнялся, чтобы дашборды были промышленные. Пользователи получают данные, создают по ним необходимую отчетность или же могут добавить новый источник данных.
Мы демократизируем навыки, — рассказывает Екатерина Михальчук. — У нас создана Цифровая академия, в которой мы обучаем специалистов работе с данными, сертифицируем их и предоставляем инструменты для того, чтобы дальше они могли пользоваться всем самостоятельно. Кроме того, развиваем большую аудиторию Data community: это форумы, телеграм-каналы, где можно общаться, задавать свои вопросы. |
Сервисами BI-самообслуживания у ритейлера обычно пользуются две категории специалистов: это исследователи и это эксперты-инноваторы. Исследователям важна визуализация данных, поэтому они могут изменять готовый, уже существующий дашборд без добавления данных в модель, но также имеют возможность добавлять свои данные, если это требуется. Бизнес-аналитики обычно изменяют и модель, и сам дашборд. Таких меньше. И лишь небольшая часть сотрудников занимается прогнозированием или моделированием.
Говоря о достигнутых результатах, Екатерина Михальчук отметила, что запросы на автоматизацию сократились в 5 раз, и сотни бизнес-пользователей уже начали работать по принципу самообслуживания. Уровень удовлетворенности тоже вырос, и это важно.
BI в деле. Зачем мэру, магазину или заводу свои дашборды?
Данные не главное. Главное — извлечь из них пользу. Простота и информативность нужна не только бизнес-пользователям, но и государственным менеджерам, правителям городов. Александр Зенков, руководитель отдела автоматизации градостроительного проектирования, Институт территориального планирования «Град», и Сергей Куликовский, генеральный директор компании «Полиматика», рассказали, как выглядит рабочее место руководителя для управления городом.
Мэр или губернатор получает доступ в следующие разделы: «население», «жилищный фонд», «социальная, транспортная и инженерная инфраструктуры», «инвестиционные площадки» и «стоимость мероприятий», «количество оказанных услуг». Информационные панели позволяют оценивать достижение целей по разным программам, допустим, в социальной сфере, то есть получать информационную справку и следить за количественными изменениями нужных объектов, например, отслеживать количество мест в общеобразовательных учреждениях в динамике. Дашборды помогают принимать решения, наглядно показывая, как обстоят дела с жилищным фондом при учете данной демографической ситуации, с ремонтом дорог, с затратами
Есть доступ к панелям мониторинга планируемых сроков и стадий реализации инфраструктурных объектов. Здесь можно увидеть, как соотносятся планы с реальностью. Вкладка «Планирование бюджета» показывает, сколько денег потрачено на то или иное мероприятие и как профинансированы, например, театры или музеи в процентном соотношении, позволяя запланировать будущее распределение денежных средств.
Александр Зенков выделил перспективы развития:
Решение дает возможность быстро создавать новые информационно-аналитические панели, публиковать показатели текущего состояния в свободном доступе так, чтобы жители Нижневартовска могли с ними ознакомиться через Интернет. Например, они могут увидеть, что планируется построить через год или пять лет. Кроме того, есть возможность интегрировать дашборды с информационными системами городской администрации и, таким образом, автоматизировать поток данных, на основе которых строятся показатели. |
В поисках простоты. Разработчики рассказали, как работают над улучшением клиентского опыта
Большие данные — большие проблемы. Николай Друкман, директор департамента SpectrumData — компании, которая занимается сбором данных из разрозненных источников под определенный запрос, обрабатывает и предоставляет полученный результат заказчикам в формате, удобном для бизнеса — рассказал, как непросто выглядит работа с данными на этапе их подготовки. Проблем возникает множество: данные неструктурированы, содержатся в самых разных формах и форматах, структура и доступность источников нестабильна, информации в них недостаточно, нет исторических данных, при этом себестоимость извлечения всех нужных сведений высока, часто их приходится собирать вручную.
Один из наших клиентов — это сервис проверки автомобилей. Казалось бы, нужна простая вещь — работа с реестром такси. Процедура регламентирована: каждый регион должен вести свой собственный реестр лицензий, выданных на пассажироперевозки легковым транспортом. Но мы столкнулись с тем, что каждый регион придумал свой собственный формат ведения такого реестра. Данные открыты, но где-то для скачивания дают PDF, где-то — Excel, а где-то — отсканированные листы. Это один из самых простых примеров, мы решаем и более сложные проблемы, — рассказывает Николай Друкман. |
С данными можно общаться, минуя системы отчетности. Причем с помощью необычного инструмента — в мессенджере. О том, как удалось подключить тысячи пользователей к данным, рассказал Юрий Ефаров, генеральный директор, Sapiens Solutions. Легкий BI, который всегда под рукой — так он назвал решение Easy Report.
Мы не оценивали рынок и не считали метрики. Начало проекта было не из-за денег, а по любви. Через год получившийся продукт начал нравиться нам самим. Через простой мессенджер мы задаем вопросы на естественном языке, а бот выдает ответы: простую аналитику с возможностью детализации. На этом моменте мы показали решение клиентам, и сами поняли, что не сможем конкурировать с уже имеющимися системами отчетности вроде Tableau. Это было обидно, ведь мы трудились целый год. Но тут сами клиенты подтолкнули к другой нише, которую мы и заняли. Есть серьезные инструменты, которые позволяют общаться с данными десяткам и сотням пользователей, но у них наблюдается два минуса, если нужно демократизировать данные и дать доступ тысячам. Во-первых, эти инструменты довольно дорогие в пересчете на одного пользователя, во-вторых, их непросто внедрить, обучить работе с ними, поддерживать продукт. |
Easy Report занял пустующую нишу, давая возможность общаться с данными через сверхтонкий клиент, который есть у каждого (смартфон). База данных адаптирована под большое количество запросов, а стоимость решения не зависит от количества конечных пользователей. При этом учить никого не нужно: общение с ботом строится на обычном языке, даже можно использовать синонимы. Бот сформирует отчет, наиболее близкий по смыслу к исходному запросу.
Но принимать решения, руководствуясь данными, интенсивно поступающими в режиме реального времени, стоит осторожнее. IoT, онлайн-активность, POS-платежи, работа в личных кабинетах и мобильных приложениях — источников потоковых данных становится всё больше, и все эти данные можно включать в системы принятия решений. Преимущества работы с потоковыми данными очевидны: предсказательная сила моделей увеличивается, так как нет потери самых свежих данных, время между событием и принятием решения сокращается, модели быстрее выводятся в промышленную эксплуатацию за счёт перехода к непрерывной обработке данных.
Но, как сказал Сергей Кедров, руководитель направления скоринга, машинного обучения и предиктивной аналитики, ADV, потоковые данные, в отличие от тех, что обрабатываются пакетно, самые свежие, нет тех, что еще необработаны, но минус в том, что «фарш невозможно провернуть назад» — решение принято, оно влияет на бизнес, процессы и клиентов.
Вся технологическая обвязка, которая разрабатывается, связана именно с тем, чтобы в реальном времени проверять надежность данных. Необходим как непрерывный контроль за качеством данных, ведь любые изменения в их потоке приведут к риску выдачи ошибочных предсказаний, так и постоянный контроль за качеством моделей. Важно уметь реагировать быстро и, при надобности, дообучать модели, переключаться на более стабильные версии или иметь много конкурирующих версий моделей для машинного обучения.
Представители компании Luxms — Алексей Медников, директор по инновациям и Дмитрий Дорофеев, главный конструктор — рассказали о кейсе с визуализацией KPI — решении, разработанного для некого крупного клиента. Оно оказалось настолько удачным, что вскоре всё больше функциональных подразделений и региональных офисов компании-заказчика начали подключаться к нему, образуя, тем самым, новые источники информации для системы. В результате объемы данных росли, как снежный ком.
Под большими данными мы понимаем объемы от 100 млн записей и больше или от тысячи потоковых событий в секунду, — дал определение Алексей Медников. |
Рос не только объем данных, но и количество пользователей, а стало быть, и нагрузка на ПО, в результате чего время отклика — один из важнейших показателей для информационной системы — ухудшился.
Мы задумались о повышении производительности системы, но все наши попытки решить проблему инфраструктурными методами к успеху не привели, — углубляется в детали Алексей Медников. — Поэтому было решено изменить архитектурные подходы к построению системы и сделать реинженеринг отдельных конструктивных элементов. |
Оказалось, что и с этим не всё так просто. На рынке Big Data и BI существует множество подходов, технологий и практик, из которых сложно с первого раза и точно выбрать те, что помогут решить проблему сразу же. Компания Luxms столкнулась не только с инженерными задачами, но и с классическим парадоксом выбора.
Решение остановили, во-первых, на двухзвенной клиент-серверной архитектуре (two-tier), которая позволяет редуцировать один слой обработки данных между пользователем и системой. В научной литературе, сравнивая двухзвенную и трехзвенную архитектуру, обычно обращают внимание на проблемы первой.
Она экзотическая, её не рекомендуют использовать — так пишут в книгах те, кто пытался задействовать именно такой тип, но мы посчитали, что те преимущества в скорости, которые она даёт, в нашем случае перевесят недостатки, — рассказывает Дмитрий Дорофеев. |
Во-вторых, помимо двухзвенной архитектуры, используются микросервисы, есть возможность оркестрации выполнения запроса с использованием как базы данных, так и дополнительных элементов, которые запускаются отдельно. Еще одна мера, принятая для ускорения работы ИС — использование специализированного ПО отдельно для работы с «горячими» данными, отдельно — для «теплого» и «холодного» слоев. Были выбраны ClickHouse, GreenPlum и Hadoop соответственно.
При внедрении BI-систем есть видимая часть айсберга — непосредственно дашборды, которые можно быстро делать на современных инструментах — и невидимая, это те силы и средства, затраченные на создание этих дашбордов. Сама подготовка данных к работе происходит медленно.
Иногда даже перенос информации из холодного слоя в горячий слой неэффективен или невозможен — вот что самое удивительное. Бывают ситуации, когда данные нужно достать за 2 часа, но этих двух часов просто нет или же этот процесс даёт такую нагрузку, что остальные запросы в это время не выполняются. Если вы не богатая компания с собственным облаком, то проблема вам, наверняка, знакома, — замечает Дмитрий Дорофеев. |
Это узкое место обошли, положив сырые данные в быструю систему обработки (например, Tarantool) и применив post-ETL инструменты. В результате на одном из проектов у заказчика удалось сократить в 30 раз процессы извлечения, преобразования и загрузки данных из 9 разных таблиц с сырыми данными из баз данных типа Oracle и PostgreSQL.
Последний совет от Luxms — выгружать нужные по проекту данные в небольшие кластера для аналитиков, чтобы снять так называемую проблему coffee break analytic, когда аналитик посылает запрос и уходит на час отдыхать, потому что этот запрос будет обрабатываться именно столько или даже больше, при этом без гарантий результата.
По завершении конференции и в перерыве участники оживленно общались в неформальной обстановке.
- 7-я конференция Big Data и BI Day
- 6-я конференция Big Data и BI Day
- 5-я конференция Big Data и BI Day
- 4-я конференция Big Data и BI Day
- 2-я конференция Big Data и BI Day
- 1-я конференция Big Data и BI Day
Информация о партнерах конференции
SpectrumData - маркетплейс данных об автомобилях, физических лицах, компаниях и объектах недвижимости для бизнеса. Мы работаем с данными с 2010 года: занимаемся сбором, агрегацией, обработкой и анализом данных с применением принципов и технологий Data mining и Big data. На текущий момент мы получаем данные более чем из 100 источников – государственных ресурсов, официальных и коммерческих баз, обеспечивающих высокую степень актуальности, скорости и надежности. Любая информация, предоставляемая нами, проходит контроль на полноту, достоверность и соответствие требованиям законодательства РФ.
Советник Министра цифрового развития РФ
Начальник Управления по работе с данными в распределенных вычислительных сетях, ДИТ г. Москвы
Руководитель департамента искусственного интеллекта и анализа данных, Банк УРАЛСИБ
Исполнительный директор Департамента анализа данных и моделирования, ГазпромБанк
Руководитель центра компетенций BI и RPA, Объединенная металлургическая компания
Зам.руководителя департамента технологического развития общебанковских систем, Банк ВТБ
Директор по развитию аналитики, Х5 Retail Group
Управляющий директор – директор Лаборатории «СберИндекс», Сбер
Исполнительный директор, лидер продукта Лаборатория данных, Сбер
Генеральный директор, Полиматика
Генеральный директор, Sapiens solutions
Директор департамента, SpectrumData
Главный конструктор, ГК Luxms
Директор по инновациям ГК Luxms
Руководитель направления скоринга, машинного обучения и предиктивной аналитики, ADV
Рук. отдела автоматизации градостроительного проектирования, «Град»
По вопросам регистрации, выступления с докладами или спонсорского участия, обращайтесь по адресу: conf@conferos.ru
Время | Тема доклада | Докладчик |
---|---|---|
10:00 | ВСТУПИТЕЛЬНОЕ СЛОВО | Сергей Федечкин Ведущий архитектор по данным, Банк ВТБ |
10:05 | Сергей Сергиенко Советник Министра цифрового развития РФ | |
10.25 | Юрий Сирота Руководитель дирекции искусственного интеллекта и анализа данных, Банк Уралсиб | |
10.45 | Николай Друкман Директор департамента, SpectrumData | |
11.05 | Никита Негго Исполнительный директор, лидер продукта Лаборатория данных, Сбер | |
Николай Корженевский Управляющий директор – директор Лаборатории «СберИндекс», Сбер | ||
11:30 | Юрий Ефаров Генеральный директор, Sapiens Solutions | |
11:50 | ТРАНСФОРМАЦИЯ ОБРАЗОВАНИЯ: БОЛЬШИЕ ДАННЫЕ И ЦИФРОВЫЕ ТЕХНОЛОГИИ | Павел Кузьмин Директор департамента цифровой трансформации и больших данных, Министерство просвещения РФ |
12:10 | Сергей Куликовский Генеральный директор, Полиматика | |
Александр Зенков Руководитель отдела автоматизации градостроительного проектирования, Институт территориального планирования «Град» | ||
12:30 | Сергей Кедров Руководитель направления скоринга, машинного обучения и предиктивной аналитики, ADV | |
13:30 | ВТОРАЯ ЧАСТЬ КОНФЕРЕНЦИИ | |
13.30 | Алексей Медников Директор по инновациям, Luxms | |
Дмитрий Дорофеев Главный конструктор, Luxms | ||
13:50 | СТЕЙДЖ – ИНТЕРВЬЮ | Адель Валиуллин Исполнительный директор Департамента анализа данных и моделирования, ГазпромБанк |
14:10 | ОПЫТ И РЕАЛИИ ИМПОРТОЗАМЕЩЕНИЯ | Дмитрий Алексеев Заместитель руководителя департамента технологического развития общебанковских систем, Банк ВТБ |
14:30 | Павел Ульихин Руководитель центра компетенций BI и RPA, Объединенная Металлургическая компания | |
14:50 | Екатерина Михальчук Директор по развитию аналитики, Х5 Retail Group |
Участники конференции
Московский кредитный банк | — | Зам директора департамента |
Апатит | — | Заместитель директора по ИТ |
РУСНАРБАНК | — | CIO |
Витол | — | CIO |
РУСНАРБАНК | — | Член Правления |
Счетная Палата РФ | — | Директор Департамента цифровой трансформации |
Гознак | — | Директор по цифровому развитию |
IDS Borjomi Russia | — | Руководитель направления развития бизнес-приложений |
ВТБ | — | Директор по качеству сервисов |
Счетная палата РФ | — | Начальник отдела проектного управления и экосистемы |
РУСНАРБАНК | — | Заместитель директора департамента |
РУСНАРБАНК | — | Член правления |
Россельхозбанк | — | Исполнительный директор |
Агентство Дальнего Востока по привлечению инвестиций и поддержке экспорта | — | Управляющий директор |
ФосАгро | — | Заместитель директора по ИТ |
Комитет по архитектуре и градостроительству города Москвы | — | Заместитель Председателя |
Mary Kay | — | Старший Руководитель BI в Европе |
Группа компаний S7 | — | Директор Центра компетенции BI |
ЭГО Траслейтинг | — | R&D директор |
«ВНИИ труда» Минтруда России | — | Директор центра цифровой трансформации и анализа данных |
Валента Фармацевтика | — | Архитектор |
Дао Электро | — | Генеральный директор |
МИГ Диджитал | — | ИТ Директор |
Валента Фарм | — | Руководитель проектного офиса |
Валента Фарм | — | Руководитель группы аналитических систем |
ЮниКредит | — | Data governance директор |
Почта России | — | Руководитель службы интеграции |
ЦКР | — | Руководитель направления |
ПРОТЕК | — | Начальник отдела стратегического развития |
Сеть поликлиник Семейный доктор | — | Аналитик |
Аскотт Деко | — | Бизнес-аналитик |
Норильский никель | — | Менеджер |
ГК Кортрос | — | Руководитель отдела развития бизнес-процессов |
Savencia | — | Менеджер ИТ проектов |
Iris | — | Руководитель отдела аналитики |
Coca-Cola Bottlers Uzbekistan Ltd | — | IT Manager |
Комус Торговый дом | — | Руководитель отдела общекорпоративной отчетности |
Мегаполис ГК | — | Руководитель |
Вымпел КБ | — | Эксперт |
Beluga Group | — | Руководитель группы разработки отчётности |
НПК | — | Руководитель ИТ проектов |
Миг Диджитал | — | Проектный менеджер |
Mary Kay | — | Старший Руководитель BI по Европе |
ОМК | — | Начальник отдела методологии отчетности |
RailCommerce | — | Управляющий директор |
ВСК | — | Руководитель управления разработки хранилища данных |
ФГАОУ ВО РНИМУ им. Н.И. Пирогова | — | Руководитель НИЛ Разработки информационных систем |
Центр Внедрения Протек | — | Руководитель группы |
Уральский Банк Реконструкции и Развития | — | Руководитель Центра математического моделирования |
РУСАЛ | — | Руководитель проектов |
ФГБУ Российское энергетическое агентство Минэнерго России | — | Директор по инновационному развитию отраслей ТЭК |
Сбер Страхование | — | Главный инженер-разработчик |
НПП Проект-Техника | — | Руководитель проектов |
РФЯЦ-ВНИИЭФ | — | Специалист |
Сухой | — | Бизнес-аналитик |
НИИ «Восход» | — | Советник директора |
МегаФон | — | Архитектор |
Магнитогорский металлургический комбинат | — | Руководитель партнерского центра ПАО ММК в ИЦ Сколково |
Ehrmann (Эрманн) | — | Старший BI аналитик |
Новолипецкий металлургический комбинат | — | Начальник управления цифровизации логистики |
HR-design | — | Управляющий партнёр |
Mary Kay | — | Старший Руководитель BI (Европа) |
Валена | — | Партнер |
Компьюлинк Инфраструктура | — | Директор ДИТ |
Белорусская государственная академия связи | — | Руководитель проектов разработки, ученый секретарь |
Столото | — | Руководитель Управления данными |
Heineken | — | BI Manager |
Абсолют Недвижимость | — | Руководитель отдела брендинга и digital проектов |
Heineken | — | BI Solutions Manager |
ПРОТЕК | — | Начальник отдела |
Газпром нефть | — | Начальник департамента |
Кампина | — | Менеджер проектов |
Heineken | — | Projet Manager |
Т2 РТК Холдинг | — | Руководитель продуктов BigData |
Альфин | — | Аналитик |
HR-design | — | Управляющей партнер |
Спортмастер | — | Руководитель департамента DWH & BI & ML |
Heineken | — | Data Scientist |
Siberian Wellness | — | Финансовый директор |
Кампина | — | Менеджер проектов |
Ферм24 | — | Генеральный директор |
Фосагро | — | Начальник отдела аналитики данных |
Международная ассоциация BPM-профессионалов | — | Вице-президент |
ТИСС | — | Руководитель отдела ИТ |
Электроград | — | Заместитель директора по организационным вопросам |
Строительная техника и материалы | — | Заместитель директора по IT |
Строительная техника и материалы | — | Зав.сектора разработки и сопровождения ПО |
Департамент информационных технологий Москвы | — | Аналитик |
Энергософт | — | Начальник сектора |
МТС | — | Руководитель ИТ-кластера |
ЛУКОЙЛ | — | Старший менеджер |
НЛМК | — | Руководитель направления |
Heineken | — | Специалист |
Контрольно-счетная палата Москвы | — | Старший государственный инспектор |
PayU | — | Руководитель СВА |
Heineken | — | BI Project Manager |
БИЗНЕС КАР | — | Заместитель начальника отдела корпоративных систем |
Цифрум | — | РН разработки и поддержки систем управления данными |
МОСГОРТРАНС | — | Начальник отдела |
Департамент информационных технологий Москвы | — | Руководитель проектов |
Департамент информационных технологий Москвы | — | Аналитик |
РФЯЦ-ВНИИТФ им.Е.И.Забабахина | — | Начальник группы |
Интегра | — | Директор по ИТ |
Ростех | — | Главный эксперт |
ФГБУ ЦЭКИ Минцифры России | — | Старший специалист |
IDS Borjomi Russia | — | Разработчик баз данных и интеграции |
Геосплит | — | Директор по цифровым технологиям |
Эрпорт Менеджмент Компани Лимитед | — | Начальник подразделения макроанализа и метауправления |
Банк Восточный | — | Заместитель директора IT |
Комус Торговый дом | — | Архитектор аналитических бизнес-решений |
Заречное | — | Заместитель директора по ИТ |
Институт космических исследований РАН вед. | — | Инженер |
Уральский Банк Реконструкции и Развития | — | Руководитель Центра математического моделирования |
HR-design | — | Управляющий партнёр |
ЮниКредит | — | BI консультант |
ЮниКредит | — | Аналитик-разработчик BI |
СЗОНКЦ им. Л.Г. Соколова ФМБА | — | Заместитель генерального директора по цифровому развитию |
МТС | — | Руководитель ИТ-кластера |
Аналитический центр при Правительстве Российской Федерации | — | Аналитик |
ЮниКредит | — | Эксперт |
Русполимет | — | Директор ЦЦТ |
Комус | — | Торговый дом Руководитель службы BI |
СБ Девелопмент | — | Руководитель группы |
Загорский трубный завод | — | Начальник отдела внедрения ИС |
Юралс Кэпитал | — | Руководитель Департамента системного администрирования |
Аппарат Государственной Думы Федерального Собрания Российской Федерации | — | ИТ специалист |
Газпром трансгаз Саратов | — | Заместитель начальника СИУС |
Газпром трансгаз Саратов | — | Начальник СИУС |
Дикси | — | Директор департамента развития ИТ |
Федеральная таможенная служба | — | Заместитель начальника Главного управления информационных технологий |
Федеральная таможенная служба | — | Главный государственный таможенный инспектор Главного управления информационных технологий |
ЮниКредит Банк | — | Руководитель направления |
Ударно-волновые технологии | — | Технический директор |
Ударно-волновые технологии | — | Директор по развитию |
ГБУЗ МО МОНИКИ им. М.Ф.Владимирского | — | Ведущий научный сотрудник отдела компьютерных технологий |
DPD | — | Начальник оправления операционной аналитики |
Unilever Rus | — | Руководитель отдела ИТ |
НИТУ МИСиС | — | Руководитель направления |
Центральный банк РФ | — | Главный экономист |
Евромаркет | — | Руководитель службы сервисов |
Меркурий | — | Советник |
Озёрная ГРК | — | Начальник отдела АСУиТП |
Татспиртпром | — | Начальник ИТ |
МПБК ОЧАКОВО | — | Заместитель директора Департамента |
Гранель | — | Специалист по информационной безопасности |
ПАО МТС-Банк | — | Архитектор |
НИИ ВОСХОД | — | Начальник отдела Департамента архитектуры |
Транскапиталбанк | — | Начальник управления телекоммуникаций |
Деловые Линии | — | Менеджер по управлению конфигурацией |
Марк Формэль | — | Руководитель проекта |
Русь-Ойл | — | Заместитель руководителя управления учета |
РНГ | — | Начальник Управления ИТ и связи |
Росдолг | — | Директор по ИТ |
ДОМ.РФ | — | Руководитель направления |
ЭР-Телеком Холдинг | — | Руководитель направления ИТ-обеспечения |
Ниармедик | — | Бизнес-аналитик |
Системный оператор Единой энергетической системы | — | Ведущий эксперт |
Cornerstone | — | Head of IT practice |
Утконос | — | Директор управления данными |
Cornerstone | — | Аналитик |
РКС | — | Главный специалист |
EVRAZ Group S.A | — | ИТ Бизнес-партнёр |
ДИТ города Москвы | — | Начальник отдела анализа данных |
Сбербанк | — | Руководитель направления |
Ассоциация российских банков | — | Заместитель директора департамента |
Объединенная Металлургическая Компания | — | Менеджер |
Цифрум, Госкорпорация Росатом | — | Руководитель проекта технической поддержки |
X5 Retail Group | — | Архитектор IT |
Почта России | — | Руководитель Службы управления ИТ Сервисами |
Департамент информационных технологий,Правительство Москвы | — | Руководитель проектов Аналитического управления |
АкБарс Банк | — | Главный менеджер |
Комус Торговый дом | — | Начальник службы |
Кировский завод | — | Директор по ИТ |
Фидесис | — | Генеральный директор |
ДОМ.РФ | — | Заместитель руководителя Аналитического центра |
Новатэк НТЦ | — | Старший эксперт |
Roche в России | — | IT BP |
Сибирская Сервисная Компания | — | Главный специалист |
ДОМ.РФ | — | Ведущий аналитик данных |
Урал ФД | — | Начальник отдела разработки |
Московский аэропорт Домодедово | — | Системный аналитик |
Банк Национальная Факторинговая Компания | — | CDO |
Банк Уралсиб | — | Руководитель Службы управления данными |
СОГАЗ | — | Аналитик |
Агентство промышленного развития Москвы | — | Главный специалист отдела мониторинга экономических показателей промышленности |
Агентство промышленного развития города Москвы | — | Главный специалист |
Русский свет | — | Начальник отдела |
Начальник отдела аналитики | — | Начальник отдела аналитики |
Русский свет | — | Директор |
ФГБУ ГНЦ ФМБЦ им.Бурназяна | — | Научный сотрудник |
Национальная система платежных карт | — | Руководитель Управления |
HR-design | — | Управляющий партнёр |
Волжские дачи | — | Советник по ИТ |
Инком-Недвижимость | — | Ведущий инженер |
Uvelit | — | Бизнес-аналитик |
Комитет по архитектуре и градостроительству города Москвы | — | Начальник отдела специальных программ |
Комитет по архитектуре и градостроительству города Москвы | — | Начальник Управления информационных технологий |
Комитет по архитектуре и градостроительству города Москвы | — | Советник |
Федеральное казначейство | — | Начальник управления развития информационных систем |
Квадра | — | Заместитель начальника управления ИТ |
МТС | — | Ведущий системный аналитик |
Дом.РФ АКБ | — | Руководитель ЦК ЕХД |
АКРОПОЛЬ | — | Начальник отдела |
Unilever Rus | — | ИТ менеджер |
Департамент информационных технологий Москвы | — | Руководитель проектов |
ДОМ.РФ Агентство по ипотечному жилищному кредитованию | — | Руководитель направления |
Евроцемент груп | — | Заместитель руководителя ЦК |
ЕВРОЦЕМЕНТ груп | — | Начальник отдела разработки |
Департамент информационных технологий Москвы | — | Специалист по связям с общественностью |
еКредит | — | Менеджер проекта |
HR-design | — | Управляющей партнер |
Первый канал | — | Главный специалист ИТ ДИП |
Московский Индустриальный банк | — | Начальник отдела |
ГК Мегаполис | — | Руководитель |
Cornerstone | — | Консультант в департаменте |
Цифрум | — | Аналитик |
НТЦ Россети ФСК ЕЭС | — | Главный научный сотрудник |
ДОМ.РФ Агентство по ипотечному жилищному кредитованию | — | Руководитель направления, Аналитический центр |
Россети | — | Руководитель аналитического управления |
Инфогород | — | Бизнес-аналитик |
Новолипецкий металлургический комбинат | — | Директор по архитектуре и стратегии ИТ |
Юнилевер Русь | — | Старший аналитик IT |
Биннофарм Групп | — | Директор по бизнес-анализу |
Биннофарм Групп | — | Руководитель отдела системной отчетности |
Биннофарм Групп | — | Ведущий аналитик отдела системной отчетности Информационно-аналитический департамент |
Промышленные инновации Росатом | — | Начальник управления |
Протек | — | Руководитель группы |
Норильский никель | — | Руководитель направления |
Световые Технологии | — | Директор департамента экономики |
Центральный банк РФ | — | Главный эксперт |
Петербургский нефтяной терминал | — | Системный архитектор |
Капитал Life | — | Директор управления проектной деятельности |
НПО Валена | — | Партнёр |
Таврос | — | Руководитель департамента ИТ |
Таврос | — | Руководитель ИТ отдела |
Новатэк | — | Старший эксперт |
Газпромтранс | — | Советник генерального директора по ЦТ |
ФГБУ НМИЦ онкологии им. Н.Н.Петрова Минздрава России | — | Начальник группы телекоммуникаций службы информатизации |
АЛИДИ | — | Разработчик |
Аскотт Деко Рус | — | Бизнес-аналитик |
АЛИДИ | — | Заместитель директора по ИТ |
СПАО Ингосстрах | — | Ресурсный менеджер |
Интер РАО | — | Бизнес-архитектор |
Банк России | — | Главный эксперт отдела профессиональной подготовки Университета Банка России |
Центральный банк РФ | — | Главный эксперт отдела профессиональной подготовки Университета |
Теремок Русские Блины | — | Сервис-Инженер |
Объединенная металлургическая компания | — | Руководитель BI-проектов |
ВТБ - Внешторгбанк Ведущий аналитик - Эксперт | — | |
РОСВОДОКАНАЛ | — | Начальник центра компетенций биллинга и клиентских сервисов |
МГТС | — | Эксперт |
ГК Самолет | — | Бизнес-аналитик |
Высшая школа экономики | — | Руководитель проектов цифровой трансформации |
Галс-Девелопмент | — | Начальник отдела бизнес-анализа |
Дикси Руководитель | — | Управления корпоративных данных |