Работа с данными помогает бизнесу увеличивать доходы, сокращать расходы и предвидеть риски. Общий объём данных, создаваемых, собираемых и потребляемых во всём мире, постоянно растёт — в 2022 году он достиг исторического максимума в 97 зеттабайт (ЗБ). Прогнозируется, что к 2025 году этот показатель превысит 180 ЗБ.
Data-направление активно растёт и в Казахстане. Айдын Исатаев, data-инженер Kolesa Group, рассказал о своей работе, о работе отдела аналитики и поделился полезными рекомендациями.
О своей работе
Я отвечаю за получение и хранение данных по всем продуктам компании: Kolesa.kz, Krisha.kz и Avtoelon.uz (платформа для продажи/покупки легковых авто в Узбекистане — прим. ред.). Разрабатываю ETL-процессы, развиваю хранилище данных и занимаюсь интеграцией информации с другими командами. Основная моя цель — предоставлять качественные и готовые данные для бизнеса.
Зачем нужен Data-инженер и какие проблемы он решает
По прогнозам Statista, к 2027 году мировой рынок больших данных вырастет до $103 млрд. Это в 2,5 раза выше аналогичного показателя за 2018 год. Следовательно, спрос на специалистов, которые умеют обрабатывать и правильно использовать эту информацию, будет только расти. А data-инженер — специалист, который умеет собирать, управлять и преобразовывать данные в полезную для бизнеса информацию.
Ключевой процесс в работе data-инженера, это ETL-технология: Extract (извлечение), Transform (преобразование) и Load (загрузка) данных. Эта технология позволяет решать основные потребности компании:
- извлекать данные из различных источников;
- преобразовывать, очищать и агрегировать данные согласно запросу бизнеса;
- загружать обработанную информацию в корпоративное хранилище данных.
С 2017 года Kolesa Group придерживается data-driven-подхода — компания принимает решения на основе больших данных. С 2021 года аналитический подход используется в компании повсеместно, начиная от продуктовых команд и заканчивая HR.
Выбор технологий и инструментов зависит от возможностей компании, компетентности команды data-инженеров и потребностей бизнеса. В Kolesa Group data-инженеры поддерживают и развивают инфраструктуру данных, используя передовые технологии и инструменты, такие как Google BigQuery для DWH/Data Lake, Apache Airflow как полноценный ETL-инструмент, а также DevOps-практики CI/CD. Всё это позволяет решать основные цели команды data-инженеров, которая входит в отдел аналитики:
- Эффективно получать данные из внешних событийных и внутренних транзакционных источников;
- Правильно и точно трансформировать и агрегировать данные по запросу бизнеса;
- Решать задачу качественного и эффективного хранения данных в DWH/Data Lake;
- Реализовывать интеграцию с другими командами и партнерами Kolesa Group.
Какую пользу приносит бизнесу
Главная польза от команды data-инженеров — это своевременные, достоверные и чистые данные, которые позволяют:
- Аналитикам продукта извлекать инсайты из этих данных, строить гипотезы, проводить различные A/B-тестирования и т.д.
- Product-менеджерам видеть на основе данных продуктовые показатели.
- Маркетинговой команде понимать эффективность их рекламных кампаний.
- Руководству компании принимать правильные стратегические решения на основе данных.
- Бизнесу повышать уровень безопасности данных, что становится все более важным в свете регуляторных требований и угроз кибербезопасности.
Kolesa Group всегда ориентировались на показатели. Но в 2017 году решили вывести эту работу на новый уровень — начали с небольшой команды из 2-3 аналитиков. К концу 2022 года наша команда разрослась до 30 человек. Отдел аналитики продолжает расти и сейчас: специалисты работают с данными всех продуктов компании.
В 2023 году команда работает с более чем 500 терабайт данных, объём которых продолжает расти. Поэтому для решения задач бизнеса отдел аналитики нацелен на количественный и качественный рост всей команды data-специалистов.
Где обучиться на специальность
Для профессии data-инженера релевантны информационные программы образования. Также будут полезны:
1. Советы для начинающих специалистов по Data Science.
3. Курсы: Karpov.Courses, Coursera.