Нейросети и быстрое развитие ИИ в целом (плюс постепенное распространение ИИ‑агентов в ежедневной работе) меняет подход к работе аналитика данных. Однако действительно ли это меняет суть и структуру его работы?
Меня зовут Стас Золотарев, я автор на курсах «Аналитик данных» и «Специалист по Data Science» в Яндекс Практикуме. В этой статье я расскажу:
какие знания и навыки нужны аналитику, чтобы использовать ИИ для базовых задач без ущерба для качества,
как можно использовать нейросети во внутренних процессах работы.
Давайте разбираться.
Но сначала — ключевая мысль для понимания места нейросетей в работе аналитика:
Этот раздел — для тех, кто только начинает свой профессиональный путь аналитика данных или ещё думает о том, чтобы сюда прийти. Если вы уже бывалый или поработали хотя бы полгода в этой сфере — можно смело пропустить, вы это и так знаете.
Работа аналитика — это всегда работа с данными в том или ином виде. Звучит интересно, но на старте (особенно когда человек только приходит в профессию) иногда может возникать диссонанс между ожиданиями и реальностью.
Смотрите, нам часто в фильмах рисуют такую картинку: есть большая компания, она занимается серьёзными делами, всё профессионально и все при деле — аналитики, программисты, менеджеры и так далее. И какому-нибудь условному аналитику поручают задачу: изучить данные и найти взаимосвязь между разными событиями или сделать выводы на основе уже произошедших событий.
Дальше наш киношный аналитик с задумчивым видом изучает статьи, рисует таблицы маркером на стеклянной перегородке, ходит по кабинету и с прищуром смотрит в окно, крутя в мыслях взаимосвязи и многомерные структуры данных. Потом он случайно замечает какую-то мелочь — и благодаря ей вся картинка тут же срастается в единое целое. Он тут же обводит пару строк в распечатках и победно заходит в кабинет шефа, всем видом показывая, что он разгадал эту загадку.
Но в реальности чаще всего всё обстоит иначе.
Работа аналитика данных — это не игра в Шерлока Холмса, где всё решает озарение и случайность, а методичная и целенаправленная работа, которая со стороны часто выглядит не так красочно, как в кино. Но именно такой вдумчивый, методичный и временами рутинный подход позволяет аналитикам данных решать поставленные перед ними задачи, а компании — достигать бизнес-целей. За это и платят аналитикам — за то, что при правильном подходе и знании своих инструментов они разбираются в том, что происходит сейчас (и почему), и делают выводы о том, что может произойти.
Теперь поговорим о том, какие знания и навыки используют аналитики данных в работе с ИИ чаще всего. Если в них разобраться и освоить на хорошем уровне — эффективность и качество аналитической работы с ИИ повысятся многократно.
Аналитик данных работает с данными — это логично и следует из названия профессии. А данные почти всегда хранятся в базах данных, и с вероятностью около 90% это будет что-то SQL-подобное (а зная принципы работы с SQL разобраться в остальных СУБД и запросам к ним не составит труда). Отсюда вытекает первый важный навык: аналитик должен уметь «вытащить» из базы нужные ему данные и знать, как их можно обработать в процессе.
Начинающие аналитики часто делают так: делают запрос в нейросеть вида «Напиши мне запрос к базе данных, который отберёт информацию из вот таких таблиц по вот таким признакам». Звучит логично, но это опасный подход.
ИИ без проблем может сгенерировать SQL‑запрос, но без понимания логики агрегаций аналитик не заметит ошибок: дубликации, неверных группировок, некорректных фильтров. Понимая GROUP BY, JOIN, COUNT, SUM, AVG, аналитик может точно описать задачу модели и быстро проверить результат. И иногда это будет быстрее, чем просить об этом нейросеть, а потом проверять, точно ли она сделала то, что нужно.
К примеру, ИИ может посчитать средний чек как AVG(price), не учитывая количество товаров в заказе. А аналитик знает, что ему вместо этого нужно рассчитать SUM(total_price) / COUNT(order_id). Да, это тоже можно описать в запросе, но из практики скажу, что гораздо быстрее всё это сделать руками и без перепроверки за машиной.
ИИ часто не знает контекста бизнеса или специфики вашего продукта, даже если в него сгрузить всю внутреннюю документацию (чего делать точно не рекомендуется как минимум из соображений корпоративной инфобезопасности). Он, конечно, сможет посчитать метрику и она будет выглядеть правдоподобно, но к реальности это не будет иметь никакого отношения.
Классика жанра: если ИИ выдает Retention 120%, аналитик даже с базовыми знаниями сразу поймет, что где-то в логике ошибка, так как удержать людей больше, чем пришло, невозможно.
Нейросети не знают ничего о ваших задачах и о том, чем занимается компания, в которой вы работаете. Она часто отталкивается от каких-то своих средних значений, которые были в корпусе знаний, на которых её обучали — но это не означает, что эти средние значения применимы в вашем конкретном случае.
Например, в среднем по рынку может считаться, что нормальный ROI в вашем секторе должен быть на уровне 15-30%. Но вы как аналитик знаете, что масштабы операционной деятельности позволяют считать ROI иначе (и они у вас считаются хорошими уже при 5-7%) — а оценка нейросети здесь получается абсолютно неверной.
По сути, это навык постановки задачи — неважно кому, коллеге-стажёру или нейросети. Без этого ИИ либо будет давать поверхностные ответы, либо, что хуже, уверенно генерировать некорректные решения и подавать их как что-то общеизвестное.
Например, плохой промпт звучит расплывчато: «Посчитай отток пользователей», даже если мы приложим все таблицы с исходными данными. Плохо здесь то, что мы не дали никаких критериев — и нейросеть начинает отталкиваться или от своих каких-то представлений об оттоке (причём, мы не знаем, каких), либо решает эту задачу максимально примитивно.
Хороший промпт наоборот максимально конкретизирует задачу: «Напиши SQL-запрос для PostgreSQL к таблице sessions (user_id, timestamp). Считай пользователем в оттоке того, кто не заходил более 30 дней с момента последнего визита. Исключи тестовые аккаунты с доменом @test.com». Но даже здесь хорошо бы попросить нейросеть давать свои комментарии по ходу рассуждений и её логики.
Главное в этом навыке — никогда сходу не доверять ИИ-ответам и пропускать их через внутренний фильтр своих знаний. Без этого аналитик данных превращается в оператора чат-бота и его ценность как специалиста резко падает.
Сегодня аналитики чаще всего используют ИИ для оптимизации собственных рабочих процессов. Цель такого подхода — сократить время на рутинные и несложные операции, с которыми нейросеть справляется примерно так же, как человек, но значительно быстрее. Не «провести аналитику», не «выяснить, почему упали показатели», а сделать чисто механическую работу.
При этом здравый смысл остаётся ключевым: аналитики поручают ИИ только те задачи, которые способны выполнить сами, чтобы иметь возможность оценить корректность результата и вовремя заметить ошибки.
Для аналитика SQL-запросы, Python-скрипты и dbt-модели — неотъемлемая часть его работы. ИИ здесь хорошо справляется с черновиками, подсказками по синтаксису, упрощением сложных конструкций и поиском ошибок.
А ещё, поскольку аналитик часто работает с уже существующими процессами и моделями, нейросеть может помочь быстрее разобраться в логике запроса и объяснить, что именно считается и откуда берутся метрики. Это как раз история про легаси, когда новый человек приходит на проект и ему нужно побыстрее вникнуть, что именно там происходит.
Это хорошо работает для генерации объяснения сложных SQL-запросов, подсказок по синтаксису (оконные функции, CTE, фильтры), упрощения вложенных запросов, а также поиска опечаток и логических неточностей.
Но в задачах, требующий глубоких знаний бизнес-логики и связей между таблицами базы данных, ИИ может допускать критичные для бизнеса логические ошибки. Хороший аналитик должен знать эти ограничения и не доверять тут компьютеру что-то сложнее базовых задач.
Рутина — часть работы аналитика, и вот какую-то её часть вполне можно поручить нейросети.
Например, ИИ работает хорошо для написания документации к коду и моделям, описания полей и таблиц — всё это снижает когнитивную нагрузку и экономит время аналитика.
Важно отметить: ИИ здесь не заменяет аналитика, а выступает в роли ускорителя для решения стандартных задач (именно стандартных, это важно). Ответственность за корректность логики, интерпретацию результатов и бизнес-контекст по-прежнему остаётся за человеком.
К примеру, ИИ не всегда способен корректно понять бизнес-логику: он может написать, что колонка is_active — это «флаг активности», но он не знает, что «активным» у вас считается только тот, кто совершил покупку в последние 30 дней. Конечно, компьютеру можно предоставить весь контекст и последовательно корректировать его ответы, однако это займёт значительно больше времени, чем выполнить задачу самостоятельно.
Сегодня мы разобрали базовую часть применения нейросетей в работе аналитика — то, что может помочь почти в каждом направлении. В следующей статье разберём, как можно применять ИИ для работы с бизнес-пользователями и поговорим о разговорной аналитике (там всё ещё интереснее).
Источник


