2020/07/16 18:42:03

Специалист по изучению данных (data scientist)

На кадровом рынке растет интерес к специалистам по изучению данных (data scientist). Эта должность требует знаний в области компьютерной техники, бизнеса и аналитики. Подобные специалисты особенно востребованы в сферах энергетики, электронной коммерции, здравоохранения и финансов.

Содержание

Что такое Data Science?

Вообще говоря, Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России)[1].

Основная статья - Наука о данных (Data Science)

А чем занимаются ученые из этой сферы?

Во-первых, программированием, математическими моделями и статистикой. Но не только. Для них очень важно разбираться в том, что происходит в предметной области (например, в финансовых процессах, биоинформатике, банковском деле или даже в компьютерной игре), чтобы отвечать на реальные вопросы: какие риски сопровождают ту или иную компанию, какие наборы генов соответствуют определенному заболеванию, как распознать мошеннические транзакции или какое поведение людей соответствует игрокам, которых надо забанить.

Директор по данным - Chief Data Officer, CDO

Основная статья: Директор по данным (Chief Data Officer, CDO)

Специалисты по изучению данных (data scientist)

Специалист по Data Science — это эксперт по данным, который часто имеет высшее образование в области математики или статистики и нередко умеет программировать на R или Python. Наиболее востребованные датасайентисты также обладают знаниями в соответствующих областях бизнеса.

Хотя наборы навыков у разных людей разнятся, задача специалиста по данным состоит в том, чтобы помочь их работодателю решить сложные проблемы, часто связанные с поиском инсайтов, оптимизацией бизнес-процессов и построением предиктивных моделей. Эта роль может рассматриваться как часть ИТ, или же она может быть интегрирована в один из департаментов компании. Из всех возможных ролей, связанных с данными, датасайентисты, как правило, являются наиболее опытными экспертами.Чекап для искусственного интеллекта: зачем и как тестировать ИИ-решения?

Основные задачи Data Scientist:

  • умение извлекать необходимую информацию из разнообразных источников
  • использовать информационные потоки в режиме реального времени
  • устанавливать скрытые закономерности в массивах данных
  • статистически анализировать их для принятия грамотных бизнес-решений.

Основное отличие специалистов по изучению данных от, например, аналитиков, - это умение видеть логические связи в системе собранной информации, и на основании этого разрабатывать те или иные бизнес-решения. Специалисты по изучению данных собирают информацию, строят модели на ее основании и активно применяют количественный анализ[2].

Именно это редкое сочетание компетенций определяет зарплату специалиста по изучению данных: в США она составляет $110 тыс. - $140 тыс. в год. "Эта вакансия становится все более востребованной,- отмечает на страницах IT World Лора Келли (Laura Kelley), вице-президент агентства по ИТ-консалтингу и подбору персонала Modis (США). - Компании уделяют все больше внимания информации и приложениям. Им требуются специалисты, способные управлять большим количеством данных`.

Майкл Раппа (Michael Rappa), директор Института аналитики в Университете Северной Каролины, вместе со своими коллегами уже 6 лет разрабатывает курс, на котором будут готовить специалистов по изучению данных. "Эти специалисты должны уметь извлекать нужную информацию из всевозможных источников, включая информационные потоки в режиме реального времени, и анализировать ее для дальнейшего принятия бизнес-решений, - говорит он. - Дело не только в объеме обрабатываемой информации, но также в ее разнородности и скорости обновления".

Компании, которые пытаются решить эту задачу силами специалистов по статистике, компьютерных или бизнес-аналитиков, не добиваются нужного результата. Необходимо объединить все эти навыки в одном человеке. Например, бизнес-аналитики воспринимают такие показатели, как разработка и менеджмент продукта, но не способны анализировать и адекватно интерпретировать данные. Математикам и специалистам по статистике недостает знаний в области бизнеса. Именно поэтому, по мнению Раппы, специалистам по изучению данных требуется междисциплинарное образование – они должны уметь решать бизнес-проблемы и составлять информационные модели.

100% выпускников разработанного Институтом аналитики курса для специалистов по изучению данных получили предложения о работе еще до того, как завершили обучение. Раппа также отмечает, что сама специальность - специалист по изучению данных - звучит более привлекательно, чем `специалист по статистике` или `компьютерный аналитик`.

Менеджер баз данных

Согласно данным Indeed, менеджер баз данных (database manager) занимается «обслуживанием баз данных организации, включая диагностику и устранение проблем, упорядочивание информации и составление отчетов». Они также помогают определить подходящие аппаратные и программные системы для нужд компании.

Аналитик данных

Аналитики данных (data analysts) собирают и анализируют большие объемы данных для компаний и дают рекомендации на основе своих выводов. Они могут работать в различных отраслях, включая здравоохранение, ИТ, профессиональный спорт и финансы, чтобы улучшить процессы, снизить затраты, выявить тенденции и повысить эффективность.

Специалист по моделированию данных

Специалисты по моделированию данных (data modellers) — это системные аналитики, которые разрабатывают компьютерные базы данных, преобразующие сложные бизнес-данные в пригодные для использования в компьютерных системах. Они работают с архитекторами данных (data architects) над созданием баз данных, отвечающих потребностям организации, используя концептуальные, логические и физические модели данных.

Инженер машинного обучения

Инженер машинного обучения (machine learning engineer) — это ИТ-специалист, который занимается исследованием, созданием и проектированием самозапускающихся систем ИИ для автоматизации прогностических моделей. Он разрабатывает и создает алгоритмы ИИ, способные обучаться и делать прогнозы.

Разработчик бизнес-аналитики

Разработчики бизнес-аналитики (business intelligence developers) создают для организации системы и программы, которые позволяют пользователям находить необходимую информацию и взаимодействовать с ней. Сюда могут входить информационные панели, функции поиска, приложения для моделирования и визуализации данных. BI-разработчики должны обладать глубокими познаниями в науке о данных и лучших практиках пользовательского опыта.

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

*2020: Академия больших данных MADE и HeadHunter выяснили, как меняется спрос на Data Scientist в России

16 июля 2020 года Академия больших данных MADE от VK (ранее Mail.ru Group) и российская платформа онлайн-рекрутинга HeadHunter (hh.ru) составили портреты российских специалистов по анализу данных (Data Science) и машинному обучению (Machine Learning). Аналитики выяснили, где они живут и что умеют, а также чего ждут от них работодатели и как меняется спрос на таких профессионалов.

Академия MADE и HeadHunter (hh.ru) проводят исследование уже второй год подряд. На этот раз эксперты проанализировали 10 500 резюме и 8100 вакансий. По оценкам аналитиков, специалисты по анализу данных — одни из самых востребованных на рынке. В 2019 году вакансий в области анализа данных стало больше в 9,6 раза, а в области машинного обучения – в 7,2 раза, чем в 2015 году. Если сравнивать с 2018 годом, количество вакансий специалистов по анализу данных увеличилось в 1,4 раза, по машинному обучению – в 1,3 раза.

Активнее других специалистов по большим данным ищут ИТ-компании (на их долю приходится больше трети – 38% – открытых вакансий), компании из финансового сектора (29% вакансий), а также из сферы услуг для бизнеса (9% вакансий).

Такая же ситуация и в сфере машинного обучения. Но здесь перевес в пользу ИТ-компаний еще очевиднее – они публикуют 55% вакансий на рынке. Каждую десятую вакансию размещают компании из финансового сектора (10% вакансий) и сферы услуг для бизнеса (9%).

С июля 2019 года по апрель 2020 года резюме специалистов по анализу данных и машинному обучению стало больше на 33%. Первые в среднем размещают 246 резюме в месяц, вторые – 47.

Самый популярный навык — владение Python. Это требование встречается в 45% вакансий специалистов по анализу данных и в половине (51%) вакансий в области машинного обучения.

Также работодатели хотят, чтобы специалисты по анализу данных знали SQL (23%), владели интеллектуальным анализом данных (Data Mining) (19%), математической статистикой (11%) и умели работать с большими данными (10%).

Работодатели, которые ищут специалистов по машинному обучению, наряду со знанием Python ожидают, что кандидат будет владеть C++ (18%), SQL (15%), алгоритмами машинного обучения (13%) и Linux (11%).

В целом предложение на рынке Data Science соответствует спросу. Среди самых распространенных навыков специалистов по анализу данных – владение Python (77%), SQL (48%), анализом данных (45%), Git (28%) и Linux (21%). При этом владение Python, SQL и Git – навыки, которые практически одинаково часто встречаются в резюме специалистов любого уровня. Опытных специалистов отличают развитые навыки анализа данных, в том числе интеллектуального (Data Analysis и Data Mining).

У специалистов по машинному обучению в топе такие навыки, как владение Python (72%), SQL (34%), Git (34%), Linux (27%) и С++ (22%).

На долю Москвы приходится больше половины (65%) вакансий специалистов по в сфере анализа данных и ровно половина вакансий специалистов в области машинного обучения. На втором месте Санкт-Петербург: 15% вакансий специалистов в сфере анализа данных и 18% вакансий в области машинного обучения — в этом городе.

По сравнению с первым полугодием 2019 года в июле 2019 года – апреле 2020 года доля вакансий специалистов по анализу данных в Москве несколько возросла — с 60% до 65%.

Что касается соискателей, больше половины из них также находятся в Москве: 63% специалистов по анализу данных и 53% специалистов по машинному обучению. Вторая строчка – тоже за Санкт-Петербургом (16% и 19% резюме соответственно).

2019

Академия больших данных MADE и HeadHunter составили портрет российского Data Scientist

13 сентября 2019 года компания VK (ранее Mail.ru Group) сообщила, что Академия больших данных MADE совместно с HeadHunter изучили несколько тысяч вакансий и резюме и составили портрет российского дата-сайентиста: возраст, где живут и работают, навыки, языки, образование и пр.

Портрет российского Data Scientist

Где живут и работают специалисты в Data Science, сколько им лет, какой вуз они закончили, какими языками программирования владеют, сколько у них ученых степеней – Академия больших данных MADE от Mail.ru Group и служба исследований компании HeadHunter (hh.ru) изучили резюме 8 тыс. российских дата-сайентистов и 5,5 тыс. вакансий работодателей и составили портрет специалиста по Data Science.

Насколько востребованы специалисты по Data Science? Начиная с 2015 года потребность в специалистах постоянно растет. В 2018 году количество вакансий под заголовком Data Scientist выросло в 7 раз по сравнению с 2015 годом, а вакансий с ключевыми словами Machine Learning Specialist – в 5 раз. При этом в первом полугодии 2019 года спрос на специалистов по Data Science составил 65% от спроса за весь 2018 год.

Спрос на Data Science специалистов на рынке

Кто работает в Data Science?

В основном в профессии работают мужчины, среди дата-сайентистов их доля – 81%. Больше половины людей, ищущих работу в анализе данных, – специалисты в возрасте 25-34 лет. Женщин в профессии пока немного – 19%. Но интересно, что молодые девушки проявляют все больше интереса к Data Science. Среди женщин, разместивших резюме, почти 40% – девушки в возрасте 18-24 лет.

А вот резюме соискателей старших возрастов довольно мало – только 3% дата-сайентистов старше 45 лет. По экспертным оценкам, это может быть обусловлено несколькими факторами: во-первых, в Data Science мало представителей старшего возраста, а во-вторых, соискатели с большим опытом работы реже размещают свои резюме на крупных поисковых ресурсах и чаще находят работу по рекомендациям.

Кто работает в Data Science?

Где специалисты по Data Science живут и работают?

Больше половины вакансий (60%) и соискателей (64%) находятся в Москве. Также специалисты в области анализа данных востребованы в Санкт-Петербурге, в Новосибирской и Свердловской областях и в республике Татарстан.

Какое образование у специалистов по Data Science?

9 из 10 специалистов, ищущих работу в сфере анализа данных, имеют высшее образование. Среди людей, окончивших вузы, велика доля тех, кто продолжает развиваться в науке и успел получить ученую степень: 8% имеют степень кандидата наук, 1% – доктора наук.

Большинство специалистов, ищущих работу в области Data Science, учились в одном из следующих вузов: в МГТУ им.Н.Э. Баумана, МГУ им. М.В. Ломоносова, МФТИ, НИУ ВШЭ, СПбГУ, СПбПУ, Финансовом университете при Правительстве РФ, НГУ, КФУ. К этим же вузам лояльно относятся и работодатели.

43% специалистов в Data Science отметили, что помимо высшего получили хотя бы одно дополнительное образование. Чаще всего в резюме упоминаются онлайн-курсы по машинному обучению и анализ данных на Coursera.

Какое образование у специалистов по Data Science?

Какие навыки указывают специалисты по Data Science?

Среди ключевых навыков специалисты по Data Science указывают в резюме Python ( 74% ), SQL ( 45%) , Git ( 25% ), Data Analysis ( 24% ) и Data Mining ( 22% ). Те специалисты, которые в резюме пишут о своей экспертизе в машинном обучении, также упоминают владение Linux и C++. Самые популярные языки программирования у специалистов в Data Science: Python, C++, Java, C#, JavaScript.

Какие навыки указывают специалисты по Data Science?

Как работают специалисты по Data Science?

Работодатели хотят, чтобы специалисты по Data Science работали в офисе фултайм. 86% размещенных вакансий предполагают полный день, 9% – гибкий график, и только 5% вакансий содержат предложение об удаленной работе.

«
На российском рынке специалисты в области Data Science очень востребованы: работодатели открывают все больше вакансий, связанных с анализом данных и машинным обучением, запускаются образовательные проекты, активно развивается профессиональное комьюнити. Поэтому мы вместе с коллегами из HeadHunter решили более детально изучить представителей этой профессии и составить детальный портрет российского Data Scientist. Полученные данные и инсайты могут быть полезны и самим специалистам, и работодателям, и создателям образовательных курсов,
сказал Дмитрий Смыслов, вице-президент по персоналу и образовательным проектам Mail.ru Group
»

«
Дата-сайентисты занимают особое положение на рынке труда в сфере ИТ, благодаря неизменно растущему спросу со стороны компаний-работодателей. Именно поэтому они стали объектом нашего совместного с Академией больших данных MADE исследования. В нем мы постарались рассмотреть эту профессию с разных фокусов, в том числе по востребованности, навыкам, образованию, чтобы составить максимально объективный портрет российского дата-сайентиста и привлечь в эту профобласть как можно больше талантливой молодежи. Более того, результаты нашего анализа станут полезным референсом для корпоративных образовательных платформ, таких как Школа программистов hh.ru и Академия больших данных MADE, в подготовке специалистов на основе реальных требований и задач бизнеса,
отметила Мария Игнатова, руководитель Службы исследований компании HeadHunter (hh.ru)
»

При подготовке исследования использовали данные о росте вакансий, требованиях работодателей и опыте соискателей, размещенные на hh.ru в 1 полугодии 2019 года, и предоставленные службой исследований компании HeadHunter.

IBM запустила сертификацию специалистов по данным

29 января 2019 года IBM и консорциум The Open Group запустили сертификацию специалистов по обработке и изучению данных, чтобы формализовать обучение в рамках одной из самых популярных областей для карьерного роста.

Нехватка навыков в области анализа данных часто становилась предметом обсуждения в крупных компаниях. Согласно исследованию LinkedIn, более 151 тыс. рабочих мест специалистов по обработке данных остаются невостребованными к началу 2019 года. Это проблема как для компаний, которые хотят воспользоваться инструментами для анализа данных, так и для ИТ-гигантов, вроде IBM, которые продают подобные инструменты. Хотя автоматизация, машинное обучение и искусственный интеллект могут отчасти сузить эту пропасть, индустрия намерена привлекать как можно больше рабочих рук.

IBM и консорциум The Open Group запустили сертификацию специалистов по обработке данных, чтобы формализовать обучение в рамках одной из самых популярных областей для карьерного роста

IBM и The Open Group будут проверять сертификаты специалистов по обработке и анализу данных, оценивая их навыки и квалификацию. IBM объявила, что сертификация будет доступна и для собственных сотрудников компании, так как подобная стратегия способна обеспечить новые пути карьерного роста. Сертификат будет выдаваться после проверки проектных работ и прохождения трех уровнях сертификации.

IBM также представила внутреннюю образовательную программу для подготовки специалистов по обработке и анализу данных. Программа рассчитана на 24 месяца и предназначена для кандидатов, которые не имеют высшего образования в данной области. Обучение будет состоять из лекций, работ, выполняемых под контролем куратора, и практических заданий. Специалисты, закончившие обучение и отвечающие требованиям компании, достигнут спецификации Open Data 1 уровня 1.

Первая группа из пяти студентов, отобранных из нескольких сотен претендентов, уже приступила к обучению в январе 2019 года. IBM намерена активно распространять программу по всей территории США, однако не стала указывать, какая доля студентов сможет получить работу непосредственно в самой компании.[3]

2017: Высшая школа экономики будет обучать Data Culture на всех программах бакалавриата

НИУ ВШЭ первым из российских университетов начнет формировать компетенции по Data Science у всех студентов, обучающихся на программах бакалавриата. В рамках проекта Data Culture расширится набор дисциплин и появятся образовательные треки по анализу больших данных.

Data Culture – это общий термин для обозначения навыков и культуры работы с данными. Высшая школа экономики считает, что запуск проекта, направленного на воспитание у студентов таких навыков, сейчас актуален из-за огромного потенциала использования больших данных и трансформации профессий, которые, так или иначе, используют или могут использовать большие массивы информации. Потребность рынка в специалистах с компетенциями по анализу данных, перерастает в необходимость воспитания во всех предметных областях профессионалов, понимающих возможности и ограничения массивов данных, потенциал и особенности методов машинного обучения, а в ряде направлений и умеющих пользоваться этими технологиями и инструментами.

Проект Data Culture станет продолжением интеграции в образовательные программы НИУ ВШЭ элементов, направленных на воспитание у студентов культуры и умений работы с данными. Он расширит возможности студентов уже абсолютно всех образовательных программ по формированию компетенций, связанных с Data Science. Это позволит выпускникам в перспективе быстро и эффективно интегрироваться в решение профессиональных задач на стыке предметных областей и компьютерных технологий, которые сегодня являются передовыми, но уже в ближайшей перспективе станут привычной практикой.

Проект включает разработку отдельных курсов по Data Science так или иначе кастомизированных под специфику образовательных программ, а также формирование специализированных образовательных треков из таких курсов с разной степенью сложности: начального, базового, продвинутого, профессионального и экспертного уровней. Это связано с большим разнообразием образовательных программ, студенты которых дифференцированы по базовым компетенциям в сфере математики и информатики. Для программ или их блоков будет предложена система курсов Data Culture в определенной вилке «сквозного уровня продвинутости». Более того, эти системы курсов определятся спецификой предметных областей.

Внедрение дисциплин Data Culture будет происходить поэтапно. В 2017/2018 учебном году будут включены в учебные планы обязательные и элективные курсы по направлению Data Science для части образовательных программ, но таковых будет более половины. Например, у студентов-гуманитариев, юристов и дизайнеров появится вводный курс по цифровой грамотности, программы экономистов дополнятся дисциплиной по машинному обучению, политологов – анализу социальных сетей, у статистиков появится курс по программированию и извлечению и анализу интернет-данных. С 2018 года к проекту примкнут все образовательные программы.

«Нагрузка студентов в связи с наращиванием Data составляющей программ не изменится. Все дисциплины включаются не дополнительно, а внутрь основного тела образовательных программ. Дисциплин от этого не становится больше, наша общая модель бакалавриата и магистратуры остается точно такой же по количеству курсов, на бакалавриате точно так же строится система дисциплин общего цикла, где, в том числе, возможно включение курсов, связанных с компьютерными технологиями и анализом данных», – отмечает проректор НИУ ВШЭ Сергей Рощин.

Для реализации проекта Data Culture предполагается привлечение преподавательского состава как из академической среды (преподаватели факультета компьютерных наук, сотрудники департамента математики факультета экономических наук и общеуниверситетской кафедры высшей математики и т.д.), так и из индустрии (участники сообществ по анализу данных, участники тематических мероприятий по анализу данных, проводимых в IT-компаниях). Более того, преподаватели факультетов, которые уже погружены в работу с данными в рамках своей профессиональной деятельности, также будут разрабатывать курсы в рамках проекта Data Culture для студентов своих и смежных факультетов.

Робототехника



Управление данными

Примечания