2020/03/07 10:51:02

Чем умных женщин привлекает сфера Big Data и искусственного интеллекта. 9 историй из России

Женщины, ведущие исследования в сфере больших данных, искусственного интеллекта и машинного обучения, пока остаются в меньшинстве, но в тоже время вносят существенный вклад в научно-исследовательскую деятельность. Они участвуют в интересных проектах, результаты которых зачастую находят важное практическое применение. TAdviser пообщался с несколькими такими героинями и выяснил, что их привлекает в этой сфере, и в каких проектах они задействованы.

Содержание

Несмотря на политики крупных технологических компаний, которые в последние годы всерьез озаботились привлечением большего числа женщин в индустрию, ИТ-отрасль остается преимущественно мужской. А в областях, связанных с данными, такими как Data Science, искусственный интеллект, машинное обучение и других, гендерный разрыв зачастую еще больше, чем «в среднем по больнице», особенно в академической среде.

Это характерно и для стран, являющихся технологическими лидерами. К примеру, в США, по данным исследования рекрутинговой компании Burtch Works, опубликованного в 2018 году, только 15% специалистов по теории и методам анализа данных – женщины. А исследование, проведенное институтом AI Now Institute в 2019 году, показало, что менее 20% исследователей в области искусственного интеллекта (ИИ), подающие заявки на участие в престижных конференциях в этой сфере, – женского пола и только около четверти студентов, изучающих ИИ в Стэндфордском университете, – девушки.

Работа с данными - это не только интересно, но и модно (фото - Datafloq.com)

Похожая ситуация и в Британии. Там рекрутинговая компания Datatech Analytics в 2019 году выяснила, что женщины занимают около четверти всех должностей, связанных с Data Science.

Оценки ряда опрошенных TAdviser сотрудников научных коллективов в вузах указывают на то, что Россия в этом отношении, можно сказать, в тренде. Они оценивают долю женщин, занятых в исследованиях в области данных, в среднем в 15%, хотя в отдельных областях называют и более высокий процент – до 35-40%. Например, в сфере исследования и разработки в области применения искусственного интеллекта (ИИ) для проблем, связанных с охраной окружающей среды и сельским хозяйством. Российский рынок HR-tech: оценки, перспективы, крупнейшие поставщики. Обзор TAdviser 100 т

При этом некоторые опрошенные отмечают тенденцию к увеличению доли женщин в исследовательской среде в области данных, ИИ и машинного обучения.

«
Считается, что такая работа сложна для женщин. Я с этим не согласна: у нас все больше и больше женских научных коллективов, работающих в научных и аналитических кругах. Думаю, что на это повлиял высокий уровень образования в России в естественных и технических науках. Все в мире начинается с идеи, как показал еще древнегреческий философ Платон. Также он рассуждал о потенциале общества, способного генерировать и воплощать эти идеи. Человеку свойственно развиваться, человека всегда будет тянуть в неизведанные области: и во внешнем космическом, и во внутреннем интеллектуальном пространстве, - отмечает Татьяна Подладчикова, старший преподаватель Космического центра Сколтеха, кандидат технических наук, прикладной математик.
»

Именно поэтому, думает она, сейчас так много коллег женщин с большим потенциалом создавать достойные и интересные идеи.

Российские исследовательницы в сфере больших данных, ИИ и машинного обучения участвуют в интересных проектах, результаты которых зачастую находят важное практическое применение. К примеру, они применяются для прогнозирования космической погоды, отражения наводнений, обнаружения зон поражения опасного для человека сорняка Борщевика Сосновского и многого другого. TAdviser собрал истории нескольких таких героинь.

Космическая погода

Татьяна Подладчикова, старший преподаватель Космического центра Сколтеха, кандидат технических наук, прикладной математик, лауреат международной медали Александра Чижевского по космической погоде и космическому климату (Фото - Леонид Сорокин/Inc)

Татьяна Подладчикова занимается изучением Солнца и космической погоды с применением ИИ. Космическая погода требует постоянного мониторинга деятельности Солнца и космического пространства и направлена на разработку оперативных сервисов прогнозирования и уменьшения последствий экстремальных космических погодных явлений, объясняет она. Однако разработка и совершенствование сервисов космической погоды требует углубленных исследований в области солнечно-земной физики, понимания процессов на Солнце и всех тонкостей взаимодействия между Солнцем и Землей.

«
Методы быстрой классификации и анализа потока солнечных изображений, над которыми мы работаем в нашей лаборатории совместно с международными коллегами, позволяют детектировать мощные выбросы солнечной массы, а также предсказывать их прибытие на Землю. В случае сигнала тревоги, как правило, выключают чувствительное оборудование спутников, которые летают вокруг Земли. Наши разработки и сервисы по прогнозированию солнечной активности используются для оценки уровня радиации на высоте полета самолетов, - рассказала Татьяна Подладчикова TAdviser.
»

По ее словам, совместно с Европейским космическим агентством также ведется разработка нового сервиса прогнозирования радио потока от Солнца, что имеет большое практическое значение для оценки времени возвращения космических аппаратов на Землю, корректировки орбит спутников, предупреждения столкновений и моделирования космического мусора. А совместно с университетом Граца, Австрия, идет работа над созданием сервиса прогнозирования высокосортного солнечного ветра у Земли и связанных с ними геомагнитных бурь.

Кроме того, в рамках большого европейского проекта по созданию 4-метрового наземного солнечного телескопа лаборатория работает над алгоритмами изображений, получаемых с разных наземных станций для обеспечения высококачественных наблюдений и детектирования вспышек на Солнце. Новые достижения в области искусственного интеллекта позволяют усовершенствовать изображения более низкого качества, полученных телескопами прошлого поколения на основе новых качественных данных современных телескопов, объясняет Татьяна Подладчикова.

Серия непрерывных наблюдений с наилучшим качеством в течение длительного времени позволит глубже понять ключевые механизмы сложных физических процессов на Солнце, что в свою очередь позволит усовершенствовать операционные сервисы прогнозирования космической погоды, говорит она.

«Умный» мониторинг состояния сердца

Методы анализа данных, которые разрабатываются в лаборатории под руководством Татьяны Подладчиковой, применяются не только в космической области.

«
Методы анализа данных, которые мы разрабатываем в нашей лаборатории также применяются и для извлечения полезного знания, контроля и прогнозирования для междисциплинарных приложений. Научно-исследовательский проект в Сколтехе по созданию носимого устройства с искусственным интеллектом для мониторинга и анализа состояния сердечно-сосудистой системы перерос в стартап SENSE2BEAT, - объясняет Подладчикова.
»

Идеологом и руководителем проекта является аспирант космического центра Сколтеха Наталья Глазкова. Дарья Степанова, выпускница Сколтеха, отвечает за техническую часть проекта.

Основное преимущество разработанного устройства - в постоянном контроле за кардиограммой, говорит Татьяна Подладчикова. Это позволяет осуществлять первичную диагностику ряда сердечных аритмий, которые сложно зафиксировать при помощи разового короткого обследования на стационарном кардиографе. Данное устройство будет полезно космонавтам – во время наземных тренировок, полета и последующей реабилитации, спортсменам для мониторинга работы сердечной мышцы в экстремальных условиях и соответствующей корректировки плана тренировок. Также оно пригодилось бы всем людям на Земле для существенного улучшения качества и продолжительности жизни.

Искусственный интеллект для нефтегазовой отрасли

Екатерина Муравлева, старший научный сотрудник Центра добычи углеводородов Сколтеха


Основная область интересов Екатерины Муравлевой - математическое моделирование. Разработки научной группы Дмитрия Коротеева, в которой она работает, уже внедрены в нескольких крупных нефтегазовых компаниях, сообщили в Сколтехе.

«
Мы разрабатываем инструменты для принятия решения при разведке и добыче нефти и газа, которые позволяют сокращать затраты при технологических операциях на месторождениях и объективно оценивать потенциал нефтегазовых месторождений, - объяснила Муравлева TAdviser.
»

Говоря о значимости ведущихся при ее участии исследований в области ИИ, Екатерина Муравлева отметила, что успехи ИИ в основном связаны с распознаванием образов и обработкой изображений, видео, текстов и звука, а в классических областях вычислительной математики им только предстоит найти свое место. Тем не менее, потенциал методов машинного и глубокого обучения в задачах моделирования огромен и привлекает большое количество исследователей по всему миру. Они позволяют понизить стоимость и время расчетов, а в некоторых случаях методы ИИ позволяют существенно повысить качество моделирования, говорит Екатерина Муравлева.

Борьба с загрязнениями и сорняками

Мария Пукальчик, старший преподаватель Сколтеха, Центр по научным и инженерным вычислительным технологиям для задач с большими массивами данных (CDISE), кандидат биологических наук


Научная группа, в которой работает Мария Пукальчик, занимается фундаментальными и прикладными разработками, она сфокусирована на работах в области аналитики почв, растений и качестве окружающей среды. Следующие разработки можно отнести к наиболее существенным достижениям, считает Мария Пукальчик.

«
В области сельского хозяйства, основываясь на данных о структуре почв и их агрохимических показателях, мы в состоянии строить модели нормативной урожайности сельскохозяйственных культур и выявлять наиболее «важные» показатели почв для их урожайности с привязкой к любому региону России с разрешением до отдельных полей, - рассказывает она.
»

Основываясь на данных о типе почв и уровне загрязнения нефтью, группа также создала модель, основанную на ИИ, которая может предсказывать вред для растительного покрова (фитотоксичность), что может значительно ускорить процесс принятия решений о необходимости восстановления или ремедиации загрязненных территорий в нефтедобывающих регионах страны. Результаты этой работы будут в ближайшее время опубликованы в статье журнала Q1 Ecotoxicology and Environmental safety, говорит Мария Пукальчик.

Кроме того, были внедрены технологии ИИ (сверточные нейронные сети, Convolutional Neural Networks) на одноплатный компьютер, размещенный на борту беспилотного летательного аппарата (БПЛА) для того, чтобы в режиме реального времени выявлять зоны поражения опасного для человека сорного растения Борщевика Сосновского.

«
ИИ не устает, и, в отличие от человеческого глаза, выявляет даже те одиночные растения, которые пропустили бы люди, просматривающие отснятый видео материал с дрона без системы ИИ, - поясняет Мария Пукальчик.
»

Говоря о значимости деятельности научной группы, она отметила, что благоприятная окружающая среда – это залог здоровья и благополучия нас и наших детей, а также гарант будущего развития всей страны. Все мы ежедневно видим, как обостряются экологические проблемы, связанные с деятельностью человечества, такие как загрязнение почв, воздуха и рек, изменения климата, снижение биоразнообразия.

«
В то же время, множество процессов и явлений, описывающих окружающую среду, а также высокая степень неопределенности, изменчивости и случайности в них можно математически представить, как поток неструктурированных многомасштабных данных, поступающих непрерывно в больших объемах, а значит и многие вопросы, связанные с охраной окружающей среды и сельским хозяйством можно и нужно решать с применением ИИ и методов машинного обучения, - отметила Мария Пукальчик.
»

DeepPavlov и бот для Amazon

Диляра Баймурзина, исследователь Лаборатории нейронных систем и глубокого обучения МФТИ


Основная деятельность Диляры Баймурзиной в лаборатории посвящена обработке естественного языка (natural language processing).

«
Мы занимаемся разработкой open-source библиотек DeepPavlov и dp-agent для создания чат-ботов. С лета 2017 до лета 2019 я разрабатываю и поддерживаю компонент библиотеки, отвечающий за классификацию текстов. Также в 2018 году я участвовала в конкурсе на Kaggle Toxic Comment Classification Challenge, в процессе которого мы начали эксперименты по эволюционному подбору параметров моделей. После окончания конкурса в библиотеке DeepPavlov также появилась возможность подбирать гиперпараметры моделей, а мы начали работу над эволюционным подбором самих нейросетевых архитектур, - рассказывает она.
»

Код с этими разработками до сих пор не выложен в open source, но в ближайшее время проект по подбору архитектур снова вернется в активную фазу, и, надеется Диляра Баймурзина, результаты все-таки окажутся доступны пользователям библиотеки DeepPavlov.

Причиной заморозки проекта по подбору архитектур она называет то, что летом прошлого года команда МФТИ DREAM была отобрана для участия в конкурсе Amazon Alexa Prize Grand Challenge 3. Поэтому в августе члены команды начали заниматься разработкой бота для Amazon все свое рабочее время.

«
Мы успешно прошли сертификацию бота в октябре прошлого года, и уже в декабре наш бот DREAM получил возможность общаться с пользователями умных колонок Alexa. На данный момент идет четверть-финал конкурса, и я надеюсь, наша команда успешно пройдет в полуфинал и продолжит разработку DREAM бота. Для меня участие в этом конкурсе оказалось потрясающе полезным опытом по разработке бота в продуктиве, так как такая работа сильно отличается от научной деятельности, - говорит Баймурзина.
»

Она надеется, что опыт команды в виде готового бота, который будет выложен в open-source по окончанию конкурса, будет полезен в сообществе естественного языка.

Анастасия Кравцова, специалист по работе с данными Лаборатории нейронных систем и глубокого обучения МФТИ


Анастасия Кравцова работает в той же лаборатории, что и Диляра Баймурзина. Она также состоит в команде, которая занимается разработкой open-source библиотеки DeepPavlov для построения диалоговых ассистентов и анализа текста.

«
Мы решаем задачи, связанные с обработкой естественного языка путем создания и обучения нейросетевых моделей для анализа тональности, распознавания именованных сущностей, ответов на вопросы и т.п. Из этих компонентов можно собрать полноценную диалоговую систему под ваши прикладные нужды. Непосредственно моя работа заключается в сборе и анализе текстовых данных для построения и оценки подобных моделей, - объясняет Кравцова.
»

Борцы с наводнениями

Анна Калюжная, руководитель научного подразделения в Национальном центре когнитивных разработок Университета ИТМО


Изначально Анна Калюжная специализировалась на моделировании гидрометеорологических процессов на основе уравнений гидродинамики и многомерного статистического анализа. Однако сейчас благодаря накопленному опыту участия в различных прикладных проектах ее интересы и научные идеи простираются далеко за пределы моделирования гидрометеорологических процессов.

«
Последние несколько лет я и моя команда работаем над развитием методов data-driven моделирования для различных прикладных задач, имеем научные и R&D проекты в этой области, - рассказала Калюжная TAdviser.
»

Проекты включают:

  • интеллектуальное проектирование волнозащитных сооружений в акватории порта с помощью эволюционных подходов (разработан метод идентификации оптимальной структуры волнозащитных сооружений);
  • модель кредитного скоринга на основе данных о транзакциях (разработали интеллектуальную модель кредитного скоринга, в которой оценка рисков производится с помощью построения поведенческого профиля на основе истории банковских транзакций клиента).

При этом, говорит Калюжная, и про моделирование природных процессов не забывают.

«
В сентябре 2020 года начинаем набор в магистратуру «Цифровые геотехнологии», посвященную технологиям анализа пространственных геоданных и геомоделированию, - рассказывает она.
»

Команда Анны Калюжной также участвовала в разработке и введении в эксплуатацию системы предотвращения наводнений в Санкт-Петербурге, создаваемой компанией ВСС для Дирекции Комплекса защитных сооружений. Они разработали «мозг» дамбы или наукоемкие модули, отвечающие за улучшение качества гидродинамического прогнозирования нагонной волны и систему поддержки принятия решений на основе алгоритмов, создающих оптимальное расписание для маневрирования затворами, рассказали TAdviser в Университете ИТМО. Результат – десятки отраженных наводнений более чем за 8 лет успешной работы дамбы.

Анализ данных соцсетей

Ксения Мухина, научный сотрудник Национального центра когнитивных разработок Университета ИТМО


Ксения Мухина занимается анализом данных социальных сетей: в основном это исследование активности пользователей в определенных локациях.

«
На основе этого я совместно с коллегами разработала метод для извлечения событий, который позволяет обнаруживать события с 77% точностью и 97% полнотой. Еще я использую данные социальных сетей и интернет-ресурсов для построения автоматических пешеходных туристических маршрутов. Результаты опроса показали, что маршруты, подготовленные нашей системой, нравятся людям даже больше, чем экспертные, - рассказала TAdviser Ксения Мухина.
»

Кто стоит за качеством поиска «Яндекса»

Екатерина Серажим, руководитель службы релевантности и лингвистики в поиске «Яндекса»


Екатерина Серажим отвечает в «Яндексе» за качество поиска и возглавляет службу релевантности и лингвистики. Когда пользователь задает поисковой системе запрос, ответом обычно служит набор ссылок. Оценить вручную или автоматически, насколько этот набор отвечает на ваш запрос, как раз и означает измерить качество поиска. Команда Екатерины Серажим разрабатывает и внедряет новые модели и алгоритмы, чтобы результаты поиска ещё лучше соответствовали запросам пользователей.

Она участвует в улучшении поисковых алгоритмов с 2012 года, когда пришла в компанию аналитиком. В те годы поисковые запросы, поступившие из разных регионов и относящиеся к разным тематикам, обрабатывались разными алгоритмами. Это не позволяло вносить в систему глобальные модификации — требовалось менять каждый алгоритм в отдельности. Серажим и её коллеги построили гибкую и легко улучшаемую систему, в которой единый алгоритм обрабатывает все запросы от пользователей.

В 2015 году Екатерина Серажим стала руководителем группы аналитики качества поиска. Она и её команда приняли активное участие в подготовке двух важнейших обновлений поиска — «Палех» (2016) и «Королёв» (2017). Эти обновления были основаны на нейронный сетях. Использование нейросетей в «Палехе» позволило научить поиск находить в интернете страницы, которые соответствуют запросам не только по ключевым словам, но и по смыслу.

«Королёв» был следующим шагом — нейросети в этом обновлении использовались ещё активнее, в том числе на самых глубоких стадиях ранжирования (сортировки ссылок).

Группа аналитики под руководством Екатерины Серажим занималась моделями ранжирования для «Палеха» и «Королёва». Тогда же она занималась развитием качества поиска на мобильных устройствах: в частности, работала над моделью, в которой сайты ранжируются с учетом их мобильной адаптивности. В том числе благодаря этому доля поиска «Яндекса» на ОС Android значительно выросла и продолжает расти, отмечают в компании.

Метод машинного обучения, который понравился Netflix

Анна Вероника Дорогуш, руководитель группы ML-систем в «Яндексе»


Анна Вероника занимается развитием машинного обучения в «Яндексе». Она одна из разработчиков метода машинного обучения CatBoost и руководитель этого направления. Он разработан в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций.

CatBoost помогает работать с различными типами данных: числовыми, категориальными, текстовыми. На основе этих данных он строит модель для предсказания результатов событий, которые алгоритм не видел. Метод позволяет анализировать более сложные, разнородные данные и учитывать большее количество факторов. Этот алгоритм основан на технологии градиентного бустинга, который позволяет постепенно, с каждым дальнейшим шагом улучшать результаты предыдущих шагов.

CatBoost был выложен в открытый доступ летом 2017 года. С тех пор он используется в различных компаниях по всему миру, включая Netflix, Careem taxi, CloudFlare, Aviasales и многих других. Также он используется научным сообществом в медицине и физике.

Сейчас Анна Вероника Дорогуш и её команда занимаются развитием библиотеки, добавлением в нее поддержки новых типов данных, улучшением алгоритма, интеграцией с другими платформами. Кроме того, команда Анны Вероники занимается созданием и развитием других библиотек машинного обучения, которые используются в «Яндексе».

Что привлекает женщин в этой сфере

Стремление быть в гармонии с окружающим миром вызывает интерес человека к пониманию сути наблюдаемых явлений, их закономерностей и предвидению дальнейшего развития событий, говорит Татьяна Подладчикова из Космического центра Сколтеха. В основе знаний об окружающем мире лежат наблюдение и эксперимент. Каждый день мы получаем большое количество ценных данных. Однако большая часть информации теряется, поскольку мы не можем обрабатывать данные достаточно эффективно, отмечает она.

«
В последние годы методы искусственного интеллекта достигли замечательных результатов. И это настоящий успех, когда мы можем получить новое полезное знание из данных, ведущих к пониманию сути наблюдаемых явлений, контролю и прогнозированию будущего развития событий. А также прийти к надежным решениям, принимаемым на основе полученных результатов, - объясняет Подладчикова свой интерес к этой сфере.
»

Поток текстовых и других данных растет с каждым днем, и кому-то нужно эти данные обрабатывать и извлекать из них что-то полезное, говорит Анастасия Кравцова из Лаборатории нейронных систем и глубокого обучения МФТИ.

«
Кроме того, растет спрос на диалоговых ассистентов и автоматизацию коммуникации в целом, когда обращения обрабатываются без участия живого человека, так что перспектива делать жизнь людей проще не может не вдохновлять, - отмечает она.
»

Когда Анна Калюжная, ныне руководитель научного подразделения в Национальном центре когнитивных разработок Университета ИТМО, окончила обучение в вузе, ей хотелось найти работу, которая, с одной стороны, предложила бы ей вызов — предполагала регулярное решение интересных задач, а, с другой, стала бы тем местом, где она могла бы приносить пользу обществу. Она посоветовалась с научным руководителем, и он рассказал ей про Александра Валерьевича Бухановского, директора Национального центра когнитивных разработок, и те научные проекты, которые он развивает. Таким образом, Калюжная начала свой научный путь.

Екатерина Серажим из «Яндекса» машинным обучением заинтересовалась еще будучи студенткой в университете. В то время это еще не было таким заметным направлением, говорит она, и в «Вышке» на прикладной математике была всего пара-тройка курсов на эту тему.

«
Один из них меня настолько заинтересовал, что я занялась научной работой в этом направлении. Уже тогда, в студенческие годы, меня поразило то, насколько круто алгоритмы машинного обучения могут решать практические задачи вроде прогнозирования погоды или поиска объектов на изображении. Это казалось какой-то магией. Я решила углубить свои знания и поступила учиться в Школу анализа данных (ШАД). После ее окончания выбор пойти работать в «Яндекс» стал для меня очевидным. Ведь здесь можно заниматься чем-то вроде прикладных исследований — придумывать что-то и постоянно экспериментировать, - объясняет Серажим.
»

По мнению Ксении Мухиной из Национального центра когнитивных разработок Университета ИТМО, сейчас уникальное время, когда так много данных о том, что происходит вокруг нас, стало доступно для исследований.

«
Люди не только изобрели специальные сенсоры, чтобы извлекать информацию об окружающем мире, но и придумали социальные сети, по которым можно понять, что людям интересно и что их привлекает. И если правильно поставить задачу, то можно найти ответ почти на любой вопрос, - объясняет Мухина.
»

Екатерина Муравлева из Центра добычи углеводородов Сколтеха рассказывает, что она с отличием закончила мехмат МГУ и защитила диссертацию по вычислительной математике. Может показаться, что многое, чему учат на мехмате - это абстрактные вещи, но на самом деле, у ИИ и классической математики много общих точек. Например, достаточно активно применяются топологические подходы, говорит она.

«
Для меня важно, чтобы результаты моих исследований были востребованы, чего нельзя сказать о многих теоретических исследованиях. Такой областью на стыке теории и практики фактически стали методы ИИ. Сейчас очень сложно заниматься чем-то, связанным с вычислительными и численными методами, и не интересоваться ИИ, - поясняет Екатерина Муравлева.
»

А Марии Пукальчик из Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколтеха эта сфера интересна потому, что машинное обучение и ИИ позволяют точнее, надёжнее и быстрее отрабатывать данные и получать более корректные выводы. Кроме того, это модно, добавила она.

См. также