Data Science: Что нужно о ней знать?

Большой объем информации в современном мире требует анализа и систематизации. Именно этим и занимается одна из самых быстро развивающихся наук на сегодня — Data Science! Первопроходцами в области Data Science можно назвать банковский сектор и страховые компании, которым необходимо было вести учет и строить анализ по выплатам. Но спустя время необходимость в развитии этого направления осознала и медицина и государственный сектор. С какой скоростью растет спрос на специалистов Data Science, о перспективах ее развития и «точках входа» в отрасль в фильме Российского общества «Знание» рассказали приглашенные спикеры: Профессор, руководитель научной группы Adase «Сколтеха»; Директор по анализу данных X5 Retail Group; Основатель компании Bigdata Team; Управляющий директор дивизиона «Массовая персонализация» Сбербанка; Международный HR консультант. О том, как наша страна нашла собственный путь развития в области Data Science и что важно для специалистов данного сектора, расскажет наш познавательный фильм.

NaNК

Комментарии

Поделитесь своими мыслями, используя поле для комментариев выше.

Конспект

Спикеры: Алексей Драль, основатель компании Bigdata Team; Евгений Бурнаев, профессор, руководитель научной группы Adase «Сколтеха» ; Дмитрий Бугайченко, управляющий директор дивизиона «Массовая персонализация» Сбербанка; Михаил Неверов, директор по анализу данных X5 Retail Group; Зулия Лиокова, международный HR консультант.

Что такое Data Science?

Чем занимается Data Science, о перспективах развития и о том, с какой скоростью растет спрос на специалистов в России и во всем мире, рассказали приглашенные спикеры. Обсуждение начали с того, что дали определение предмету беседы.

Data Science — что это? Евгений Бурнаев объясняет, что речь идет о наборе дисциплин, необходимых для того, чтобы строить модели и методы обработки данных предикативной модели для дальнейшего использования в приложениях. Михаил Неверов говорит, что первопроходцами в освоении данных Data Science были банки, по той причине, что и

х первая Big Data тоже была не цифровой. Вслед за банками, на свои производственные процессы анализ данных начали страховые компании. Для расчета рисковых коэффициентов вероятности страхового случая. 

Чем занимаются Data Science?

На комментарий о том, что, несмотря на массовое и прикладное распространение науки о данных, многие до сих пор часто не знают, чем занимаются люди, называющие себя Data Science, Алексей Драль ответил:

Здесь зависит от того, посвящены ли люди в это или нет. Если говорить простыми словами, то это современные методы математической статистики или «обучение машин» думать, выявлять, какие-то паттерны на основе прошлого.

В зависимости от сферы деятельности компании задачи data science (дата сайнс) будут немного отличаться, но основные этапы всегда схожи. Аналитику нужно точно знать, что нужно клиенту. Далее определяет, какую задачу нужно решить и как это сделать методами машинного обучения. После подготавливаются данные для анализа и ищутся критерии оценки, чтобы понять, насколько эффективна создаваемая модель. Начинается процесс программирования и тренировки модели.

Дмитрий Бугайченко продолжает тему:

Основная задача — понять, как выглядит проблема, с точки зрения бизнеса, и сформулировать ее в виде задачи, которая понятна алгоритму машинного обучения и дальше может быть решена машиной.

Специалисту нужно проводить много экспериментов и тестировать много гипотез, и какая из них сработает — изначально просто непонятно. В сфере финансов специалисты помогают оценивать заемщиков и предупреждать мошеннические схемы, а также их используют для прогноза спроса на наличные в банкоматах. В сфере строительства таких аналитиков задействуют для точного прогнозирования спроса на объект, для оценки рисков и предопределение поведения целевых клиентов. В сфере ЖКХ анализ помогает прогнозировать поломки оборудования, автоматизировать учет расхода ресурсов. В медицинской сфере анализ больших данных поможет врачам в части постановки диагнозов, а электронная карта пациентов — это то, чем пользуются врачи уже сейчас.

Зулия Лиокова присоединяется к беседе:

Работа Data Science позволяет достичь баланса спроса и предложения на рынке товаров. Но есть серьезный дефицит специалистов по машинному обучению.

Евгений Бурнаев резюмирует:

Сейчас в любой области, где есть данные, присутствует потребность что-то прогнозировать, потому что, если вы знаете прогноз и то, как он зависит от параметров, вы можете подкрутить эти параметры, чтобы получить более высокое качество. В современном мире это не конкурентное преимущество, это — будущее, которое уже наступило.

В дополнение к теме

Задачи специалиста по Data Science

Data Science (иногда для обозначения термина используется слово «datalogy») расшифровывается как наука о данных. Понятие подразумевает работу с большими объемами неструктурированной информации (например, метеоданными за определенный период, результатами спортивных соревнований, статистикой запросов в поисковых системах и пр.). Для выполнения качественного анализа, систематизации данных, составления прогнозов и прогнозной модели специалист (дата-сайентист) применяет методы машинного обучения и математическую статистику. Специалист в области Data Science выполняет ряд действий, важных для бизнес- и других процессов:

  • используя доступные методы, выстраивает модели, благодаря которым представители разных сфер, в частности науки, могут принимать правильные решения на том или ином этапе;
  • работает с любым объемом неструктурированных данных в любых областях (начиная от анализа метеорологических факторов, перемещения транспорта по тем или иным магистралям и заканчивая  исследованием финансовых операций, определением поведения интернет-пользователей и пр.);
  • предоставляет четкие и систематизированные данные, с помощью которых становятся понятны многие процессы и прогнозы.

Scientist работает по определенному алгоритму, в зависимости от поставленной задачи. Но в любом случае процесс делится на несколько этапов:

  • определяется цель, которую нужно достичь;
  • проводится оценка того, можно ли выполнить задание посредством методов машинного обучения или нужно использовать другие подходы;
  • подготавливаются данные для проведения анализа и подбираются критерии оценки (они помогут определить эффективность создаваемой модели);
  • программируется модель машинного обучения и определяется целесообразность ее использования в плане временных и финансовых затрат (на этом этапе иногда нужна помощь других специалистов, например, аналитика);
  •  созданная модель внедряется в определенный продукт либо цикл.
  • После этого scientists выполняют все необходимые действия, позволяющие «вести» модель, контролировать весь процесс и при надобности вносить коррективы.

А где обычно работает Data Scientist?

Сфера применения знаний в области Дата-Сайнс широкая. Помощь этого специалиста необходима:

  • В бизнесе. Здесь ограничений практически нет, так как речь идет о большем количестве направлений. Например, профессионал в Дата-Сайнс-сфере может создать алгоритмы, которые спрогнозируют спрос на продукты/услуги компании либо помогут понять, нужно ли развивать новое направление бизнеса.
  • Финансовых организациях. Это могут быть МФО, банки, разные фонды и пр., в которых специалист будет работать с большим количеством данных клиентов, определять целесообразность выдачи кредитов и предлагать наиболее выгодные решения.
  • Транспортных компаниях. С помощью используемых алгоритмов профессионал находит оптимальные решения для выстраивания лучших маршрутов, экономии топлива и времени на поездку, оптимизацию графиков работы водителей и пр.
  • ИТ-сфере. Дата-сайентист умеет разрабатывать оптимальные поисковые алгоритмы, создает онлайн-ботов, поисковые алгоритмы, системы искусственного интеллекта.
  • На производстве. С помощью программ можно определить, выйдет ли из строя оборудование и когда, какие могут прослеживаться дефекты продукции и пр.
  • В медицине. Каждый год появляются новые приборы и оборудование, которые помогают автоматически ставить диагноз, основываясь на определенных данных. Этому способствует использование scientific-метода, основанного на машинных алгоритмах.
  • Страховых организациях. С помощью машинных алгоритмов можно просто определить, с какой вероятностью возникнет страховой случай в той или иной сфере.
  • Сельском хозяйстве. Представители данной сферы могут заблаговременно узнать, каким будет урожай, какие необходимы средства и процедуры для его увеличения.
  • Биоинформатике. Можно определить расклад энергетических карт, вид организма и пр.

И это список можно продолжать бесконечно. Данная профессия сегодня широко востребована почти во всех сферах, так как правильные прогнозы, оценка рисков, систематизация данных нужны всегда и везде. Речь идет не только о большом бизнесе, государственной деятельности, но и о малоизвестных стартапах, научных организациях, где они помогают совершать важные открытия. А еще это простой способ зарабатывать хорошие деньги. Судя по последним данным, в России такой специалист (в зависимости от опыта,  умений и работодателя) может получать в среднем от 150 до 250 тыс. рублей и выше.

Чтобы начать осваивать профессию дата-сайентиста, можно пройти курсы в специализированных онлайн- или офлайн-школах. Как правило, занятия в них проводятся на должном уровне, поэтому для получения необходимых знаний и навыков много времени не понадобится.