Специалист по Data Science должен глубоко разбираться в теории статистических методов и алгоритмов машинного обучения, чтобы работать с большим объёмом данных. При этом для эффективной работы профессионал должен много практиковаться. Отличный способ практики — соревнования. GeekBrains запускает курс «Спортивный Data Science», на котором студенты научатся участвовать в состязаниях по анализу данных и машинному обучению.
Что такое спортивный Data Science
Это соревнования, где участники решают предложенные задачи, основанные на реальных кейсах и проблемах — социальные или из сферы бизнеса. За короткое время нужно найти лучшее решение.
Такие соревнования по анализу данных и машинному обучению проходят в онлайн- и офлайн-форматах. Зачастую это командные состязания, которые проходят в несколько этапов. Они широко распространены как в России, так и за рубежом.
Соревнования проводятся для людей с разным уровнем компетенций. На некоторых нет ограничений: могут участвовать студенты и новички в профессии. В других же от участников требуется определённый уровень знаний в машинном обучении и опыт работы с большими объёмами данных.
Подобные соревнования по Data Science — это отличная возможность попрактиковаться на реальных задачах, получить ценный опыт, а также прокачать навыки. При этом есть и победители, и призы. На российских хакатонах и чемпионатах призовой фонд обычно составляет от миллиона рублей и выше.
Есть и другая мотивация участвовать. Например, на платформе Kaggle или на соревновании KDD Cup участники решают задачи, связанные с социальными проектами и проблемами. Например, темой может быть борьба с загрязнением воздуха, технологии исследования ВИЧ, прогнозирование загрузки автомагистралей. Иногда организаторы предлагают победителям в обмен на призовой фонд получить лицензию на их разработку, созданную в ходе соревнования: алгоритм, программное обеспечение и интеллектуальную собственность.
Так что спортивный Data Science — это ещё и возможность внести свой вклад в развитие технологий.Наконец, соревнования по Data Science — это возможность зарекомендовать себя как профессионала. Многие организации — Google, Intel, Mercedes Benz, Mail.ru Group, Высшая школа экономики и другие — устраивают соревнования в том числе для того, чтобы присмотреть будущих сотрудников среди участников.
Что будет на курсе
Курс «Спортивный Data Science» предназначен для тех, кто уже знаком с профессией. Интенсив научит создавать высококлассные решения в условиях конкуренции. Особое внимание уделяется практическому использованию методов машинного обучения.
Для обучения на курсе нужно обязательно знать:
- Математику на уровне DS-курсов.
- Язык программирования Python и классические DS-библиотеки: NumPy, Pandas, Matplotlib, Sklearn;
- Как работают классические алгоритмы машинного обучения: линейные модели, деревья решений, «случайный лес» и градиентный бустинг.
«Мы будем решать две параллельные задачи на курсе: во-первых, постараемся систематизировать знания студентов, а также обогатить их более современными и комплексными подходами к решению типичных задач анализа данных. Эти подходы они смогут использовать как в соревнованиях, так и в любых индустриальных проектах по анализу данных. Во-вторых, мы постараемся снизить порог входа в соревнования для участников курса», — комментирует программу преподаватель курса Никита Варганов.
За три месяца обучения студенты узнают о популярных алгоритмах, которые помогут в соревнованиях на табличных данных: CatBoost, LightGBM, XGBoost. Мы разберём разницу между переобучением в реальном (промышленном) проекте по анализу данных и переобучением в соревновании по анализу данных. Студенты узнают, какой вид метаинформации генерирует каждый эксперимент, почему важно её сохранять и какие инструменты можно использовать, чтобы упрощать версионирование. Слушатели также изучат подходы к отбору признаков и интерпретации моделей машинного обучения и познакомятся с ансамблированием.
На курсе студенты научатся:
- выполнять разведывательный анализ данных — Exploration Data Analysis;
- составлять дорожную карту, планируя использование алгоритмов на соревновании;
- предварительно обрабатывать данные и улучшать качество модели за счёт генерации признаков;
- оптимизировать гиперпараметры — это дополнительный способ повысить качество моделей.
Занятия проходят раз в неделю в формате онлайн-лекций, где краткая, но полезная теория совмещается с решением упражнений. Также на курсе предусмотрены консультации с разбором домашних заданий.
Во время курса студенты примут участие в трёх соревнованиях. Первое — вместе с преподавателем, в онлайне: нужно будет решить задачу по обнаружению мошенничества. И два соревнования — в качестве домашних заданий: от простой задачи по вычислению лояльных клиентов до кредитного скоринга (такая задача по составу данных максимально похожа на кейс из индустрии).
Преподаватель курса — Никита Варганов — Senior Data Scientist в Сбербанке. Его знакомство с профессией началось с изучения онлайн-курсов по DS на платформе Coursera. Как и большинству слушателей онлайн-курсов, ему не хватало практики и умения решать задачи.
«Я изначально планировал участвовать в соревнованиях, но, как и многие, считал, что буду готов к ним, только когда пройду все курсы по DS и прочту все книги по анализу данных. Но чуть позже я решил отбросить страхи и начать решать задачи, а с деталями разбираться уже по ходу. И часто участвовал в соревнованиях с 2017 до 2020 года.
Моим первым проектом, как и для многих, была задача, где нужно спрогнозировать выживание пассажиров „Титаника“. Набив руку, я стал участвовать в соревнованиях на платформе MLBootChamps, а потом и на Kaggle. Участие и хорошие результаты усилили моё резюме, упростили интервью и позволили получить работу, которая мне нравилась».
Что в итоге обучения
Окончив курс, студенты смогут участвовать в соревнованиях по анализу данных на российских площадках и состязаниях на табличных данных на Kaggle. И получат навыки, которые позволят улучшать качество моделей и DS-проектов в индустрии.
Только в 2021 году пройдут сразу несколько крупных соревнований: Changellenge >> Cup IT, IDAO — International Data Analysis Olympiad, Data Fusion Contest, SberCode.
Студенты получат электронные сертификаты и удостоверения о повышении квалификации (установленного образца), которые можно приложить к портфолио и показать работодателю.
Основа любой профессии — это знания и практический опыт. Прокачать свои навыки в Data Science и получить практику в спортивных соревнованиях вы можете на курсе спортивного Data Science в GeekBrains.