Data Science для менеджеров
15 999
Click to order
Total: 
Промокод
Программа курса
Урок 1. Основные понятия и определения
Big Data. Парадигмы баз данных. SQ, NoSQL, MapReduce. Business Ingelligence. Machine Learning, или машинное обучение. Задачи классификации и регрессии. Data Mining. Data Science. Data Analytics. Artificial Intelligence, или искусственный интеллект. Тест Тьюринга.
Урок 2. Кейсы внедрения data science
Рекомендательные системы: онлайн, офлайн, холодный старт. Персонализация, сегментация, поиск. Прогнозирование спроса. Логистика и поставки. Расположение магазинов. Антифрод. Голосовые и чат-боты. Настольные и видеоигры.
Урок 3. Культура работы с данными
First-, second-, third-party data. Техническая, корпоративная и юридическая составляющие. Примеры последствий плохой культуры. 7 правил работы с данными. Правила обработки данных. ETL. Какие данные нужно собирать. Оценка эффективности данных. Качество данных и его оценка. Следствия низкого качества данных. Что важнее – данные или алгоритмы?
Урок 4. Data-driven подход к принятию решений
Аналитика. Как принимаются решения. Метрики, примеры. Атомарные и композиционные метрики. Иерархия метрик. Проверка результатов эксперимента на данных. Этапы data-driven подхода. Внедрение data-driven подхода: пример, рекомендации. Отчеты. Когда data-driven подход не работает.
Урок 5. Эксперименты и AB-тесты
Принятие решений на основе теории вероятности. Базовые идеи теории вероятности и математической статистики. Случайные величины: типы, числовые характеристики, примеры. Нормальное распределение. Центральная предельная теорема. Проверка гипотез. Ошибки первого и второго рода. Статистический критерий. Статистическая значимость, p-value. Проверка продуктовых гипотез. HADI-цикл. Что важно при формировании гипотез. Способы оценки решений. Контрольные метрики. AB-тесты. Как провести AB-тест. Ошибки при AB-тестировании.
Урок 6. Постановка задачи машинного обучения
Обучение с учителем: классификация, регрессия, ранжирование, прогнозирование временных рядов. Обучающая выборка. Обобщающая способность. Обучение без учителя: кластеризация, поиск ассоциативных правил. Частичное обучение. 3 способа представления задачи ранжирования. Обучение с подкреплением. Кейсы применения различных постановок задач.
Урок 7. Метрики оценки качества моделей машинного обучения
Регрессия: MAE, MSE, RMSE, MedAE. Прогнозирование временных рядов: оценки в конкретный момент, взвешенные оценки. Классификация: матрица ошибок, accuracy, recall, precision, F1-мераб AUC-ROC, ROC-кривые. Ранжирование: recall@n, precision@n, MAP, NDCG@n, функция релевантности. Кластеризация: мера близости, экспертные оценки. Специальные метрики. Какую метрику выбрать. Составление собственных метрик. Практика.
Урок 8. Алгоритмы машинного обучения
Метод наименьших квадратов. Решающие деревья. Ансамбли. Случайный лес (random forest). Гранидентный бустинг. Стекинг. Нейронные сети: принцип работы, функция активации. Метод K-ближайших соседей. Преимущества и недостатки алгоритмов. Сферы их применения.
Урок 9. Валидация и интерпретация моделей
Валидация моделей: недообучение, переобучение, обобщающая способность. Процедура валидации: обучающая, отложенная, тестовая выборки, фолды. Утечка данных (leak). Валидация временного ряда. "Протухание" моделей и методы борьбы с ним. Валидация и AB-тесты. Как бизнес-заказчики могут помочь повысить качество моделей. Интерпретация моделей: корреляция, нормирование, удаление, группировка признаков. Вектор Шепли. Интерпретация изображений.
Урок 10. Внедрение data science в бизнес
Роли специалистов в проекте: ETL специалист, data инженер, специалист по базам данных, архитектор, аналитик, data scientist, BI специалист. Управление data science проектом. Чего чаще всего не хватает бизнесу для успешного запуска data science проектов. Как искать и нанимать специалистов по data science. Как оценивать прибыль от data science проектов. Как работает специалист по data science. Когда не надо внедрять data science. Как "хакнуть" алгоритм.