Курс Введение в Инжиниринг Данных и Аналитику

вход в профессию
Первый поток пилотный - БЕСПЛАТНО
Преподаватель - Дмитрий Аношин
# Data Engineer в Amazon, Alexa AI

# 10+ лет опыта в Аналитике (Москва, Европа, Канада и США)

# Организатор Vancouver Tableau User Group, Snowflake Canada User Group, Amazon Tableau User Group и Amazon BI Tech Talks

# Лектор в University of Victoria - Cloud Computing

# Автор 6 книг по Аналитики

# Развивает консалтинг в Северной Америке - rockyourdata.cloud

# Спикер на конференциях и митапах в Северной Америке и России

# Курсы создаются на West Coast ⛵️ ⛵️ ⛵️ ⛵️
Для всего мира, with love ❤️
Что Вас ждет?
коротко о курсе...
DATALEARN
Программа курса://
Модуль 1
Роль Аналитики и Инженера данных в организации
Познакомимся с предметом изучения, узнаем кто такой Data Engineer и что он делает, и как его еще называют. Главное, поймем, как он помогает бизнесу быть эффективней и зарабатывать деньги. Рассмотрим типовые архитектуры аналитических решений.
Модуль 2
Базы Данных и SQL
Рассмотрим пример решения для локальной аналитики. Познакомимся с базами данных и поймем их преимущество для работы с данными по сравнению с Excel/Google Sheets. Потренируемся на SQL, установим базу данных и загрузим в нее данные, потом будем использовать Excel/Google Sheets для визуализации данных.
Модуль 3
Визуализация данных, дашборды и отчетность - Business Intelligence.
Познакомимся с BI инструментами, научимся использовать Tableau и Power BI. Разберемся с клиентской и серверной частью. Рассмотрим задачи и теорию визуализации данных и реальные примеры внедрения BI решений. А также познакомимся с методологией по созданию метрик - Pirate Metrics.
Модуль 4
Интеграция данных и создание потоков данных (data piplelines)
При росте количества источников данных становится сложно вручную загружать и трансформировать данные. Именно для этих задач используются ETL решения. Так же мы рассмотрим разницу между ETL и ELT. Дополнительно рассмотрим рынок решений и потренируемся на Open Source решении, с помощью которого мы сможем загрузить данные в Redshift и автоматизировать этот процесс.
Модуль 5
Облачные вычисления (Cloud Computing)
Узнаем, что кроется за понятием облачных вычислений, как они используются на западе и почему так популярны. Познакомимся с аналитическими решениями Amazon Web Services и Microsoft Azure. Рассмотрим реальные примеры миграции в облака.
Модуль 6
Облачное Хранилище данных
Центр вселенной в аналитике обычно это хранилище данных или платформа данных. Как правило это аналитическое решение с MPP архитектурой и часто используется облачные решения. Мы познакомимся с одним из самых популярных решений Amazon Redshift и узнаем о других аналогах. Так же рассмотрим кейсы миграции традиционных решений в облака.
Модуль 7
Знакомство с Apache Spark
Apache Spark является одним из самых популярных инструментов для Инженера Данных. Данный модуль мы посвятим знакомству с Apache Spark и рассмотрим его функциональность. Потренируемся создавать RDD и Data Frame, рассмотрим основные операции и кейсы использования.
Модуль 8
Создание решения для Big Data с использованием Hadoop и Spark
Hadoop является флагманом решений Big Data. В данном модуле, мы попробуем решить задачу, которая не под силу традиционными инструментам ETL/DW, это поможет вам понять разницу между DW и BigData и вы точно будете знать, почему мы используем Hadoop. В качестве инструмента управления мы воспользуемся Spark который уже будет предустановлен на Amazon Elastic Map Reduce. В качестве упражнения, мы будем использовать PySpark, чтобы читать неструктурированные логи и извлекать из них ценную информацию.
Модуль 9
Знакомство с понятием Озера Данных и его создание с помощью инструментов AWS
Существует много версий про назназначение Озера Данных и про его роль в Аналитической экосистеме. В данном модуле мы познакомимся с понятием Озера данных, его ролью в экосистеме, рассмотрим типовые архитектуры построения решений с использованием Озера Данных и/или Хранилища данных. В качестве решений будем использовать продукты AWS.
Модуль 10
Решение задачи по стримингу данных.
#yourdatahome
Модуль 11
Задачи Машинного Обучения глазами инженера данных
Модуль 12
Лучшие практики инженера данных
DATALEARN
DATALEARN
DATALEARN
DATALEARN
DATALEARN
DATALEARN
DATALEARN
DATALEARN
DATALEARN
DATALEARN
DATALEARN
Для кого этот курс?!
Изучите инструменты и станете более востребованными специалистами
Аналитики
Сможете структуризировать данные, увеличить эффективность рекламных каналов
Маркетологи
Сможете анализировать продажи в разных разрезах и в динамике
Руководители
Построите систему аналитики и найдете точки роста для своей компании
Предприниматели
Сможете сменить специализацию и зарабатывать больше, ваши технические знания упростят обучение
Инженеры
Загружать, анализировать данные, строить отчёты
Финансисты
и конечно же для:
Кто не слышал про данные и аналитику
НОВИЧКИ
|
Будет точно: BI / DW / ETL / Big data
Использовать будем:
- Excel, notepad
- SQL databases Postgress/Mysql
- DW (sql database), Amazon Redshift (Cloud MPP DW)
- ETL Pentaho DI
- ELT Matillion (возможно) или Amazon Glue
- BigData Elastic Map Reduce (Hadoop), Hive, Presto, Athena, Spectrum
- BI Tableau (или Power BI)
Made on
Tilda