Курс Введение в Инжиниринг Данных и Аналитику

вход в профессию

Первый поток пилотный - БЕСПЛАТНО

Преподаватель - Дмитрий Аношин

# Data Engineer в Amazon, Alexa AI

# 10+ лет опыта в Аналитике (Москва, Европа, Канада и США)

# Организатор Vancouver Tableau User Group, Snowflake Canada User Group, Amazon Tableau User Group и Amazon BI Tech Talks

# Лектор в University of Victoria - Cloud Computing

# Автор 6 книг по Аналитики

# Развивает консалтинг в Северной Америке - rockyourdata.cloud

# Спикер на конференциях и митапах в Северной Америке и России

# Курсы создаются на West Coast ⛵️ ⛵️ ⛵️ ⛵️
Для всего мира, with love ❤️

ЗАПИСАТЬСЯ

Что Вас ждет?

коротко о курсе...

DATALEARN

Программа курса://

Модуль 1

Роль Аналитики и Инженера данных в организации

Познакомимся с предметом изучения, узнаем кто такой Data Engineer и что он делает, и как его еще называют. Главное, поймем, как он помогает бизнесу быть эффективней и зарабатывать деньги. Рассмотрим типовые архитектуры аналитических решений.

Модуль 2

Базы Данных и SQL

Рассмотрим пример решения для локальной аналитики. Познакомимся с базами данных и поймем их преимущество для работы с данными по сравнению с Excel/Google Sheets. Потренируемся на SQL, установим базу данных и загрузим в нее данные, потом будем использовать Excel/Google Sheets для визуализации данных.

Модуль 3

Визуализация данных, дашборды и отчетность - Business Intelligence.

Познакомимся с BI инструментами, научимся использовать Tableau и Power BI. Разберемся с клиентской и серверной частью. Рассмотрим задачи и теорию визуализации данных и реальные примеры внедрения BI решений. А также познакомимся с методологией по созданию метрик - Pirate Metrics.

Модуль 4

Интеграция данных и создание потоков данных (data piplelines)

При росте количества источников данных становится сложно вручную загружать и трансформировать данные. Именно для этих задач используются ETL решения. Так же мы рассмотрим разницу между ETL и ELT. Дополнительно рассмотрим рынок решений и потренируемся на Open Source решении, с помощью которого мы сможем загрузить данные в Redshift и автоматизировать этот процесс.

Модуль 5

Облачные вычисления (Cloud Computing)

Узнаем, что кроется за понятием облачных вычислений, как они используются на западе и почему так популярны. Познакомимся с аналитическими решениями Amazon Web Services и Microsoft Azure. Рассмотрим реальные примеры миграции в облака.

Модуль 6

Облачное Хранилище данных

Центр вселенной в аналитике обычно это хранилище данных или платформа данных. Как правило это аналитическое решение с MPP архитектурой и часто используется облачные решения. Мы познакомимся с одним из самых популярных решений Amazon Redshift и узнаем о других аналогах. Так же рассмотрим кейсы миграции традиционных решений в облака.

Модуль 7

Знакомство с Apache Spark

Apache Spark является одним из самых популярных инструментов для Инженера Данных. Данный модуль мы посвятим знакомству с Apache Spark и рассмотрим его функциональность. Потренируемся создавать RDD и Data Frame, рассмотрим основные операции и кейсы использования.

Модуль 8

Создание решения для Big Data с использованием Hadoop и Spark

Hadoop является флагманом решений Big Data. В данном модуле, мы попробуем решить задачу, которая не под силу традиционными инструментам ETL/DW, это поможет вам понять разницу между DW и BigData и вы точно будете знать, почему мы используем Hadoop. В качестве инструмента управления мы воспользуемся Spark который уже будет предустановлен на Amazon Elastic Map Reduce. В качестве упражнения, мы будем использовать PySpark, чтобы читать неструктурированные логи и извлекать из них ценную информацию.

Модуль 9

Знакомство с понятием Озера Данных и его создание с помощью инструментов AWS

Существует много версий про назназначение Озера Данных и про его роль в Аналитической экосистеме. В данном модуле мы познакомимся с понятием Озера данных, его ролью в экосистеме, рассмотрим типовые архитектуры построения решений с использованием Озера Данных и/или Хранилища данных. В качестве решений будем использовать продукты AWS.

Модуль 10

Решение задачи по стримингу данных.

ЗАПИСАТЬСЯ

#yourdatahome

Модуль 11

Задачи Машинного Обучения глазами инженера данных

Модуль 12

Лучшие практики инженера данных

DATALEARN

Для кого этот курс?!

Изучите инструменты и станете более востребованными специалистами

Аналитики

Сможете структуризировать данные, увеличить эффективность рекламных каналов

Маркетологи

Сможете анализировать продажи в разных разрезах и в динамике

Руководители

Построите систему аналитики и найдете точки роста для своей компании

Предприниматели

Сможете сменить специализацию и зарабатывать больше, ваши технические знания упростят обучение

Инженеры

Загружать, анализировать данные, строить отчёты

Финансисты

и конечно же для:

Кто не слышал про данные и аналитику

НОВИЧКИ

Будет точно: BI / DW / ETL / Big data

Использовать будем:

- Excel, notepad

- SQL databases Postgress/Mysql

- DW (sql database), Amazon Redshift (Cloud MPP DW)

- ETL Pentaho DI

- ELT Matillion (возможно) или Amazon Glue

- BigData Elastic Map Reduce (Hadoop), Hive, Presto, Athena, Spectrum

- BI Tableau (или Power BI)

ЗАПИСАТЬСЯ