Роль Аналитики и Инженера данных в организации
Познакомимся с предметом изучения, узнаем кто такой Data Engineer и что он делает, и как его еще называют. Главное, поймем, как он помогает бизнесу быть эффективней и зарабатывать деньги. Рассмотрим типовые архитектуры аналитических решений.
Рассмотрим пример решения для локальной аналитики. Познакомимся с базами данных и поймем их преимущество для работы с данными по сравнению с Excel/Google Sheets. Потренируемся на SQL, установим базу данных и загрузим в нее данные, потом будем использовать Excel/Google Sheets для визуализации данных.
Визуализация данных, дашборды и отчетность - Business Intelligence.
Познакомимся с BI инструментами, научимся использовать Tableau и Power BI. Разберемся с клиентской и серверной частью. Рассмотрим задачи и теорию визуализации данных и реальные примеры внедрения BI решений. А также познакомимся с методологией по созданию метрик - Pirate Metrics.
Интеграция данных и создание потоков данных (data piplelines)
При росте количества источников данных становится сложно вручную загружать и трансформировать данные. Именно для этих задач используются ETL решения. Так же мы рассмотрим разницу между ETL и ELT. Дополнительно рассмотрим рынок решений и потренируемся на Open Source решении, с помощью которого мы сможем загрузить данные в Redshift и автоматизировать этот процесс.
Облачные вычисления (Cloud Computing)
Узнаем, что кроется за понятием облачных вычислений, как они используются на западе и почему так популярны. Познакомимся с аналитическими решениями Amazon Web Services и Microsoft Azure. Рассмотрим реальные примеры миграции в облака.
Облачное Хранилище данных
Центр вселенной в аналитике обычно это хранилище данных или платформа данных. Как правило это аналитическое решение с MPP архитектурой и часто используется облачные решения. Мы познакомимся с одним из самых популярных решений Amazon Redshift и узнаем о других аналогах. Так же рассмотрим кейсы миграции традиционных решений в облака.
Знакомство с Apache Spark
Apache Spark является одним из самых популярных инструментов для Инженера Данных. Данный модуль мы посвятим знакомству с Apache Spark и рассмотрим его функциональность. Потренируемся создавать RDD и Data Frame, рассмотрим основные операции и кейсы использования.
Создание решения для Big Data с использованием Hadoop и Spark
Hadoop является флагманом решений Big Data. В данном модуле, мы попробуем решить задачу, которая не под силу традиционными инструментам ETL/DW, это поможет вам понять разницу между DW и BigData и вы точно будете знать, почему мы используем Hadoop. В качестве инструмента управления мы воспользуемся Spark который уже будет предустановлен на Amazon Elastic Map Reduce. В качестве упражнения, мы будем использовать PySpark, чтобы читать неструктурированные логи и извлекать из них ценную информацию.
Знакомство с понятием Озера Данных и его создание с помощью инструментов AWS
Существует много версий про назназначение Озера Данных и про его роль в Аналитической экосистеме. В данном модуле мы познакомимся с понятием Озера данных, его ролью в экосистеме, рассмотрим типовые архитектуры построения решений с использованием Озера Данных и/или Хранилища данных. В качестве решений будем использовать продукты AWS.
Решение задачи по стримингу данных.
Задачи Машинного Обучения глазами инженера данных
Лучшие практики инженера данных