НАУЧИТЕСЬ ПРАВИЛЬНО ГОТОВИТЬ ДАННЫЕ ЛЮБЫХ РАЗМЕРОВ И СЛОЖНОСТИ
Обучающие выборки для машинного обучения и красивые графики для отчётов не появляются сами собой: данные нужно собирать, хранить, валидировать и комбинировать между собой, быстро реагируя на изменения в их структуре.
ДЛЯ КОГО ЭТОТ КУРС:
ИНЖЕНЕР ДАННЫХ
Уже работаете с хранилищами данных, но хотите систематизировать знания и глубже погрузиться в актуальные технологии.
АНАЛИТИК ДАННЫХ
Постоянно взаимодействуете с базами данных, но хотите лучше разобраться в ETL-процессах и выйти на качественно новый уровень в аналитике.
BI-РАЗРАБОТЧИК
Занимаетесь развитием систем бизнес-аналитики, хотите освоить архитектуру современных хранилищ данных и научиться их проектировать.
BACKEND-РАЗРАБОТЧИК
Имеете опыт бэкенд-разработки и хотите применить его для решения задач, связанных с хранением и обработкой больших данных.
РАБОТАЙТЕ С ДАННЫМИ В ЛЮБЫХ СИСТЕМАХ
— Изучайте архитектуру хранилищ данных и подходы к их проектированию
— Сравнивайте на практике Big Data решения на базе Hadoop и реляционные MPP СУБД
— Учитесь работать с облаками и автоматизировать ETL-процессы с помощью Airflow
ПРОГРАММА КУРСА
1. РЕЛЯЦИОННЫЕ И MPP СУБД
Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.
2. АВТОМАТИЗАЦИЯ ETL-ПРОЦЕССОВ
ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.
3. BIG DATA
Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.
4. ПРОЕКТИРОВАНИЕ DWH
Data Warehouse — централизованное хранилище данных из разных источников. Познакомимся с его верхнеуровневой логической архитектурой, рассмотрим её основные компоненты и разберём на практике разные подходы к проектированию детального слоя DWH.
5. ОБЛАЧНОЕ ХРАНИЛИЩЕ
Рассмотрим облачные решения и инструменты для построения DWH и Data Lake. Познакомимся с Kubernetes и научимся применять его для работы с данными. Поработаем с облаком на практике, рассмотрим процесс установки и настройки JupyterHub и Spark в Kubernetes.
6. ВИЗУАЛИЗАЦИЯ ДАННЫХ
Рассмотрим основные принципы работы с данными с точки зрения их визуализации и научимся смотреть на данные глазами их потребителя. Познакомимся с Tableau — гибким и мощным BI-инструментом. Узнаем, как он взаимодействует с базами данных, и построим с его помощью интерактивный дашборд для мониторинга DWH платформы.
7. BIG ML
Познакомимся с теорией распределённого машинного обучения. Научимся работать с популярным модулем Spark ML и рассмотрим подходы к обучению и применению моделей на больших данных.
8. УПРАВЛЕНИЕ МОДЕЛЯМИ
В работе инженеры часто сталкиваются с подготовкой данных для обучения ML-моделей. Рассмотрим инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей.
9. УПРАВЛЕНИЕ ДАННЫМИ
На практике часто приходится иметь дело с разными данными и огромным числом интеграций и процессов, выполняющих над ними те или иные преобразования. Познакомимся с популярными подходами к управлению данными, обсудим инструменты для контроля качества данных и отслеживания их происхождения.
Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...
Новые складчины | страница 24
Категории
Страница 24 из 34

![[IMG]](https://skrinshoter.ru/s/260923/Mj6VVaG5.jpg?download=1&name=%D0%A1%D0%BA%D1%80%D0%B8%D0%BD%D1%88%D0%BE%D1%82-26-09-2023%2003:06:24.jpg)
![[IMG]](proxy14p.php?image=https%3A%2F%2Fi.ibb.co%2FzsN13VL%2Fscreenshot.png&hash=b7bc3a6cd73e4c8a295508674d576a53&v=4)
![[IMG]](proxy14p.php?image=https%3A%2F%2Fi.ibb.co%2FxM0tSF8%2Fscreenshot.png&hash=523cb343ded87aecbd8061eb9085781d&v=4)

![[IMG]](proxy14p.php?image=https%3A%2F%2Fi.ibb.co%2FrH3z64N%2Fscreenshot.png&hash=9724785cb428ad55a4e2c415df79fd0d&v=4)
![[IMG]](proxy14p.php?image=https%3A%2F%2Fi.ibb.co%2F5ssh61y%2Fscreenshot.png&hash=f42e9487a2ae297614c5e1ffd60ed249&v=4)