Модуль 3. «Загрузка и форматы данных (Data Ingestion)». Занятие 11. Распределенные файловые системы. Принципы работы распределенных файловых систем Структура кластера HDFS Тонкости настройки HDFS - конфигурация, защита, обеспечение отказоустойчивости Занятие 12. Инструменты выгрузки данных из сторонних систем - 1 часть. Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd, Debezium, logstash Практические примеры загрузки данных из сервисных баз данных Занятие 13. Обучение моделей. ML. Пример построения модели Занятие 14. ML модели в Production. Использование Flask приложение и REST API для создания сервиса ML Применение Docker контейнеров для развертывания ML код Домашнeе заданиe № 4. Обучение и вывод модели ML.