Модуль 1. Обзор экосистемы Arenadata Enterprise Data Platform (EDP).
• Экосистема Arenadata Hadoop (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
• Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.
Модуль 2. Apache Spark: работа с большими данными.
• Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet..
• Настройка окружения и запуск приложений:
o инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt)
o среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala);
o способы запуска программ (client/cluster).
• Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции.
• Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
• Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
• Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
• Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
• Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
• MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
• GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.
Итоговое тестирование.