Основы работы с Apache Spark в экосистеме Arenadata Hadoop
Ваша корзина пуста
Сумма: 0 руб.

Основы работы с Apache Spark в экосистеме Arenadata Hadoop

О курсе

Основы работы с Apache Spark в экосистеме Arenadata Hadoop

  • Номер курса: ADH
  • Вендор: Arenadata

Курс будет интересен разработчикам, аналитикам и архитекторам в области Data Sciencе, которые хотят получить знания и опыт по основам разработки Apache Spark на языке Scala в экосистеме продуктов Arenadata. Слушатели курса научатся использовать современные инструменты для разработки (IDE, интерактивные), сборки (Maven, sbt) и запуска приложений Apache Spark на языке программирования Scala (Python, Java), включая различные режимы и способы размещения приложений в Arenadata Hadoop.

Расписание и цены
Форма обучения Академ. часы Ближайшая группа Цена
Частные лица Организации
Дистанционная 32
15.12.2025
150 000 руб. 150 000 руб.
Этот курс набирает желающих участников. Отправьте заявку на участие, а когда наберётся достаточное количество, мы с вами свяжемся.
Заказать обучение
Программа курса
 Модуль 1. Обзор экосистемы Arenadata Enterprise Data Platform (EDP).

Экосистема Arenadata Hadoop (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.

Модуль 2. Apache Spark: работа с большими данными.

Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet..
Настройка окружения и запуск приложений:
  o инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt)
  o среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala);
  o способы запуска программ (client/cluster).
Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции.
Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.

Итоговое тестирование.

Тесты к курсу

Раздел не найден.