Основы работы с Apache Spark в экосистеме Arenadata Hadoop
Ваша корзина пуста
Сумма: 0 руб.

Основы работы с Apache Spark в экосистеме Arenadata Hyperwave

О курсе

Основы работы с Apache Spark в экосистеме Arenadata Hyperwave

  • Номер курса: ADH
  • Вендор: Arenadata

Курс будет интересен разработчикам, аналитикам и архитекторам в области Data Sciencе, которые хотят получить знания и опыт по основам разработки Apache Spark на языке Scala в экосистеме продуктов Arenadata. Слушатели курса научатся использовать современные инструменты для разработки (IDE, интерактивные), сборки (Maven, sbt) и запуска приложений Apache Spark на языке программирования Scala (Python, Java), включая различные режимы и способы размещения приложений в Arenadata Hadoop.

Расписание и цены
Форма обучения Академ. часы Ближайшая группа Цена
Частные лица Организации
Дистанционная 32
08.06.2026
выбрать другую дату
161 040 руб. 161 040 руб.
Этот курс набирает желающих участников. Отправьте заявку на участие, а когда наберётся достаточное количество, мы с вами свяжемся.
Заказать обучение
Программа курса
  
  1. Модуль 1. Обзор экосистемы Arenadata Enterprise Data Platform (EDP).
  • Экосистема Arenadata Hyperwave (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
  • Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.
  1. Модуль 2. Apache Spark: работа с большими данными.
  • Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet..
  • Настройка окружения и запуск приложений:
    • инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt)
    • среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala);
    • способы запуска программ (client/cluster).
  • Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции.
  • Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
  • Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
  • Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
  • Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
  • Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
  • MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.

·          GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.

Итоговое тестирование

Тесты к курсу

Раздел не найден.