News Grower

Независимое покрытие AI, стартапов и технологий.

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Pytho...

Автор: andreyVarlamov (Data Sapience) Оригинальный источник
Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов.Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику.В данной публикации мы, команда вендора Data Sapience, разберем возможности Spark scripting на практике.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисле...

Децентрализованная оркестрация на RabbitMQ вместо Apache Camel

В этой статье мы расскажем о библиотеке оркестрации обработки данных, которая использует RabbitMQ как децентрализованный механизм передачи объектов между микросервисами. Ее зада...

Google выпустила семейство открытых моделей Gemma 4 с поддержкой 140 языков и лицензией Apache 2.0

Google выпустила семейство открытых моделей Gemma 4 с поддержкой 140 языков и лицензией Apache 2.0

Компания Google представила четыре открытые модели Gemma 4, созданные на основе технологий модели Gemini 3, выпущенной в конце прошлого года. Модели различаются количеством пара...

Apache Superset — боремся с фильтрами по дате. Часть 2

Apache Superset — боремся с фильтрами по дате. Часть 2

В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный ...

CSV в Spark: Искусство правильной загрузки данных

CSV в Spark: Искусство правильной загрузки данных

В этой статье мы разберём, как правильно загружать CSV в Apache Spark — распределённую вычислительную систему, ставшую стандартом для обработки больших данных. Это первый и самы...

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деград...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисле...

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Книга предлагает практическое руководство по внедрению архитектуры медальона (bronze, silver, gold уровни) для эффективной работы с большими данными, чтобы ...

RANK() vs DENSE_RANK(): ошибка, которая ломает топ-N в проде

RANK() vs DENSE_RANK(): ошибка, которая ломает топ-N в проде

При работе с данными в SQL рано или поздно возникает задача ранжирования: топ-5 продуктов по продажам, рейтинг сотрудников по KPI, распределение клиентов по категориям.На первый...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника

Оказание проактивных сервисных услуг и проверка HealthCare

Информационная безопасность в классическом понимании часто работает как экстренная служба: «горит — тушим, не горим — отдыхаем». Но современная ИТ-инфраструктура слишком сложна ...

Зачем ИИ-генератору презентаций собственный редактор

Зачем ИИ-генератору презентаций собственный редактор

Привет, Хабр. На связи тим-лид разработки Кэмпа. Это третья статья цикла о релизе нового генератора презентаций в Кэмпе. Ранее разбирали, почему первая версия не взлетела, и что...

Как мы построили интегрированное планирование для фармхолдинга, растущего в 6 раз быстрее рынка

Как мы построили интегрированное планирование для фармхолдинга, растущего в 6 раз быстрее рынка

Привет, Хабр! Не мне вам рассказывать, что мы живем в эпоху цифровизации производств — вы наверняка читали статьи о «тяжёлой цифре». Но история цифровизации, которой я хочу поде...