ORC in Hive/Spark — “анатомия” файла, индексация и фильтр Блума
ORC in Hive/Spark - “анатомия” файла, индексация и фильтр БлумаORC — это колоночный формат, то есть данные хранятся не по строкам (как в CSV), а по столбцам. Именно это даёт ему способность эффективно сжимать и читать только нужные колонки. Есть ещё встроенная индексация и фильтр Блума, которые позволяют не перелопа...
ORC in Hive/Spark - “анатомия” файла, индексация и фильтр БлумаORC — это колоночный формат, то есть данные хранятся не по строкам (как в CSV), а по столбцам. Именно это даёт ему способность эффективно сжимать и читать только нужные колонки. Есть ещё встроенная индексация и фильтр Блума, которые позволяют не перелопачивать лишние данные.Давайте заглянем под капот и посмотрим, как устроен ORC-файл, зачем там индексы и как фильтр Блума ускоряет поиск.I. Анатомия файла
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Раньше я не писал на Хабр, а теперь у меня появился Телеграм-канал и я пишу об очень важной новости про OpenAI
Привет, Хабр! 👋 Долго думал, стоит ли писать этот пост, ведь раньше я вообще не писал на Хабр. Да что там — я даже не читал его особо. Но времена меняются, как и люди. Раньше я ...
Актуальная к 1-му апреля информация о паллиативной помощи
Актуальная к 1-му апреля информация о паллиативной помощиВсем привет! Я до этого писал статью про паллиативную помощь, настало время её немного дополнить актуальной на 1-е апрел...
Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского
Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ...
Протоколы, чтобы ИИ-агенты нашли общий язык
Системы ИИ уже управляют сетевой инфраструктурой. Например, в нашей PCEF-системе методы машинного обучения помогают находить аномалии в работе сети и «изолировать» подозрительны...
Топ-6 нейросетей для генерации и редактирования изображений
Давайте начистоту. У каждого из нас бывали моменты, когда в голове рождается идеальная картинка - яркая, сочная, именно такая, какая нужна. А потом начинается: стоковые фотограф...
Как «несуществующие» фотоны влияют на сверхпроводимость
Сверхпроводники давно вышли за пределы лабораторий и стали частью техники — от мощных магнитов в ускорителях до чувствительных датчиков в медицине. Их главное свойство, пропуска...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Раньше я не писал на Хабр, а теперь у меня появился Телеграм-канал и я пишу об очень важной новости про OpenAI
Привет, Хабр! 👋 Долго думал, стоит ли писать этот пост, ведь раньше я вообще не писал на Хабр. Да что там — я даже не читал его особо. Но времена меняются, как и люди. Раньше я ...
Актуальная к 1-му апреля информация о паллиативной помощи
Актуальная к 1-му апреля информация о паллиативной помощиВсем привет! Я до этого писал статью про паллиативную помощь, настало время её немного дополнить актуальной на 1-е апрел...
Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского
Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ...
Протоколы, чтобы ИИ-агенты нашли общий язык
Системы ИИ уже управляют сетевой инфраструктурой. Например, в нашей PCEF-системе методы машинного обучения помогают находить аномалии в работе сети и «изолировать» подозрительны...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Раньше я не писал на Хабр, а теперь у меня появился Телеграм-канал и я пишу об очень важной новости про OpenAI
Привет, Хабр! 👋 Долго думал, стоит ли писать этот пост, ведь раньше я вообще не писал на Хабр. Да что там — я даже не читал его особо. Но времена меняются, как и люди. Раньше я ...
Актуальная к 1-му апреля информация о паллиативной помощи
Актуальная к 1-му апреля информация о паллиативной помощиВсем привет! Я до этого писал статью про паллиативную помощь, настало время её немного дополнить актуальной на 1-е апрел...
Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского
Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ...
Протоколы, чтобы ИИ-агенты нашли общий язык
Системы ИИ уже управляют сетевой инфраструктурой. Например, в нашей PCEF-системе методы машинного обучения помогают находить аномалии в работе сети и «изолировать» подозрительны...