Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
568 photos
3 videos
2 files
2.9K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты моей работы каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.


Читать: https://habr.com/ru/companies/wildberries/articles/972082/

#ru

@big_data_analysis | Другие наши каналы
StarRocks 4.0: FlatJSON — делаем запросы к JSON столь же эффективными, как к колоночному хранению

Статья объясняет, как StarRocks 4.0 делает запросы к JSON почти столь же быстрыми, как к нативным столбцам. FlatJSON на этапе загрузки «колоннизирует» частые поля и задействует индексы (включая ZoneMap), словарное кодирование и Global Dictionary, а также Late Materialization. В результате логовая, e‑commerce и IoT‑аналитика работает в реальном времени без тяжёлого ETL.


Читать: https://habr.com/ru/articles/973166/

#ru

@big_data_analysis | Другие наши каналы
От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.


Читать: https://habr.com/ru/articles/973230/

#ru

@big_data_analysis | Другие наши каналы
Предвидеть, чтобы предотвратить: как анализ трендов помогает избегать аварий

Как с помощью математической статистики мы ищем тренды в промышленных данных, предотвращая инциденты и аварии.


Читать: https://habr.com/ru/articles/973638/

#ru

@big_data_analysis | Другие наши каналы
Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией

Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map, Shuffle и Reduce с ленивыми вычислениями через Iterator, а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.


Читать: https://habr.com/ru/articles/966986/

#ru

@big_data_analysis | Другие наши каналы
Как понять, чего хочет заказчик?

Всегда, когда речь идет и разработке отчётов, дашбордов,витрин данных, в принципе любой системы, сначала нужно сформулировать требования совместно с бизнес-подразделениями. Я Кристина Проскурина, руковожу управлением бизнес-анализа данных в РСХБ.Цифра. В этой статье расскажу, как выглядят основные этапы процесса сбора и формирования требований.


Читать: https://habr.com/ru/companies/rshb/articles/974404/

#ru

@big_data_analysis | Другие наши каналы
Выбор российского ETL-инструмента в 2025 и чек-лист

Привет!

Перед вами новое исследование, посвящённое одной из ключевых технологий управления данными — процессам извлечения, преобразования и загрузки данных (ETL). Оно стало логическим продолжением первого обзора рынка ETL-решений, выпущенного нашей командой три года назад.

За это время многое изменилось. Если в 2022-м рынок опирался на зарубежные платформы, то сегодня акценты сместились в сторону отечественных продуктов. Причины очевидны: уход иностранных вендоров, трудности с продлением лицензий, обновлениями и поддержкой. Импортозамещение из формальности превратилось в стратегическую задачу, а потребность в надёжных российских инструментах — в вопрос технологической безопасности.

Одновременно усилились и глобальные вызовы: рост объёмов данных, переход бизнеса к моделям прогнозной аналитики и управлению на основе данных. ETL-системы в этой экосистеме занимают фундаментальное место — именно они превращают разрозненные источники в согласованный поток информации, на котором строятся аналитика, модели машинного обучения и управленческие решения.


Читать: https://habr.com/ru/articles/974502/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как же лень работать рутинку в AD

Не так давно я поймал себя на мысли, что работа в Altium Designer перестала "доставлять".

Толи это произошло после ролика, где нейросетью сгенерировали некую плату и "скоро так будет со всеми" толи очередной кризис на фоне... Возраст вроде рановато, еще год запаса...
Короче раз уж первые 40 лет детства самые сложные в жизни мужчины то наверно спишу на ребячество и инфантилизм.

Итак! подоплека простая. Мне лень склеивать локальные библиотеки! На этот факт повлияла работа в АО Лазерные системы с уважаемыми людьми, которые внедрили Союз PLM от КБ 2.0 (если все верно помню) и за год плодотворной отладки системы... я убедил себя в том, что работать нужно не 12 часов, а головой!

Внезапное, однако, озарение. И так уж сложилось, что моя супруга пожелала съехать из квартиры в Санкт-Петербурге в другую. В квартиру в Москве! И вот мы уже в Златоглавой и белокаменной, кайфуем и переезжаем с района в район чтобы прочувствовать WIBES и подобрать себе по душе местечко. Работу нашел как раз для души в RQC в хорошей компании, занимающейся лидарами как и ЛС (Laser systems).
Нука-нука, что там у тебя...

Читать: https://habr.com/ru/articles/974662/

#ru

@big_data_analysis | Другие наши каналы
Как продавать промышленное оборудование в кризис

Как возникает продажа в промышленном b2b-секторе? Почему продавец должен стать экспертом отрасли, чтобы убедить покупателя расстаться с деньгами в кризисные времена?
Продажа в b2b-сегменте обусловлена двумя факторами.


Читать: https://habr.com/ru/articles/975006/

#ru

@big_data_analysis | Другие наши каналы
От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей.

Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.


Читать: https://habr.com/ru/articles/975082/

#ru

@big_data_analysis | Другие наши каналы
LangGraph + Cursor CLI + MCP для автоматической генерации документации: кейс из BI-аналитики

Как автоматизировать создание технической документации для сотен мер в OLAP-проекте? Рассказываю про систему, которая связывает LangGraph, MCP-сервер и Cursor CLI в единый конвейер генерации спецификаций.

Агент извлекает список мер через локальную LLM (с фалбэком на regex), последовательно обрабатывает каждую через циклический граф состояний и автоматически трассирует поток данных от Power BI мер через DWH представления до хранимых процедур.

Практический кейс из BI-аналитики: от 15-20 минут ручной работы на меру до полной автоматизации. В статье — эволюция архитектуры от простого MCP-сервера до продакшн-решения с детальным логированием каждого шага.

GitHub репозитории прилагаются.


Читать: https://habr.com/ru/articles/975178/

#ru

@big_data_analysis | Другие наши каналы
1
Managed OpenSearch Yandex Cloud. Автоматизация и управление кластером

Привет, Хабр!

Сегодня предлагаю обсудить Managed OpenSearch Yandex Cloud. Поговорим о том, как автоматизировать управление кластером, чтобы сократить расходы на разработку, и как улучшить качество поиска на русском языке, используя доступные в сервисе инструменты морфологии.


Читать: https://habr.com/ru/companies/reksoft/articles/974868/

#ru

@big_data_analysis | Другие наши каналы
Георейтинг: новый взгляд на доступность социальных объектов в городах России

В эпоху урбанизации, когда мегаполисы и региональные центры России растут как на дрожжах, вопрос доступности социальной инфраструктуры выходит на первый план. Родители, ищущие ближайший детский сад для своего малыша, урбанисты, планирующие новые жилые кварталы, или городские власти, стремящиеся оптимизировать транспортную сеть, — все они сталкиваются с одной и той же проблемой: как быстро и точно оценить, насколько "дружественен" город к пешеходам? Сколько минут пешком до ближайшей школы? А до игровой площадки? Эти вопросы, кажущиеся простыми, на деле требуют сложных расчетов, анализа геоданных и визуализации, которая была бы интуитивно понятной.

Именно здесь на сцену выходит Георейтинг — инновационный проект, разработанный командой Геоинтеллект. Это мощный инструмент анализа, который превращает абстрактные данные о расстояниях в живые, наглядные инсайты. Запущенный недавно, Георейтинг уже вызывает интерес среди специалистов и обычных пользователей, обещая стать незаменимым помощником в повседневной жизни.

Города растут, районы меняются, а людям по-прежнему нужно простое и честное понимание: удобно здесь жить или нет?

До сих пор такую оценку каждый делал сам: «вроде недалеко», «дойти можно», «там есть садик, но как далеко?». Георейтинг убирает эти догадки: теперь доступность района — это цифры и визуализация.

Кому это нужно?


Читать: https://habr.com/ru/articles/975258/

#ru

@big_data_analysis | Другие наши каналы
Пишем меньше — делаем больше: зачем выносить всё в конфигурации

У меня дома стоит Bluetooth-колонка в ванной. Руки там вечно мокрые и мыльные, поэтому включить звук дождя или музыку проще по событию, например, по голосовой команде. Конечно, можно поднять Home Assistant или написать небольшой Python-скрипт, который слушал бы датчики и управлял колонкой. Но в тот момент я работал с NiFi и решил проверить, справится ли он с бытовой задачей.

Оказалось, что это не только «enterprise ETL» инструмент, а еще и гибкая платформа, которая умеет работать с MQTT-брокером. Поэтому я настроил через него простую цепочку, и колонкой начал управлять не самодельный скрипт, а NiFi.

Этот простой пример хорошо показывает идею. Если инструмент способен подружиться с бытовыми устройствами, то в промышленной архитектуре его потенциал раскрывается в полном объеме.

В Big Data подключение нового источника часто превращается в мини-проект. Требуется неделя разработки, набор уникальных скриптов, собственные форматы, исключения и обходные решения. Но когда пять источников превращаются в пятьдесят, инфраструктура начинает рассыпаться: форматы скачут, API капризничают, схемы дрейфуют, а поддержка становится бесконечным бегом с препятствиями.

Мы проходили через это несколько раз и поняли, что нам нужен фреймворк, который позволит предсказуемо, быстро и без зоопарка самописных ETL-процессов подключать новые источники.

Привет, Хабр! Я ведущий инженер-разработчик направления BigData & BI К2Тех Кирилл Гофтенюк. В этой статье расскажу, как устроен наш фреймворк на базе ADS.NiFi и Arenadata Prosperity. Покажу, как он работает, зачем нужен такой подход и что нам дал переход от хаотичных скриптов к управляемой архитектуре.


Читать: https://habr.com/ru/companies/k2tech/articles/975278/

#ru

@big_data_analysis | Другие наши каналы
Как системному аналитику перейти дата-аналитику: советы из личного опыта

Рынок вакансий для системных аналитиков меняется. Растет спрос на работу с данными, облачные технологии и инструменты ETL/ELT. Бизнесу нужны специалисты, которые понимают архитектуру хранения данных, знают процессы их преобразования и принципы управления. Но требования в таких вакансиях часто пугают — со стороны это выглядит как другой мир, требующий совершенно новых знаний.

На своем примере перехода из финтеха в data-платформу VK Tech покажу, что все не так страшно. Расскажу, что в профессии системного аналитика остается неизменным, какие есть ключевые концепции и инструменты Data-направления и что на самом деле нужно знать для перехода.


Читать: https://habr.com/ru/companies/vktech/articles/974468/

#ru

@big_data_analysis | Другие наши каналы
Как системному аналитику перейти в дата-аналитику: советы из личного опыта

Рынок вакансий для системных аналитиков меняется. Растет спрос на работу с данными, облачные технологии и инструменты ETL/ELT. Бизнесу нужны специалисты, которые понимают архитектуру хранения данных, знают процессы их преобразования и принципы управления. Но требования в таких вакансиях часто пугают — со стороны это выглядит как другой мир, требующий совершенно новых знаний.

На своем примере перехода из финтеха в data-платформу VK Tech покажу, что все не так страшно. Расскажу, что в профессии системного аналитика остается неизменным, какие есть ключевые концепции и инструменты Data-направления и что на самом деле нужно знать для перехода.


Читать: https://habr.com/ru/companies/vk/articles/974468/

#ru

@big_data_analysis | Другие наши каналы
Как я вижу разработку в Altium в РФ

Для понимания меня, наверно нужно знать мой путь разработчика.
Закончен университет Имени Ярослава Мудрого в Великом Новгороде по специальности радиотехника.
Практика в КБ Планета, диплом считыватель R-FID меток. защита на 4, кажется никто не понял с моих слов сути устройства и каков был мой вклад.

первая работа:
2010 год сентябрь трудоустройство в НПК СПП в отдел систем видеорегистрации

мы делали видеорегистраторы полетной информации для Сухих и других крутых КБ

дальше меня после 9ти лет стажа и отсутствия перспектив из-за карьерных косяков закинуло в Diakont в 2020 году мы переехали с женой под рождение сына в Алмазово но это отдельная история...

Началась разработка средств доставки и диагностики бесконтактным методом ЭМА и другими...
Роботы были разные, все внутритрубной диагностики. Самый пик и интерес был робот для Малазийцев в проекте стоимостью в 300+ мультов русских. И даже некоторые из команды побывали в Куала-Лумпур, но не я...
Давай поподробнее...

Читать: https://habr.com/ru/articles/975704/

#ru

@big_data_analysis | Другие наши каналы
👍1
Нагрузочное тестирование YMatix

Привет, Хабр! На связи Марк — ведущий архитектор группы компаний «ГлоуБайт». Сегодня мы немного расширим результаты нагрузочного тестирования из предыдущей статьи “Нагрузочное тестирование GP6 vs GP7 vs Cloudberry” и поделимся результатами тестирования YMatrix. Сразу оговорюсь, что это дополнение к предыдущей статье, для того, чтобы сформировать понимание сравнимости результатов различных форков GreenPlum, поэтому акцентировать внимание будем только на YMatrix. Детали по методике тестирования и как были получены результаты для GP6, GP7 и Cloudberry 1.6, можно прочитать в предыдущей статье по ссылке выше.


Читать: https://habr.com/ru/companies/glowbyte/articles/976126/

#ru

@big_data_analysis | Другие наши каналы
«Форсайт. Умные таблицы». А почему же они умные?

Привет, Хабр! Меня зовут Денис Мишкин, я - Product Manager одного из инструментов отчетности компании «Форсайт». Весной этого года мы выпустили новый продукт «Форсайт. Умные таблицы», который призван ускорить импортозамещение табличных редакторов, а-ля MS Excel, и BI-систем. Хочу рассказать вам о новом классе продукта, который сделает процесс создания аналитических отчетов максимально удобным и комфортным для пользователя, обогащая их опыт новыми уникальными возможностями.

Место нового продукта в экосистеме продуктов «Форсайт»

«Форсайт. Аналитическая платформа» – это универсальное и гибкое решение класса Enterprise BI, для реализации задач любой сложности. Оно дает не только возможности создания многомерной кубовой модели данных средствами загрузки этих данных (ETL), но и средствами доставки этих данных конечному потребителю в виде отчетности. Инструменты отчетности можно разделить на 2 крупных блока:

- информационные панели (дашборды) + Ad hoc, позволяющие легко и наглядно визуализировать данные;

- Pixel Perfect + табличная отчетность, которая призвана подготавливать регламентированную отчетность в строгой структуре и оформлении (регламентные отчеты).

Работая в сегменте Enterprise решений, за последние несколько лет мы увидели тенденцию по работе с классом отчетности, которая приближена к Excel-подобному интерфейсу. Пользователи используют привычный им табличный редактор, а данные из смежных BI-систем получают, применяя настроенное подключение к этим системам. Работает это через надстройку над Excel, которая, как правило, идет в поставке BI-решения.


Читать: https://habr.com/ru/companies/fsight/articles/976094/

#ru

@big_data_analysis | Другие наши каналы