Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
568 photos
3 videos
2 files
2.9K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Инвест Гусь: телеграм-бот (Open-source) для прогноза стоимости акций и криптовалют

Мамкин инвестор знает, что если ежедневно ловить сигналы от мощных трейдеров, то скоро карманы будут набиты звенящей цифровой монетой. Но чтобы стать богаче всякого, в эпоху ИИ нужно нечно большее, чем какой-то сигнал. Нужно чтобы был карманный генератор сигналов по всем возможным активам.
Га!

Читать: https://habr.com/ru/articles/969964/

#ru

@big_data_analysis | Другие наши каналы
Теневые ИТ в энтерпрайзе: почему они случаются, как с ними бороться и как в дальнейшем их не допускать

Привет, Хабр!
Я Никита Дубина, руководитель команды автоматизации Департамента больших данных РСХБ. В этой статье расскажу о том, что такое теневые ИТ, почему они возникают в крупных организациях, особенно в банках, какие риски несут и как при правильном подходе могут стать источником новых идей. Делюсь опытом борьбы с ними.


Читать: https://habr.com/ru/companies/rshb/articles/972110/

#ru

@big_data_analysis | Другие наши каналы
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.


Читать: https://habr.com/ru/companies/sberbank/articles/972078/

#ru

@big_data_analysis | Другие наши каналы
LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений

В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.

Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим несколько самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.

Здесь будет про Langfuse, Phoenix, OpenLIT, Langtrace, LangWatch и Lunary. Про оценку (evaluations или evals) здесь не будет, но обязательно скоро будет отдельная статья и про это.

Поехали!


Читать: https://habr.com/ru/articles/972480/

#ru

@big_data_analysis | Другие наши каналы
Глубокое погружение в архитектуру Kafka: от простых сценариев до геокластера

Привет, Хабр! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие.

В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено. В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено.

Этот текст написан на основе моего доклада на конференции SaintHighload++ 2025 в Санкт Петербурге. Так что, если вы были там в качестве слушателя, информация не будет для вас новой. Впрочем, повтор полезного материала никогда не бывает лишним. Поехали!


Читать: https://habr.com/ru/articles/972788/

#ru

@big_data_analysis | Другие наши каналы
Язык и большие данные

Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.


Читать: https://habr.com/ru/articles/972916/

#ru

@big_data_analysis | Другие наши каналы
Как я осознал, что не умею кодить

Вчера мой скрипт завис. Процессор горел на 100%. Я убил процесс.

Я Senior Developer с 10 годами опыта. Пишу на Python, знаю Java и много модных фреймворков. Но в этот момент я понял: я не умею программировать. Точнее, я умею использовать инструменты. Но я не понимаю природу вычислений.

Эта статья — о том, как одна математическая задача изменила моё понимание разработки.

И почему через пару лет, когда ИИ будет писать весь код за меня, это понимание станет единственным, что меня спасёт.

Возможно, и тебя тоже.


Читать: https://habr.com/ru/articles/972630/

#ru

@big_data_analysis | Другие наши каналы
StarRocks 4.0: Real-Time Intelligence on Lakehouse

StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.


Читать: https://habr.com/ru/articles/973110/

#ru

@big_data_analysis | Другие наши каналы
Больше, чем BI: 23 фичи Luxms BI, которыми мы гордимся. Часть 3: решения для специализированных задач

Это третья часть серии «23 фичи Luxms BI, которыми мы гордимся». В первой мы говорили о платформенности и архитектуре, о том, на чем держится система. Во второй – о классическом BI-функционале, который делает систему BI-системой.

А сегодня мы расскажем, что происходит, когда бизнес-задачи перерастают рамки стандартной аналитики. Речь пойдет о функциях, которые превращают Luxms BI из инструмента визуализации в платформу для решения сложных, специализированных задач. Именно эти возможности наши заказчики чаще всего характеризуют фразой «а вот это – действительно больше, чем BI».


Читать: https://habr.com/ru/companies/luxms_bi/articles/972946/

#ru

@big_data_analysis | Другие наши каналы
Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты моей работы каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.


Читать: https://habr.com/ru/companies/wildberries/articles/972082/

#ru

@big_data_analysis | Другие наши каналы
StarRocks 4.0: FlatJSON — делаем запросы к JSON столь же эффективными, как к колоночному хранению

Статья объясняет, как StarRocks 4.0 делает запросы к JSON почти столь же быстрыми, как к нативным столбцам. FlatJSON на этапе загрузки «колоннизирует» частые поля и задействует индексы (включая ZoneMap), словарное кодирование и Global Dictionary, а также Late Materialization. В результате логовая, e‑commerce и IoT‑аналитика работает в реальном времени без тяжёлого ETL.


Читать: https://habr.com/ru/articles/973166/

#ru

@big_data_analysis | Другие наши каналы
От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.


Читать: https://habr.com/ru/articles/973230/

#ru

@big_data_analysis | Другие наши каналы
Предвидеть, чтобы предотвратить: как анализ трендов помогает избегать аварий

Как с помощью математической статистики мы ищем тренды в промышленных данных, предотвращая инциденты и аварии.


Читать: https://habr.com/ru/articles/973638/

#ru

@big_data_analysis | Другие наши каналы
Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией

Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map, Shuffle и Reduce с ленивыми вычислениями через Iterator, а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.


Читать: https://habr.com/ru/articles/966986/

#ru

@big_data_analysis | Другие наши каналы
Как понять, чего хочет заказчик?

Всегда, когда речь идет и разработке отчётов, дашбордов,витрин данных, в принципе любой системы, сначала нужно сформулировать требования совместно с бизнес-подразделениями. Я Кристина Проскурина, руковожу управлением бизнес-анализа данных в РСХБ.Цифра. В этой статье расскажу, как выглядят основные этапы процесса сбора и формирования требований.


Читать: https://habr.com/ru/companies/rshb/articles/974404/

#ru

@big_data_analysis | Другие наши каналы
Выбор российского ETL-инструмента в 2025 и чек-лист

Привет!

Перед вами новое исследование, посвящённое одной из ключевых технологий управления данными — процессам извлечения, преобразования и загрузки данных (ETL). Оно стало логическим продолжением первого обзора рынка ETL-решений, выпущенного нашей командой три года назад.

За это время многое изменилось. Если в 2022-м рынок опирался на зарубежные платформы, то сегодня акценты сместились в сторону отечественных продуктов. Причины очевидны: уход иностранных вендоров, трудности с продлением лицензий, обновлениями и поддержкой. Импортозамещение из формальности превратилось в стратегическую задачу, а потребность в надёжных российских инструментах — в вопрос технологической безопасности.

Одновременно усилились и глобальные вызовы: рост объёмов данных, переход бизнеса к моделям прогнозной аналитики и управлению на основе данных. ETL-системы в этой экосистеме занимают фундаментальное место — именно они превращают разрозненные источники в согласованный поток информации, на котором строятся аналитика, модели машинного обучения и управленческие решения.


Читать: https://habr.com/ru/articles/974502/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как же лень работать рутинку в AD

Не так давно я поймал себя на мысли, что работа в Altium Designer перестала "доставлять".

Толи это произошло после ролика, где нейросетью сгенерировали некую плату и "скоро так будет со всеми" толи очередной кризис на фоне... Возраст вроде рановато, еще год запаса...
Короче раз уж первые 40 лет детства самые сложные в жизни мужчины то наверно спишу на ребячество и инфантилизм.

Итак! подоплека простая. Мне лень склеивать локальные библиотеки! На этот факт повлияла работа в АО Лазерные системы с уважаемыми людьми, которые внедрили Союз PLM от КБ 2.0 (если все верно помню) и за год плодотворной отладки системы... я убедил себя в том, что работать нужно не 12 часов, а головой!

Внезапное, однако, озарение. И так уж сложилось, что моя супруга пожелала съехать из квартиры в Санкт-Петербурге в другую. В квартиру в Москве! И вот мы уже в Златоглавой и белокаменной, кайфуем и переезжаем с района в район чтобы прочувствовать WIBES и подобрать себе по душе местечко. Работу нашел как раз для души в RQC в хорошей компании, занимающейся лидарами как и ЛС (Laser systems).
Нука-нука, что там у тебя...

Читать: https://habr.com/ru/articles/974662/

#ru

@big_data_analysis | Другие наши каналы
Как продавать промышленное оборудование в кризис

Как возникает продажа в промышленном b2b-секторе? Почему продавец должен стать экспертом отрасли, чтобы убедить покупателя расстаться с деньгами в кризисные времена?
Продажа в b2b-сегменте обусловлена двумя факторами.


Читать: https://habr.com/ru/articles/975006/

#ru

@big_data_analysis | Другие наши каналы
От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей.

Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.


Читать: https://habr.com/ru/articles/975082/

#ru

@big_data_analysis | Другие наши каналы
LangGraph + Cursor CLI + MCP для автоматической генерации документации: кейс из BI-аналитики

Как автоматизировать создание технической документации для сотен мер в OLAP-проекте? Рассказываю про систему, которая связывает LangGraph, MCP-сервер и Cursor CLI в единый конвейер генерации спецификаций.

Агент извлекает список мер через локальную LLM (с фалбэком на regex), последовательно обрабатывает каждую через циклический граф состояний и автоматически трассирует поток данных от Power BI мер через DWH представления до хранимых процедур.

Практический кейс из BI-аналитики: от 15-20 минут ручной работы на меру до полной автоматизации. В статье — эволюция архитектуры от простого MCP-сервера до продакшн-решения с детальным логированием каждого шага.

GitHub репозитории прилагаются.


Читать: https://habr.com/ru/articles/975178/

#ru

@big_data_analysis | Другие наши каналы
1
Managed OpenSearch Yandex Cloud. Автоматизация и управление кластером

Привет, Хабр!

Сегодня предлагаю обсудить Managed OpenSearch Yandex Cloud. Поговорим о том, как автоматизировать управление кластером, чтобы сократить расходы на разработку, и как улучшить качество поиска на русском языке, используя доступные в сервисе инструменты морфологии.


Читать: https://habr.com/ru/companies/reksoft/articles/974868/

#ru

@big_data_analysis | Другие наши каналы