Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.91K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Пишем меньше — делаем больше: зачем выносить всё в конфигурации

У меня дома стоит Bluetooth-колонка в ванной. Руки там вечно мокрые и мыльные, поэтому включить звук дождя или музыку проще по событию, например, по голосовой команде. Конечно, можно поднять Home Assistant или написать небольшой Python-скрипт, который слушал бы датчики и управлял колонкой. Но в тот момент я работал с NiFi и решил проверить, справится ли он с бытовой задачей.

Оказалось, что это не только «enterprise ETL» инструмент, а еще и гибкая платформа, которая умеет работать с MQTT-брокером. Поэтому я настроил через него простую цепочку, и колонкой начал управлять не самодельный скрипт, а NiFi.

Этот простой пример хорошо показывает идею. Если инструмент способен подружиться с бытовыми устройствами, то в промышленной архитектуре его потенциал раскрывается в полном объеме.

В Big Data подключение нового источника часто превращается в мини-проект. Требуется неделя разработки, набор уникальных скриптов, собственные форматы, исключения и обходные решения. Но когда пять источников превращаются в пятьдесят, инфраструктура начинает рассыпаться: форматы скачут, API капризничают, схемы дрейфуют, а поддержка становится бесконечным бегом с препятствиями.

Мы проходили через это несколько раз и поняли, что нам нужен фреймворк, который позволит предсказуемо, быстро и без зоопарка самописных ETL-процессов подключать новые источники.

Привет, Хабр! Я ведущий инженер-разработчик направления BigData & BI К2Тех Кирилл Гофтенюк. В этой статье расскажу, как устроен наш фреймворк на базе ADS.NiFi и Arenadata Prosperity. Покажу, как он работает, зачем нужен такой подход и что нам дал переход от хаотичных скриптов к управляемой архитектуре.


Читать: https://habr.com/ru/companies/k2tech/articles/975278/

#ru

@big_data_analysis | Другие наши каналы
Как системному аналитику перейти дата-аналитику: советы из личного опыта

Рынок вакансий для системных аналитиков меняется. Растет спрос на работу с данными, облачные технологии и инструменты ETL/ELT. Бизнесу нужны специалисты, которые понимают архитектуру хранения данных, знают процессы их преобразования и принципы управления. Но требования в таких вакансиях часто пугают — со стороны это выглядит как другой мир, требующий совершенно новых знаний.

На своем примере перехода из финтеха в data-платформу VK Tech покажу, что все не так страшно. Расскажу, что в профессии системного аналитика остается неизменным, какие есть ключевые концепции и инструменты Data-направления и что на самом деле нужно знать для перехода.


Читать: https://habr.com/ru/companies/vktech/articles/974468/

#ru

@big_data_analysis | Другие наши каналы
Как системному аналитику перейти в дата-аналитику: советы из личного опыта

Рынок вакансий для системных аналитиков меняется. Растет спрос на работу с данными, облачные технологии и инструменты ETL/ELT. Бизнесу нужны специалисты, которые понимают архитектуру хранения данных, знают процессы их преобразования и принципы управления. Но требования в таких вакансиях часто пугают — со стороны это выглядит как другой мир, требующий совершенно новых знаний.

На своем примере перехода из финтеха в data-платформу VK Tech покажу, что все не так страшно. Расскажу, что в профессии системного аналитика остается неизменным, какие есть ключевые концепции и инструменты Data-направления и что на самом деле нужно знать для перехода.


Читать: https://habr.com/ru/companies/vk/articles/974468/

#ru

@big_data_analysis | Другие наши каналы
Как я вижу разработку в Altium в РФ

Для понимания меня, наверно нужно знать мой путь разработчика.
Закончен университет Имени Ярослава Мудрого в Великом Новгороде по специальности радиотехника.
Практика в КБ Планета, диплом считыватель R-FID меток. защита на 4, кажется никто не понял с моих слов сути устройства и каков был мой вклад.

первая работа:
2010 год сентябрь трудоустройство в НПК СПП в отдел систем видеорегистрации

мы делали видеорегистраторы полетной информации для Сухих и других крутых КБ

дальше меня после 9ти лет стажа и отсутствия перспектив из-за карьерных косяков закинуло в Diakont в 2020 году мы переехали с женой под рождение сына в Алмазово но это отдельная история...

Началась разработка средств доставки и диагностики бесконтактным методом ЭМА и другими...
Роботы были разные, все внутритрубной диагностики. Самый пик и интерес был робот для Малазийцев в проекте стоимостью в 300+ мультов русских. И даже некоторые из команды побывали в Куала-Лумпур, но не я...
Давай поподробнее...

Читать: https://habr.com/ru/articles/975704/

#ru

@big_data_analysis | Другие наши каналы
👍1
Нагрузочное тестирование YMatix

Привет, Хабр! На связи Марк — ведущий архитектор группы компаний «ГлоуБайт». Сегодня мы немного расширим результаты нагрузочного тестирования из предыдущей статьи “Нагрузочное тестирование GP6 vs GP7 vs Cloudberry” и поделимся результатами тестирования YMatrix. Сразу оговорюсь, что это дополнение к предыдущей статье, для того, чтобы сформировать понимание сравнимости результатов различных форков GreenPlum, поэтому акцентировать внимание будем только на YMatrix. Детали по методике тестирования и как были получены результаты для GP6, GP7 и Cloudberry 1.6, можно прочитать в предыдущей статье по ссылке выше.


Читать: https://habr.com/ru/companies/glowbyte/articles/976126/

#ru

@big_data_analysis | Другие наши каналы
«Форсайт. Умные таблицы». А почему же они умные?

Привет, Хабр! Меня зовут Денис Мишкин, я - Product Manager одного из инструментов отчетности компании «Форсайт». Весной этого года мы выпустили новый продукт «Форсайт. Умные таблицы», который призван ускорить импортозамещение табличных редакторов, а-ля MS Excel, и BI-систем. Хочу рассказать вам о новом классе продукта, который сделает процесс создания аналитических отчетов максимально удобным и комфортным для пользователя, обогащая их опыт новыми уникальными возможностями.

Место нового продукта в экосистеме продуктов «Форсайт»

«Форсайт. Аналитическая платформа» – это универсальное и гибкое решение класса Enterprise BI, для реализации задач любой сложности. Оно дает не только возможности создания многомерной кубовой модели данных средствами загрузки этих данных (ETL), но и средствами доставки этих данных конечному потребителю в виде отчетности. Инструменты отчетности можно разделить на 2 крупных блока:

- информационные панели (дашборды) + Ad hoc, позволяющие легко и наглядно визуализировать данные;

- Pixel Perfect + табличная отчетность, которая призвана подготавливать регламентированную отчетность в строгой структуре и оформлении (регламентные отчеты).

Работая в сегменте Enterprise решений, за последние несколько лет мы увидели тенденцию по работе с классом отчетности, которая приближена к Excel-подобному интерфейсу. Пользователи используют привычный им табличный редактор, а данные из смежных BI-систем получают, применяя настроенное подключение к этим системам. Работает это через надстройку над Excel, которая, как правило, идет в поставке BI-решения.


Читать: https://habr.com/ru/companies/fsight/articles/976094/

#ru

@big_data_analysis | Другие наши каналы
Анализ данных с сайта Pet911

В статье рассмотрено программное решение для сбора набора данных о пропавших и найденных животных с сайта Pet911.ru – крупнейшей в России система поиска пропавших животных, анализа и визуализации полученных данных. Исследуется зависимость шанса нахождения животного или новых хозяев от его вида, возраста, подробности описания примет, числа комментариев, количества фотографий и так далее Формируется статистика о пропавших питомцах по регионам. Данная работа может помочь при организации поисков пропавших животных и для нахождения хозяев уличным животным, создании новых волонтёрских объединений.

Исследование выполнено в рамках дисциплины «Большие данные» магистерской программы «Математические методы анализа и визуализации данных» Санкт‑Петербургского политехнического университета Петра Великого.


Читать: https://habr.com/ru/articles/976420/

#ru

@big_data_analysis | Другие наши каналы
Метрика North Star: ваш главный путеводитель в бизнес-стратегии

Давай поговорим о North Star Metric (NSM). Меня, если честно, иногда бесит, когда её преподносят как какую-то магию, которая сама по себе выведет бизнес в лидеры. Это не так.

За свою карьеру я видел разное: компании, которые отлично росли и без формально прописанной NSM, просто потому что у всех в голове и так была общая цель. И видел провалы, когда команды слепо поклонялись одной цифре, вырванной из контекста, и в итоге «оптимизировали» бизнес прямиком в тупик.

Вся суть не в том, чтобы найти «идеальную метрику». Суть в том, чтобы заставить все отделы говорить на одном языке. И здесь как раз помогает метрика Полярной Звезды.


Читать: https://habr.com/ru/articles/976490/

#ru

@big_data_analysis | Другие наши каналы
Особенности снижения гранулярности таблицы в Power BI на примере REMOVEFILTERS

Power BI и язык DAX являются удобными инструментами аналитиков. В DAX важно учитывать гранулярность — уровень детализации, который зависит от текущего контекста фильтров и группировки.

Мы привыкли работать с гранулярностью, и если в транзакционной системе проблемы с гранулярностью могут быть относительно незаметны, то в BI системах проблемы гранулярности сразу влияют на дашборды. Это усугубляется поведением движков BI систем, в которых гранулярность таблицы считается динамически в зависимости от выражения — как в Power BI.

При использовании некоторых функций, например, REMOVEFILTERS, снижение гранулярности может приводить к интуитивно непонятным результатам и считаться плохой практикой. Интересующимся особенностями снижения гранулярности на примере REMOVEFILTERS — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/974302/

#ru

@big_data_analysis | Другие наши каналы
1
Как построить геопространственный Lakehouse с помощью открытого ПО и Databricks

Геопространственные данные быстро перестают быть «слоем на карте», когда их нужно свести с другими источниками, регулярно обновлять, масштабировать запросы вроде «точка в полигоне» и отдавать результат в BI или GIS без ручной сборки артефактов. В статье разбирается практичный способ собрать геопространственный lakehouse на Databricks и открытых инструментах поверх Spark: как приземлять разные форматы в Delta, где чинить системы координат и некорректные геометрии, чем ускорять тяжёлые геоджойны и как организовать слой представления под разные потребители — от Power BI до облачных ГИС.
Перейти к статье

Читать: https://habr.com/ru/companies/otus/articles/976752/

#ru

@big_data_analysis | Другие наши каналы
Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

Привет, Хабр! На связи — технические лидеры направления разработки Apache Spark в составе платформы Data Ocean Андрей Первушин и Дмитрий Паршин из Data Sapience. Мы занимаемся решением нетривиальных задач в области Spark-вычислений, некоторые из которых становятся частью конечного продукта.

Сегодня мы расскажем, с какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg, что такое equality delete, почему они создают нагрузку при чтении таблиц в Apache Iceberg и как мы оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.


Читать: https://habr.com/ru/companies/datasapience/articles/976920/

#ru

@big_data_analysis | Другие наши каналы
Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?

Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP.

В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.


Читать: https://habr.com/ru/companies/slsoft/articles/976814/

#ru

@big_data_analysis | Другие наши каналы
Почему каталог данных превращается в кладбище и как это исправить

Кажется, о внедрении каталога данных не написал только ленивый. Каждая крупная компания так или иначе к этому (каталогу) приходит. Пробует разные решения и методологию. У кого-то успешно только на презентации для совета директоров (чаще всего), у кого-то на деле.

Здесь же я хочу рассказать не о том, как заполнять каталог или какой выбрать. А о том, что нужно сделать, прежде чем переходить к покупке/запуску этого каталога. Для тех, кто уже имеет такого зверя в своем зоопарке, но с ним что-то не так, думаю, тоже будет полезно.

Если вы один из счастливчиков, у кого каталог действительно взлетел, можете дальше не читать. Однако что-то мне подсказывает, что таких будет не много.

Осторожно, статья-детектор.


Читать: https://habr.com/ru/articles/977014/

#ru

@big_data_analysis | Другие наши каналы
Зачем нужны исследования дейли сценариев цифровых сервисов

Мы начали исследовать интернет-банки три года назад с одной чёткой целью, которую преследуем и сейчас. Сделать работу, которая помогает увидеть сильные и слабые стороны интернет-банков и понять, как они отражаются на повседневных задачах МСБ.


Читать: https://habr.com/ru/articles/977346/

#ru

@big_data_analysis | Другие наши каналы
Как стать аналитиком данных  за 6–12 месяцев [гайд]

В статье — полный разбор профессии: от ключевых навыков (SQL, Python, статистика) до карьерного пути и зарплат по регионам.

Читать: «Как стать аналитиком данных  за 6–12 месяцев [гайд]»

#ru

@big_data_analysis | Другие наши каналы
Как стать аналитиком данных  за 6–12 месяцев [гайд]

В статье — полный разбор профессии: от ключевых навыков (SQL, Python, статистика) до карьерного пути и зарплат по регионам.

Читать: «Как стать аналитиком данных  за 6–12 месяцев [гайд]»

#ru

@big_data_analysis | Другие наши каналы