DE – Telegram
522 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
😁17👏1
Forwarded from DataEng
AI Agent Course

На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.
❤‍🔥821
#ai #aiassistant 👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
27 мая 1784 года Моцарт купил в Вене скворца, который прожил у него три года.
Моцарт заметил, что птица очень точно повторяет мелодии, услышав их всего несколько раз. Но еще более удивительной была способность птахи вставлять собственные вариации, и, по всей видимости, Моцарту нравилось использовать скворца в качестве суфлера и своего рода «творческого помощника».
Однажды птица повторила 17 вступительных нот только что сочиненного Концерта для фортепиано № 17 соль мажор, K. 453, но с некоторыми вариациями, в частности, вставив кода в последний такт первого полного такта и спев соль-диез вместо натурального соль в следующем такте.
Именно эту, «птичью», версию Моцарт увековечил в Концерте.
4 июня 1787 года скворец скончался... Для него Моцарт устроил достойное погребение у себя в саду и посвятил своему другу трепетную поэму:
Здесь мирно спит певец,
Чудак скворец.
Во цвете лет пичуга
Сошла с земного круга,
Узнала смерти мрак.
О, сердцу больно так
При сем воспоминаньи.
Читатель! Состраданья
Слезу пролей над ним.
Он был неутомим,
Добряк и парень славный,
Веселый и забавный,
Проказник и простак,
А значит - не дурак.
Знать, он теперь на небе,
Хвалы возносит в неге
И дружбу прославляет,
Что выгоды не знает.
Ведь, в мир иной слетая,
Он умирал, не зная,
Что есть надежный друг и брат -
Скворца в стихах прославить рад.

(Вена, 4 июня 1787)
❤‍🔥14
Более чем 5️⃣1️⃣ тысяча публичных API разделённых по категориям в едином хабе. Есть поиск и фильтры.

Не благодари 🔣 rapidapi.com/hub

#api #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7👏3
😁142
@cron_humaniser_bot

🤖 Бот переводит крон-выражение на человеческий. Работает бесплатно, без регистрации и смс.

#de #bot #cron
👏9❤‍🔥111
😁15
Лаборатория инноваций библиотеки Гарварда представила архив data.gov на платформе Source Cooperative. Коллекция объемом 16 ТБ содержит более 311 000 наборов данных, собранных в 2024–2025 годах, что обеспечивает полную картину общедоступных федеральных данных.

Архив будет обновляться ежедневно, обеспечивая доступ к актуальной информации для исследователей, журналистов, аналитиков и общественности. Он включает наборы данных из различных областей, таких как окружающая среда, здравоохранение, экономика, транспорт и сельское хозяйство.

Кроме того, Гарвард выпустил софт с открытым исходным кодом на GitHub для создания аналогичных репозиториев и решений по архивированию данных. Это позволяет другим организациям и исследовательским центрам разрабатывать собственные публичные архивы данных. Проект поддерживается Filecoin Foundation & Rockefeller Brothers Fund
❤‍🔥8
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Классная демка от создателя llama.cpp – два голосовых агента переходят на внутренний язык, для повышения скорости обмена данными, примерно как работали старые модемы

Код тут

Технические детали:
ggwave передаёт небольшие объемы данных через звук, используя метод модуляции с частотным сдвигом (FSK). Данные разбиваются на 4-битные куски, каждый из которых кодируется одной из 96 заранее определённых частот в диапазоне 4.5 кГц. Дополнительно применяется коррекция ошибок (Reed-Solomon) для повышения надёжности передачи. На стороне приёма аудиосигнал анализируется с помощью Фурье-преобразования, частоты сопоставляются с битовыми значениями, после чего данные декодируются и восстанавливаются с учётом ECC.
👏8❤‍🔥6
🐝Hive против Spark🚀

Apache Hive и Apache Spark — мощные инструменты для работы с большими данными, но они по-разному выполняют распределённую обработку.

🔜 Hive: SQL-интерфейс для Hadoop

Плюсы:
✔️ Хорошо масштабируется для больших наборов данных (хранящихся в HDFS)
✔️ SQL-like язык (HiveQL) делает его удобным для пользователя
✔️ Отлично подходит для пакетной обработки

Минусы:
▶️ Высокая задержка запросов (использует MapReduce/Tez)
▶️ Медленнее по сравнению со Spark
▶️ Ограниченные возможности потоковой обработки в реальном времени

➡️ Spark: быстрая распределённая обработка

Плюсы:
✔️ Вычисления в памяти 🔜 высокая производительность
✔️ Поддержка обработки данных в реальном времени (структурированная потоковая передача)
✔️ Гибкость: работает с HDFS, S3, Cassandra, JDBC и другими

Минусы:
▶️ Требует больше оперативной памяти
▶️ Более сложное управление
▶️ Менее эффективен для пакетной обработки архивированных больших данных

💡 Выводы:
Используй Hive для сложных SQL-запросов и пакетной обработки.
Используйте Spark для аналитики в реальном времени и быстрой обработки данных.

#data #bigdata #hive #spark #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5👏2😁1
Media is too big
VIEW IN TELEGRAM
zen browser

После недавней оказии с FireFox, я понял, что нужно менять свой браузер.
Выбор пал на zen (почти arc, но для firefox), потому что я люблю минимализм.

Что мне нужно от браузера?

- Несколько вкладок, у меня их никогда не бывает сильно много, я все их закрываю примерно раз в день
- Панель для ввода адреса с минимумом функциональности (подсказки, история, поиск)
- Минималистичный интерфейс, без лишних кнопок
- Поддержка uBlock, нескольких других похожих плагинов
- Приватность по-умолчанию

Все. Остальные фичи мне скорее мешают. Я не пользуюсь закладками, workspacе'ами, профилями, синками и тд.

Что есть в zen?

Во-первых, браузер почти полностью позволяет убрать свой интерфейс, что приятно. Теперь по пунктам:
- Hidden Tabs: можно настроить "compact mode", чтобы вкладки исчезали, когда они не нужны, нажатие cmd+b показывает вкладки, нажатие cmd+1 открывает первую вкладку и тд
- Floating Nav Bar: После настройки панель навигации сверху исчезает, когда ей не пользуешься (открывается на cmd+t для открытия новой вкладки и cmd+L фокуса в текущей)
- Busy Mode: при нажатие ctrl+b включает интерфейс, если нужно что-то найти, если идет какой-то напряженный рабочий режим
- Tab Preview: отключаемая фича, которая позволяет сделать превью страницы и быстро ее закрыть, выглядит полезно для поиска
- Split View: отключаемая фича, которая позволяет открывать две вкладки слева и справа (у меня на `alt-v`) или сверху и снизу (`alt-h`), выглядит полезно для ревью PRов на гитхабе

Ну и конечно же работают все плагины для FireFox и даже есть свои уникальные.
Сверху я все шлифанул кастомным CSS для уничтожения некоторых объектов UI, которые меня отвлекали.

Пока пробую – и мне нравится.

Обсуждение: что сейчас еще есть интересного и удобного в мире браузеров?

| Поддержать | YouTube | GitHub | Чат |
❤‍🔥6
Pandas устарел?
FireDucks предлагает замену без переписывания кода.

🐼 Pandas - самая популярная библиотека для обработки данных, но она уже давно страдает от низкой производительности.

🐻 Современные альтернативы, такие как Polars, предлагают гораздо более высокую производительность, но переход на новые фреймворки требует изучения нового API, что отталкивает многих разработчиков.

🔥🦆 FireDucks 🦆🔥 решает эту проблему, предлагая полную совместимость с Pandas, но с многопоточной обработкой и ускорением работы компилятора. Для перехода достаточно изменить одну строку:

import fireducks.pandas as pd


FireDucks работает быстрее, чем Pandas и Polars, что подтверждается бенчмарками

🔜 FireDucks github
➡️ Сравнение с Polars и Pandas:

#pandas #polars #fireducks #de #dataengineer #dataengineering
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7
🌸 Дорогие девушки! 🌸

Поздравляю вас с 8 Марта! 🎉

Пусть ваши запросы всегда выполняются мгновенно, джойны будут только удачными, а данные — чистыми и структурированными. Пусть в вашей жизни будет столько же радости, сколько строк в крупнейших базах данных, и столько же успешных решений, сколько индексов в оптимизированном запросе!

Будьте вдохновением для мира технологий, ведь именно благодаря вам data-driven будущее становится еще ярче! 💡

С праздником! 💐
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11
😁17
👏14