NEW BOT Телеграм, страница

😁15

552 views04:22

Лаборатория инноваций библиотеки Гарварда представила архив data.gov на платформе Source Cooperative. Коллекция объемом 16 ТБ содержит более 311 000 наборов данных, собранных в 2024–2025 годах, что обеспечивает полную картину общедоступных федеральных данных.

Архив будет обновляться ежедневно, обеспечивая доступ к актуальной информации для исследователей, журналистов, аналитиков и общественности. Он включает наборы данных из различных областей, таких как окружающая среда, здравоохранение, экономика, транспорт и сельское хозяйство.

Кроме того, Гарвард выпустил софт с открытым исходным кодом на GitHub для создания аналогичных репозиториев и решений по архивированию данных. Это позволяет другим организациям и исследовательским центрам разрабатывать собственные публичные архивы данных. Проект поддерживается Filecoin Foundation & Rockefeller Brothers Fund

GitHub

GitHub - harvard-lil/data-vault: Tools for LIL's data preservation project

Tools for LIL's data preservation project. Contribute to harvard-lil/data-vault development by creating an account on GitHub.

❤‍🔥8

655 views19:03

Разгадывай тайны с помощью SQL.

sqlnoir

#sql #postgres #db #detective

SQLNoir

Interactive SQL Game | Learn SQL by Solving Detective Cases | SQLNoir

SQLNoir is an interactive SQL game where you solve crimes and mysteries using SQL queries. Learn SQL by playing detective in this engaging SQL learning game.

❤‍🔥8👏6

577 views15:51

Forwarded from Denis Sexy IT 🤖

1:09

Media is too big

VIEW IN TELEGRAM

Классная демка от создателя llama.cpp – два голосовых агента переходят на внутренний язык, для повышения скорости обмена данными, примерно как работали старые модемы

Код тут

Технические детали:

ggwave передаёт небольшие объемы данных через звук, используя метод модуляции с частотным сдвигом (FSK). Данные разбиваются на 4-битные куски, каждый из которых кодируется одной из 96 заранее определённых частот в диапазоне 4.5 кГц. Дополнительно применяется коррекция ошибок (Reed-Solomon) для повышения надёжности передачи. На стороне приёма аудиосигнал анализируется с помощью Фурье-преобразования, частоты сопоставляются с битовыми значениями, после чего данные декодируются и восстанавливаются с учётом ECC.

👏8❤‍🔥6

442 views20:19

1:29

This media is not supported in your browser

VIEW IN TELEGRAM

#ai #meme #humor

😁13👏7❤‍🔥1

901 views12:05

🐝Hive против Spark🚀

Apache Hive и Apache Spark — мощные инструменты для работы с большими данными, но они по-разному выполняют распределённую обработку.

🔜 Hive: SQL-интерфейс для Hadoop

Плюсы:
✔️ Хорошо масштабируется для больших наборов данных (хранящихся в HDFS)
✔️ SQL-like язык (HiveQL) делает его удобным для пользователя
✔️ Отлично подходит для пакетной обработки

Минусы:
▶️ Высокая задержка запросов (использует MapReduce/Tez)
▶️ Медленнее по сравнению со Spark
▶️ Ограниченные возможности потоковой обработки в реальном времени

➡️ Spark: быстрая распределённая обработка

Плюсы:
✔️ Вычисления в памяти 🔜 высокая производительность
✔️ Поддержка обработки данных в реальном времени (структурированная потоковая передача)
✔️ Гибкость: работает с HDFS, S3, Cassandra, JDBC и другими

Минусы:
▶️ Требует больше оперативной памяти
▶️ Более сложное управление
▶️ Менее эффективен для пакетной обработки архивированных больших данных

💡 Выводы:
✅ Используй Hive для сложных SQL-запросов и пакетной обработки.
✅ Используйте Spark для аналитики в реальном времени и быстрой обработки данных.

#data #bigdata #hive #spark #sql

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥5👏2😁1

434 views20:13

Forwarded from Находки в опенсорсе

0:56

Media is too big

VIEW IN TELEGRAM

zen browser

После недавней оказии с FireFox, я понял, что нужно менять свой браузер.
Выбор пал на zen (почти arc, но для firefox), потому что я люблю минимализм.

Что мне нужно от браузера?

- Несколько вкладок, у меня их никогда не бывает сильно много, я все их закрываю примерно раз в день
- Панель для ввода адреса с минимумом функциональности (подсказки, история, поиск)
- Минималистичный интерфейс, без лишних кнопок
- Поддержка uBlock, нескольких других похожих плагинов
- Приватность по-умолчанию

Все. Остальные фичи мне скорее мешают. Я не пользуюсь закладками, workspacе'ами, профилями, синками и тд.

Что есть в zen?

Во-первых, браузер почти полностью позволяет убрать свой интерфейс, что приятно. Теперь по пунктам:
- Hidden Tabs: можно настроить "compact mode", чтобы вкладки исчезали, когда они не нужны, нажатие cmd+b показывает вкладки, нажатие cmd+1 открывает первую вкладку и тд
- Floating Nav Bar: После настройки панель навигации сверху исчезает, когда ей не пользуешься (открывается на cmd+t для открытия новой вкладки и cmd+L фокуса в текущей)
- Busy Mode: при нажатие ctrl+b включает интерфейс, если нужно что-то найти, если идет какой-то напряженный рабочий режим
- Tab Preview: отключаемая фича, которая позволяет сделать превью страницы и быстро ее закрыть, выглядит полезно для поиска
- Split View: отключаемая фича, которая позволяет открывать две вкладки слева и справа (у меня на `alt-v`) или сверху и снизу (`alt-h`), выглядит полезно для ревью PRов на гитхабе

Ну и конечно же работают все плагины для FireFox и даже есть свои уникальные.
Сверху я все шлифанул кастомным CSS для уничтожения некоторых объектов UI, которые меня отвлекали.

Пока пробую – и мне нравится.

Обсуждение: что сейчас еще есть интересного и удобного в мире браузеров?

| Поддержать | YouTube | GitHub | Чат |

❤‍🔥6

418 views15:41

Pandas устарел?
FireDucks предлагает замену без переписывания кода.

🐼

Pandas - самая популярная библиотека для обработки данных, но она уже давно страдает от низкой производительности.

🐻 Современные альтернативы, такие как Polars, предлагают гораздо более высокую производительность, но переход на новые фреймворки требует изучения нового API, что отталкивает многих разработчиков.

🔥

🦆

FireDucks

🦆

🔥 решает эту проблему, предлагая полную совместимость с Pandas, но с многопоточной обработкой и ускорением работы компилятора. Для перехода достаточно изменить одну строку:

import fireducks.pandas as pd

FireDucks работает быстрее, чем Pandas и Polars, что подтверждается бенчмарками

🔜 FireDucks github

➡️

Сравнение с Polars и Pandas:

#pandas #polars #fireducks #de #dataengineer #dataengineering

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥7

737 views04:44

🌸 Дорогие девушки! 🌸

Поздравляю вас с 8 Марта! 🎉

Пусть ваши запросы всегда выполняются мгновенно, джойны будут только удачными, а данные — чистыми и структурированными. Пусть в вашей жизни будет столько же радости, сколько строк в крупнейших базах данных, и столько же успешных решений, сколько индексов в оптимизированном запросе!

Будьте вдохновением для мира технологий, ведь именно благодаря вам data-driven будущее становится еще ярче! 💡

С праздником! 💐

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥11

713 views13:09

#sql #meme

😁17

989 views04:08

#de #meme #engineering

👏14

758 views15:42

В инженерии данных примерно такая же история, или нет? 🫡

Please open Telegram to view this post

VIEW IN TELEGRAM

😁18

596 views17:16

#de #meme #data #orm

😁9

586 views11:28

Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг

😁9👏1

490 views17:25

🙄

Apache Iceberg vs Delta Lake vs Hudi: выбор формата для AI/ML

Выбор правильного формата хранения данных имеет решающее значение для машинного обучения (ML) и аналитики. Неправильный выбор может привести к медленным запросам, плохой масштабируемости и проблемам с целостностью данных.

😕

Почему формат имеет значение?

Традиционные хранилища данных сталкиваются со следующими проблемами:
🔜 Отсутствие транзакций ACID - риск конфликтов чтения/записи
🔜 Отсутствие управления версиями данных — трудно отслеживать изменения
🔜 Медленные запросы — большие наборы данных замедляют аналитику

▶️

Apache Iceberg — решение для аналитики и пакетной обработки

📌 Зачем?

✔️ Обработка исторических наборов данных
✔️ Необходимость оптимизации запросов и развития схемы
✔️ Пакетная обработка является приоритетом

📌 Преимущества

✔️ ACID-транзакции с моментальной изоляцией
✔️ Возможность вернуться в прошлое - восстановление предыдущих версий данных
✔️ Скрытое разделение - ускоряет запросы
✔️ Поддержка Flink, Trino, Presto, Spark ⭐️

📌 Использование

✔️ BI и анализ тенденций
✔️ Хранение данных для обучения модели машинного обучения
✔️ Логи аудита и сценарии отката

▶️

Delta Lake — решение для рабочих нагрузок, связанных с AI, ML и потоковыми данными

📌 Зачем?

✔️ Потоковая передача данных имеет решающее значение для ML
✔️ Нужны настоящие транзакции ACID
✔️ Работа в основном с Apache Spark ⭐️

📌 Преимущества

✔️ Глубокая интеграция со Spark ⭐️
✔️ Инкрементальные обновления (позволяют избежать полной перезаписи набора данных)
✔️ Z-Ordering – группирует похожие данные для более быстрых запросов
✔️ Возможности отката и восстановления

📌 Использование

✔️ Конвейеры машинного обучения в реальном времени (обнаружение мошенничества, прогнозная аналитика)
✔️ Рабочие процессы ETL
✔️ Обработка данных IoT и логи

▶️

Apache Hudi — решение для обновлений в реальном времени

📌 Зачем?

✔️ Необходимость быстрой аналитики в реальном времени
✔️ Данные нуждаются в частых обновлениях
✔️ Работа с Apache Flink, Spark ⭐️ или Kafka

📌 Преимущества

✔️ Транзакции ACID и управление версиями
✔️ Слияние при чтении (MoR) – обновление без перезаписи целых наборов данных
✔️ Оптимизировано для машинного обучения в реальном времени (обнаружение мошенничества, рекомендации)
✔️ Поддержка микро-пакетирования и потоковой передачи

📌 Использование

✔️Обнаружение мошенничества (банковские операции, мониторинг безопасности)
✔️ Рекомендательные системы (электронная коммерция, стриминговые сервисы)
✔️ AdTech (торги в реальном времени, персонализированная реклама)

🧐 Какой формат лучше всего подходит для AI/ML?

😀

Iceberg — для исторических данных и бизнес-аналитики

😀

Delta Lake — для AI/ML, потоковой передачи и Apache Spark ⭐️

✔️

Hudi — для частых обновлений и машинного обучения в реальном времени (обнаружение мошенничества, рекомендации, AdTech)

🔜 Полный обзор можно найти в статье по ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

delta.io

Home | Delta Lake

2❤‍🔥7👏32

500 views07:45

#meme #ai #llm

😁9

481 views15:36

#meme #ai

😁10

412 views04:14

📊

Как избежать хаоса с данными?
Способы обеспечения согласованности показателей в хранилище

Если ты работаешь с аналитикой, ты, вероятно, сталкивался с ситуацией, когда один и та же метрика рассчитывается по-разному в разных отделах. Это приводит к путанице, снижает доверие к данным и замедляет процесс принятия решений. Расскажу основные причины этой проблемы и два эффективных варианта решения.

🧐

Почему показатели расходятся?
Причина кроется в спонтанном росте аналитики:
🔘 Аналитик пишет SQL-запрос для расчёта метрики.
🔘 Затем другие команды создают свои собственные версии на основе этого запроса, внося незначительные изменения.
🔘 Со временем возникают расхождения, и команда аналитики тратит всё больше и больше времени на устранение несоответствий.

Чтобы избежать такой ситуации, стоит внедрить единые стандарты управления метриками.

✏️

Два подхода к обеспечению согласованности

▶️

Семантический слой
Это промежуточный слой между данными и инструментами аналитики, где метрики определяются централизованно. Они хранятся в статических файлах (например, YAML) и используются для автоматической генерации SQL-запросов.

🙂 Плюсы:
✔️ Гибкость — адаптируется к различным запросам без предварительного создания таблиц.
✔️ Прозрачность — единые определения доступны для всех команд.
✔️ Актуальность — данные обновляются в режиме реального времени.

🙄 Минусы:
✖️ Требует инвестиций в инфраструктуру и оптимизацию.
✖️ Может увеличить нагрузку на вычисления (это ты сможешь решить с помощью кэширования).

📌 Пример инструмента: Cube.js - одно из немногих зрелых open-source решений.

▶️

Предварительно агрегированные таблицы
Здесь заранее создаются таблицы с предварительно вычисленными метриками и фиксированными измерениями.

🙂 Плюсы:
✔️ Простая реализация, удобная для небольших проектов.
✔️ Экономия вычислительных ресурсов.
✔️ Полный контроль над вычислениями.

🙄 Минусы:
✖️ Сложно поддерживать по мере увеличения количества пользователей.
✖️ Возможны расхождения, если метрики определены в разных таблицах.

😎 Какой метод выбрать?
Оптимальный подход - гибридное использование:
🔘 Реализуй семантический слой для масштабируемости.
🔘 Используй предварительно агрегированные таблицы для критических показателей, где важна минимальная стоимость вычислений.

#de #engineering #chaos

Please open Telegram to view this post

VIEW IN TELEGRAM

cube.dev

Cube: Agentic Analytics Platform

Cube, the universal semantic layer, makes it easy to connect BI silos, embed analytics, and power your data data apps and AI with context.

6👏2❤‍🔥1

435 views18:02

Forwarded from DataEng

Курс AI Agents от Microsoft

Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/
Помимо текстового материала есть и видео лекции на Ютубе.

ai-agents-for-beginners

AI Agents for Beginners - A Course

12 Lessons to Get Started Building AI Agents

❤‍🔥7

404 views18:34

#ai #llm #meme

😁13👏3

515 views09:38

😁101

552 views21:46

About

Blog

Apps

Platform