NEW BOT Телеграм, страница - 994565086

DS & ML | YeaHub

@yeahub_data_science

467 subscribers

259 photos

67 videos

371 links

Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

DS & ML | YeaHub

467 subscribers

DS & ML | YeaHub

#Собес #pandas

🤔

Как установить индекс в Pandas DataFrame?

💬 Кратко:
Метод set_index() позволяет сделать столбец, Series или список индексом DataFrame. Он также поддерживает множественные индексы.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

166 views07:52

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😎

Получайте RAG-ready данные из любого неструктурированного файла

Tensorlake преобразует неструктурированные документы в RAG-ready данные в несколько строк кода. Возвращает layout документа, структурированное извлечение, bounding boxes и т. д.

Работает с любым сложным layout, рукописными документами и многоязычными данными
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

146 views08:00

DS & ML | YeaHub

#видео
🤓 Этот YouTube-канал - настоящая сокровищница для понимания концепций машинного обучения.
Ссылка

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

148 views15:02

DS & ML | YeaHub

#полезное

😐

Kubechecks позволяет пользователям GitHub и GitLab точно видеть, какие изменения повлияют на их текущие деплойменты в ArgoCD, и автоматически запускать различные наборы тестов на соответствие перед мёрджем.
Забираем на GitHub

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

124 views05:50

DS & ML | YeaHub

#Собес #pandas

🤔

Как удалить индекс, строку или столбец из существующего DataFrame?

💬 Кратко:
🟠 Удаление индекса выполняется через reset_index()
🟠 Удаление строки осуществляется с помощью df.drop (index)
🟠 Удаление столбца выполняется через df.drop(columns, axis=1)

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

116 views07:53

DS & ML | YeaHub

#полезное

🤯

Dolphin — превращает PDF в структурированные данные

Dolphin (Document Image Parsing via Heterogeneous Anchor Prompting) — 100% open source-модель для автоматического разбора PDF и сканов.

Зачем нужен:
— Конвертирует документы в готовые форматы: Markdown, HTML, LaTeX, JSON.
— Извлекает текст, таблицы, формулы и изображения.
— Полезен как для подготовки данных для LLM, так и для любых автоматизированных систем, архивов, поиска и аналитики.

Как работает:
1⃣ Анализ макета страницы — определяет все элементы в естественном порядке чтения.
2⃣ Параллельный парсинг — с «якорями» и промптами под каждый тип контента.

Представьте, что у вас есть 500 отчётов в PDF с финансовыми таблицами и графиками. Dolphin превращает их в аккуратный CSV или JSON, готовый для анализа в Pandas или загрузки в базу данных — без ручного копипаста и правок.

Лёгкая архитектура + параллельная обработка = высокая скорость без потери качества.

Репозиторий с кодом и моделями: https://clc.to/6gPIwA

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

119 views15:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😐

Деплойте AI-приложения, просто добавив Python-декоратор

Beam — опенсорс альтернатива Modal для деплоя серверлесс AI-нагрузок.

Просто выполните uv add beam-client, добавьте декоратор и превратите любой воркфлоу в серверлесс-эндпоинт

https://github.com/beam-cloud/beta9

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

108 views08:04

DS & ML | YeaHub

#полезное

😬

Понимание LLM с нуля

Статья с нуля и на арифметике уровня средней школы объясняет, как работают LLM: от ручной «генеративки на бумаге» до современной архитектуры Transformer
Читаем здесь

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

124 views15:03

DS & ML | YeaHub

#Собес #pandas

🤔

Как добавить индекс, строку или столбец в существующий DataFrame?

💬 Кратко:
🟠 Добавление индекса выполняется через set_index() , позволяя установить столбец, список или Series в качестве индекса.
🟠 Добавление строк можно сделать с помощью df.loc[], передав индекс и значения, или через pd.concat() , объединяя несколько DataFrame.
🟠 Добавление столбцов осуществляется через присвоение df[ 'column_name'] = values , а также методами df.insert() и df.assign()

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

106 views07:52

DS & ML | YeaHub

#полезное

😬

Redis полезен не только для кэширования.

С его помощью можно реализовать базовый Pub/Sub механизм.

Если ты когда-нибудь писал распределенные системы или микросервисы в dotnet, наверняка сталкивался с проблемой синхронизации сервисов.

Нужно как-то уведомлять другие сервисы о событиях, сбрасывать кэш или слать обновления на дашборд в реальном времени, а значит без механизма обмена сообщениями не обойтись.

RabbitMQ и Kafka отлично подходят для сложных сценариев, но иногда достаточно чего-то простого, быстрого и уже встроенного в стек. Здесь пригодится Redis Pub/Sub.

Эта встроенная возможность Redis позволяет сервисам отправлять и получать сообщения через именованные каналы. Publisher пишет сообщение в канал, а Subscriber слушает его и сразу обрабатывает входящие данные.

Работает это быстро, не требует хранения сообщений и практически не нагружает систему. Хорошо подходит для задач в реальном времени, где потеря пары сообщений не критична.

Например, для обновления интерфейсов в реальном времени, для инвалидации кэша между сервисами или для передачи сигналов между приложениями.

Пример реализации: https://thecodeman.net/posts/messaging-in-dotnet-with-redis

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

119 views15:02

DS & ML | YeaHub

#полезное

👋

OpenAI покупает стартап Statsig за $1.1 млрд

Что делает Statsig:
Инструменты для A/B-тестов и аналитики → можно сравнивать версии продукта, смотреть поведение пользователей и быстро выкатывать/откатывать изменения.

Зачем OpenAI:
Теперь они смогут тестировать LLM-фичи (промпты, фильтры, задержки, цену) на реальных данных и управлять обновлениями автоматически.

Основатель Виджай Раджи станет CTO приложений в OpenAI.

Контекст:
🔵 Это одна из крупнейших покупок компании
🔵 В 2025 OpenAI уже привлекла $40 млрд и обсуждает новую сделку, которая может поднять оценку до $500 млрд
🔵 Ранее купили AI-стартап Джони Айва ($6.5 млрд), но сделка с Windsurf ($3 млрд) сорвалась

theverge.com/openai/769325/openai-statsig-acquisition-executive-moves

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

140 views08:03

DS & ML | YeaHub

#Собес #pandas

🤔

Что такое Reindexing в Pandas?

💬 Кратко:
Reindexing (переиндексация) - это изменение индексов строк и/или столбцов DataFrame. Используется метод reindex() , который позволяет задавать новый порядок индексов и заполнять отсутствующие значения NaN.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

118 views07:52

DS & ML | YeaHub

#полезное

😵‍💫

Parlant — простой фреймворк для разработки LLM-агентов

Parlant помогает задавать агенту чёткое поведение: сценарии шагов (Journeys), правила тона и политики, подключение инструментов (API, БД, поиски), готовые ответы и объяснимость действий.


pip install parlant

Github: https://github.com/emcie-co/parlant

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

124 views15:00

DS & ML | YeaHub

#новости

👨‍💻

Google релизнули EmbeddingGemma

Это открытая модель для эмбеддингов, основанная на Gemma 3. Ее основная фишка – размер. Крошка имеет всего 308M параметров и показывает SOTA метрики в весе до 500М. Работает более чем на 100 языках.

А еще модель специально оптимизирована для использования on-device, то есть локально без Интернета. С квантизацией требует всего 200MB оперативки.

Зачем нам эмбеддинг-модель в режиме on-device? Например, для приватного RAG или semantic search. Модель работает локально, то есть и генерация векторов для поиска, и сам поиск проходят прямо на устройстве. Это быстрее, дешевле и без риска утечки данных.

Кстати, эмббединги на выходе могут быть разных размерностей, от 768 до 128. Это прикольная особенность. Работает такое за счет Matryoshka Representation Learning. Если кратко, модель эластична, то есть внутри нее есть полностью самодостаточные модели поменьше. Переключение между ними и позволяет на лету менять размерности выходных векторов.

Потыкать модельку уже можно в sentence-transformers, llama.cpp, MLX, Ollama, LiteRT, transformers.js, LMStudio, Weaviate, Cloudflare, LlamaIndex и LangChain. Как видите, с интеграциями у Google все в порядке

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

119 views08:05

DS & ML | YeaHub

#новости

📞

У офиса Anthropic проходит необычная акция протеста: ряд активистов объявили голодовку.

Протестующие утверждают, что гонка за всё более мощным искусственным интеллектом уже наносит вред обществу и может привести к катастрофическим последствиям.

По их словам, разработка AGI несёт угрозу не только благополучию людей, но и самому существованию человечества.

Активисты требуют от Anthropic и других компаний:
🟠 остановить «гонку вооружений» в области ИИ,
🟠 признать риски и рассказать обществу о них,
🟠 сосредоточиться на снижении уже нанесённого вреда.
Пост активиста

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣2

114 views15:00