DS & ML | YeaHub – Telegram
DS & ML | YeaHub
464 subscribers
259 photos
67 videos
372 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
👍 Нарыл годную визуализацию для тех, кто хочет на пальцах понять, как устроены LLM. Тут можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон в 3D

Есть GPT-2, nanoGPT, GPT-2 XL и GPT-3

Лучше запускать с компа, на мобиле не так красиво

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🛞 Qwen официально выпустили квантованные версии Qwen3!

Теперь Qwen3 можно развернуть через Ollama, LM Studio, SGLang и vLLM — выбирайте удобный формат (GGUF, AWQ или GPTQ) для локального деплоя.

Все модели доступны в коллекции Qwen3 на Hugging Face и ModelScope:

Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Reader от Jina AI — переводчик веб-страниц для языковых моделей. Этот необычный проект решает проблему всех RAG-систем, превращая контент веб-страниц в удобоваримый для LLM формат. Просто добавьте https://r.jina.ai/ перед любой ссылкой и получите очищенный от рекламы, JS-кода и лишних элементов текст с автоматически подписанными изображениями.

Также запрос через s.jina.ai не просто выдает список ссылок, а сразу загружает и обрабатывает топ-5 результатов. Технология уже используется в продакшене и полностью бесплатна.
GitHub

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Как справляться с переобучением и недообучением в моделях TensorFlow?

Для борьбы с переобучением в TensorFlow можно использовать регуляризацию (L1, L2), dropout, раннюю остановку или увеличивать обьем данных. Для борьбы с недообучением стоит увеличить сложность модели, добавить больше признаков или уменьшить регуляризацию.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
#полезное
🫠 soarXiv — и это очень красивый способ исследовать человеческие знания.

Вам нужно заменить «arxiv» на «soarxiv» в URL статьи, и вы попадёте на её визуализацию во Вселенной.

Поддерживается примерно 2,8 миллиона научных работ.
soarxiv.org

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😊 Еще один очень занятный релиз от Google – диффузионная языковая модель Gemini Diffusion

Кратко, в чем суть: вместо генерации токенов один за одним здесь они генерируются в произвольном порядке. То есть берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии).

Это, во-первых, помогает существенно ускорять процесс. Такая Gemini может генерировать до 2000 токенов в секунду. Это раз в 10-15 быстрее, чем в среднем генерируют хорошо оптимизированные модели.

Во-вторых, в задачах типа математики такой подход к генерации может помочь модели быстро перебирать несколько вариантов решений и двигаться не обязательно последовательно, а в «удобном» порядке. Так что метрики сравнимы с предыдущим поколением моделей Google.

Попробовать пока можно только по запросу, но сам факт таких релизов от Google впечатляет

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#статьи
👍 ML в продакшене: следим за качеством после релиза

Даже самая точная модель на этапе разработки может со временем «поплыть» — из-за изменений в данных, поведении пользователей или внешней среды.

В новом материале разбираемся:
— какие метрики важно отслеживать после деплоя,
— когда запускать A/B-тесты,
— как строить систему алертов и реагировать на деградацию,
— и почему переобучение — не признак провала, а часть жизненного цикла ML.
Читайте статью

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Что такое области переменных в TensorFlow и как они полезны?

Области переменных в TensorFlow - это механизм для группировки переменных, что позволяет избежать конфликтов имен и улучшить организацию кода. Они полезны при построении сложных моделей с множеством слоев или компонентов, которые могут использовать одинаковые имена переменных.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👨‍💻 Matrix Cookbook от Университета Ватерлоо — это краткая «шпаргалка», содержащая сотни матричных тождеств, производных, разложений и статистических формул, к которым вы будете обращаться всякий раз, когда линейная алгебра становится сложной.

Идеально подходит в качестве настольного справочника для ускорения вывода формул и математических расчётов в машинном обучении
Гитхаб

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
#видео
😬 Что посмотреть: интервью с лидерами Google об ИИ, AGI и будущем разума

На Google I/O прошла живая дискуссия с Демисом Хассабисом (CEO DeepMind), Сергеем Брином (сооснователь Google) и Алексом Кантровицем. Темой стало развитие ИИ и возможный путь к AGI — искусственному общему интеллекту.

Обсудили:
🟠 Есть ли предел масштабированию ИИ-моделей
🟠 Как новые методы рассуждений меняют ИИ
🟠 Когда (и будет ли) AGI
🟠 ИИ-агенты Project Astra и подход AlphaEvolve (самообучение ИИ)
🟠 Уроки от Google Glass и проблемы качества данных
🟠 И да: затронули веб, симуляции и сроки появления AGI
Смотреть видео

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😐 Команда дня: einsum или как реализовать multi-head self-attention без единого цикла

Если вы работаете с нейросетями, особенно с трансформерами, то, скорее всего, сталкивались с реализациями self-attention, переполненными циклами. Однако благодаря np.einsum можно выразить всю механику multi-head attention в компактной и векторизованной форме.

Вот пример реализации:
def multi_head_attention(X, W_q, W_k, W_v, W_o):  
d_k = W_k.shape[-1]
Q = np.einsum('si,hij->hsj', X, W_q) # (n_heads, seq_len, d_k)
K = np.einsum('si,hik->hsk', X, W_k)
V = np.einsum('si,hiv->hsv', X, W_v)
scores = Q @ K.transpose(0, 2, 1) / np.sqrt(d_k)
weights = softmax(scores, axis=-1)
output = weights @ V
projected = np.einsum('hsv,hvd->hsd', output, W_o)
return projected.transpose(1, 0, 2).reshape(seq_len, -1)


einsum — мощный инструмент для выражения сложных операций с многомерными массивами. Особенно полезен, когда нужно точно контролировать свёртки и трансформации осей. В задачах NLP и computer vision это буквально незаменимая вещь.

Почему стоит обратить внимание:
🟠 Полная векторизация — минимум циклов, максимум скорости;
🟠 Код ближе к математике, а значит — легче проверять;
🟠 Можно выразить довольно сложные операции с тензорами в одной строке.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Что такое TensorFlow Serving и как он используется в производственных средах?

TensorFlow Serving - это система для обслуживания моделей машинного обучения, предназначенная для производственных сред. Она обеспечивает полное управление жизненным циклом модели, включая загрузку, обслуживание и обновление моделей. TensorFlow Serving поддерживает работу с несколькими версиями моделей одновременно, что важно для проведения А/В тестирования и плавных обновлений.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Прогресс искусственного интеллекта поистине стремителен

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#видео
😊 Илон Маск говорит, что Grok 3.5 будет рассуждать, исходя из первых принципов, используя физически обоснованные методы для направления мышления.

Модель разбирает сложные задачи до фундаментальных истин, а затем выстраивает логику «снизу вверх», проверяя выводы на соответствие базовым законам.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Нет, я не плачу, это просто слёзы...

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #mongoDB
🤔 Что такое коллекция в MongoDB?

Коллекция в MongoDB - это группа документов, связанных между собой по смыслу. В отличие от таблиц в реляционных базах данных, коллекции не имеют жесткой схемы, что позволяет хранить документы с разной структурой в одной коллекции.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1⃣ LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2⃣ LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3⃣ VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4⃣ Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5⃣ LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😇 Google выпустила MedGemma — открытые модели ИИ для медицины

На Hugging Face вышла коллекция MedGemma, созданная Google на базе Gemma 3 специально для медицинских задач. Это мощные модели, способные анализировать как текст, так и медицинские изображения — от рентгена до дерматологии.

В коллекции:
medgemma-4b-it — мультимодальная модель (текст + изображения)
medgemma-4b-pt — предварительно обученная версия
medgemma-27b-text-it — огромная текстовая модель для клинической документации

Что умеют:
Обнаружение патологий на рентген-снимках
Ответы на медицинские вопросы (VQA)
Генерация медицинских отчётов
Обработка клинических заметок, триажа, историй болезни

Бенчмарки:
• CheXpert F1 (Top‑5): 48.1 vs 31.2 у базовой
• DermMCQA точность: 71.8%
• VQA‑Rad F1: 49.9

Пример использования:

from transformers import pipeline
pipe = pipeline("image-text-to-text", model="google/medgemma-4b-it")

Hugging Face

Лицензия: Apache 2.0 (с медицинским соглашением)

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM