DS & ML | YeaHub – Telegram
DS & ML | YeaHub
464 subscribers
259 photos
67 videos
372 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#новости
🥺 Anthropic инвестируют 50 миллионов долларов в интерпретируемость LLM

Точнее в стартап Goodfire, который специализируется на интерпретируемости. Вместе с Anthropic они теперь будут разрабатывать общедоступную платформу нейронного программирования Ember, которая сможет показывать «мысли» любой ИИ-модели.

Это, кстати, первая инвестиция Anthropic за все время существования компании

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😬 Подключите любую LLM к любому MCP-серверу

MCP-Use — это open-source способ подключить любую LLM к любому MCP-серверу и создавать кастомных агентов с доступом к инструментам без использования проприетарных решений или клиентских приложений.
Создавайте полностью локальные MCP-клиенты

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
#полезное
😐 Стэнфорд выкатил свежий курс по LLM — CS336: Language Modeling from Scratch

Курс с фокусом на практику: вся теория по LLM раскрывается через создание собственной модели. Ты изучаешь всё end-to-end — от обработки данных и архитектуры трансформеров до RL и эвала

Ведёт курс Перси Лианг — профессор Стэнфорда и сооснователь TogetherAI.

Курс прямо сейчас идёт в Стэнфорде, и лекции заливаются по ходу — контент свежий, как только из печи

Первые лекции здесь, а домашка и ноутбуки — тут.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Как использование графов потока данных в TensorFlow помогает в разработке моделей машинного обучения?

Графы данных в TensorFlow позволяют эффективно выполнять вычисления, улучшать параллельность и обеспечивать переносимость. Графы представляют вычисления как узлы, соединенные ребрами, что позволяет TensorFlow распределять вычисления по нескольким процессорам и GPU, повышая эффективность. Кроме того, абстракция графов упрощает создание моделей без необходимости учитывать аппаратные особенности.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 4 стратегии обучения на нескольких GPU, объяснённые наглядно:

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#видео
😎 Эта лекция о больших языковых моделях (LLM) обязательна к просмотру для инженеров в области ИИ.

Полуторачасовая лекция охватывает: токенизацию, законы масштабирования, дообучение, оценку, оптимизацию, вызовы, затраты и многое другое.

От Стэнфорда, около 1 млн просмотров
📱 Смотреть видео

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👨‍💻 Этот репозиторий на GitHub — настоящая находка для ML-специалистов

Репозиторий Kaggle Solutions собирает решения и идеи от лучших участников прошлых соревнований Kaggle. Список регулярно обновляется после каждого соревнования.

Он охватывает интервью по машинному обучению, лекции и решения
Гитхаб

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Объясните, чем TensorFlow отличается от других платформ машинного обучения

TensorFlow отличается гибкостью и масштабируемостью. Он поддерживает широкий спектр нейронных сетей и алгоритмов, что делает его универсальным для различных задач. Благодаря модели вычислительных графов TensorFlow можно эффективно обрабатывать вычисления параллельно, что улучшает производительность на крупных системах. Также TensorFlow предоставляет инструменты для отладки и оптимизации моделей, такие как TensorBoard, и поддерживает развертывание на мобильных устройствах и вебе.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👍 Вот как запустить модель случайного леса на GPU

Hummingbird компилирует обученные традиционные модели машинного обучения в тензорные вычисления. Это позволяет запускать их на аппаратных ускорителях, таких как GPU, для более быстрой инференции.

Инференция в 40 раз быстрее всего за 2 строки кода

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#новости
👋 В Китае закончился первый в мире полу-марафон для людей и роботов

Участие приняли более 20 двуногих роботов. Были и от ведущих китайских стартапов, но даже победители очень сильно отставали от людей (фух).

Пробежать нужно было, если что, 21 километр. Победитель от людей преодолел расстояние за 1 час 2 минуты. От роботов победил Tiangong Ultra. Его результат – 2 часа 40 минут.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
📞 Вышел Qwen-3, встречаем новую открытую соту

Выпустили 2 MoE и 6 dense моделей в весах на любой вкус, 0.6В до 235B. Разбираем.

Самая большая модель на уровне со всеми звездами – Gemini 2.5 Pro, Grok-3, o1, R1. И это MoE всего с 22В активных параметров. На 30В MoE модель тоже крутая получилась: на бенчах видно, что она лучше предыдущего ризонера QwQ-32B (при этом активных параметров у нее всего 3В, то есть в 10 раз меньше).

Что еще стоит знать:

1⃣ Это полу-ризонеры, Sonnet 3.7 или Gemini 2.5 Pro. То есть модель будет «думать», если задать мод think, и не думать, если задать Non-Thinking. Бюджет рассуждений тоже можно контролировать.

2⃣ Модели мультиязычные (русский тоже есть), но не мультимодальные. Довольствуемся тем, что есть.

3⃣ Улучшены агентные способности на уровне поиска в браузере, использования интерпретатора и др. Что особенно приятно – добавили поддержку MCP.

4⃣ Претрейнинг был в три этапа: сначала на 30 триллионах токенов с контекстом 4К, затем отдельно на сложных научных текстах (5Т), потом на длинных контекстах до 32К токенов.

5⃣ Пост-трейнинг: файн-тюнинг на CoT + несколько стадий RL. Интересно, что мелкие модели до 30В обучали дистилляцией из крупных.

В общем, пробуем и наслаждаемся здесь

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Как использовать Keras APl в TensorFlow для создания моделей глубокого обучения?

Keras - это высокоуровневый АР| в TensorFlow, который упрощает создание, обучение и развертывание нейросетей. Чтобы создать модель, используется класс Sequential или функциональный АРІ. Добавляются слои ( Dense , Conv2D и др.), затем модель компилируется с помощью compile() , указывая функцию потерь и оптимизатор. Обучение выполняется через fit() , оценка через evaluate() , а прогнозирование через predict() . Keras APl делает разработку моделей более удобной и читаемой.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 MLOps без воды: готовый пошаговый план

Готовый GitHub-репозиторий, который по шагам закрывает ключевые темы: от настройки проекта и контроля данных — до CI/CD, упаковки моделей и деплоя в AWS:

Неделя 0: Базовая настройка проекта

Неделя 1: Мониторинг моделей через Weights & Biases

Неделя 2: Конфигурации с Hydra

Неделя 3: Контроль версий данных с DVC

Неделя 4: Упаковка моделей в ONNX

Неделя 5: Упаковка моделей в Docker

Неделя 6: CI/CD через GitHub Actions

Неделя 7: Хранение контейнеров в AWS ECR

Неделя 8: Серверлесс-деплой на AWS Lambda

Неделя 9: Мониторинг предсказаний через Kibana
Ссылка на репозиторий

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😇 TransPixar — новая нейросеть, способная генерировать видео с прозрачным фоном. Это идеально для создания спрайтов в видеоиграх!

Демо: *клик*
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😱 llm-scraper — библиотека на языке TypeScript, предназначенная для извлечения структурированных данных с веб-страниц с использованием LLM!

Библиотека поддерживает различные провайдеры LLM, включая локальные модели (Ollama, GGUF), OpenAI и Vercel AI SDK. Для определения схем данных используется библиотека Zod, обеспечивая полную типизацию в TypeScript. В основе работы llm-scraper лежит фреймворк Playwright, который управляет взаимодействием с веб-страницами.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Что такое TensorFlow Transform (tf. Transform) и какие проблемы он решает?

TensorFlow Transform (tf.Transform ) - это библиотека для предварительной обработки данных в TensorFlow. Она позволяет применять те же преобразования данных как во время обучения, так и при инференсе, что устраняет несоответствия между обработкой данных в разных этапах. tf.Transform особенно полезен при работе с большими наборами данных, так как выполняет масштабируемые преобразования, которые не помещаются в память. Основное преимущество - автоматическое включение предобработки в экспортированную модель, что делает её консистентной.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 GPUStack — это менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей.

🟠 Универсальность: Поддерживает работу на разных платформах, включая macOS, Windows и Linux.
🟠 Масштабируемость: Позволяет легко добавлять дополнительные GPU или узлы для увеличения вычислительных мощностей.
🟠 Широкий спектр моделей: Поддерживает запуск больших языковых моделей (LLM), диффузионных моделей, аудио-, embedding и reranker моделей.
🟠 Несколько бекендов: Использует такие решения, как llama-box, vLLM и vox-box для инференса.
🟠 OpenAI-совместимые API: Предоставляет API, совместимые с OpenAI, что облегчает интеграцию с различными приложениями и сервисами.
🟠 Мониторинг и управление: Включает инструменты для отслеживания производительности GPU, использования токенов и управления пользователями и API-ключами.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😬 Топ на выходные: 3 сайта с задачками для прокачки ML-навыков

Линейная алгебра, machine и deep learning — разный уровень сложности: задачи отсортированы по Easy, Mediums и Hard. Автоматическая проверка и подсказки в комплекте

Deep-ML, Tensorgym и ML cекция на NeetCode — не благодарите

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM