NEW BOT Телеграм, страница - 220613714

Machine Learning | YeaHub

@yeahub_machine_learning

336 subscribers

244 photos

126 videos

361 links

Теория, подготовка к интервью и курсы для ML специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

Machine Learning | YeaHub

336 subscribers

Machine Learning | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😱

Играемся с CV

Зацените, что нашёл на выходные:

Вот вам пара небольших, несложных и практически бесполезных штуковин, в которые просто интересно поиграться.

Концепт интересный и, думаю, многим приходил в голову. Здесь у нас реалитайм-трекинг рук, который привязан к паре заранее записанных дорожек их параметрам. Всё работает на three.js, MediaPipe, HTML/CSS/JS. Подобных проектов там ещё 7. Кроме этого мне больше всех зашёл генератор шейдеров.

Для новичков вообще топ, гайды по сборке своей похожей CV-игрушки доступны за 10 баксов. Но, кажется, здесь и Gemini сравится, хотя от этого играть не менее интересно)
линк

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

73 views08:01

Machine Learning | YeaHub

Даже Хемингуэй плакал от этой истории.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

83 views15:03

Machine Learning | YeaHub

#Собес #ScikitLearn

🤔

Как работать с многовыходными задачами в Scikit-Learn?

Scikit-Learn предоставляет инструменты для работы с многовыходными задачами через MultiOutputRegressor и MultiOutputClassifier. Эти мета-оцениватели позволяют применить один классификатор или регрессор для каждого выходного параметра.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

75 views08:01

Machine Learning | YeaHub

#полезное

👨‍💻

GitHub Copilot Chat для VS Code выкатили в опенсорс — Microsoft открыла весь исходный код самого популярного чат-бота для программистов под лицензией MIT.

Теперь можно изучить всю кодовую базу ИИ-агента, пощупать, как он работает, потестить фичи, внимательнее рассмотреть контекст и даже внедрить свои наработки. Исправление багов так же приветствуется.

Играемся — здесь.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

78 views15:04

Machine Learning | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🥰1

103 views08:04

Machine Learning | YeaHub

#Собес #ScikitLearn

🤔

Как работать с текстовыми данными в Scikit-Learn? Приведи пример предобработки текста с использованием Scikit-Learn.

B Scikit-Learn для обработки текстовых данных используются векторизаторы, такие как CountVectorizer и TfidfVectorizer. CountVectorizer преобразует текст в числовые векторы, используя частоту слов, а TfidfVectorizer учитывает не только частоту, но и уникальность слов.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

65 views08:04

Machine Learning | YeaHub

#полезное

👍

Higgsfield Soul - новая text2image модель?

Ребята явно решили замахнуться на кусок пирога Midjourney. В твиттере сейчас только о них и говорят, называя их новый генератор картинок Soul самым реалистичным и эстетичным. Но так ли это?

Higgsfield — это изначально апка с видеогенераторами. Я про нее никогда не писал, потому что в целом это аггретатор моделей, а не какая-то новая модель. Просто на сайте есть куча пресетов и нейроэффектов (по сути, LoRA для видео). Иногда это даёт прикольный результат, и для определённых задач выходит лучше и быстрее, чем пытаться добиться того же через промпт в другом генераторе. Для художников удобно, но с технической точки зрения ничего любопытного.

А теперь про их новую t2i-модель — Soul. Судя по черри-пикам в твиттере, это и правда очень красивая и реалистичная модель. Что мы видим на самом сайте? Куча готовых пресетов и стилей. Я взял рандомный промпт из галереи (отмечу, что все они там очень длинные) и провёл тесты:

1⃣ Оригинальный промпт + оригинальный пресет «office beach».
2⃣ Оригинальный промпт + пресет «general» (то есть базовая, не затюненная версия модели).
3⃣ Другой промпт из галереи + оригинальный пресет «office beach».
4⃣ Другой промпт + его родной пресет «movie».
5⃣ Другой промпт + пресет «general».

Для сравнения я прогнал те же промпты через Runway (6,7) и Flux dev (8,9).

Итог предсказуем: магии не случилось. Удивлен, что generation diversity ≈ 0, что видно из последней пикчи (10), они больше похожи на вариации одной общей картинки, а не на новые изображения. Есть подозрение, что они просто берут случайную фотку из трейна (ближайшуюу по клип скору) по заданному стилю и в этом же стиле перерисовывают, помешивая промпт и добавляя LoRA. По сути, это тот же Flux либо HiDream, но с пачкой действительно качественных LoRA-пресетов. Какие-то вещи повторить быстро и легко можно, но вряд ли выйдет создать что-то принципиально новое.

И что самое ироничное, со всеми этими «четырёхэтажными» промптами, которые даже не влезли в лимит Runway в 1000 знаков, последний, по-моему, справился даже лучше! Может, чуть меньше реализма, но с точки зрения стиля, атмосферы и эстетики... Просто посмотрите на ковбоя от Runway.

P.S. Все генерации сделаны с первого раза.

higgsfield.ai

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

64 views15:05

Machine Learning | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

Когда снова довел нейросеть.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

56 views08:03

Machine Learning | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

🥄

NotebookLlama —Практически полный функционал NotebookLM — в опенсорсе.

Особенности:
✅ Создаёт базу знаний из документов — с точным разбором через LlamaCloud
✅ Автоматически пишет резюме и строит mind map-графы
✅ Позволяет генерировать подкасты (работает на базе ElevenLabs)
✅ Позволяет вести чат с агентом по документам
✅ Метрики и аналитика через opentelemetry

Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.

Установка:


git clone https://github.com/run-llama/notebookllama

GitHub: https://github.com/run-llama/notebookllama
Попробовать в LlamaCloud: https://cloud.llamaindex.ai

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

64 views15:01

Machine Learning | YeaHub

#Собес #ScikitLearn

🤔

Какие ключевые различия между алгоритмами K-Nearest Neighbors (KNN) и Decision Trees в Scikit-Learn?

KNN - это алгоритм на основе экземпляров, который классифицирует новые данные, измеряя схожесть с обучающими примерами. Он не создает модель, а работает на основе всех данных. Decision Trees строят дерево решений, где каждый узел представляет характеристику, а каждая ветвь - правило решения. KNN может быть вычислительно дорогим для больших наборов данных, тогда как Decision Trees более эффективны, но могут переобучиться.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

65 views08:04

Machine Learning | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😴

Мунвели тизерят свою видео-генерацию для киноиндустрии, натренированную на "чистых данных". Ну, ну. Посмотрим.

Пока модель потыкать нельзя.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

69 views15:04

Machine Learning | YeaHub

#полезное

😎

SmolLM 3 — полностью открытая 3B модель от Huggingface

Это самая сильная 3B модель — она опережает Llama-3-3B и Qwen 2.5-3B, но отстаёт от более крупных 4B Qwen 3 и Gemma 3. Модель — гибридный ризонер, как новые Claude или Qwen 3.

Самое ценное в релизе — блогпост с деталями тренировки и опубликованные конфиги, так что воспроизвести модель будет крайне просто. Модель тренировали 24 дня на 384 GPU H100 (220к часов) по трёхстадийной схеме: сначала Web + Code + Math, затем постепенно повышали долю кода и математики. После основного претрейна добавили mid-training для расширения контекста, затем mid-training на ризонинг. К сожалению, ризонингу модель учили исключительно на готовых ризонинг трейсах, RL тут совсем не использовался.

Посттрейнили с SFT на 1,8B токенов: 1B без reasoning-трейсов и 0,8B с /think, данные взяли из 22 открытых датасетов. Тренировали 4 эпохи (~8B токенов) с BFD-packing и маскировали лосс на пользовательских репликах, чтобы не штрафовать system-промпты и tool-calls. Затем модель тюнили с Anchored Preference Optimization: реальные пары из Tulu 3 дополнили синтетическими chosen vs rejected ответами Qwen3-32B/0.6B, покрыв оба режима /think и /no_think. После этого несколько чекпоинтов полученных при тюне с APO смешали в одну, а уже её смерджили с мидтрейн-чекпоинтом — так сохранили 128k контекст, без просадки на математике и коде.

Иметь такие открытые рецепты в общем доступе крайне важно — они служат бейзлайном, поверх которого можно последовательно улучшать любой этап пайплайна. Без таких рецептов, делать ресёрч по претрейну гораздо сложнее.

Блогпост
Веса
Конфиги для тренировки с помощью nanotron

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

68 views08:02