Machine Learning | YeaHub – Telegram
Machine Learning | YeaHub
335 subscribers
244 photos
126 videos
362 links
Теория, подготовка к интервью и курсы для ML специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#полезное
👨‍💻 На Image Arena ещё одна загадочная t2i модель заняла первое место

Что за Mogao — непонятно, но голосов уже достаточно много чтобы уверенно судить о высоком качестве модели.

Возможно, это очередная китайская модель, по слухам от Dreamina.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 Mechanistic permutability: Match across layers

В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные нейроны энкодят сразу несколько разных понятий. Sparse autoencoders (SAE) решают эту проблему, обучаясь реконструировать скрытые состояния модели при условии активации лишь небольшого числа нейронов. Метод SAE Match развивает эту концепцию, предлагая data-free технику сопоставления признаков между различными слоями нейросети — исследователи из T-Bank AI Research могут анализировать, как трансформируются признаки при прохождении через модель, не прогоняя через нее новые данные.

Технически SAE Match работает через сопоставление параметров автоэнкодеров, обученных на разных слоях. Ключевая инновация — техника parameter folding, которая интегрирует пороговые значения активации функции JumpReLU в веса энкодера и декодера. Это позволяет учитывать различия в масштабах скрытых состояний между слоями и находить перестановочные матрицы, которые оптимально выравнивают семантически схожие признаки. Авторы формулируют задачу как поиск матрицы перестановок, минимизирующей среднеквадратичную ошибку между параметрами SAE, что математически соответствует максимизации скалярного произведения Фробениуса.

Исследователи валидировали свой подход на языковой модели Gemma 2, минимизируя среднеквадратичную ошибку между параметрами SAE для поиска оптимальных перестановочных матриц, которые выравнивают семантически похожие признаки. Эксперименты показали, что сопоставление признаков работает оптимально в средних и поздних слоях (после 10-го), с сохранением семантической целостности на протяжении примерно пяти последовательных слоев. Это позволяет отслеживать изменения концептов по мере распространения информации через архитектуру сети.

У метода есть практическое применение и в прунинге — авторы успешно аппроксимируют hidden state при пропуске слоев, через операцию кодирования-перестановки-декодирования. Это фактически позволяет оптимизировать модель без существенного снижения качества.

Методология оценки результатов тоже интересная — авторы использовали внешнюю языковую модель для анализа семантического сходства сопоставленных признаков, классифицируя их как "SAME", "MAYBE" или "DIFFERENT". Это позволило объективно оценить качество сопоставления и подтвердить, что метод действительно работает. Статья едет на ICLR 2025 в конце месяца, что показывает её значимость.
ПДФка

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pandas
🤔 Какие существуют способы создания DataFrame в Pandas?

B Pandas DataFrame МОЖНО создать несколькими способами:
-Пустой DataFrame - pd. DataFrame .
-Из списка - pd. DataFrame (list) .
- Из списка списков - pd. DataFrame (list_of_lists) .
- Из словаря списков - pd. DataFrame(dict_of_lists).
- Из списка словарей - pd. DataFrame (list_of_dicts) .
-Из Series - pd. DataFrame (pd. Series ()) .
-Из CSV или Excel - pd. read_csv() , pd.read_excel().

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда навайбкодил приложение в СhatGPT и уже подсчитываешь миллионы своего стартапа.

То самое приложение:
3
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😴 Anthropic запустили бету своего Deep Research

В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.

А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана .

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
🫠 TPU v7 — Ironwood

Google показали новое поколение TPU, на одном уровне с Blackwell. В новом поколении 4.6 Dense петафлопса на чип — чуть больше чем в B200. Дают 192 гигабайта видеопамяти, с пропускной способностью чуть похуже чем у B200 — 7.4TB/s против 8. Энергоэффективность в два раза лучше чем у Trillium (v6e) и чуть лучше чем у Blackwell.

Новые TPU могут объединятся в поды из over 9000 чипов, только вместо Infiniband/Ethernet там кастомный нетворкинг. Он больше похож на тот, что Nvidia делает в NVL72, но, в отличии от решения Nvidia, которая обещает 576 чипов через NVLink только в 2027, он скейлится на тысячи чипов. Но есть и минусы — TPU v7 даёт всего 1.2TB/s на чип, когда NVLink 5 в GPU Blackwell даёт 1.8TB/s.

Главный вопрос — смогут ли они купить достаточно HBM для массовых деплойментов. Но даже если смогут, не смотря на очень хорошие характеристики, это не конкурент Nvidia. Дело в том, что Google не продаёт TPU другим компаниям, лишь сдаёт в аренду в клауде. Да и сами они не отказываются от массового деплоймента GPU — одних Blackwell компания закупила на 10 миллиардов долларов, правда в основном для Google Cloud.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pandas
🤔 Что такое DataFrame в Pandas?

DataFrame - это основная структура данных в Pandas, которая представляет собой таблицу с именованными колонками и индексированными строками. Он позволяет загружать, изменять и анализировать данные, а также выполнять операции фильтрации, группировки и агрегации.
Создать DataFrame МОЖНО С ПОМОЩЬЮ pd. DataFrame (data) , где data мОжет быть списком, словарем, массивом NumPy, CSV-файлом и т. д.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
📞 Итак, эта тёмная лошадка Mogao оказалась новой text2image моделью Seedream 3.0 от ByteDance

На лидерборде она делит первое место с GPT-4o – разрыв в 1 ELO поинт.

Выпустили тех репорт в стиле OpenAI с минимумом подробностей. Мы даже не знаем размер модели, но, я думаю, она > 10B параметров. Известно только, что это архитектура MMDiT (как у Flux), генерит хайрез в 2048x2048 и поддерживает китайский и английский языки.

На последней картинке интересно посмотреть, как сильно увеличивается качество генерации после каждого этапа post-train модели.

Весов ждать не стоит, т.к. ТикТок ранее не был замечен в щедрых релизах своих топовых моделей.
Тех репорт
Демо (на китайском)

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#новости
🤯 Релиз Gemini 2.5 Flash

Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).

Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.

Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
👍 ReZero — маленькая модель, которая никогда не сдаётся

ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший.

Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ.

Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.

Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.

Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться".
Github
Модель

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #pandas
🤔 Как создать копию Series в Pandas?

B Pandas можно создать копию Series двумя способами:
- Поверхностное копирование (shallow copy) - копирует только ссылки на данные, поэтому изменения в копии отразятся на оригинале. Используется ser. copy (deep=False) . -
Глубокое копирование (deep copy) - создает полную независимую копию, изменения не влияют на оригинал. Используется ser.copy (deep=True) . По умолчанию сору() создает глубокую копию ( deep=True ).

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
🛞 Codex CLI

"Модели o3 и o4-mini настолько сильны в программировании, что мы решили упростить их использование и выпустить новый продукт"" — Codex CLI - написал в своем аккаунт Альтман

Codex CLI — это мощный программирующий агент, который работает локально на вашем компьютере.

🟠 Чат-ориентированная разработка: Позволяет взаимодействовать с вашим репозиторием через диалоговый интерфейс.​

🟠 Выполнение кода: Способен запускать код, манипулировать файлами и выполнять итерации прямо в терминале.​

🟠 Интеграция с системами контроля версий: Обеспечивает работу под управлением систем контроля версий, таких как Git.​

Полностью open source и уже доступен для скачивания!

npm install -g @openai/codex
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


🟠 Попробовать
🟠 Github
🟠 Technical Report
🟠 Hugging Face
🟠 ModelScope

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👍 DeepEval — open-source фреймворк для оценки работы языковых моделей, вдохновленный принципами Pytest. Проект решает ключевую проблему LLM-разработки: как объективно измерить качество ответов ChatGPT, RAG-пайплайнов или AI-агентов без ручных проверок.

В отличие от разрозненных метрик вроде RAGAS или G-Eval, DeepEval объединяет 20+ критериев оценки от релевантности контекста до токсичности и SQL-инъекций в промптах. Инструмент также имеет встроенную облачную платформу для сравнения разных версий LLM — она визуализирует, как изменения влияют на accuracy и безопасность.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pandas
🤔 Какие существуют способы создания Series в Pandas?

B Pandas Series можно создать разными способами:
- Пустая серия ( pd. Series() ) создаёт пустой объект.
- Из массива NumPy ( pd. Series(np.array([ ...])) ) позволяет использовать массив NumPy.
- С собственным индексом (pd. Series ([...], index=[...]) ) задаёт кастомные индексы.
- Из списка ( pd. Series ([...]) ) использует обычный список Python.
- Из словаря ( pd. Series ({ключ: значение)) ) создаёт серию с индексами-ключами.
- Из скалярного значения (pd.Series(значение,index=[...])) создаёт серию с повторяющимся значением.
- С помощью функций NumPy (pd.Series(np.linspace(...))) генерирует данные с NumPy.
-Через range() или list comprehension ( pd. Series(range(...))) создаст последовательность.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😐 CoMotion: одновременное отслеживание движения нескольких людей в видео.

CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.

CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.

Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.

Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).

Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.

Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.

Локальный инференс

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/


🔵Модель
🔵Техотчет
🟠GitHub

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM