🍳 Датазавтраки ☕️ НСК (Академ) – Telegram
🍳 Датазавтраки ☕️ НСК (Академ)
617 subscribers
169 photos
14 videos
50 files
1.53K links
Каждый вторник с 8:30 до 10:00 в "Shurubor coffeeshop" у фонтана ТЦ https://go.2gis.com/wlkqi

По всем вопросам к @promsoft . Рекламу не размещаем
Download Telegram
По GARCH моделям есть мини-курс из четырех презентаций
Forwarded from Lev
Есть такой synthetic, https://synthetic.new. Они продают подписку на клод дешевле, чем антропик. За 20$ дают во сколько-то там раз больше рейт лимита. В подписку входят модели с открытыми весами (qwen, kimi, glm, llama, deepseek). Есть оплата криптовалютой. По реферралке дают скидку 10$ на первый месяц обоим:
https://synthetic.new/?referral=6BwaxzHtc58nuXV
Сейчас, правда, подписку они временно закрыли, работает только оплата за токены. Есть wait-list
Forwarded from CV Time
Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [2/2]

Продолжаем разбирать техрепорт, описывающий новые модели Qwen.

Обучение моделей и результаты

Обучение моделей делается в несколько этапов, причём довольно нетривиальным образом: модели с этапа X используются для последующей фильтрации данных для этапа X+1, а Embedding и Reranker на разных этапах выступают учителями друг для друга.

— На всех этапах модели обучаются как LoRA к Qwen3-VL, чтобы с большей вероятностью не испортить возможности сильного бэкбона.

— На первом этапе (s0) на всём датасете обучается Embedding, используя контрастивный InfoNCE-лосс.

— На следующем этапе Embedding:s0 используется для фильтрации датасета — и на этом фильтре обучается Embedder:s1 и Reranker.

— На последнем этапе снова фильтруется уже Reranker, и скоры Reranker используются как таргет для дистилляции Embedding:s2.

— Наконец, веса полученной модели усредняются (точнее, сферически интерполируются) с Embedding:s1, порождая финальную модель Embedding:s3, которая и пошла в релиз.

По замерам авторов, их модели опережают все существующие открытые и закрытые модели на мультимодальных бенчмарках. При этом на текстовых задачах есть и более сильные модели — в основном существенно большего размера.

Использование моделей

Авторы явно постарались сделать модели production-ready, позаботившись не только о качестве метрик, но и об удобстве использования.

Во-первых, в модель заложены несколько очень важных свойств для производительности (помимо инференса в один prefill-этап).

Тренировка проводилась в quantization-aware-режиме — при вычислении лоссов для эмбеддингов, авторы одновременно вычисляли их для квантизованных в int8-эмбеддингов. В результате, полученные эмбеддинги можно квантизовать в int8 (отмасштабировать в интервал [-127, 128] и округлить), хранить и использовать практически потери качества.

Также в тренировке эмбеддингов использовался подход матрёшки, при котором лоссы применяются не только к эмбеддингам целиком, но и по частям к их первым 32, 64, 128, 256 и 512 элементам. Благодаря этому каждый кратный степени двойки «подсрез» эмбеддинга — тоже эмбеддинг (хоть и худшего качества). При работе с большой базой документов можно, например, брать только первые 128 элементов эмбеддинга вместо 1024 и хранить только их. Суммарно можно сократить размер эмбеддингов базы документов в 10–50 раз.

Во-вторых, в силу архитектуры модель очень гибка в применении. И документ, и запрос могут быть не только одним изображением или текстом, но и их произвольной последовательностью. Довольно большое окно контекста (32К) токенов позволяет обрабатывать 10–20 страниц изображений вместе с текстом.

Также интересная фича таких моделей как класса — наличие инструкции. Мультимодальные семантические эмбеддинги доступны всем и каждому как минимум с момента релиза CLIP (5 лет назад!), но способ вычисления эмбеддинга почти всегда был «зашит» в модель. Для эмбеддеров на основе LLM/VLM можно в инструкции указать, что важно в «кодировании» документов и запросов. Например, в случае поиска по картинкам можно инструктировать модель фокусироваться на стиле изображения или, наоборот, на содержимом — и получить эмбеддинги, поиск по которым будет давать разные результаты.

В итоге у авторов получилась гибкая и эффективная опенсорсная модель для мультимодального поиска. В отчёте приведено много деталей обучения, а в cookbook — примеров использования. Модели такого класса определённо имеют множество применений как в продуктах, так и в рутинных ML-задачах по работе с данными.

Разбор подготовил Борис Зимка
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1
Forwarded from KertexNotes
Кажется эра open-source LLM долго не продлится: исследования того, как заставить нейросеть забыть что-то, достигли состояния когда это можно делать автоматически.
С помощью этой штуки народ уже подкрутил ту же gpt-oss:20b так, чтобы она больше не стеснялась отвечать на опасные темы. Кто-нибудь с вычислительными ресурсами и модели поумнее подкрутит, что может быть уже опасно...

#today_I_learned #ai
ЭЛ5_27.03.2025.pptx
32.3 MB
Презентация @Khalyasmaa Александры Хальясмаа про искусственный интеллект в энергетике (упоминал про слайды на датазавтраке)
👍2