NEW BOT Телеграм, страница

Machine Learning | YeaHub pinned «🤝 Добро пожаловать в экосистему YeaHub! YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников. Подпишитесь на наши каналы, чтобы не пропустить: 👩‍💻 C# 🤖 ML Engineer 👩‍💻…»

07:31

#новости

😊

Gemini 2.0 Flash наконец-то релизнулась

Модель заметно дешевле конкурентов в подобной ценовой категории (GPT-4o mini, DeepSeek V3 по скидке и Claude Haiku 3.5), при этом она показывает себя лучше всех этих моделей. Но есть и нюанс - расценки заметно поменяли. Раньше для длинных запросов цена была в 2x больше, а теперь цену сделали усреднённо единой. Теперь длинные запросы будут дешевле на 30%, а короткие - дороже на 30%.

Тебе Google обновил превью Gemini 2.0 Pro - более ранняя версия модели була доступна уже два месяца как Gemini-Experimental-1206, эта версия уже ближе к релизу. Надеюсь она не будет сидеть в превью ещё два месяца и релизнется скоро, желательно сразу с Thinking версией.

Тык (если не работает, то попробуй врубить впн)

👉

Новости

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

92 views08:04

#статьи

😬

Ускорение инференса больших языковых моделей: опыт команды YandexGPT

Разработчик рассказал на Хабре универсальные методы оптимизации инференса LLM, применимые к большинству современных архитектур, включая LLaMA-подобные и MoE.

Дистилляция знаний — метод создания небольших эффективных моделей. Hard-label представлен как наиболее простой подход к передаче знаний от учителя к ученику. Soft-label даёт ученику доступ к внутренним распределениям вероятностей модели‑учителя. On-policy эффективно отражает неопределённость модели учителя, когда та присваивает сходные вероятности нескольким правдоподобным токенам.

Квантизация трансформеров эволюционировала от простой квантизации весов к борьбе с выбросами в активациях через LLM.int8(), SmoothQuant и GPT-Q.

EAGLE — метод спекулятивного декодирования — способен принести ускорение на compute bound сценариях. При KV-cache подсчитанный кеш для конкретного префикса сохраняется в VRAM/RAM и может быть переиспользован в другом запросе. Он применяется при ускорении сценариев с длинными контекстами.

Все описанные методы комбинируются между собой, давая мультипликативный эффект в ускорении модели.
Читать статью

👉

Новости

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

69 views15:03

0:54

0:05

0:05

0:05