Machinelearning – Telegram
338K subscribers
4.62K photos
945 videos
17 files
5.05K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ VK внедряет VLM в поиск VK Видео

VK начала внедрение визуально-языковых моделей в поисковые системы своих продуктов. Технология уже работает в VK Видео. Теперь система анализирует не только название и описание ролика, но и сами кадры, звук и видеоряд.

Тестирование гипотез ускорилось в 5 раз, новые улучшения внедряются заметно быстрее, а поиск будет развиваться динамичнее.

Технология также усилит векторный поиск. Система будет опираться не только на семантическое совпадение слов, но и на реальное содержание видео через анализ аудио и визуальных признаков.
Подобные мультимодальные подходы развивают Microsoft, Google и TikTok. Обновление поэтапно появится и в других сервисах VK.

@ai_machinelearning_big_data

#news #ai #ml #VK
1🤣96👍71🔥18👏7🥱7🤷‍♂5🗿5😁2🤔2🌚2😴1
⚡️ Релиз Gemini 3.1 Pro - новый уровень интеллекта моделей

Google официально представила Gemini 3.1 Pro, и результаты выглядят серьёзно: модель показала 77,1% в одном из самых сложных тестов на абстрактное мышление — ARC-AGI-2.

- Резкий скачок качества
Результат почти в 2 раза выше, чем у предыдущей версии

- Обгоняет конкурентов
Gemini 3.1 Pro опережает Opus 4.6 и GPT-5.2 в задачах на обобщение и логическое мышление

- Сильнее в реальных сценариях
- программирование
- агентные задачи
- работа с новыми паттернами без примеров

- Новые возможности
Модель может генерировать анимированные SVG из текста и решать логические задачи, которых не было в обучающей выборке — это важный шаг к более универсальному AI.

Попробовать Gemini 3.1 Pro уже можно в Google AI Studio: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

@ai_machinelearning_big_data
1🔥1203838👍12🤩11🙊10😴9🤷‍♂6👏6🌭5🙈5
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI поглотила команду поискового стартапа Nerve.

Команда Nerve переходит в OpenAI в рамках сделки формата acqui-hire. Технологии стартапа будут интегрированы в существующие продукты OpenAI для улучшения механизмов поиска на рабочих местах.

До поглощения Nerve работала как единый хаб. Система умела извлекать данные из корпоративных документов, электронной почты, Google Drive и Slack, заменяя рутинный ручной поиск автоматизированными сценариями.

Наработки Nerve станут инфраструктурным компонентом для создания будущих ИИ-агентов, способных самостоятельно оперировать корпоративной информацией и выполнять сложные многошаговые задачи.
usenerve.com

✔️ ByteDance открыла около 100 вакансий в США.

Китайская корпорация активно нанимает инженеров и исследователей в Сан-Хосе, Лос-Анджелесе и Сиэтле для лаборатории Seed.Перед кандидатами ставятся задачи по подготовке датасетов для LLM, улучшению алгоритмов генерации видео и изображений, а также разработка научных моделей для дизайна лекарственных препаратов.

Отдельный фокус сделан на проекте Seed Edge Research, цель которого в создании систем с человекоподобными способностями к обучению.

Агрессивный наем происходит на фоне многолетнего давления американских регуляторов. Несмотря на это, ByteDance явно не планирует уступать технологическую гонку и усиливает свои R&D-центры на территории конкурентов.
bloomberg.com

✔️ Microsoft научилась записывать данные в боросиликатное стекло.

В рамках проекта Project Silica инженеры решили фундаментальную проблему деградации носителей в дата-центрах. В Nature вышла статья о важном сдвиге: команда отказалась от дорогого чистого кварца в пользу доступного боросиликатного стекла. Фемтосекундные лазеры "прожигают" в пластине толщиной 2 мм сотни слоев информации

Фишка исследования — изобретение «фазовых вокселей». Раньше методы опирались на поляризацию, а новый подход изменяет фазу стекла и требует лишь одного лазерного импульса на воксель. Чтобы разобрать эту плотную трехмерную структуру и убрать искажения, Microsoft подключила нейросети. Скорость записи подняли, запустив несколько лучей параллельно, а само устройство упростили: теперь для чтения хватает одной камеры вместо четырех.

Стеклянный носитель не боится воды, высоких температур и пыли. Тесты на старение подтвердили, что записанная информация останется неизменной минимум несколько тысячелетий. На этом исследовательская часть Project Silica закончена. Технология готова, теперь на ее основе можно строить хранилища.
microsoft.com

✔️ Google запустила генератор продуктового фото.

Новая функция Photoshoot - часть маркетинговой платформы Pomelli. Инструмент ориентирован на малый и средний бизнес, он превращает через Nano Banana фотографии товаров в качественные студийные и лайфстайл-кадры без затрат на продакшен.

Платформа автоматически парсит сайт компании, извлекает фирменные цвета, шрифты и общую эстетику бренда для применения к генерируемому контенту. Сервис предлагает готовые визуальные пресеты, замену фона по текстовому запросу и перенос стиля с референсов. Пока это бесплатная бета, но только для США, Канады, Австралии и Новой Зеландии.
blog.google

✔️ Tavus сделала модель реалистичного рендеринга лица в реальном времени.

Phoenix-4 покадрово генерирует каждый пиксель лица и головы виртуального собеседника, опираясь на датасет из тысяч часов реальных диалогов.

Киллер-фича Phoenix-4 в способности анализировать контекст беседы и демонстрировать эмпатию. Модель знает более 10 эмоций и умеет плавно переключаться между ними в реальном времени. Разработчики заверяют, что тем самым победили эффект «зловещей долины».

Технически все серьезно: HD-видео, 40 кадров в секунду. Tavus предлагает использовать это в продажах, обучении и медицине - там, где человеку важно внимание.
tavus.io

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4834🔥12👏4🌚3🥰2
📌 Аnthropic измерил, как люди на самом деле используют ИИ-агентов.

Создатели Claude проанализировали миллионы взаимодействий в Claude Code и через публичный API с помощью их инструмента Clio, чтобы понять, сколько автономии люди реально дают агентам, в каких доменах те работают и насколько рискованны их действия.

🟡 Агенты работают все дольше без участия человека.

За 3 месяца медианная длина самых долгих сессий в Claude Code почти удвоилась - с 25 до более чем 45 минут непрерывной работы. Причем рост плавный и не коррелирует с релизами новых моделей.

Это значит, что дело не только в возможностях модели, а в том, как пользователи выстраивают взаимодействие с агентом.

🟡Опытные пользователи ведут себя иначе, чем новички.

Среди тех, кто только начинает пользоваться Claude Code, около 20% сессий запускают с полным авто-апрувом, это когда агент выполняет все действия без подтверждений.

У опытных пользователей эта доля больше 40%. Плюс они чаще прерывают агента вручную.
Аnthropic предполагает, что это не потому, что теряется доверие, а потому что они берутся за более сложные задачи и лучше понимают, когда нужно вмешаться.

🟡Неочевидный факт: агент сам ограничивает свою автономию чаще, чем это делает человек.

На самых сложных задачах Claude Code останавливается и задает уточняющий вопрос вдвое чаще, чем по принудительному прерыванию человеком.

🟡Картина по доменам

Почти половина всей агентной активности через API - за разработкой ПО.

Есть прирост использования в медицине, финансах и кибербезопасности, но пока в небольших объемах.

По итогу исследования, Аnthropic пришла к выводу, что эффективный надзор за агентами требует не только технических ограничений, но и новой инфраструктуры пост-деплойного мониторинга и новых паттернов взаимодействия - где и человек, и агент совместно управляют автономией и рисками.

Текущие модели, по данным компании, технически способны на большую самостоятельность, чем им позволяют на практике.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🤔42👏38💋34😎23😢22🎉20🤣1815🫡13👨‍💻12
AI уже не запрещают на собеседованиях – его требуют

В Циане изменили подход к найму: кандидатам в Product & Technology и HR рекомендуют выполнять тестовые задания и live coding с помощью AI-ассистентов.

Компания оценивает не только результат, но и то, как человек работает с AI:
- качество взаимодействия с инструментом
- скорость решения задач
- умение проверять и дорабатывать ответы
- соблюдение принципов безопасного и этичного использования

Сегодня более 75% разработчиков в компании уже используют AI в работе.

По словам Максима Радюкова, директора по информационным технологиям Циана, владение AI-инструментами становится нормой рынка, а инвестиции в эти навыки – ключевым конкурентным преимуществом.

В планах – масштабировать подход на всех сотрудников.

Вывод

Раньше на собеседовании проверяли, умеешь ли ты кодить.
Теперь – умеешь ли ты эффективно работать вместе с AI.

AI перестаёт быть «читом» – он становится базовым рабочим инструментом.
👍72🤝31😁267👏6🤔6👨‍💻5🔥3👾3🎅2🥰1
📌Насколько Skills реально помогают LLM-агентам.

SkillsBench — исследование и первый бенчмарк, где Agent Skills тестируются как самостоятельный артефакт.

Авторы из 15+ топовых университетов взяли 84 задачи из 11 доменов, запустили 7 конфигураций моделей (Claude Code с Opus/Sonnet/Haiku 4.5 и 4.6, Gemini CLI с Gemini 3 Pro/Flash, Codex с GPT-5.2) и проверили 3 условия: без Skills, с готовыми Skills и с самостоятельно сгенерированными Skills. Итого: 7 308 траекторий с детерминированными верификаторами на pytest.

Готовые Skills в среднем поднимают pass rate на 16,2 процентных пункта: с 24,3% до 40,6%. Но картина неоднородная: в медицине прирост составил +51,9%, для производства — +41,9%, тогда как в разработке ПО всего +4,5%.

Это объяснимо: там, где модели плохо покрыты обучением (клинические протоколы, промышленные воркфлоу), Skills дают максимальный эффект. Там, где модель и так знает домен - почти ничего.

🟡Главный и неожиданный результат: самогенерация Skills не работает.

Когда моделям предлагали сначала написать нужные гайды, а потом решать задачу, средний результат упал на 1,3% по сравнению с работой вообще без Skills. Только Claude Opus 4.6 показал скромный плюс (+1,4%), а GPT-5.2 просел на 5,6%.

Иными словами - модели не умеют надежно создавать то знание, которым умеют пользоваться.


🟡Еще один интересный момент - это объем Skills.

Оптимальный вариант: 2–3 модуля, прирост +18,6%. При 4 и более - всего +5,9%. Подробная документация вообще дает отрицательный эффект: –2,9%, с ней агент буквально тонет в контексте.

Показательна и стоимость решения задач: Haiku 4.5 со Skills обходит Opus 4.5 без Skills — меньшая и более дешевая модель с готовыми Skills бьет старшую модель без них.

Gemini 3 Flash при этом показал лучший абсолютный результат среди всех конфигураций - 48,7% со Skills при цене $0,57 за одну задачу против $1,06 у Gemini 3 Pro.


🟡Страница проекта
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Benchmark #Skills
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🤓3214🤔9❤‍🔥6👏6👌4🥰1