Anthropic выкатили новый флагман — Claude Opus 4.5. Это тот же топовый Opus, но с упором на реальные рабочие сценарии: сложная разработка, агенты, автоматизация офиса, таблички/презентации и длинные исследования. По их внутренним тестам Opus 4.5 стал ощутимо умнее в кодинге и задачах «долгой дистанции», чем Sonnet 4.5 и прошлый Opus, при этом ест в разы меньше токенов за ту же задачу.
Главный фокус — инженерка и агенты. В SWE-подобных задачах и «реальных» бенчмарках на терминале и офисную автоматизацию Opus 4.5 обходит не только Sonnet, но и конкурентов, при этом часто решает задачи за меньшее число шагов и с меньшим количеством попыток. В Anthropic даже прогоняли модель через свой хардкорный домашний экзамен для performance-инженеров: в отведённые 2 часа Opus 4.5 набрал балл выше любого кандидата-человека (с оговоркой, что это только про технику, а не про софт-скиллы).
Второй интересный апдейт — параметр effort в API: low, medium и high. Смысл примерно такой же как у ChatGPT, тут мы примерно уже привыкли к подобным параметрам.
Под релиз подтянули и экосистему. В Claude Code улучшили планирование: модель сначала уточняет требования, собирает
Для разработчиков важное: модель уже доступна как claude-opus-4-5-20251101 по цене $5/$25 за миллион токенов, и Anthropic явно позиционирует её как актуальную замену для всех задач.
В Cursor новая модельбесплатно доступна доступна по сниженной цене первые две недели.
@neuro_channel
Главный фокус — инженерка и агенты. В SWE-подобных задачах и «реальных» бенчмарках на терминале и офисную автоматизацию Opus 4.5 обходит не только Sonnet, но и конкурентов, при этом часто решает задачи за меньшее число шагов и с меньшим количеством попыток. В Anthropic даже прогоняли модель через свой хардкорный домашний экзамен для performance-инженеров: в отведённые 2 часа Opus 4.5 набрал балл выше любого кандидата-человека (с оговоркой, что это только про технику, а не про софт-скиллы).
Второй интересный апдейт — параметр effort в API: low, medium и high. Смысл примерно такой же как у ChatGPT, тут мы примерно уже привыкли к подобным параметрам.
Под релиз подтянули и экосистему. В Claude Code улучшили планирование: модель сначала уточняет требования, собирает
plan.md, а потом уже исполняет план; добавили поддержку в десктопном приложении, чтобы гонять несколько сессий (агентов) параллельно — один чинит баги, другой рыскает по GitHub, третий обновляет доку. В пользовательских продуктах: длинные диалоги больше не упираются в стену контекста, Claude сам компактно сворачивает историю, есть Claude для Chrome и расширенный доступ к Claude для Excel, где Opus 4.5 показывал +20% к точности и +15% к эффективности на внутренних финансовых задачах.Для разработчиков важное: модель уже доступна как claude-opus-4-5-20251101 по цене $5/$25 за миллион токенов, и Anthropic явно позиционирует её как актуальную замену для всех задач.
В Cursor новая модель
@neuro_channel
🔥4👍2❤1⚡1
LLM Council — это маленькое локальное веб‑приложение, где несколько крупных моделей отвечают на один запрос, а потом сами же разбирают ответы и собирают «коллективный» финальный вариант. Проект задумывался как субботний хак «для души», но уже стал вирусным и быстро набирает звезды на GitHub — идея совета из ИИ многим зашла.
Код в репо, подробнее в статье на Tproger.
@neuro_channel
Код в репо, подробнее в статье на Tproger.
@neuro_channel
👍5
Игра, в которой надо отличать настоящую фотку от сгенерированной: https://realorai.dev/
Попробуйте, чтобы осознать, что отличить уже практически невозможно. И это новая реальность, никак не могу привыкнуть.
@neuro_channel
Попробуйте, чтобы осознать, что отличить уже практически невозможно. И это новая реальность, никак не могу привыкнуть.
@neuro_channel
👍3😱2👌1💊1
В пятницу прошла конфа AI Journey 2025. Выделил три доклада, которые есть смысл посмотреть. Ссылки ведут сразу на нужный тайм-код.
1️⃣Успехи и проблемы больших языковых моделей — Иван Оселедец [01:47:24]
Очень прикладной доклад о том, как сегодня реально строят и запускают LLM: параметры, стоимость GPU, приёмы ускорения вроде FlashAttention и Mixture-of-Experts, а также инженерные компромиссы в продакшн‑инференсе. Плюс есть рассуждения про открытые модели, open‑source стек и про то, куда всё движется с точки зрения reasoning и качества на задачах вывода.
2️⃣Надежность современных больших языковых моделей через призму анализа паттернов внимания — Евгений Бурнаев [07:42:54]
Фокус на том, как по паттернам attention судить о надёжности LLM: где зарождаются галлюцинации, как выглядят смещённые ответы и какие сигналы можно использовать для оценки доверия к выводу модели. Отдельно поднимаются темы bias, alignment и влияния квантования/FP16 на поведение модели, плюс обсуждаются идеи self‑check поверх GPT‑подобных систем.
3️⃣Автоматизированное проектирование алгоритмов искусственного интеллекта — Е Тянь [07:13:55]
Для тех, кто любит AutoML и мета‑оптимизацию: про подходы, где алгоритмы и архитектуры подбирает уже сам ИИ, а не человек, и как это может выглядеть в реальных задачах. Отлично ложится на интерес к автоматизации всего ML‑пайплайна.
@neuro_channel
1️⃣Успехи и проблемы больших языковых моделей — Иван Оселедец [01:47:24]
Очень прикладной доклад о том, как сегодня реально строят и запускают LLM: параметры, стоимость GPU, приёмы ускорения вроде FlashAttention и Mixture-of-Experts, а также инженерные компромиссы в продакшн‑инференсе. Плюс есть рассуждения про открытые модели, open‑source стек и про то, куда всё движется с точки зрения reasoning и качества на задачах вывода.
2️⃣Надежность современных больших языковых моделей через призму анализа паттернов внимания — Евгений Бурнаев [07:42:54]
Фокус на том, как по паттернам attention судить о надёжности LLM: где зарождаются галлюцинации, как выглядят смещённые ответы и какие сигналы можно использовать для оценки доверия к выводу модели. Отдельно поднимаются темы bias, alignment и влияния квантования/FP16 на поведение модели, плюс обсуждаются идеи self‑check поверх GPT‑подобных систем.
3️⃣Автоматизированное проектирование алгоритмов искусственного интеллекта — Е Тянь [07:13:55]
Для тех, кто любит AutoML и мета‑оптимизацию: про подходы, где алгоритмы и архитектуры подбирает уже сам ИИ, а не человек, и как это может выглядеть в реальных задачах. Отлично ложится на интерес к автоматизации всего ML‑пайплайна.
@neuro_channel
❤5
HunyuanVideo-1.5 — новая открытая модель от Tencent для генерации видео по тексту или картинке, причём она умещается всего в ~8,3 млрд параметров и при этом даёт качество уровня топовых закрытых сервисов. Модель понимает английский и китайский, умеет делать видео до 1080p.
Сейчас она висит на первом месте на Hugging Face, потому что сочетает три вещи: качество картинки, плавное движение и вменяемые требования к железу. В техотчётах и обзорах её уже сравнивают с Runway Gen-3 и другими лидерами — по человеческим оценкам Hunyuan часто не хуже, а иногда и лучше других открытых моделей, при этом работает быстрее за счёт оптимизаций внимания (SSTA) и двухступенчатой схемы «база + супер-резолвер».
Проще всего попробовать модель в демо на Hugging Face Space: есть готовый интерфейс для image-to-video и связанных чекпоинтов (480p, 720p и апскейлеры — смотрите в карточке на HF, там куча spaces поднято). Если хочется больше контроля, у модели есть нативная поддержка в ComfyUI — ставите нужные ноды, подгружаете чекпоинты HunyuanVideo-1.5 и собираете свой граф для text-to-video или image-to-video.
Локальный запуск делается через официальный репозиторий Tencent-Hunyuan/HunyuanVideo-1.5: нужен Python 3.10+, CUDA, PyTorch и видеокарта NVIDIA с поддержкой CUDA. При агрессивном оффлоаде и тюнинге пайплайна модель можно завести даже на ~14–16 ГБ видеопамяти (уровень RTX 4070/4070 Ti), но будет медленно; комфортнее всего ей на картах с 24+ ГБ (RTX 3090, 4090 и т.п.), а для длинных роликов 720p без offload по-прежнему полезны 48–80 ГБ или несколько GPU.
На видео официальная демка.
@neuro_channel
Сейчас она висит на первом месте на Hugging Face, потому что сочетает три вещи: качество картинки, плавное движение и вменяемые требования к железу. В техотчётах и обзорах её уже сравнивают с Runway Gen-3 и другими лидерами — по человеческим оценкам Hunyuan часто не хуже, а иногда и лучше других открытых моделей, при этом работает быстрее за счёт оптимизаций внимания (SSTA) и двухступенчатой схемы «база + супер-резолвер».
Проще всего попробовать модель в демо на Hugging Face Space: есть готовый интерфейс для image-to-video и связанных чекпоинтов (480p, 720p и апскейлеры — смотрите в карточке на HF, там куча spaces поднято). Если хочется больше контроля, у модели есть нативная поддержка в ComfyUI — ставите нужные ноды, подгружаете чекпоинты HunyuanVideo-1.5 и собираете свой граф для text-to-video или image-to-video.
Локальный запуск делается через официальный репозиторий Tencent-Hunyuan/HunyuanVideo-1.5: нужен Python 3.10+, CUDA, PyTorch и видеокарта NVIDIA с поддержкой CUDA. При агрессивном оффлоаде и тюнинге пайплайна модель можно завести даже на ~14–16 ГБ видеопамяти (уровень RTX 4070/4070 Ti), но будет медленно; комфортнее всего ей на картах с 24+ ГБ (RTX 3090, 4090 и т.п.), а для длинных роликов 720p без offload по-прежнему полезны 48–80 ГБ или несколько GPU.
На видео официальная демка.
@neuro_channel
Media is too big
VIEW IN TELEGRAM
❤3🔥2
И ещё один супер-свежий релиз.
FLUX.2-dev — новая флагманская модель от Black Forest Labs для генерации и редактирования картинок по тексту, с открытыми весами, но под некоммерческой лицензией. Это 32‑миллиардный трансформер с современным качеством рендера, который умеет как обычный text‑to‑image, так и аккуратное редактирование по одной или нескольким референс‑картинкам.
Что за модель и чем она примечательна
FLUX.2-dev — это «продвинутый Photoshop на стероидах»: одна модель, которая и рисует с нуля, и меняет стиль, объект или персонажа по тексту без доп. обучения, опираясь сразу на несколько референсов. За счёт архитектуры rectified flow трансформера и длинного контекста по тексту и картинкам она хорошо держит композицию, цвета (вплоть до hex-кодов) и надписи, поэтому сейчас её и двигают как новый топ среди открытых генераторов.
Где попробовать онлайн
Самый простой вариант — официальный Space на Hugging Face: там можно вводить текст, загружать картинки и сразу смотреть результат в браузере. Плюс модель уже подключили в облачные сервисы вроде Cloudflare Workers AI и сторонние хостинги, так что можно дёргать её по API без своего железа.
Как запустить локально и какое железо нужно
Для локального запуска есть официальный репозиторий и поддержка в Diffusers: можно тянуть оригинальные веса или квантованные варианты (4‑бит, GGUF) для экономии видеопамяти. В реальности модель огромная (32B параметров), поэтому комфортный минимум — RTX 3090/4090 с 24 ГБ VRAM; с квантованием и оффлоадом её можно завести примерно на 16–18 ГБ, но будет ощутимо медленнее и с ограничениями по размеру картинок и батчам. Не забудьте, что лицензия FLUX [dev] не даёт права использовать открытые веса в продакшн‑продуктах напрямую — для коммерции у них отдельный FLUX.2 Pro по API.
Веса и подробности на HF, на картинке примеры работы модели.
@neuro_channel
FLUX.2-dev — новая флагманская модель от Black Forest Labs для генерации и редактирования картинок по тексту, с открытыми весами, но под некоммерческой лицензией. Это 32‑миллиардный трансформер с современным качеством рендера, который умеет как обычный text‑to‑image, так и аккуратное редактирование по одной или нескольким референс‑картинкам.
Что за модель и чем она примечательна
FLUX.2-dev — это «продвинутый Photoshop на стероидах»: одна модель, которая и рисует с нуля, и меняет стиль, объект или персонажа по тексту без доп. обучения, опираясь сразу на несколько референсов. За счёт архитектуры rectified flow трансформера и длинного контекста по тексту и картинкам она хорошо держит композицию, цвета (вплоть до hex-кодов) и надписи, поэтому сейчас её и двигают как новый топ среди открытых генераторов.
Где попробовать онлайн
Самый простой вариант — официальный Space на Hugging Face: там можно вводить текст, загружать картинки и сразу смотреть результат в браузере. Плюс модель уже подключили в облачные сервисы вроде Cloudflare Workers AI и сторонние хостинги, так что можно дёргать её по API без своего железа.
Как запустить локально и какое железо нужно
Для локального запуска есть официальный репозиторий и поддержка в Diffusers: можно тянуть оригинальные веса или квантованные варианты (4‑бит, GGUF) для экономии видеопамяти. В реальности модель огромная (32B параметров), поэтому комфортный минимум — RTX 3090/4090 с 24 ГБ VRAM; с квантованием и оффлоадом её можно завести примерно на 16–18 ГБ, но будет ощутимо медленнее и с ограничениями по размеру картинок и батчам. Не забудьте, что лицензия FLUX [dev] не даёт права использовать открытые веса в продакшн‑продуктах напрямую — для коммерции у них отдельный FLUX.2 Pro по API.
Веса и подробности на HF, на картинке примеры работы модели.
@neuro_channel
🔥3
На Tproger вышла статья про то, почему нейросети при дообучении на новых данных начинают «забывать» то, что умели раньше, даже если модель большая и параметров хватает.
🔘 Как работает катастрофическое забывание (дилемма «сохранить старое» vs «выучить новое»).
🔘 Как это проявляется в проде через дрейф моделей.
🔘 Что с этим сейчас реально делают: от регуляризации и подмешивания старых данных до подходов, где для новых задач добавляют отдельные небольшие модули поверх базовой модели, а не переписывают её целиком.
Если работаете с ML в продакшене и думаете про continual learning, это хорошая точка входа.
@neuro_channel
Если работаете с ML в продакшене и думаете про continual learning, это хорошая точка входа.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
Tproger
Почему нейросети забывают старое, когда учатся новому? Как ученые пытаются это решить
О катастрофическом забывании: почему модели теряют навыки и что делать разработчикам
👏3
Build AI выкатили довольно необычный датасет Egocentric‑10K: это 10 000 часов видео с головы реальных рабочих на заводах — камера смотрит их глазами, видно руки, инструменты и объекты, с которыми они работают. Всего там 2 138 людей, 1,08 млрд кадров, 1080p@30fps, без звука.
Зачем это нужно: такой массив «как человек реально делает работу руками» — топливо для роботов и систем, которые учатся повторять человеческие действия по видео: манипуляции руками, последовательные шаги, контроль ошибок, фабричные ассистенты и т.п. Это не лабораторные демки, а живые производственные процессы, поэтому датасет отлично ложится на задачи imitation learning и VLA‑агентов.
Где и как использовать: датасет лежит на Hugging Face под Apache 2.0 — чтобы получить доступ, нужно залогиниться и согласиться с условиями, после чего можно стримить данные без скачивания всех видео. Структура — WebDataset: tar‑шарды с парами mp4+json, где в метаданных есть id фабрики, работника, длительность и параметры видео; подключается через
@neuro_channel
Зачем это нужно: такой массив «как человек реально делает работу руками» — топливо для роботов и систем, которые учатся повторять человеческие действия по видео: манипуляции руками, последовательные шаги, контроль ошибок, фабричные ассистенты и т.п. Это не лабораторные демки, а живые производственные процессы, поэтому датасет отлично ложится на задачи imitation learning и VLA‑агентов.
Где и как использовать: датасет лежит на Hugging Face под Apache 2.0 — чтобы получить доступ, нужно залогиниться и согласиться с условиями, после чего можно стримить данные без скачивания всех видео. Структура — WebDataset: tar‑шарды с парами mp4+json, где в метаданных есть id фабрики, работника, длительность и параметры видео; подключается через
datasets.load_dataset(..., streaming=True) с фильтрацией по нужным фабрикам/работникам и выборкой только части шардов, чтобы не тянуть все 16,4 ТБ сразу.@neuro_channel
Media is too big
VIEW IN TELEGRAM
🔥5❤2🐳1
У одного программиста накопилось больше 2 ТБ личного видео, и попытка решить поиск по ним через Google Video Intelligence закончилась счётом на сотни долларов и необходимостью заливать всё в облако, поэтому он сделал локальный инструмент Edit Mind, который индексирует ролики у вас на машине и даёт искать по смыслу обычным текстом:
Всё — от анализа кадров до векторной базы — крутится локально, а в облако уходит только разбор текстового запроса и генерация эмбеддингов, которые в будущем тоже планируют заменить офлайновыми моделями.
Что умеет проект
🔘 Полностью локальный анализ: расшифровка звука, распознавание лиц, объектов, текста в кадре, доминирующих цветов и базовой «сцены».
🔘 Семантический поиск по естественному языку: запросы вроде «двое разговаривают за столом днём» превращаются в структурный фильтр по локальной векторной базе ChromaDB.
🔘 Черновые нарезки: описываете, что нужно, Edit Mind собирает подходящие сцены в грубый монтаж, дальше дорабатываете уже в своём видеоредакторе.
🔘 Архитектура через плагины: анализ идёт через Python, можно добавить свои плагины — для логотипов, специфичных объектов, звуковых событий и т.д.
Как это устроено внутри
Под капотом — десктоп‑приложение на Electron с фронтендом на React/TypeScript и Node.js как «оркестратором», который гоняет видео через Python‑скрипты с OpenCV, PyTorch и Whisper. Сначала видео режется на короткие сцены, для каждой сцены запускаются плагины анализа, а результаты упаковываются в вектора с помощью моделей эмбеддингов от Google и кладутся в локальный ChromaDB. Когда вы пишете запрос, Gemini 2.5 Pro превращает текст в JSON‑запрос к этим векторам, так что поиск по гигантской библиотеке работает как по «умной» базе, а не по файлам.
Проект ещё в активной разработке и какие-то вещи будут улучшать. Но можно уже пробовать и подсматривать какие-то решения для своих проектов.
Код в репо, на видео демо от автора проекта.
@neuro_channel
«Покажи все сцены, где я выгляжу счастливым у костра» — и инструмент находит нужные моменты, не перебирая руками тысячи клипов.
Всё — от анализа кадров до векторной базы — крутится локально, а в облако уходит только разбор текстового запроса и генерация эмбеддингов, которые в будущем тоже планируют заменить офлайновыми моделями.
Что умеет проект
Как это устроено внутри
Под капотом — десктоп‑приложение на Electron с фронтендом на React/TypeScript и Node.js как «оркестратором», который гоняет видео через Python‑скрипты с OpenCV, PyTorch и Whisper. Сначала видео режется на короткие сцены, для каждой сцены запускаются плагины анализа, а результаты упаковываются в вектора с помощью моделей эмбеддингов от Google и кладутся в локальный ChromaDB. Когда вы пишете запрос, Gemini 2.5 Pro превращает текст в JSON‑запрос к этим векторам, так что поиск по гигантской библиотеке работает как по «умной» базе, а не по файлам.
# Установка (укороченная версия)
git clone https://github.com/iliashad/edit-mind
cd edit-mind
npm install
cd python
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
chroma run --host localhost --port 8000 --path .chroma_db
Проект ещё в активной разработке и какие-то вещи будут улучшать. Но можно уже пробовать и подсматривать какие-то решения для своих проектов.
Код в репо, на видео демо от автора проекта.
@neuro_channel
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🍌1
На Tproger вышла статья про то, как поднять локальную LLM для продакшена: когда это вообще оправдано, чем лучше облачных API по деньгам, контролю и приватности, и почему размер модели и лидерборды — далеко не главное.
Автор разбирает выбор модели под задачу, считает, сколько VRAM нужно, объясняет, зачем смотреть на TPS, и почему иногда выгоднее взять компактную модель или MOE, чем огромный «универсальный» вариант.
Отдельные блоки — про инструменты для инференса (vLLM, llama.cpp, Triton), варианты с железом (облако против своего сервера), нужные метрики (TPS/TPM, очередь, KV‑кэш) и типичные грабли: странные токены, переполнение памяти и как их отловить лимитами и мониторингом.
@neuro_channel
Автор разбирает выбор модели под задачу, считает, сколько VRAM нужно, объясняет, зачем смотреть на TPS, и почему иногда выгоднее взять компактную модель или MOE, чем огромный «универсальный» вариант.
Отдельные блоки — про инструменты для инференса (vLLM, llama.cpp, Triton), варианты с железом (облако против своего сервера), нужные метрики (TPS/TPM, очередь, KV‑кэш) и типичные грабли: странные токены, переполнение памяти и как их отловить лимитами и мониторингом.
@neuro_channel
Tproger
Как встроить локальную LLM в прод: от выбора модели до мониторинга токенов
Разбираемся, как поднять локальную LLM в продакшне: от выбора модели и расчёта VRAM до настройки инференса через vLLM, распределения нагрузки, мониторинга TPS/TPM и контроля KV Cache.
❤5👍3👎1
В свежей бете приложения ChatGPT для Android (версия 1.2025.329) в коде нашли первые ссылки на рекламный функционал. Там появились строки про
Судя по формулировкам, реклама сначала может появиться именно в разделе поиска, а не в основном чате, но понятно, что это тестирование инфраструктуры под монетизацию бесплатных пользователей. Пока это только намёки в коде беты: фичу могут включить не сразу, изменить или вообще передумать, но направление, кажется, уже очевидно.
Если вы сидите на бесплатном ChatGPT в Android‑приложении, самое время морально готовиться к баннерам и каруселям в интерфейсе — и, возможно, продумать план Б: веб‑версию, альтернативные клиенты или локальные модели, если реклама начнёт сильно мешать.
@neuro_channel
ads feature, bazaar content, search ad и search ads carousel — то есть, по сути, карусель рекламных блоков в поиске внутри приложения.Судя по формулировкам, реклама сначала может появиться именно в разделе поиска, а не в основном чате, но понятно, что это тестирование инфраструктуры под монетизацию бесплатных пользователей. Пока это только намёки в коде беты: фичу могут включить не сразу, изменить или вообще передумать, но направление, кажется, уже очевидно.
Если вы сидите на бесплатном ChatGPT в Android‑приложении, самое время морально готовиться к баннерам и каруселям в интерфейсе — и, возможно, продумать план Б: веб‑версию, альтернативные клиенты или локальные модели, если реклама начнёт сильно мешать.
@neuro_channel
🙈2❤1😱1
Сейчас на хагинфейсе в топе висит Z-Image-Turbo — новая открытая текст‑в‑картинку модель от Alibaba, всего 6B параметров, но по качеству и пониманию промптов её уже сравнивают с куда более тяжёлыми монстрами. Это турбо-версия семейства Z‑Image: дистиллированная, работает всего за 8 шагов диффузии и даёт очень быстрый отклик при сохранении фотореализма, аккуратного света/материалов и хорошей работы с текстом в кадре.
По технике там интересная смесь: single‑stream Diffusion Transformer, который в одном трансформере обрабатывает и текст, и семантику, и изображение, плюс дистилляция через Decoupled‑DMD и дообучение DMDR, чтобы в 8 шагов выжать максимум качества. В результате модель выдаёт картинку за ~секунду на H800 и нормально живёт на обычной 16 GB видеокарте, так что её реально крутить локально, а не только в облаке.
Пощупать можно вообще без установки — есть официальные Spaces на Hugging Face, где Z‑Image‑Turbo крутится как веб‑демка. Если хочется интегрировать в свой код, то поддержка уже влетела в
На картинке лидерборд на AI Arena.
@neuro_channel
По технике там интересная смесь: single‑stream Diffusion Transformer, который в одном трансформере обрабатывает и текст, и семантику, и изображение, плюс дистилляция через Decoupled‑DMD и дообучение DMDR, чтобы в 8 шагов выжать максимум качества. В результате модель выдаёт картинку за ~секунду на H800 и нормально живёт на обычной 16 GB видеокарте, так что её реально крутить локально, а не только в облаке.
Пощупать можно вообще без установки — есть официальные Spaces на Hugging Face, где Z‑Image‑Turbo крутится как веб‑демка. Если хочется интегрировать в свой код, то поддержка уже влетела в
diffusers: ставите свежий diffusers с GitHub, берёте ZImagePipeline.from_pretrained("Tongyi-MAI/Z-Image-Turbo", torch_dtype=torch.bfloat16) и дальше работаете как с обычным text-to-image пайплайном. Плюс модель уже завезли в ComfyUI и на хостинги вроде Replicate, так что можно выбирать между локальным инференсом и API.На картинке лидерборд на AI Arena.
@neuro_channel
🔥6❤1
UniFace — это библиотека на Python для задач с лицами: детекция, ключевые точки, выравнивание. У автора также в планах распознавание и оценка возраста/пола. Всё завязано на ONNX Runtime, поэтому одна и та же модель может работать на CPU, NVIDIA GPU и Apple Silicon без отдельной возни с бэкендами.
Внутри используются модели семейства RetinaFace с разными «весами» — от мобильных до вариантов на ResNet‑18/34, для которых в README приведены метрики на WiderFace. Есть готовые утилиты для отрисовки прямоугольников и landmark’ов, автоматическая загрузка и кеширование моделей, примеры в ноутбуках и отдельный zoo с описанием моделей. Лицензия MIT, проект развивается.
Сценарий использования простой: устанавливаете
Код в репо, на картинке пример работы.
@neuro_channel
Внутри используются модели семейства RetinaFace с разными «весами» — от мобильных до вариантов на ResNet‑18/34, для которых в README приведены метрики на WiderFace. Есть готовые утилиты для отрисовки прямоугольников и landmark’ов, автоматическая загрузка и кеширование моделей, примеры в ноутбуках и отдельный zoo с описанием моделей. Лицензия MIT, проект развивается.
Сценарий использования простой: устанавливаете
pip install uniface, импортируете from uniface import RetinaFace, создаёте объект detector = RetinaFace() и вызываете detector.detect(image) на numpy‑картинке в BGR. Для быстрого прототипа можно взять примеры из репозитория: там показано, как запускать инференс по одной картинке и как крутить его по видеопотоку с веб‑камеры.Код в репо, на картинке пример работы.
@neuro_channel
🔥2
Forwarded from IT Юмор
Блогер подключил ChatGPT к роботу и выдал ему пистолет, чтобы попытаться убедить нейронку ЗАСТРЕЛИТЬ человека:
Media is too big
VIEW IN TELEGRAM
😁19❤3
Хайп вокруг DeepSeek поутих, но китайцы продолжают методично выкатывать обновления. 1 декабря вышла V3.2 — и судя по бенчмаркам, это уже уровень GPT-5, а расширенная версия V3.2-Speciale заявляется на уровне Gemini-3.0-Pro. Модель взяла золото на IMO и IOI 2025, что для open-source LLM довольно серьёзная заявка.
Главное техническое нововведение — DeepSeek Sparse Attention (DSA), механизм разреженного внимания, который снижает вычислительную сложность на длинных контекстах без потери качества. Ещё добавили поддержку «размышления с инструментами» — модель может думать и параллельно вызывать tool-use, что важно для агентных сценариев. Есть новый пайплайн синтеза данных для обучения агентным задачам — это улучшает работу модели в сложных интерактивных средах.
По железу: модель на 671B параметров (MoE, активных ~37B), и для полноценного запуска нужно серьёзное оборудование. В FP8 это около 700GB VRAM, квантованные версии Q4/Q8 требуют 350–700GB. Реалистичный минимум для приемлемой скорости — порядка 96GB VRAM плюс много RAM; на практике это 8×H100/H200 или аналогичные кластеры. Для локального деплоя поддерживаются SGLang (есть Docker-образы для H200, MI350, NPU), vLLM с day-0 поддержкой и собственный inference-код от DeepSeek.
Лицензия MIT, веса открыты, API доступен по той же цене, что и раньше. V3.2-Speciale временно доступна через отдельный endpoint по цене V3.2:
Модели: V3.2, V3.2-Speciale, тех. отчёт, на картинке сравнение по бенчмаркам.
@neuro_channel
Главное техническое нововведение — DeepSeek Sparse Attention (DSA), механизм разреженного внимания, который снижает вычислительную сложность на длинных контекстах без потери качества. Ещё добавили поддержку «размышления с инструментами» — модель может думать и параллельно вызывать tool-use, что важно для агентных сценариев. Есть новый пайплайн синтеза данных для обучения агентным задачам — это улучшает работу модели в сложных интерактивных средах.
По железу: модель на 671B параметров (MoE, активных ~37B), и для полноценного запуска нужно серьёзное оборудование. В FP8 это около 700GB VRAM, квантованные версии Q4/Q8 требуют 350–700GB. Реалистичный минимум для приемлемой скорости — порядка 96GB VRAM плюс много RAM; на практике это 8×H100/H200 или аналогичные кластеры. Для локального деплоя поддерживаются SGLang (есть Docker-образы для H200, MI350, NPU), vLLM с day-0 поддержкой и собственный inference-код от DeepSeek.
Лицензия MIT, веса открыты, API доступен по той же цене, что и раньше. V3.2-Speciale временно доступна через отдельный endpoint по цене V3.2:
base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215".Модели: V3.2, V3.2-Speciale, тех. отчёт, на картинке сравнение по бенчмаркам.
@neuro_channel
🔥5👏3🏆3
Фрод-детектор оказался фродом
На днях всплыла история про опубликованную статью с откровенно подтасованными результатами — и это не какой-то препринт, а работа с воркшопа ACL 2024. Статья называется «Detecting Scientific Fraud Using Argument Mining» и обещает детектить фродовые научные публикации. Иронично, что сама работа оказалась фродом.
Один из пользователей решил воспроизвести результаты, переписал код авторов с нуля — и получил результаты сильно хуже заявленных. После детального разбора оригинального кода выяснилось следующее: авторы обучали две отдельные модели — одну тестировали только на данных класса 1 (фродовые статьи), другую только на данных класса 0 (легитимные статьи). Потом результаты двух моделей склеивали и выдавали за работу одной модели. Это уже само по себе невалидно.
Но дальше хуже. При разных random seed модели часто «коллапсировали» — начинали предсказывать только один класс. Авторы подобрали такой seed, чтобы модель для класса 1 сколлапсировала именно в класс 1. Когда её тестируют на данных класса 1, она показывает 100% accuracy — просто потому что всегда отвечает «1». А вторая модель с посредственными результатами тестируется на классе 0. Итоговые метрики получаются красивыми, хотя модель на самом деле ничему не научилась. Это классический label leakage — модель «знает» правильный ответ ещё до предсказания.
Когда автор поста указал на это в issue на GitHub, авторы сначала ответили что-то невнятное про «ранние языковые модели плохо генерализуются OOD», потом отредактировали ответ на «это уже не SOTA, смотрите наш новый репозиторий» — и удалили репозиторий целиком.
Статья до сих пор висит в ACL Anthology.
@neuro_channel
На днях всплыла история про опубликованную статью с откровенно подтасованными результатами — и это не какой-то препринт, а работа с воркшопа ACL 2024. Статья называется «Detecting Scientific Fraud Using Argument Mining» и обещает детектить фродовые научные публикации. Иронично, что сама работа оказалась фродом.
Один из пользователей решил воспроизвести результаты, переписал код авторов с нуля — и получил результаты сильно хуже заявленных. После детального разбора оригинального кода выяснилось следующее: авторы обучали две отдельные модели — одну тестировали только на данных класса 1 (фродовые статьи), другую только на данных класса 0 (легитимные статьи). Потом результаты двух моделей склеивали и выдавали за работу одной модели. Это уже само по себе невалидно.
Но дальше хуже. При разных random seed модели часто «коллапсировали» — начинали предсказывать только один класс. Авторы подобрали такой seed, чтобы модель для класса 1 сколлапсировала именно в класс 1. Когда её тестируют на данных класса 1, она показывает 100% accuracy — просто потому что всегда отвечает «1». А вторая модель с посредственными результатами тестируется на классе 0. Итоговые метрики получаются красивыми, хотя модель на самом деле ничему не научилась. Это классический label leakage — модель «знает» правильный ответ ещё до предсказания.
Когда автор поста указал на это в issue на GitHub, авторы сначала ответили что-то невнятное про «ранние языковые модели плохо генерализуются OOD», потом отредактировали ответ на «это уже не SOTA, смотрите наш новый репозиторий» — и удалили репозиторий целиком.
Статья до сих пор висит в ACL Anthology.
@neuro_channel
😱2🤣1
Один разработчик потратил 7 месяцев и написал с нуля inference engine для LLM на чистом C/C++ — без PyTorch, без зависимостей, всё руками. Проект называется Torchless, запускает Mistral 7B локально.
Что реализовано:
🔘 Загрузчик весов модели
🔘 Токенизатор с кастомным byte pair encoding
🔘 Тензорный бекенд с матричными операциями
🔘 Архитектура Mistral 7B целиком
В комментариях спросили, помогал ли ChatGPT с кодом. Автор ответил, что писал всё сам — 150 коммитов начиная с мая, разве что юнит-тесты сгенерировал, но это меньше 10% кода. Говорит, что не хотел бы повторять этот опыт, но в какой-то момент просто решил довести до конца.
Там же дал совет junior-разработчику: вместо того чтобы просить у ChatGPT огромный роадмап, лучше фокусироваться на маленьких фичах по одной. Сделать чтобы просто запустилось, потом следующий шаг. После такого подхода прогресс пошёл быстрее.
Код для изучения в репо, на видео демо.
@neuro_channel
Что реализовано:
В комментариях спросили, помогал ли ChatGPT с кодом. Автор ответил, что писал всё сам — 150 коммитов начиная с мая, разве что юнит-тесты сгенерировал, но это меньше 10% кода. Говорит, что не хотел бы повторять этот опыт, но в какой-то момент просто решил довести до конца.
Там же дал совет junior-разработчику: вместо того чтобы просить у ChatGPT огромный роадмап, лучше фокусироваться на маленьких фичах по одной. Сделать чтобы просто запустилось, потом следующий шаг. После такого подхода прогресс пошёл быстрее.
Код для изучения в репо, на видео демо.
@neuro_channel
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👏3🍾2❤1
Aikido Security нашли новый класс уязвимостей — PromptPwnd. Суть: если в GitHub Actions или GitLab CI/CD используется AI-агент (Gemini CLI, Claude, Codex), атакующий может через prompt injection в тексте issue или PR заставить агента выполнить произвольные команды.
Цепочка атаки простая: пользовательский ввод (issue body, PR denoscription, commit message) попадает напрямую в промпт → AI интерпретирует вредоносные инструкции как легитимные → выполняет shell-команды с доступом к секретам. GITHUB_TOKEN с write-доступом, облачные креды, API-ключи — всё это может утечь.
Пример уязвимого воркфлоу:
Google'овский репозиторий Gemini CLI был уязвим — пропатчили за 4 дня после репорта. Всего нашли паттерн у минимум 6 компаний из Fortune 500.
Это первое подтверждённое доказательство, что prompt injection может компрометировать CI/CD пайплайны на практике, а не только в теории. Aikido выложили Opengrep-правила для детекта.
@neuro_channel
Цепочка атаки простая: пользовательский ввод (issue body, PR denoscription, commit message) попадает напрямую в промпт → AI интерпретирует вредоносные инструкции как легитимные → выполняет shell-команды с доступом к секретам. GITHUB_TOKEN с write-доступом, облачные креды, API-ключи — всё это может утечь.
Пример уязвимого воркфлоу:
prompt: |
Review the: "${{ github.event.issue.body }}"
Google'овский репозиторий Gemini CLI был уязвим — пропатчили за 4 дня после репорта. Всего нашли паттерн у минимум 6 компаний из Fortune 500.
Это первое подтверждённое доказательство, что prompt injection может компрометировать CI/CD пайплайны на практике, а не только в теории. Aikido выложили Opengrep-правила для детекта.
@neuro_channel
⚡1
Apple выложила STARFlow — модели для генерации картинок и видео, но не на диффузии, а на normalizing flows. Это первый раз, когда NF-подход дотянули до качества современных диффузионных моделей.
Главная фишка — генерация за один проход вместо итеративного деноизинга. На практике это даёт заметный выигрыш: 81 кадр 480p видео генерируется за 42 секунды на H100, тогда как диффузионный WAN-2.1 тратит на это 210 секунд. Используется Jacobi iteration — обновления внутри блоков параллелятся, что хорошо ложится на GPU.
Архитектура deep-shallow: глубокий causal transformer обрабатывает сжатые латенты для глобальных зависимостей, а shallow flow blocks работают независимо над каждым кадром для локальных деталей. Это помогает избежать накопления ошибок при авторегрессионной генерации видео.
Две модели:
1️⃣ STARFlow 3B — text-to-image, 256×256, запускается на потребительских картах
2️⃣ STARFlow-V 7B — text-to-video, до 480p, 5–30 секунд видео, нужно 40GB VRAM (RTX 4090 с 24GB не хватит, нужен A100/H100)
По качеству пока не топ-1, но в одном ряду с causal diffusion моделями. Зато есть exact likelihood и инвертируемость — можно делать редактирование через инверсию.
Код на GitHub, веса на HuggingFace, примеры работы на отдельном лендинге. На видео примеры сгенерированных видео.
@neuro_channel
Главная фишка — генерация за один проход вместо итеративного деноизинга. На практике это даёт заметный выигрыш: 81 кадр 480p видео генерируется за 42 секунды на H100, тогда как диффузионный WAN-2.1 тратит на это 210 секунд. Используется Jacobi iteration — обновления внутри блоков параллелятся, что хорошо ложится на GPU.
Архитектура deep-shallow: глубокий causal transformer обрабатывает сжатые латенты для глобальных зависимостей, а shallow flow blocks работают независимо над каждым кадром для локальных деталей. Это помогает избежать накопления ошибок при авторегрессионной генерации видео.
Две модели:
По качеству пока не топ-1, но в одном ряду с causal diffusion моделями. Зато есть exact likelihood и инвертируемость — можно делать редактирование через инверсию.
Код на GitHub, веса на HuggingFace, примеры работы на отдельном лендинге. На видео примеры сгенерированных видео.
@neuro_channel
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1