Нейроканал – Telegram
Нейроканал
9.42K subscribers
437 photos
188 videos
10 files
1.29K links
Искусственный интеллект, нейросети, машинное обучение

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Сайт: https://tprg.ru/site

Другие наши проекты: https://tprg.ru/media
Download Telegram
Anthropic выкатили новый флагман — Claude Opus 4.5. Это тот же топовый Opus, но с упором на реальные рабочие сценарии: сложная разработка, агенты, автоматизация офиса, таблички/презентации и длинные исследования. По их внутренним тестам Opus 4.5 стал ощутимо умнее в кодинге и задачах «долгой дистанции», чем Sonnet 4.5 и прошлый Opus, при этом ест в разы меньше токенов за ту же задачу.​

Главный фокус — инженерка и агенты. В SWE-подобных задачах и «реальных» бенчмарках на терминале и офисную автоматизацию Opus 4.5 обходит не только Sonnet, но и конкурентов, при этом часто решает задачи за меньшее число шагов и с меньшим количеством попыток. В Anthropic даже прогоняли модель через свой хардкорный домашний экзамен для performance-инженеров: в отведённые 2 часа Opus 4.5 набрал балл выше любого кандидата-человека (с оговоркой, что это только про технику, а не про софт-скиллы).​

Второй интересный апдейт — параметр effort в API: low, medium и high. Смысл примерно такой же как у ChatGPT, тут мы примерно уже привыкли к подобным параметрам.

Под релиз подтянули и экосистему. В Claude Code улучшили планирование: модель сначала уточняет требования, собирает plan.md, а потом уже исполняет план; добавили поддержку в десктопном приложении, чтобы гонять несколько сессий (агентов) параллельно — один чинит баги, другой рыскает по GitHub, третий обновляет доку. В пользовательских продуктах: длинные диалоги больше не упираются в стену контекста, Claude сам компактно сворачивает историю, есть Claude для Chrome и расширенный доступ к Claude для Excel, где Opus 4.5 показывал +20% к точности и +15% к эффективности на внутренних финансовых задачах.

Для разработчиков важное: модель уже доступна как claude-opus-4-5-20251101 по цене $5/$25 за миллион токенов, и Anthropic явно позиционирует её как актуальную замену для всех задач.

В Cursor новая модель бесплатно доступна
доступна по сниженной цене первые две недели.

@neuro_channel
🔥4👍211
LLM Council — это маленькое локальное веб‑приложение, где несколько крупных моделей отвечают на один запрос, а потом сами же разбирают ответы и собирают «коллективный» финальный вариант. Проект задумывался как субботний хак «для души», но уже стал вирусным и быстро набирает звезды на GitHub — идея совета из ИИ многим зашла.

Код в репо, подробнее в статье на Tproger.

@neuro_channel
👍5
Игра, в которой надо отличать настоящую фотку от сгенерированной: https://realorai.dev/

Попробуйте, чтобы осознать, что отличить уже практически невозможно. И это новая реальность, никак не могу привыкнуть.

@neuro_channel
👍3😱2👌1💊1
В пятницу прошла конфа AI Journey 2025. Выделил три доклада, которые есть смысл посмотреть. Ссылки ведут сразу на нужный тайм-код.

1️⃣Успехи и проблемы больших языковых моделей — Иван Оселедец [01:47:24]
Очень прикладной доклад о том, как сегодня реально строят и запускают LLM: параметры, стоимость GPU, приёмы ускорения вроде FlashAttention и Mixture-of-Experts, а также инженерные компромиссы в продакшн‑инференсе. Плюс есть рассуждения про открытые модели, open‑source стек и про то, куда всё движется с точки зрения reasoning и качества на задачах вывода.​

2️⃣Надежность современных больших языковых моделей через призму анализа паттернов внимания Евгений Бурнаев [07:42:54]
Фокус на том, как по паттернам attention судить о надёжности LLM: где зарождаются галлюцинации, как выглядят смещённые ответы и какие сигналы можно использовать для оценки доверия к выводу модели. Отдельно поднимаются темы bias, alignment и влияния квантования/FP16 на поведение модели, плюс обсуждаются идеи self‑check поверх GPT‑подобных систем.​

3️⃣Автоматизированное проектирование алгоритмов искусственного интеллекта — Е Тянь [07:13:55]
Для тех, кто любит AutoML и мета‑оптимизацию: про подходы, где алгоритмы и архитектуры подбирает уже сам ИИ, а не человек, и как это может выглядеть в реальных задачах. Отлично ложится на интерес к автоматизации всего ML‑пайплайна.

@neuro_channel
5
HunyuanVideo-1.5 — новая открытая модель от Tencent для генерации видео по тексту или картинке, причём она умещается всего в ~8,3 млрд параметров и при этом даёт качество уровня топовых закрытых сервисов. Модель понимает английский и китайский, умеет делать видео до 1080p.

Сейчас она висит на первом месте на Hugging Face, потому что сочетает три вещи: качество картинки, плавное движение и вменяемые требования к железу. В техотчётах и обзорах её уже сравнивают с Runway Gen-3 и другими лидерами — по человеческим оценкам Hunyuan часто не хуже, а иногда и лучше других открытых моделей, при этом работает быстрее за счёт оптимизаций внимания (SSTA) и двухступенчатой схемы «база + супер-резолвер».​​

Проще всего попробовать модель в демо на Hugging Face Space: есть готовый интерфейс для image-to-video и связанных чекпоинтов (480p, 720p и апскейлеры — смотрите в карточке на HF, там куча spaces поднято). Если хочется больше контроля, у модели есть нативная поддержка в ComfyUI — ставите нужные ноды, подгружаете чекпоинты HunyuanVideo-1.5 и собираете свой граф для text-to-video или image-to-video.​​

Локальный запуск делается через официальный репозиторий Tencent-Hunyuan/HunyuanVideo-1.5: нужен Python 3.10+, CUDA, PyTorch и видеокарта NVIDIA с поддержкой CUDA. При агрессивном оффлоаде и тюнинге пайплайна модель можно завести даже на ~14–16 ГБ видеопамяти (уровень RTX 4070/4070 Ti), но будет медленно; комфортнее всего ей на картах с 24+ ГБ (RTX 3090, 4090 и т.п.), а для длинных роликов 720p без offload по-прежнему полезны 48–80 ГБ или несколько GPU.

На видео официальная демка.

@neuro_channel
Media is too big
VIEW IN TELEGRAM
3🔥2
И ещё один супер-свежий релиз.

FLUX.2-dev — новая флагманская модель от Black Forest Labs для генерации и редактирования картинок по тексту, с открытыми весами, но под некоммерческой лицензией. Это 32‑миллиардный трансформер с современным качеством рендера, который умеет как обычный text‑to‑image, так и аккуратное редактирование по одной или нескольким референс‑картинкам.​

Что за модель и чем она примечательна

FLUX.2-dev — это «продвинутый Photoshop на стероидах»: одна модель, которая и рисует с нуля, и меняет стиль, объект или персонажа по тексту без доп. обучения, опираясь сразу на несколько референсов. За счёт архитектуры rectified flow трансформера и длинного контекста по тексту и картинкам она хорошо держит композицию, цвета (вплоть до hex-кодов) и надписи, поэтому сейчас её и двигают как новый топ среди открытых генераторов.​

Где попробовать онлайн
Самый простой вариант — официальный Space на Hugging Face: там можно вводить текст, загружать картинки и сразу смотреть результат в браузере. Плюс модель уже подключили в облачные сервисы вроде Cloudflare Workers AI и сторонние хостинги, так что можно дёргать её по API без своего железа.​​

Как запустить локально и какое железо нужно
Для локального запуска есть официальный репозиторий и поддержка в Diffusers: можно тянуть оригинальные веса или квантованные варианты (4‑бит, GGUF) для экономии видеопамяти. В реальности модель огромная (32B параметров), поэтому комфортный минимум — RTX 3090/4090 с 24 ГБ VRAM; с квантованием и оффлоадом её можно завести примерно на 16–18 ГБ, но будет ощутимо медленнее и с ограничениями по размеру картинок и батчам. Не забудьте, что лицензия FLUX [dev] не даёт права использовать открытые веса в продакшн‑продуктах напрямую — для коммерции у них отдельный FLUX.2 Pro по API.

Веса и подробности на HF, на картинке примеры работы модели.

@neuro_channel
🔥3
На Tproger вышла статья про то, почему нейросети при дообучении на новых данных начинают «забывать» то, что умели раньше, даже если модель большая и параметров хватает.

🔘Как работает катастрофическое забывание (дилемма «сохранить старое» vs «выучить новое»).
🔘Как это проявляется в проде через дрейф моделей.
🔘Что с этим сейчас реально делают: от регуляризации и подмешивания старых данных до подходов, где для новых задач добавляют отдельные небольшие модули поверх базовой модели, а не переписывают её целиком.

Если работаете с ML в продакшене и думаете про continual learning, это хорошая точка входа.

@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3
Build AI выкатили довольно необычный датасет Egocentric‑10K: это 10 000 часов видео с головы реальных рабочих на заводах — камера смотрит их глазами, видно руки, инструменты и объекты, с которыми они работают. Всего там 2 138 людей, 1,08 млрд кадров, 1080p@30fps, без звука.​

Зачем это нужно: такой массив «как человек реально делает работу руками» — топливо для роботов и систем, которые учатся повторять человеческие действия по видео: манипуляции руками, последовательные шаги, контроль ошибок, фабричные ассистенты и т.п. Это не лабораторные демки, а живые производственные процессы, поэтому датасет отлично ложится на задачи imitation learning и VLA‑агентов.​

Где и как использовать: датасет лежит на Hugging Face под Apache 2.0 — чтобы получить доступ, нужно залогиниться и согласиться с условиями, после чего можно стримить данные без скачивания всех видео. Структура — WebDataset: tar‑шарды с парами mp4+json, где в метаданных есть id фабрики, работника, длительность и параметры видео; подключается через datasets.load_dataset(..., streaming=True) с фильтрацией по нужным фабрикам/работникам и выборкой только части шардов, чтобы не тянуть все 16,4 ТБ сразу.

@neuro_channel
Media is too big
VIEW IN TELEGRAM
🔥52🐳1
У одного программиста накопилось больше 2 ТБ личного видео, и попытка решить поиск по ним через Google Video Intelligence закончилась счётом на сотни долларов и необходимостью заливать всё в облако, поэтому он сделал локальный инструмент Edit Mind, который индексирует ролики у вас на машине и даёт искать по смыслу обычным текстом:
«Покажи все сцены, где я выгляжу счастливым у костра» — и инструмент находит нужные моменты, не перебирая руками тысячи клипов.​


Всё — от анализа кадров до векторной базы — крутится локально, а в облако уходит только разбор текстового запроса и генерация эмбеддингов, которые в будущем тоже планируют заменить офлайновыми моделями.

Что умеет проект
🔘Полностью локальный анализ: расшифровка звука, распознавание лиц, объектов, текста в кадре, доминирующих цветов и базовой «сцены».​
🔘Семантический поиск по естественному языку: запросы вроде «двое разговаривают за столом днём» превращаются в структурный фильтр по локальной векторной базе ChromaDB.​
🔘Черновые нарезки: описываете, что нужно, Edit Mind собирает подходящие сцены в грубый монтаж, дальше дорабатываете уже в своём видеоредакторе.​
🔘Архитектура через плагины: анализ идёт через Python, можно добавить свои плагины — для логотипов, специфичных объектов, звуковых событий и т.д.​

Как это устроено внутри​
Под капотом — десктоп‑приложение на Electron с фронтендом на React/TypeScript и Node.js как «оркестратором», который гоняет видео через Python‑скрипты с OpenCV, PyTorch и Whisper. Сначала видео режется на короткие сцены, для каждой сцены запускаются плагины анализа, а результаты упаковываются в вектора с помощью моделей эмбеддингов от Google и кладутся в локальный ChromaDB. Когда вы пишете запрос, Gemini 2.5 Pro превращает текст в JSON‑запрос к этим векторам, так что поиск по гигантской библиотеке работает как по «умной» базе, а не по файлам.​

# Установка (укороченная версия)
git clone https://github.com/iliashad/edit-mind
cd edit-mind
npm install

cd python
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
chroma run --host localhost --port 8000 --path .chroma_db


Проект ещё в активной разработке и какие-то вещи будут улучшать. Но можно уже пробовать и подсматривать какие-то решения для своих проектов.

Код в репо, на видео демо от автора проекта.

@neuro_channel
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🍌1
На Tproger вышла статья про то, как поднять локальную LLM для продакшена: когда это вообще оправдано, чем лучше облачных API по деньгам, контролю и приватности, и почему размер модели и лидерборды — далеко не главное.​

Автор разбирает выбор модели под задачу, считает, сколько VRAM нужно, объясняет, зачем смотреть на TPS, и почему иногда выгоднее взять компактную модель или MOE, чем огромный «универсальный» вариант.​

Отдельные блоки — про инструменты для инференса (vLLM, llama.cpp, Triton), варианты с железом (облако против своего сервера), нужные метрики (TPS/TPM, очередь, KV‑кэш) и типичные грабли: странные токены, переполнение памяти и как их отловить лимитами и мониторингом.

@neuro_channel
5👍3👎1
В свежей бете приложения ChatGPT для Android (версия 1.2025.329) в коде нашли первые ссылки на рекламный функционал. Там появились строки про ads feature, bazaar content, search ad и search ads carousel — то есть, по сути, карусель рекламных блоков в поиске внутри приложения.​

Судя по формулировкам, реклама сначала может появиться именно в разделе поиска, а не в основном чате, но понятно, что это тестирование инфраструктуры под монетизацию бесплатных пользователей. Пока это только намёки в коде беты: фичу могут включить не сразу, изменить или вообще передумать, но направление, кажется, уже очевидно.​

Если вы сидите на бесплатном ChatGPT в Android‑приложении, самое время морально готовиться к баннерам и каруселям в интерфейсе — и, возможно, продумать план Б: веб‑версию, альтернативные клиенты или локальные модели, если реклама начнёт сильно мешать.

@neuro_channel
🙈21😱1
Сейчас на хагинфейсе в топе висит Z-Image-Turbo — новая открытая текст‑в‑картинку модель от Alibaba, всего 6B параметров, но по качеству и пониманию промптов её уже сравнивают с куда более тяжёлыми монстрами. Это турбо-версия семейства Z‑Image: дистиллированная, работает всего за 8 шагов диффузии и даёт очень быстрый отклик при сохранении фотореализма, аккуратного света/материалов и хорошей работы с текстом в кадре.​

По технике там интересная смесь: single‑stream Diffusion Transformer, который в одном трансформере обрабатывает и текст, и семантику, и изображение, плюс дистилляция через Decoupled‑DMD и дообучение DMDR, чтобы в 8 шагов выжать максимум качества. В результате модель выдаёт картинку за ~секунду на H800 и нормально живёт на обычной 16 GB видеокарте, так что её реально крутить локально, а не только в облаке.​

Пощупать можно вообще без установки — есть официальные Spaces на Hugging Face, где Z‑Image‑Turbo крутится как веб‑демка. Если хочется интегрировать в свой код, то поддержка уже влетела в diffusers: ставите свежий diffusers с GitHub, берёте ZImagePipeline.from_pretrained("Tongyi-MAI/Z-Image-Turbo", torch_dtype=torch.bfloat16) и дальше работаете как с обычным text-to-image пайплайном. Плюс модель уже завезли в ComfyUI и на хостинги вроде Replicate, так что можно выбирать между локальным инференсом и API.

На картинке лидерборд на AI Arena.

@neuro_channel
🔥61
UniFace — это библиотека на Python для задач с лицами: детекция, ключевые точки, выравнивание. У автора также в планах распознавание и оценка возраста/пола. Всё завязано на ONNX Runtime, поэтому одна и та же модель может работать на CPU, NVIDIA GPU и Apple Silicon без отдельной возни с бэкендами.​

Внутри используются модели семейства RetinaFace с разными «весами» — от мобильных до вариантов на ResNet‑18/34, для которых в README приведены метрики на WiderFace. Есть готовые утилиты для отрисовки прямоугольников и landmark’ов, автоматическая загрузка и кеширование моделей, примеры в ноутбуках и отдельный zoo с описанием моделей. Лицензия MIT, проект развивается.​

Сценарий использования простой: устанавливаете pip install uniface, импортируете from uniface import RetinaFace, создаёте объект detector = RetinaFace() и вызываете detector.detect(image) на numpy‑картинке в BGR. Для быстрого прототипа можно взять примеры из репозитория: там показано, как запускать инференс по одной картинке и как крутить его по видеопотоку с веб‑камеры.​

Код в репо, на картинке пример работы.

@neuro_channel
🔥2
Forwarded from IT Юмор
Блогер подключил ChatGPT к роботу и выдал ему пистолет, чтобы попытаться убедить нейронку ЗАСТРЕЛИТЬ человека:
Media is too big
VIEW IN TELEGRAM
😁193
Хайп вокруг DeepSeek поутих, но китайцы продолжают методично выкатывать обновления. 1 декабря вышла V3.2 — и судя по бенчмаркам, это уже уровень GPT-5, а расширенная версия V3.2-Speciale заявляется на уровне Gemini-3.0-Pro. Модель взяла золото на IMO и IOI 2025, что для open-source LLM довольно серьёзная заявка.​

Главное техническое нововведение — DeepSeek Sparse Attention (DSA), механизм разреженного внимания, который снижает вычислительную сложность на длинных контекстах без потери качества. Ещё добавили поддержку «размышления с инструментами» — модель может думать и параллельно вызывать tool-use, что важно для агентных сценариев. Есть новый пайплайн синтеза данных для обучения агентным задачам — это улучшает работу модели в сложных интерактивных средах.​

По железу: модель на 671B параметров (MoE, активных ~37B), и для полноценного запуска нужно серьёзное оборудование. В FP8 это около 700GB VRAM, квантованные версии Q4/Q8 требуют 350–700GB. Реалистичный минимум для приемлемой скорости — порядка 96GB VRAM плюс много RAM; на практике это 8×H100/H200 или аналогичные кластеры. Для локального деплоя поддерживаются SGLang (есть Docker-образы для H200, MI350, NPU), vLLM с day-0 поддержкой и собственный inference-код от DeepSeek.​

Лицензия MIT, веса открыты, API доступен по той же цене, что и раньше. V3.2-Speciale временно доступна через отдельный endpoint по цене V3.2: base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215".

Модели: V3.2, V3.2-Speciale, тех. отчёт, на картинке сравнение по бенчмаркам.

@neuro_channel
🔥5👏3🏆3
Фрод-детектор оказался фродом

На днях всплыла история про опубликованную статью с откровенно подтасованными результатами — и это не какой-то препринт, а работа с воркшопа ACL 2024. Статья называется «Detecting Scientific Fraud Using Argument Mining» и обещает детектить фродовые научные публикации. Иронично, что сама работа оказалась фродом.

Один из пользователей решил воспроизвести результаты, переписал код авторов с нуля — и получил результаты сильно хуже заявленных. После детального разбора оригинального кода выяснилось следующее: авторы обучали две отдельные модели — одну тестировали только на данных класса 1 (фродовые статьи), другую только на данных класса 0 (легитимные статьи). Потом результаты двух моделей склеивали и выдавали за работу одной модели. Это уже само по себе невалидно.

Но дальше хуже. При разных random seed модели часто «коллапсировали» — начинали предсказывать только один класс. Авторы подобрали такой seed, чтобы модель для класса 1 сколлапсировала именно в класс 1. Когда её тестируют на данных класса 1, она показывает 100% accuracy — просто потому что всегда отвечает «1». А вторая модель с посредственными результатами тестируется на классе 0. Итоговые метрики получаются красивыми, хотя модель на самом деле ничему не научилась. Это классический label leakage — модель «знает» правильный ответ ещё до предсказания.

Когда автор поста указал на это в issue на GitHub, авторы сначала ответили что-то невнятное про «ранние языковые модели плохо генерализуются OOD», потом отредактировали ответ на «это уже не SOTA, смотрите наш новый репозиторий» — и удалили репозиторий целиком.

Статья до сих пор висит в ACL Anthology.

@neuro_channel
😱2🤣1
Один разработчик потратил 7 месяцев и написал с нуля inference engine для LLM на чистом C/C++ — без PyTorch, без зависимостей, всё руками. Проект называется Torchless, запускает Mistral 7B локально.​

Что реализовано:

🔘Загрузчик весов модели
🔘Токенизатор с кастомным byte pair encoding
🔘Тензорный бекенд с матричными операциями
🔘Архитектура Mistral 7B целиком​

В комментариях спросили, помогал ли ChatGPT с кодом. Автор ответил, что писал всё сам — 150 коммитов начиная с мая, разве что юнит-тесты сгенерировал, но это меньше 10% кода. Говорит, что не хотел бы повторять этот опыт, но в какой-то момент просто решил довести до конца.​

Там же дал совет junior-разработчику: вместо того чтобы просить у ChatGPT огромный роадмап, лучше фокусироваться на маленьких фичах по одной. Сделать чтобы просто запустилось, потом следующий шаг. После такого подхода прогресс пошёл быстрее.​

Код для изучения в репо, на видео демо.

@neuro_channel
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👏3🍾21
Aikido Security нашли новый класс уязвимостей — PromptPwnd. Суть: если в GitHub Actions или GitLab CI/CD используется AI-агент (Gemini CLI, Claude, Codex), атакующий может через prompt injection в тексте issue или PR заставить агента выполнить произвольные команды.​

Цепочка атаки простая: пользовательский ввод (issue body, PR denoscription, commit message) попадает напрямую в промпт → AI интерпретирует вредоносные инструкции как легитимные → выполняет shell-команды с доступом к секретам. GITHUB_TOKEN с write-доступом, облачные креды, API-ключи — всё это может утечь.​

Пример уязвимого воркфлоу:
prompt: |
Review the: "${{ github.event.issue.body }}"


Google'овский репозиторий Gemini CLI был уязвим — пропатчили за 4 дня после репорта. Всего нашли паттерн у минимум 6 компаний из Fortune 500.​

Это первое подтверждённое доказательство, что prompt injection может компрометировать CI/CD пайплайны на практике, а не только в теории. Aikido выложили Opengrep-правила для детекта.

@neuro_channel
1
Apple выложила STARFlow — модели для генерации картинок и видео, но не на диффузии, а на normalizing flows. Это первый раз, когда NF-подход дотянули до качества современных диффузионных моделей.​

Главная фишка — генерация за один проход вместо итеративного деноизинга. На практике это даёт заметный выигрыш: 81 кадр 480p видео генерируется за 42 секунды на H100, тогда как диффузионный WAN-2.1 тратит на это 210 секунд. Используется Jacobi iteration — обновления внутри блоков параллелятся, что хорошо ложится на GPU.​

Архитектура deep-shallow: глубокий causal transformer обрабатывает сжатые латенты для глобальных зависимостей, а shallow flow blocks работают независимо над каждым кадром для локальных деталей. Это помогает избежать накопления ошибок при авторегрессионной генерации видео.​

Две модели:
1️⃣STARFlow 3B — text-to-image, 256×256, запускается на потребительских картах
2️⃣STARFlow-V 7B — text-to-video, до 480p, 5–30 секунд видео, нужно 40GB VRAM (RTX 4090 с 24GB не хватит, нужен A100/H100)​

По качеству пока не топ-1, но в одном ряду с causal diffusion моделями. Зато есть exact likelihood и инвертируемость — можно делать редактирование через инверсию.​

Код на GitHub, веса на HuggingFace, примеры работы на отдельном лендинге. На видео примеры сгенерированных видео.

@neuro_channel
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Вайб-кодер смотрит, как ИИ просит прощения после удаления всех файлов на диске C:

#постИИрония
😁26👌1