Нейроканал – Telegram
Нейроканал
9.42K subscribers
437 photos
188 videos
10 files
1.29K links
Искусственный интеллект, нейросети, машинное обучение

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Сайт: https://tprg.ru/site

Другие наши проекты: https://tprg.ru/media
Download Telegram
Мы просто пишем import torch и молимся, чтобы функция потерь начала уменьшаться.

#постИИрония
😁15💯61
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 — новая линейка визуальных моделей в open source

⚡️Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.

🔘Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео, а на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.

Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].

🔘Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].

🔘Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар — для Editing.

Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].

🔘K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.

Все модели линейки доступны на GitHub, Gitverse и HuggingFace.

Читайте подробнее в техническом репорте.

Это #партнёрский пост
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🤣2
Сегодня прям релиз за релизом!

Выложили SAM 3 — это новая версия модели, которая по текстовому или визуальному запросу находит, выделяет и трекает нужные объекты на картинках и видео. Главный сдвиг: модель понимает абстрактные «концепты» вроде «жёлтый автобус» или «люди в касках» и сразу сегментирует все такие объекты, а не один, как в старых SAM.​

Новое для этой версии:
🔘Promptable Concept Segmentation: пишешь фразу или даёшь пример‑картинку, и SAM 3 находит и сегментирует все экземпляры этого класса, в том числе по кадрам видео.​
🔘Объединены текстовые и визуальные подсказки: можно и написать «автомобиль», и прокликать мышкой спорные объекты в одном и том же интерфейсе.​
🔘Открытый словарь: модель не привязана к фиксированному списку классов и работает с любыми осмысленными запросами, которые можно визуально приземлить.​

Выводы простые: базовую задачу «найти и аккуратно вырезать любые объекты по запросу» по сути закрыли, и большинству из нас нет смысла писать свои сегментаторы с нуля. Задача смещается в сторону адаптации SAM 3 под свой домен, построения пайплайнов разметки и интеграции такого зрения в агенты и продукты, особенно там, где нужна тонкая работа с конкретными классами объектов.

Код в репо, веса на хагинфейсе, на видео пример работы модели.

@neuro_channel
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👎1
Cloud․ru открыл свою платформу, на которой можно запускать LLM и строить AI-решения внутри РФ: что-то вроде Replicate, но без проблем с доступностью и с оплатой в рублях.

Суть простая: берёшь готовую модель из каталога (GigaChat, Qwen, Llama и другие) или загружаешь свою с HuggingFace, и сразу получаешь к ней API. Без заморочек с настройкой GPU-серверов, кластеров и безопасности — всё уже настроено и работает в облаке.

Внутри Evolution AI Factory шесть сервисов:
🔘ML Inference — запуск моделей по API, совместимому с OpenAI.
🔘Foundation Models — каталог популярных моделей, готовых к использованию.
🔘AI Agents — конструктор для создания агентов, которые могут взаимодействовать с системами и принимать решения.
🔘Evolution Notebooks — JupyterLab для экспериментов.
🔘ML Finetuning — дообучение моделей на своих данных.
🔘Managed RAG — подключение внутренних баз знаний, чтобы модель отвечала только по документам компании.

Соответствует ФЗ-152, с круглосуточной поддержкой и SLA. Для компаний, которым важно держать данные в РФ и не возиться с инфраструктурой — это прямо то, что нужно. Можно быстро прототипировать идею или запустить продакшен-решение без собственной команды DevOps и ML-инженеров.

Прям импортозамещение здорового человека, такое мы любим.

@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
Внезапно: Линус одобряет вайб-кодинг.

Но есть нюанс. Только как вход в профессию, а в продакшене «это может быть ужасным решением с точки зрения поддержки».

Ну что ж, скоро выходные, само время закодить какой-то проект для души. Не будем же мы спорить с мастером.

@neuro_channel
👍6👎2👌1
Ai2 выкатили Olmo 3 — семейство полностью открытых языковых моделей на 7B и 32B параметров, заточенных под рассуждения, чат и работу с инструментами. В линейке есть Olmo 3‑Base (7B/32B) как сильная база для кода, математики и длинного контекста до ~65k токенов, Olmo 3‑Think (7B/32B) как думающая модели с явными цепочками рассуждений и лучшим среди полностью открытых качеством на reasoning‑бенчмарках, и Olmo 3‑Instruct (7B) для чата и tool use, который по их тестам догоняет Qwen 2.5, Gemma 3 и Llama 3.1 того же класса.​

Ai2 выкладывают не только веса, но и полный «model flow»: код, чекпоинты на разных стадиях, датасеты (Dolma 3 и др.) и инструменты для трейсинга ответов до обучающих данных, чтобы можно было разбирать и воспроизводить весь процесс обучения. Для нас это значит, что можно погонять Olmo 3 в их playground, скачать модели с Hugging Face и использовать их как полностью открытые базовые LLM: дообучать под свои домены, экспериментировать с RL/инструкционным обучением и встраивать в агентов вместо закрытых моделей.

Доступны технический отчёт, веса, код, на картинке сравнение с другими открытыми моделями.

@neuro_channel
👍1
ГигаЧат выпустил модель для синтеза речи GigaTTS

Она звучит почти как реальный человек. И нравится слушателям в 2-4 раза чаще, чем старая версия. Под капотом — GigaChat 3b, токенизатор, адаптер к LLM и 30 тысяч часов данных.

GigaTTS использует уникальные голоса телефонных операторов и инструктивный синтез разных эмоций. Она умеет клонировать голоса, а также озвучивать тексты любой длины в multi-turn режиме.

Новый синтез речи можно оценить в голосовом общении с ГигаЧат.

А узнать больше новостей от команды разработки — в канале @gigadev_channel.

Подписывайтесь!

Это #партнёрский пост
3🆒3❤‍🔥1👎1
В репозитории awesome-ai-eval собрали список инструментов для оценки ИИ‑систем в продакшене. Там лежат фреймворки и сервисы для проверки точности, галлюцинаций, уязвимостей к prompt‑injection и качества RAG‑ответов.​

Для разработчика это просто набор проверенных тулов, которыми можно быстро начать тестировать своего бота или агента, не копаясь в академических обзорах.​

Берёшь оттуда 1–2 инструмента, заворачиваешь свои промпты в тестовые кейсы и гоняешь модель на каждом изменении — чтобы ловить регрессии и не пускать битый ИИ к пользователям.

Подобные подборки полезны тем, что их кто-то знающий курирует и можно найти то, о чём даже не знал.

@neuro_channel
Вам не кажется, что вайб-кодинг постепенно превращается в обычное программирование, просто с новыми инструментами?

Поначалу мы удивлялись и радовались первым успехам LLM, внезапно открыли для себя, что ИИ может писать код, пусть с ошибками и тупенько, но может. Постепенно модели развивались, появились агенты и возможность подключать разные инструменты. И мы стали использовать ИИ регулярно, просто правильным способом.

Эксперты говорили, что сама разработка постепенно изменится. А будущее, как всегда, наступило незаметно.

@neuro_channel
💯12😁31
2025+Autumn+AI.pdf
18.7 MB
Раз в полгода Бенедикт Эванс выпускает большую презентацию про стратегические тренды в техе, и осенний выпуск 2025 называется AI eats the world — 90 слайдов про то, как ИИ «съедает» инфраструктуру, платформы и продуктовые стратегии. В докладе он разбирает текущее ралли вокруг генеративного ИИ как новый платформенный сдвиг: взлёт капексов на дата‑центры, поиски рабочих бизнес‑моделей и то, что сами модели всё больше становятся коммодити, а реальная защита лежит в данных, интеграции и дистрибуции.​

Если интересен взгляд «с высоты» на то, куда всё это катится, очень советую просто пролистать слайды.

P.S. Бенедикт Эванс — независимый аналитик по технологиям из Лондона, который больше 20 лет занимается разбором рынков мобильной связи, медиа и софта, раньше был партнёром венчурного фонда Andreessen Horowitz в Кремниевой долине, а сейчас ведёт большую рассылку и два раза в год делает обзорные презентации про то, что происходит в техе и AI.

@neuro_channel
🔥41
Программист смотрит, как ИИ-инструменты делают за него работу, которую он раньше любил
😁14😭5
Anthropic выкатили новый флагман — Claude Opus 4.5. Это тот же топовый Opus, но с упором на реальные рабочие сценарии: сложная разработка, агенты, автоматизация офиса, таблички/презентации и длинные исследования. По их внутренним тестам Opus 4.5 стал ощутимо умнее в кодинге и задачах «долгой дистанции», чем Sonnet 4.5 и прошлый Opus, при этом ест в разы меньше токенов за ту же задачу.​

Главный фокус — инженерка и агенты. В SWE-подобных задачах и «реальных» бенчмарках на терминале и офисную автоматизацию Opus 4.5 обходит не только Sonnet, но и конкурентов, при этом часто решает задачи за меньшее число шагов и с меньшим количеством попыток. В Anthropic даже прогоняли модель через свой хардкорный домашний экзамен для performance-инженеров: в отведённые 2 часа Opus 4.5 набрал балл выше любого кандидата-человека (с оговоркой, что это только про технику, а не про софт-скиллы).​

Второй интересный апдейт — параметр effort в API: low, medium и high. Смысл примерно такой же как у ChatGPT, тут мы примерно уже привыкли к подобным параметрам.

Под релиз подтянули и экосистему. В Claude Code улучшили планирование: модель сначала уточняет требования, собирает plan.md, а потом уже исполняет план; добавили поддержку в десктопном приложении, чтобы гонять несколько сессий (агентов) параллельно — один чинит баги, другой рыскает по GitHub, третий обновляет доку. В пользовательских продуктах: длинные диалоги больше не упираются в стену контекста, Claude сам компактно сворачивает историю, есть Claude для Chrome и расширенный доступ к Claude для Excel, где Opus 4.5 показывал +20% к точности и +15% к эффективности на внутренних финансовых задачах.

Для разработчиков важное: модель уже доступна как claude-opus-4-5-20251101 по цене $5/$25 за миллион токенов, и Anthropic явно позиционирует её как актуальную замену для всех задач.

В Cursor новая модель бесплатно доступна
доступна по сниженной цене первые две недели.

@neuro_channel
🔥4👍211
LLM Council — это маленькое локальное веб‑приложение, где несколько крупных моделей отвечают на один запрос, а потом сами же разбирают ответы и собирают «коллективный» финальный вариант. Проект задумывался как субботний хак «для души», но уже стал вирусным и быстро набирает звезды на GitHub — идея совета из ИИ многим зашла.

Код в репо, подробнее в статье на Tproger.

@neuro_channel
👍5
Игра, в которой надо отличать настоящую фотку от сгенерированной: https://realorai.dev/

Попробуйте, чтобы осознать, что отличить уже практически невозможно. И это новая реальность, никак не могу привыкнуть.

@neuro_channel
👍3😱2👌1💊1
В пятницу прошла конфа AI Journey 2025. Выделил три доклада, которые есть смысл посмотреть. Ссылки ведут сразу на нужный тайм-код.

1️⃣Успехи и проблемы больших языковых моделей — Иван Оселедец [01:47:24]
Очень прикладной доклад о том, как сегодня реально строят и запускают LLM: параметры, стоимость GPU, приёмы ускорения вроде FlashAttention и Mixture-of-Experts, а также инженерные компромиссы в продакшн‑инференсе. Плюс есть рассуждения про открытые модели, open‑source стек и про то, куда всё движется с точки зрения reasoning и качества на задачах вывода.​

2️⃣Надежность современных больших языковых моделей через призму анализа паттернов внимания Евгений Бурнаев [07:42:54]
Фокус на том, как по паттернам attention судить о надёжности LLM: где зарождаются галлюцинации, как выглядят смещённые ответы и какие сигналы можно использовать для оценки доверия к выводу модели. Отдельно поднимаются темы bias, alignment и влияния квантования/FP16 на поведение модели, плюс обсуждаются идеи self‑check поверх GPT‑подобных систем.​

3️⃣Автоматизированное проектирование алгоритмов искусственного интеллекта — Е Тянь [07:13:55]
Для тех, кто любит AutoML и мета‑оптимизацию: про подходы, где алгоритмы и архитектуры подбирает уже сам ИИ, а не человек, и как это может выглядеть в реальных задачах. Отлично ложится на интерес к автоматизации всего ML‑пайплайна.

@neuro_channel
5
HunyuanVideo-1.5 — новая открытая модель от Tencent для генерации видео по тексту или картинке, причём она умещается всего в ~8,3 млрд параметров и при этом даёт качество уровня топовых закрытых сервисов. Модель понимает английский и китайский, умеет делать видео до 1080p.

Сейчас она висит на первом месте на Hugging Face, потому что сочетает три вещи: качество картинки, плавное движение и вменяемые требования к железу. В техотчётах и обзорах её уже сравнивают с Runway Gen-3 и другими лидерами — по человеческим оценкам Hunyuan часто не хуже, а иногда и лучше других открытых моделей, при этом работает быстрее за счёт оптимизаций внимания (SSTA) и двухступенчатой схемы «база + супер-резолвер».​​

Проще всего попробовать модель в демо на Hugging Face Space: есть готовый интерфейс для image-to-video и связанных чекпоинтов (480p, 720p и апскейлеры — смотрите в карточке на HF, там куча spaces поднято). Если хочется больше контроля, у модели есть нативная поддержка в ComfyUI — ставите нужные ноды, подгружаете чекпоинты HunyuanVideo-1.5 и собираете свой граф для text-to-video или image-to-video.​​

Локальный запуск делается через официальный репозиторий Tencent-Hunyuan/HunyuanVideo-1.5: нужен Python 3.10+, CUDA, PyTorch и видеокарта NVIDIA с поддержкой CUDA. При агрессивном оффлоаде и тюнинге пайплайна модель можно завести даже на ~14–16 ГБ видеопамяти (уровень RTX 4070/4070 Ti), но будет медленно; комфортнее всего ей на картах с 24+ ГБ (RTX 3090, 4090 и т.п.), а для длинных роликов 720p без offload по-прежнему полезны 48–80 ГБ или несколько GPU.

На видео официальная демка.

@neuro_channel
Media is too big
VIEW IN TELEGRAM
3🔥2
И ещё один супер-свежий релиз.

FLUX.2-dev — новая флагманская модель от Black Forest Labs для генерации и редактирования картинок по тексту, с открытыми весами, но под некоммерческой лицензией. Это 32‑миллиардный трансформер с современным качеством рендера, который умеет как обычный text‑to‑image, так и аккуратное редактирование по одной или нескольким референс‑картинкам.​

Что за модель и чем она примечательна

FLUX.2-dev — это «продвинутый Photoshop на стероидах»: одна модель, которая и рисует с нуля, и меняет стиль, объект или персонажа по тексту без доп. обучения, опираясь сразу на несколько референсов. За счёт архитектуры rectified flow трансформера и длинного контекста по тексту и картинкам она хорошо держит композицию, цвета (вплоть до hex-кодов) и надписи, поэтому сейчас её и двигают как новый топ среди открытых генераторов.​

Где попробовать онлайн
Самый простой вариант — официальный Space на Hugging Face: там можно вводить текст, загружать картинки и сразу смотреть результат в браузере. Плюс модель уже подключили в облачные сервисы вроде Cloudflare Workers AI и сторонние хостинги, так что можно дёргать её по API без своего железа.​​

Как запустить локально и какое железо нужно
Для локального запуска есть официальный репозиторий и поддержка в Diffusers: можно тянуть оригинальные веса или квантованные варианты (4‑бит, GGUF) для экономии видеопамяти. В реальности модель огромная (32B параметров), поэтому комфортный минимум — RTX 3090/4090 с 24 ГБ VRAM; с квантованием и оффлоадом её можно завести примерно на 16–18 ГБ, но будет ощутимо медленнее и с ограничениями по размеру картинок и батчам. Не забудьте, что лицензия FLUX [dev] не даёт права использовать открытые веса в продакшн‑продуктах напрямую — для коммерции у них отдельный FLUX.2 Pro по API.

Веса и подробности на HF, на картинке примеры работы модели.

@neuro_channel
🔥3
На Tproger вышла статья про то, почему нейросети при дообучении на новых данных начинают «забывать» то, что умели раньше, даже если модель большая и параметров хватает.

🔘Как работает катастрофическое забывание (дилемма «сохранить старое» vs «выучить новое»).
🔘Как это проявляется в проде через дрейф моделей.
🔘Что с этим сейчас реально делают: от регуляризации и подмешивания старых данных до подходов, где для новых задач добавляют отдельные небольшие модули поверх базовой модели, а не переписывают её целиком.

Если работаете с ML в продакшене и думаете про continual learning, это хорошая точка входа.

@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3
Build AI выкатили довольно необычный датасет Egocentric‑10K: это 10 000 часов видео с головы реальных рабочих на заводах — камера смотрит их глазами, видно руки, инструменты и объекты, с которыми они работают. Всего там 2 138 людей, 1,08 млрд кадров, 1080p@30fps, без звука.​

Зачем это нужно: такой массив «как человек реально делает работу руками» — топливо для роботов и систем, которые учатся повторять человеческие действия по видео: манипуляции руками, последовательные шаги, контроль ошибок, фабричные ассистенты и т.п. Это не лабораторные демки, а живые производственные процессы, поэтому датасет отлично ложится на задачи imitation learning и VLA‑агентов.​

Где и как использовать: датасет лежит на Hugging Face под Apache 2.0 — чтобы получить доступ, нужно залогиниться и согласиться с условиями, после чего можно стримить данные без скачивания всех видео. Структура — WebDataset: tar‑шарды с парами mp4+json, где в метаданных есть id фабрики, работника, длительность и параметры видео; подключается через datasets.load_dataset(..., streaming=True) с фильтрацией по нужным фабрикам/работникам и выборкой только части шардов, чтобы не тянуть все 16,4 ТБ сразу.

@neuro_channel
Media is too big
VIEW IN TELEGRAM
🔥52🐳1
У одного программиста накопилось больше 2 ТБ личного видео, и попытка решить поиск по ним через Google Video Intelligence закончилась счётом на сотни долларов и необходимостью заливать всё в облако, поэтому он сделал локальный инструмент Edit Mind, который индексирует ролики у вас на машине и даёт искать по смыслу обычным текстом:
«Покажи все сцены, где я выгляжу счастливым у костра» — и инструмент находит нужные моменты, не перебирая руками тысячи клипов.​


Всё — от анализа кадров до векторной базы — крутится локально, а в облако уходит только разбор текстового запроса и генерация эмбеддингов, которые в будущем тоже планируют заменить офлайновыми моделями.

Что умеет проект
🔘Полностью локальный анализ: расшифровка звука, распознавание лиц, объектов, текста в кадре, доминирующих цветов и базовой «сцены».​
🔘Семантический поиск по естественному языку: запросы вроде «двое разговаривают за столом днём» превращаются в структурный фильтр по локальной векторной базе ChromaDB.​
🔘Черновые нарезки: описываете, что нужно, Edit Mind собирает подходящие сцены в грубый монтаж, дальше дорабатываете уже в своём видеоредакторе.​
🔘Архитектура через плагины: анализ идёт через Python, можно добавить свои плагины — для логотипов, специфичных объектов, звуковых событий и т.д.​

Как это устроено внутри​
Под капотом — десктоп‑приложение на Electron с фронтендом на React/TypeScript и Node.js как «оркестратором», который гоняет видео через Python‑скрипты с OpenCV, PyTorch и Whisper. Сначала видео режется на короткие сцены, для каждой сцены запускаются плагины анализа, а результаты упаковываются в вектора с помощью моделей эмбеддингов от Google и кладутся в локальный ChromaDB. Когда вы пишете запрос, Gemini 2.5 Pro превращает текст в JSON‑запрос к этим векторам, так что поиск по гигантской библиотеке работает как по «умной» базе, а не по файлам.​

# Установка (укороченная версия)
git clone https://github.com/iliashad/edit-mind
cd edit-mind
npm install

cd python
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
chroma run --host localhost --port 8000 --path .chroma_db


Проект ещё в активной разработке и какие-то вещи будут улучшать. Но можно уже пробовать и подсматривать какие-то решения для своих проектов.

Код в репо, на видео демо от автора проекта.

@neuro_channel
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🍌1
На Tproger вышла статья про то, как поднять локальную LLM для продакшена: когда это вообще оправдано, чем лучше облачных API по деньгам, контролю и приватности, и почему размер модели и лидерборды — далеко не главное.​

Автор разбирает выбор модели под задачу, считает, сколько VRAM нужно, объясняет, зачем смотреть на TPS, и почему иногда выгоднее взять компактную модель или MOE, чем огромный «универсальный» вариант.​

Отдельные блоки — про инструменты для инференса (vLLM, llama.cpp, Triton), варианты с железом (облако против своего сервера), нужные метрики (TPS/TPM, очередь, KV‑кэш) и типичные грабли: странные токены, переполнение памяти и как их отловить лимитами и мониторингом.

@neuro_channel
5👍3👎1