Cloud․ru открыл свою платформу, на которой можно запускать LLM и строить AI-решения внутри РФ: что-то вроде Replicate, но без проблем с доступностью и с оплатой в рублях.
Суть простая: берёшь готовую модель из каталога (GigaChat, Qwen, Llama и другие) или загружаешь свою с HuggingFace, и сразу получаешь к ней API. Без заморочек с настройкой GPU-серверов, кластеров и безопасности — всё уже настроено и работает в облаке.
Внутри Evolution AI Factory шесть сервисов:
🔘 ML Inference — запуск моделей по API, совместимому с OpenAI.
🔘 Foundation Models — каталог популярных моделей, готовых к использованию.
🔘 AI Agents — конструктор для создания агентов, которые могут взаимодействовать с системами и принимать решения.
🔘 Evolution Notebooks — JupyterLab для экспериментов.
🔘 ML Finetuning — дообучение моделей на своих данных.
🔘 Managed RAG — подключение внутренних баз знаний, чтобы модель отвечала только по документам компании.
Соответствует ФЗ-152, с круглосуточной поддержкой и SLA. Для компаний, которым важно держать данные в РФ и не возиться с инфраструктурой — это прямо то, что нужно. Можно быстро прототипировать идею или запустить продакшен-решение без собственной команды DevOps и ML-инженеров.
Прям импортозамещение здорового человека, такое мы любим.
@neuro_channel
Суть простая: берёшь готовую модель из каталога (GigaChat, Qwen, Llama и другие) или загружаешь свою с HuggingFace, и сразу получаешь к ней API. Без заморочек с настройкой GPU-серверов, кластеров и безопасности — всё уже настроено и работает в облаке.
Внутри Evolution AI Factory шесть сервисов:
Соответствует ФЗ-152, с круглосуточной поддержкой и SLA. Для компаний, которым важно держать данные в РФ и не возиться с инфраструктурой — это прямо то, что нужно. Можно быстро прототипировать идею или запустить продакшен-решение без собственной команды DevOps и ML-инженеров.
Прям импортозамещение здорового человека, такое мы любим.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1
Внезапно: Линус одобряет вайб-кодинг.
Но есть нюанс. Только как вход в профессию, а в продакшене «это может быть ужасным решением с точки зрения поддержки».
Ну что ж, скоро выходные, само время закодить какой-то проект для души. Не будем же мы спорить с мастером.
@neuro_channel
Но есть нюанс. Только как вход в профессию, а в продакшене «это может быть ужасным решением с точки зрения поддержки».
Ну что ж, скоро выходные, само время закодить какой-то проект для души. Не будем же мы спорить с мастером.
@neuro_channel
Tproger
Создатель Linux поддержал вайб-кодинг, назвав его «отличным способом войти в IT» — Tproger
Линус Торвальдс поддержал вайб-кодинг как легкий вход в IT, но предупредил: для реальных проектов это плохо подходит и усложняет поддержку
👍6👎2👌1
Ai2 выкатили Olmo 3 — семейство полностью открытых языковых моделей на 7B и 32B параметров, заточенных под рассуждения, чат и работу с инструментами. В линейке есть Olmo 3‑Base (7B/32B) как сильная база для кода, математики и длинного контекста до ~65k токенов, Olmo 3‑Think (7B/32B) как думающая модели с явными цепочками рассуждений и лучшим среди полностью открытых качеством на reasoning‑бенчмарках, и Olmo 3‑Instruct (7B) для чата и tool use, который по их тестам догоняет Qwen 2.5, Gemma 3 и Llama 3.1 того же класса.
Ai2 выкладывают не только веса, но и полный «model flow»: код, чекпоинты на разных стадиях, датасеты (Dolma 3 и др.) и инструменты для трейсинга ответов до обучающих данных, чтобы можно было разбирать и воспроизводить весь процесс обучения. Для нас это значит, что можно погонять Olmo 3 в их playground, скачать модели с Hugging Face и использовать их как полностью открытые базовые LLM: дообучать под свои домены, экспериментировать с RL/инструкционным обучением и встраивать в агентов вместо закрытых моделей.
Доступны технический отчёт, веса, код, на картинке сравнение с другими открытыми моделями.
@neuro_channel
Ai2 выкладывают не только веса, но и полный «model flow»: код, чекпоинты на разных стадиях, датасеты (Dolma 3 и др.) и инструменты для трейсинга ответов до обучающих данных, чтобы можно было разбирать и воспроизводить весь процесс обучения. Для нас это значит, что можно погонять Olmo 3 в их playground, скачать модели с Hugging Face и использовать их как полностью открытые базовые LLM: дообучать под свои домены, экспериментировать с RL/инструкционным обучением и встраивать в агентов вместо закрытых моделей.
Доступны технический отчёт, веса, код, на картинке сравнение с другими открытыми моделями.
@neuro_channel
👍1
ГигаЧат выпустил модель для синтеза речи GigaTTS
Она звучит почти как реальный человек. И нравится слушателям в 2-4 раза чаще, чем старая версия. Под капотом — GigaChat 3b, токенизатор, адаптер к LLM и 30 тысяч часов данных.
GigaTTS использует уникальные голоса телефонных операторов и инструктивный синтез разных эмоций. Она умеет клонировать голоса, а также озвучивать тексты любой длины в multi-turn режиме.
Новый синтез речи можно оценить в голосовом общении с ГигаЧат.
А узнать больше новостей от команды разработки — в канале @gigadev_channel.
Подписывайтесь!
Это #партнёрский пост
Она звучит почти как реальный человек. И нравится слушателям в 2-4 раза чаще, чем старая версия. Под капотом — GigaChat 3b, токенизатор, адаптер к LLM и 30 тысяч часов данных.
GigaTTS использует уникальные голоса телефонных операторов и инструктивный синтез разных эмоций. Она умеет клонировать голоса, а также озвучивать тексты любой длины в multi-turn режиме.
Новый синтез речи можно оценить в голосовом общении с ГигаЧат.
А узнать больше новостей от команды разработки — в канале @gigadev_channel.
Подписывайтесь!
Это #партнёрский пост
❤3🆒3❤🔥1👎1
В репозитории awesome-ai-eval собрали список инструментов для оценки ИИ‑систем в продакшене. Там лежат фреймворки и сервисы для проверки точности, галлюцинаций, уязвимостей к prompt‑injection и качества RAG‑ответов.
Для разработчика это просто набор проверенных тулов, которыми можно быстро начать тестировать своего бота или агента, не копаясь в академических обзорах.
Берёшь оттуда 1–2 инструмента, заворачиваешь свои промпты в тестовые кейсы и гоняешь модель на каждом изменении — чтобы ловить регрессии и не пускать битый ИИ к пользователям.
Подобные подборки полезны тем, что их кто-то знающий курирует и можно найти то, о чём даже не знал.
@neuro_channel
Для разработчика это просто набор проверенных тулов, которыми можно быстро начать тестировать своего бота или агента, не копаясь в академических обзорах.
Берёшь оттуда 1–2 инструмента, заворачиваешь свои промпты в тестовые кейсы и гоняешь модель на каждом изменении — чтобы ловить регрессии и не пускать битый ИИ к пользователям.
Подобные подборки полезны тем, что их кто-то знающий курирует и можно найти то, о чём даже не знал.
@neuro_channel
Вам не кажется, что вайб-кодинг постепенно превращается в обычное программирование, просто с новыми инструментами?
Поначалу мы удивлялись и радовались первым успехам LLM, внезапно открыли для себя, что ИИ может писать код, пусть с ошибками и тупенько, но может. Постепенно модели развивались, появились агенты и возможность подключать разные инструменты. И мы стали использовать ИИ регулярно, просто правильным способом.
Эксперты говорили, что сама разработка постепенно изменится. А будущее, как всегда, наступило незаметно.
@neuro_channel
Поначалу мы удивлялись и радовались первым успехам LLM, внезапно открыли для себя, что ИИ может писать код, пусть с ошибками и тупенько, но может. Постепенно модели развивались, появились агенты и возможность подключать разные инструменты. И мы стали использовать ИИ регулярно, просто правильным способом.
Эксперты говорили, что сама разработка постепенно изменится. А будущее, как всегда, наступило незаметно.
@neuro_channel
💯12😁3❤1
2025+Autumn+AI.pdf
18.7 MB
Раз в полгода Бенедикт Эванс выпускает большую презентацию про стратегические тренды в техе, и осенний выпуск 2025 называется AI eats the world — 90 слайдов про то, как ИИ «съедает» инфраструктуру, платформы и продуктовые стратегии. В докладе он разбирает текущее ралли вокруг генеративного ИИ как новый платформенный сдвиг: взлёт капексов на дата‑центры, поиски рабочих бизнес‑моделей и то, что сами модели всё больше становятся коммодити, а реальная защита лежит в данных, интеграции и дистрибуции.
Если интересен взгляд «с высоты» на то, куда всё это катится, очень советую просто пролистать слайды.
P.S. Бенедикт Эванс —независимый аналитик по технологиям из Лондона, который больше 20 лет занимается разбором рынков мобильной связи, медиа и софта, раньше был партнёром венчурного фонда Andreessen Horowitz в Кремниевой долине, а сейчас ведёт большую рассылку и два раза в год делает обзорные презентации про то, что происходит в техе и AI.
@neuro_channel
Если интересен взгляд «с высоты» на то, куда всё это катится, очень советую просто пролистать слайды.
P.S. Бенедикт Эванс —
@neuro_channel
🔥4❤1
Forwarded from Инструменты программиста
Программист смотрит, как ИИ-инструменты делают за него работу, которую он раньше любил
😁14😭5
Anthropic выкатили новый флагман — Claude Opus 4.5. Это тот же топовый Opus, но с упором на реальные рабочие сценарии: сложная разработка, агенты, автоматизация офиса, таблички/презентации и длинные исследования. По их внутренним тестам Opus 4.5 стал ощутимо умнее в кодинге и задачах «долгой дистанции», чем Sonnet 4.5 и прошлый Opus, при этом ест в разы меньше токенов за ту же задачу.
Главный фокус — инженерка и агенты. В SWE-подобных задачах и «реальных» бенчмарках на терминале и офисную автоматизацию Opus 4.5 обходит не только Sonnet, но и конкурентов, при этом часто решает задачи за меньшее число шагов и с меньшим количеством попыток. В Anthropic даже прогоняли модель через свой хардкорный домашний экзамен для performance-инженеров: в отведённые 2 часа Opus 4.5 набрал балл выше любого кандидата-человека (с оговоркой, что это только про технику, а не про софт-скиллы).
Второй интересный апдейт — параметр effort в API: low, medium и high. Смысл примерно такой же как у ChatGPT, тут мы примерно уже привыкли к подобным параметрам.
Под релиз подтянули и экосистему. В Claude Code улучшили планирование: модель сначала уточняет требования, собирает
Для разработчиков важное: модель уже доступна как claude-opus-4-5-20251101 по цене $5/$25 за миллион токенов, и Anthropic явно позиционирует её как актуальную замену для всех задач.
В Cursor новая модельбесплатно доступна доступна по сниженной цене первые две недели.
@neuro_channel
Главный фокус — инженерка и агенты. В SWE-подобных задачах и «реальных» бенчмарках на терминале и офисную автоматизацию Opus 4.5 обходит не только Sonnet, но и конкурентов, при этом часто решает задачи за меньшее число шагов и с меньшим количеством попыток. В Anthropic даже прогоняли модель через свой хардкорный домашний экзамен для performance-инженеров: в отведённые 2 часа Opus 4.5 набрал балл выше любого кандидата-человека (с оговоркой, что это только про технику, а не про софт-скиллы).
Второй интересный апдейт — параметр effort в API: low, medium и high. Смысл примерно такой же как у ChatGPT, тут мы примерно уже привыкли к подобным параметрам.
Под релиз подтянули и экосистему. В Claude Code улучшили планирование: модель сначала уточняет требования, собирает
plan.md, а потом уже исполняет план; добавили поддержку в десктопном приложении, чтобы гонять несколько сессий (агентов) параллельно — один чинит баги, другой рыскает по GitHub, третий обновляет доку. В пользовательских продуктах: длинные диалоги больше не упираются в стену контекста, Claude сам компактно сворачивает историю, есть Claude для Chrome и расширенный доступ к Claude для Excel, где Opus 4.5 показывал +20% к точности и +15% к эффективности на внутренних финансовых задачах.Для разработчиков важное: модель уже доступна как claude-opus-4-5-20251101 по цене $5/$25 за миллион токенов, и Anthropic явно позиционирует её как актуальную замену для всех задач.
В Cursor новая модель
@neuro_channel
🔥4👍2❤1⚡1
LLM Council — это маленькое локальное веб‑приложение, где несколько крупных моделей отвечают на один запрос, а потом сами же разбирают ответы и собирают «коллективный» финальный вариант. Проект задумывался как субботний хак «для души», но уже стал вирусным и быстро набирает звезды на GitHub — идея совета из ИИ многим зашла.
Код в репо, подробнее в статье на Tproger.
@neuro_channel
Код в репо, подробнее в статье на Tproger.
@neuro_channel
👍5
Игра, в которой надо отличать настоящую фотку от сгенерированной: https://realorai.dev/
Попробуйте, чтобы осознать, что отличить уже практически невозможно. И это новая реальность, никак не могу привыкнуть.
@neuro_channel
Попробуйте, чтобы осознать, что отличить уже практически невозможно. И это новая реальность, никак не могу привыкнуть.
@neuro_channel
👍3😱2👌1💊1
В пятницу прошла конфа AI Journey 2025. Выделил три доклада, которые есть смысл посмотреть. Ссылки ведут сразу на нужный тайм-код.
1️⃣Успехи и проблемы больших языковых моделей — Иван Оселедец [01:47:24]
Очень прикладной доклад о том, как сегодня реально строят и запускают LLM: параметры, стоимость GPU, приёмы ускорения вроде FlashAttention и Mixture-of-Experts, а также инженерные компромиссы в продакшн‑инференсе. Плюс есть рассуждения про открытые модели, open‑source стек и про то, куда всё движется с точки зрения reasoning и качества на задачах вывода.
2️⃣Надежность современных больших языковых моделей через призму анализа паттернов внимания — Евгений Бурнаев [07:42:54]
Фокус на том, как по паттернам attention судить о надёжности LLM: где зарождаются галлюцинации, как выглядят смещённые ответы и какие сигналы можно использовать для оценки доверия к выводу модели. Отдельно поднимаются темы bias, alignment и влияния квантования/FP16 на поведение модели, плюс обсуждаются идеи self‑check поверх GPT‑подобных систем.
3️⃣Автоматизированное проектирование алгоритмов искусственного интеллекта — Е Тянь [07:13:55]
Для тех, кто любит AutoML и мета‑оптимизацию: про подходы, где алгоритмы и архитектуры подбирает уже сам ИИ, а не человек, и как это может выглядеть в реальных задачах. Отлично ложится на интерес к автоматизации всего ML‑пайплайна.
@neuro_channel
1️⃣Успехи и проблемы больших языковых моделей — Иван Оселедец [01:47:24]
Очень прикладной доклад о том, как сегодня реально строят и запускают LLM: параметры, стоимость GPU, приёмы ускорения вроде FlashAttention и Mixture-of-Experts, а также инженерные компромиссы в продакшн‑инференсе. Плюс есть рассуждения про открытые модели, open‑source стек и про то, куда всё движется с точки зрения reasoning и качества на задачах вывода.
2️⃣Надежность современных больших языковых моделей через призму анализа паттернов внимания — Евгений Бурнаев [07:42:54]
Фокус на том, как по паттернам attention судить о надёжности LLM: где зарождаются галлюцинации, как выглядят смещённые ответы и какие сигналы можно использовать для оценки доверия к выводу модели. Отдельно поднимаются темы bias, alignment и влияния квантования/FP16 на поведение модели, плюс обсуждаются идеи self‑check поверх GPT‑подобных систем.
3️⃣Автоматизированное проектирование алгоритмов искусственного интеллекта — Е Тянь [07:13:55]
Для тех, кто любит AutoML и мета‑оптимизацию: про подходы, где алгоритмы и архитектуры подбирает уже сам ИИ, а не человек, и как это может выглядеть в реальных задачах. Отлично ложится на интерес к автоматизации всего ML‑пайплайна.
@neuro_channel
❤5
HunyuanVideo-1.5 — новая открытая модель от Tencent для генерации видео по тексту или картинке, причём она умещается всего в ~8,3 млрд параметров и при этом даёт качество уровня топовых закрытых сервисов. Модель понимает английский и китайский, умеет делать видео до 1080p.
Сейчас она висит на первом месте на Hugging Face, потому что сочетает три вещи: качество картинки, плавное движение и вменяемые требования к железу. В техотчётах и обзорах её уже сравнивают с Runway Gen-3 и другими лидерами — по человеческим оценкам Hunyuan часто не хуже, а иногда и лучше других открытых моделей, при этом работает быстрее за счёт оптимизаций внимания (SSTA) и двухступенчатой схемы «база + супер-резолвер».
Проще всего попробовать модель в демо на Hugging Face Space: есть готовый интерфейс для image-to-video и связанных чекпоинтов (480p, 720p и апскейлеры — смотрите в карточке на HF, там куча spaces поднято). Если хочется больше контроля, у модели есть нативная поддержка в ComfyUI — ставите нужные ноды, подгружаете чекпоинты HunyuanVideo-1.5 и собираете свой граф для text-to-video или image-to-video.
Локальный запуск делается через официальный репозиторий Tencent-Hunyuan/HunyuanVideo-1.5: нужен Python 3.10+, CUDA, PyTorch и видеокарта NVIDIA с поддержкой CUDA. При агрессивном оффлоаде и тюнинге пайплайна модель можно завести даже на ~14–16 ГБ видеопамяти (уровень RTX 4070/4070 Ti), но будет медленно; комфортнее всего ей на картах с 24+ ГБ (RTX 3090, 4090 и т.п.), а для длинных роликов 720p без offload по-прежнему полезны 48–80 ГБ или несколько GPU.
На видео официальная демка.
@neuro_channel
Сейчас она висит на первом месте на Hugging Face, потому что сочетает три вещи: качество картинки, плавное движение и вменяемые требования к железу. В техотчётах и обзорах её уже сравнивают с Runway Gen-3 и другими лидерами — по человеческим оценкам Hunyuan часто не хуже, а иногда и лучше других открытых моделей, при этом работает быстрее за счёт оптимизаций внимания (SSTA) и двухступенчатой схемы «база + супер-резолвер».
Проще всего попробовать модель в демо на Hugging Face Space: есть готовый интерфейс для image-to-video и связанных чекпоинтов (480p, 720p и апскейлеры — смотрите в карточке на HF, там куча spaces поднято). Если хочется больше контроля, у модели есть нативная поддержка в ComfyUI — ставите нужные ноды, подгружаете чекпоинты HunyuanVideo-1.5 и собираете свой граф для text-to-video или image-to-video.
Локальный запуск делается через официальный репозиторий Tencent-Hunyuan/HunyuanVideo-1.5: нужен Python 3.10+, CUDA, PyTorch и видеокарта NVIDIA с поддержкой CUDA. При агрессивном оффлоаде и тюнинге пайплайна модель можно завести даже на ~14–16 ГБ видеопамяти (уровень RTX 4070/4070 Ti), но будет медленно; комфортнее всего ей на картах с 24+ ГБ (RTX 3090, 4090 и т.п.), а для длинных роликов 720p без offload по-прежнему полезны 48–80 ГБ или несколько GPU.
На видео официальная демка.
@neuro_channel
Media is too big
VIEW IN TELEGRAM
❤3🔥2
И ещё один супер-свежий релиз.
FLUX.2-dev — новая флагманская модель от Black Forest Labs для генерации и редактирования картинок по тексту, с открытыми весами, но под некоммерческой лицензией. Это 32‑миллиардный трансформер с современным качеством рендера, который умеет как обычный text‑to‑image, так и аккуратное редактирование по одной или нескольким референс‑картинкам.
Что за модель и чем она примечательна
FLUX.2-dev — это «продвинутый Photoshop на стероидах»: одна модель, которая и рисует с нуля, и меняет стиль, объект или персонажа по тексту без доп. обучения, опираясь сразу на несколько референсов. За счёт архитектуры rectified flow трансформера и длинного контекста по тексту и картинкам она хорошо держит композицию, цвета (вплоть до hex-кодов) и надписи, поэтому сейчас её и двигают как новый топ среди открытых генераторов.
Где попробовать онлайн
Самый простой вариант — официальный Space на Hugging Face: там можно вводить текст, загружать картинки и сразу смотреть результат в браузере. Плюс модель уже подключили в облачные сервисы вроде Cloudflare Workers AI и сторонние хостинги, так что можно дёргать её по API без своего железа.
Как запустить локально и какое железо нужно
Для локального запуска есть официальный репозиторий и поддержка в Diffusers: можно тянуть оригинальные веса или квантованные варианты (4‑бит, GGUF) для экономии видеопамяти. В реальности модель огромная (32B параметров), поэтому комфортный минимум — RTX 3090/4090 с 24 ГБ VRAM; с квантованием и оффлоадом её можно завести примерно на 16–18 ГБ, но будет ощутимо медленнее и с ограничениями по размеру картинок и батчам. Не забудьте, что лицензия FLUX [dev] не даёт права использовать открытые веса в продакшн‑продуктах напрямую — для коммерции у них отдельный FLUX.2 Pro по API.
Веса и подробности на HF, на картинке примеры работы модели.
@neuro_channel
FLUX.2-dev — новая флагманская модель от Black Forest Labs для генерации и редактирования картинок по тексту, с открытыми весами, но под некоммерческой лицензией. Это 32‑миллиардный трансформер с современным качеством рендера, который умеет как обычный text‑to‑image, так и аккуратное редактирование по одной или нескольким референс‑картинкам.
Что за модель и чем она примечательна
FLUX.2-dev — это «продвинутый Photoshop на стероидах»: одна модель, которая и рисует с нуля, и меняет стиль, объект или персонажа по тексту без доп. обучения, опираясь сразу на несколько референсов. За счёт архитектуры rectified flow трансформера и длинного контекста по тексту и картинкам она хорошо держит композицию, цвета (вплоть до hex-кодов) и надписи, поэтому сейчас её и двигают как новый топ среди открытых генераторов.
Где попробовать онлайн
Самый простой вариант — официальный Space на Hugging Face: там можно вводить текст, загружать картинки и сразу смотреть результат в браузере. Плюс модель уже подключили в облачные сервисы вроде Cloudflare Workers AI и сторонние хостинги, так что можно дёргать её по API без своего железа.
Как запустить локально и какое железо нужно
Для локального запуска есть официальный репозиторий и поддержка в Diffusers: можно тянуть оригинальные веса или квантованные варианты (4‑бит, GGUF) для экономии видеопамяти. В реальности модель огромная (32B параметров), поэтому комфортный минимум — RTX 3090/4090 с 24 ГБ VRAM; с квантованием и оффлоадом её можно завести примерно на 16–18 ГБ, но будет ощутимо медленнее и с ограничениями по размеру картинок и батчам. Не забудьте, что лицензия FLUX [dev] не даёт права использовать открытые веса в продакшн‑продуктах напрямую — для коммерции у них отдельный FLUX.2 Pro по API.
Веса и подробности на HF, на картинке примеры работы модели.
@neuro_channel
🔥3
На Tproger вышла статья про то, почему нейросети при дообучении на новых данных начинают «забывать» то, что умели раньше, даже если модель большая и параметров хватает.
🔘 Как работает катастрофическое забывание (дилемма «сохранить старое» vs «выучить новое»).
🔘 Как это проявляется в проде через дрейф моделей.
🔘 Что с этим сейчас реально делают: от регуляризации и подмешивания старых данных до подходов, где для новых задач добавляют отдельные небольшие модули поверх базовой модели, а не переписывают её целиком.
Если работаете с ML в продакшене и думаете про continual learning, это хорошая точка входа.
@neuro_channel
Если работаете с ML в продакшене и думаете про continual learning, это хорошая точка входа.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
Tproger
Почему нейросети забывают старое, когда учатся новому? Как ученые пытаются это решить
О катастрофическом забывании: почему модели теряют навыки и что делать разработчикам
👏3
Build AI выкатили довольно необычный датасет Egocentric‑10K: это 10 000 часов видео с головы реальных рабочих на заводах — камера смотрит их глазами, видно руки, инструменты и объекты, с которыми они работают. Всего там 2 138 людей, 1,08 млрд кадров, 1080p@30fps, без звука.
Зачем это нужно: такой массив «как человек реально делает работу руками» — топливо для роботов и систем, которые учатся повторять человеческие действия по видео: манипуляции руками, последовательные шаги, контроль ошибок, фабричные ассистенты и т.п. Это не лабораторные демки, а живые производственные процессы, поэтому датасет отлично ложится на задачи imitation learning и VLA‑агентов.
Где и как использовать: датасет лежит на Hugging Face под Apache 2.0 — чтобы получить доступ, нужно залогиниться и согласиться с условиями, после чего можно стримить данные без скачивания всех видео. Структура — WebDataset: tar‑шарды с парами mp4+json, где в метаданных есть id фабрики, работника, длительность и параметры видео; подключается через
@neuro_channel
Зачем это нужно: такой массив «как человек реально делает работу руками» — топливо для роботов и систем, которые учатся повторять человеческие действия по видео: манипуляции руками, последовательные шаги, контроль ошибок, фабричные ассистенты и т.п. Это не лабораторные демки, а живые производственные процессы, поэтому датасет отлично ложится на задачи imitation learning и VLA‑агентов.
Где и как использовать: датасет лежит на Hugging Face под Apache 2.0 — чтобы получить доступ, нужно залогиниться и согласиться с условиями, после чего можно стримить данные без скачивания всех видео. Структура — WebDataset: tar‑шарды с парами mp4+json, где в метаданных есть id фабрики, работника, длительность и параметры видео; подключается через
datasets.load_dataset(..., streaming=True) с фильтрацией по нужным фабрикам/работникам и выборкой только части шардов, чтобы не тянуть все 16,4 ТБ сразу.@neuro_channel
Media is too big
VIEW IN TELEGRAM
🔥5❤2🐳1
У одного программиста накопилось больше 2 ТБ личного видео, и попытка решить поиск по ним через Google Video Intelligence закончилась счётом на сотни долларов и необходимостью заливать всё в облако, поэтому он сделал локальный инструмент Edit Mind, который индексирует ролики у вас на машине и даёт искать по смыслу обычным текстом:
Всё — от анализа кадров до векторной базы — крутится локально, а в облако уходит только разбор текстового запроса и генерация эмбеддингов, которые в будущем тоже планируют заменить офлайновыми моделями.
Что умеет проект
🔘 Полностью локальный анализ: расшифровка звука, распознавание лиц, объектов, текста в кадре, доминирующих цветов и базовой «сцены».
🔘 Семантический поиск по естественному языку: запросы вроде «двое разговаривают за столом днём» превращаются в структурный фильтр по локальной векторной базе ChromaDB.
🔘 Черновые нарезки: описываете, что нужно, Edit Mind собирает подходящие сцены в грубый монтаж, дальше дорабатываете уже в своём видеоредакторе.
🔘 Архитектура через плагины: анализ идёт через Python, можно добавить свои плагины — для логотипов, специфичных объектов, звуковых событий и т.д.
Как это устроено внутри
Под капотом — десктоп‑приложение на Electron с фронтендом на React/TypeScript и Node.js как «оркестратором», который гоняет видео через Python‑скрипты с OpenCV, PyTorch и Whisper. Сначала видео режется на короткие сцены, для каждой сцены запускаются плагины анализа, а результаты упаковываются в вектора с помощью моделей эмбеддингов от Google и кладутся в локальный ChromaDB. Когда вы пишете запрос, Gemini 2.5 Pro превращает текст в JSON‑запрос к этим векторам, так что поиск по гигантской библиотеке работает как по «умной» базе, а не по файлам.
Проект ещё в активной разработке и какие-то вещи будут улучшать. Но можно уже пробовать и подсматривать какие-то решения для своих проектов.
Код в репо, на видео демо от автора проекта.
@neuro_channel
«Покажи все сцены, где я выгляжу счастливым у костра» — и инструмент находит нужные моменты, не перебирая руками тысячи клипов.
Всё — от анализа кадров до векторной базы — крутится локально, а в облако уходит только разбор текстового запроса и генерация эмбеддингов, которые в будущем тоже планируют заменить офлайновыми моделями.
Что умеет проект
Как это устроено внутри
Под капотом — десктоп‑приложение на Electron с фронтендом на React/TypeScript и Node.js как «оркестратором», который гоняет видео через Python‑скрипты с OpenCV, PyTorch и Whisper. Сначала видео режется на короткие сцены, для каждой сцены запускаются плагины анализа, а результаты упаковываются в вектора с помощью моделей эмбеддингов от Google и кладутся в локальный ChromaDB. Когда вы пишете запрос, Gemini 2.5 Pro превращает текст в JSON‑запрос к этим векторам, так что поиск по гигантской библиотеке работает как по «умной» базе, а не по файлам.
# Установка (укороченная версия)
git clone https://github.com/iliashad/edit-mind
cd edit-mind
npm install
cd python
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
chroma run --host localhost --port 8000 --path .chroma_db
Проект ещё в активной разработке и какие-то вещи будут улучшать. Но можно уже пробовать и подсматривать какие-то решения для своих проектов.
Код в репо, на видео демо от автора проекта.
@neuro_channel
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🍌1
На Tproger вышла статья про то, как поднять локальную LLM для продакшена: когда это вообще оправдано, чем лучше облачных API по деньгам, контролю и приватности, и почему размер модели и лидерборды — далеко не главное.
Автор разбирает выбор модели под задачу, считает, сколько VRAM нужно, объясняет, зачем смотреть на TPS, и почему иногда выгоднее взять компактную модель или MOE, чем огромный «универсальный» вариант.
Отдельные блоки — про инструменты для инференса (vLLM, llama.cpp, Triton), варианты с железом (облако против своего сервера), нужные метрики (TPS/TPM, очередь, KV‑кэш) и типичные грабли: странные токены, переполнение памяти и как их отловить лимитами и мониторингом.
@neuro_channel
Автор разбирает выбор модели под задачу, считает, сколько VRAM нужно, объясняет, зачем смотреть на TPS, и почему иногда выгоднее взять компактную модель или MOE, чем огромный «универсальный» вариант.
Отдельные блоки — про инструменты для инференса (vLLM, llama.cpp, Triton), варианты с железом (облако против своего сервера), нужные метрики (TPS/TPM, очередь, KV‑кэш) и типичные грабли: странные токены, переполнение памяти и как их отловить лимитами и мониторингом.
@neuro_channel
Tproger
Как встроить локальную LLM в прод: от выбора модели до мониторинга токенов
Разбираемся, как поднять локальную LLM в продакшне: от выбора модели и расчёта VRAM до настройки инференса через vLLM, распределения нагрузки, мониторинга TPS/TPM и контроля KV Cache.
❤5👍3👎1
В свежей бете приложения ChatGPT для Android (версия 1.2025.329) в коде нашли первые ссылки на рекламный функционал. Там появились строки про
Судя по формулировкам, реклама сначала может появиться именно в разделе поиска, а не в основном чате, но понятно, что это тестирование инфраструктуры под монетизацию бесплатных пользователей. Пока это только намёки в коде беты: фичу могут включить не сразу, изменить или вообще передумать, но направление, кажется, уже очевидно.
Если вы сидите на бесплатном ChatGPT в Android‑приложении, самое время морально готовиться к баннерам и каруселям в интерфейсе — и, возможно, продумать план Б: веб‑версию, альтернативные клиенты или локальные модели, если реклама начнёт сильно мешать.
@neuro_channel
ads feature, bazaar content, search ad и search ads carousel — то есть, по сути, карусель рекламных блоков в поиске внутри приложения.Судя по формулировкам, реклама сначала может появиться именно в разделе поиска, а не в основном чате, но понятно, что это тестирование инфраструктуры под монетизацию бесплатных пользователей. Пока это только намёки в коде беты: фичу могут включить не сразу, изменить или вообще передумать, но направление, кажется, уже очевидно.
Если вы сидите на бесплатном ChatGPT в Android‑приложении, самое время морально готовиться к баннерам и каруселям в интерфейсе — и, возможно, продумать план Б: веб‑версию, альтернативные клиенты или локальные модели, если реклама начнёт сильно мешать.
@neuro_channel
🙈2❤1😱1
Сейчас на хагинфейсе в топе висит Z-Image-Turbo — новая открытая текст‑в‑картинку модель от Alibaba, всего 6B параметров, но по качеству и пониманию промптов её уже сравнивают с куда более тяжёлыми монстрами. Это турбо-версия семейства Z‑Image: дистиллированная, работает всего за 8 шагов диффузии и даёт очень быстрый отклик при сохранении фотореализма, аккуратного света/материалов и хорошей работы с текстом в кадре.
По технике там интересная смесь: single‑stream Diffusion Transformer, который в одном трансформере обрабатывает и текст, и семантику, и изображение, плюс дистилляция через Decoupled‑DMD и дообучение DMDR, чтобы в 8 шагов выжать максимум качества. В результате модель выдаёт картинку за ~секунду на H800 и нормально живёт на обычной 16 GB видеокарте, так что её реально крутить локально, а не только в облаке.
Пощупать можно вообще без установки — есть официальные Spaces на Hugging Face, где Z‑Image‑Turbo крутится как веб‑демка. Если хочется интегрировать в свой код, то поддержка уже влетела в
На картинке лидерборд на AI Arena.
@neuro_channel
По технике там интересная смесь: single‑stream Diffusion Transformer, который в одном трансформере обрабатывает и текст, и семантику, и изображение, плюс дистилляция через Decoupled‑DMD и дообучение DMDR, чтобы в 8 шагов выжать максимум качества. В результате модель выдаёт картинку за ~секунду на H800 и нормально живёт на обычной 16 GB видеокарте, так что её реально крутить локально, а не только в облаке.
Пощупать можно вообще без установки — есть официальные Spaces на Hugging Face, где Z‑Image‑Turbo крутится как веб‑демка. Если хочется интегрировать в свой код, то поддержка уже влетела в
diffusers: ставите свежий diffusers с GitHub, берёте ZImagePipeline.from_pretrained("Tongyi-MAI/Z-Image-Turbo", torch_dtype=torch.bfloat16) и дальше работаете как с обычным text-to-image пайплайном. Плюс модель уже завезли в ComfyUI и на хостинги вроде Replicate, так что можно выбирать между локальным инференсом и API.На картинке лидерборд на AI Arena.
@neuro_channel
🔥6❤1
UniFace — это библиотека на Python для задач с лицами: детекция, ключевые точки, выравнивание. У автора также в планах распознавание и оценка возраста/пола. Всё завязано на ONNX Runtime, поэтому одна и та же модель может работать на CPU, NVIDIA GPU и Apple Silicon без отдельной возни с бэкендами.
Внутри используются модели семейства RetinaFace с разными «весами» — от мобильных до вариантов на ResNet‑18/34, для которых в README приведены метрики на WiderFace. Есть готовые утилиты для отрисовки прямоугольников и landmark’ов, автоматическая загрузка и кеширование моделей, примеры в ноутбуках и отдельный zoo с описанием моделей. Лицензия MIT, проект развивается.
Сценарий использования простой: устанавливаете
Код в репо, на картинке пример работы.
@neuro_channel
Внутри используются модели семейства RetinaFace с разными «весами» — от мобильных до вариантов на ResNet‑18/34, для которых в README приведены метрики на WiderFace. Есть готовые утилиты для отрисовки прямоугольников и landmark’ов, автоматическая загрузка и кеширование моделей, примеры в ноутбуках и отдельный zoo с описанием моделей. Лицензия MIT, проект развивается.
Сценарий использования простой: устанавливаете
pip install uniface, импортируете from uniface import RetinaFace, создаёте объект detector = RetinaFace() и вызываете detector.detect(image) на numpy‑картинке в BGR. Для быстрого прототипа можно взять примеры из репозитория: там показано, как запускать инференс по одной картинке и как крутить его по видеопотоку с веб‑камеры.Код в репо, на картинке пример работы.
@neuro_channel
🔥2