Grok 3
Ну очень умный, в двух вариантах Grok-3 и Grok-3 mini, причем веса еще нефинальные.
ворвался на вершину арены по всем лидербордам
По режиму рассуждений будут доступны два режима: просто Thinking и Thinking Hard.
Есть режим DeepSearch - аналог DeepResearch
Доступен премиум пользователям твиттера
А бесплатно можно попробовать на арене
#assistant #reasoning
Ну очень умный, в двух вариантах Grok-3 и Grok-3 mini, причем веса еще нефинальные.
ворвался на вершину арены по всем лидербордам
По режиму рассуждений будут доступны два режима: просто Thinking и Thinking Hard.
Есть режим DeepSearch - аналог DeepResearch
Доступен премиум пользователям твиттера
А бесплатно можно попробовать на арене
#assistant #reasoning
🔥9👍5👎2
Step-Audio
Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.
130B параметров основной модели.
Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer
Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.
Полного списка языков не нашел, указано что есть английский, китайский, японский
Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел
#ALM #voicechat #assistant #iOS
Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.
130B параметров основной модели.
Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer
Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.
Полного списка языков не нашел, указано что есть английский, китайский, японский
Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел
#ALM #voicechat #assistant #iOS
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍5
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion
Релайтинг для видео
Под капотом CogVideoX-2B/AnimateDiff-Motion-Adapter-v1-5-3, Realistic Vision V5.1, IC-Light
На вход 512х512
Код
Инструкция по локальному запуску от PsyEyes
#relighting
Релайтинг для видео
Под капотом CogVideoX-2B/AnimateDiff-Motion-Adapter-v1-5-3, Realistic Vision V5.1, IC-Light
На вход 512х512
Код
Инструкция по локальному запуску от PsyEyes
#relighting
🔥10👍4
Perplexity R1 1776
Рассуждалка без цензуры от Perplexity в опенсорсе.
Это посттрейн DeepSeek R1, да
Веса для GPU олигархов
API
Ну и Deep Research "у нас дома" от Perplexity.
5 запросов в день бесплатно.
Похуже Open AI и получше остальных по бенчам
Попробовать
#reasoning #assistant
Рассуждалка без цензуры от Perplexity в опенсорсе.
Это посттрейн DeepSeek R1, да
Веса для GPU олигархов
API
Ну и Deep Research "у нас дома" от Perplexity.
5 запросов в день бесплатно.
Похуже Open AI и получше остальных по бенчам
Попробовать
#reasoning #assistant
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment
Генерация консистентного видео с заданным объектом по одному референсному изображению от ByteDance сотоварищи
Код ждем вероятность 50/50
#image2video #text2video #personalization
Генерация консистентного видео с заданным объектом по одному референсному изображению от ByteDance сотоварищи
Код ждем вероятность 50/50
#image2video #text2video #personalization
🔥7👍1
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models
Смотрите какая штука.
Попытка раскрыть творческий потенциал диффузных генераторов картинок.
Вместо поиска пользователем творческих направлений, SliderSpace автоматически обнаруживает их на основе знаний модели.
Получив промпт, например "игрушка", SliderSpace определяет ключевые визуальные вариации, о которых знает модель, и превращает их в простые слайдеры.
Прикручено к #SDXL и #Flux
Код
Демо сейчас не работает, 404
#text2image #variation #slider
Смотрите какая штука.
Попытка раскрыть творческий потенциал диффузных генераторов картинок.
Вместо поиска пользователем творческих направлений, SliderSpace автоматически обнаруживает их на основе знаний модели.
Получив промпт, например "игрушка", SliderSpace определяет ключевые визуальные вариации, о которых знает модель, и превращает их в простые слайдеры.
Прикручено к #SDXL и #Flux
Код
Демо сейчас не работает, 404
#text2image #variation #slider
❤11👍3🤔1
Grok 3 открыли для всех бесплатно
И пусть никто не уйдет обиженным
Пользуемся пока не закрыли
#assistant #reasoning
И пусть никто не уйдет обиженным
Пользуемся пока не закрыли
#assistant #reasoning
🔥10
Нейронавт | Нейросети в творчестве
Step-Audio Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем. 130B параметров основной модели. Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step…
Появился демоспейс Step Audio Chat от stepfun
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ
Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее
Демо
#ALM #voicechat
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ
Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее
Демо
#ALM #voicechat
1👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Pikaswaps
У Pika опять новая фича
Заменяем на видео что угодно на что угодно
Попробовать
#videoediting #swap #video2video
У Pika опять новая фича
Заменяем на видео что угодно на что угодно
Попробовать
#videoediting #swap #video2video
🔥20👍4😁2
Magma: A Foundation Model for Multimodal AI Agents
Опенсорсная мультимодальная модель для агентов от Microsoft.
- понимает видео
- ориентируется в пространстве
- управляет компом и роботами
Гитхаб - код ждем
#agent #vlm
Опенсорсная мультимодальная модель для агентов от Microsoft.
- понимает видео
- ориентируется в пространстве
- управляет компом и роботами
Гитхаб - код ждем
#agent #vlm
👍9
SANA FOR WINDOWS
Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12
Гитхаб
#text2image
Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12
Гитхаб
#text2image
🔥3👍2