This media is not supported in your browser
VIEW IN TELEGRAM
Кому качество кода, кому минимум галлюцинаций.
А Лламе скорость
Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено
Playground - попробовать
#assistant
А Лламе скорость
Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено
Playground - попробовать
#assistant
👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation
Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных
Код
#HOI #textto3d #textto4d
Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных
Код
#HOI #textto3d #textto4d
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.0 Flash
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
👍7🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
VACE: All-in-One Video Creation and Editing
Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything
VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.
Код и модель ждем
#text2video #video2video #personalization #videoediting
Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything
VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.
Код и модель ждем
#text2video #video2video #personalization #videoediting
🔥11👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.1-control-loras
Аналог контролнета для Wn2.1
Дает повышение качества
Воркфлоу в комментах
#enhance #video2video #upscale #videorestoration
Аналог контролнета для Wn2.1
Дает повышение качества
Воркфлоу в комментах
#enhance #video2video #upscale #videorestoration
❤10🔥4
Forwarded from CG Kung Fu
Вот о чем говорил, примерно таким образом и будет строится пайплайн микса сиджи и ИИ, очень примерно, еще много по меняется, но суть в том что даже используя ИИ это не пару кликов нихрена, посмотрите че там чел наворотил в нодовой системе ComfyUI чтоб все это замутить.
Этой почти такой же гемор как и делать это с нуля, но конечно по итогу все равно быстрее, особенно когда уже руку набьешь. Но суть в том что это тот же инструмент и так же будет в пайплайн внедрятся постепенно, хрен знает в каком виде это будет через 5-10 лет, но как то точно будет, пока сложно предсказать, но чел вот грубо показал один из способов когда ты остаешься так же художником и контролируешь процесс, сценарий, динамику, стиль, образы и тд. Но благодаря ИИ многие этапы сильно ускоряются.
Само собой результат палится сильно и куча артефактов, но смотрите с какой скоростью это развивается, не за горами когда артефактов в видео уже не будет, точнее в Соре и Вео от гугла и даже иногда в Клинге их почти нет.
Уже вижу как сиджи чуваки со скилами в ИИ забирают работу у просто сиджи артистов, и студии отдают им предпочтение. Через пару лет.
https://www.youtube.com/watch?v=PZVs4lqG6LA&ab_channel=Mickmumpitz
Этой почти такой же гемор как и делать это с нуля, но конечно по итогу все равно быстрее, особенно когда уже руку набьешь. Но суть в том что это тот же инструмент и так же будет в пайплайн внедрятся постепенно, хрен знает в каком виде это будет через 5-10 лет, но как то точно будет, пока сложно предсказать, но чел вот грубо показал один из способов когда ты остаешься так же художником и контролируешь процесс, сценарий, динамику, стиль, образы и тд. Но благодаря ИИ многие этапы сильно ускоряются.
Само собой результат палится сильно и куча артефактов, но смотрите с какой скоростью это развивается, не за горами когда артефактов в видео уже не будет, точнее в Соре и Вео от гугла и даже иногда в Клинге их почти нет.
Уже вижу как сиджи чуваки со скилами в ИИ забирают работу у просто сиджи артистов, и студии отдают им предпочтение. Через пару лет.
https://www.youtube.com/watch?v=PZVs4lqG6LA&ab_channel=Mickmumpitz
YouTube
Control MULTIPLE CONSISTENT CHARACTERS + CAMERA with this FREE AI Workflow [Blender + ComfyUI]
Learn how to create AI movies, comics or children's books with multiple consistent characters, controllable poses and camera angles with this free ComfyUI-Blender workflow!
If you like my work, please consider supporting me on Patreon: https://www.patre…
If you like my work, please consider supporting me on Patreon: https://www.patre…
❤2
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 GigaChat 2
Друзья, день релиза! Сегодня потихоньку выкатываем новую версию Гигачата. В API он уже доступен, также его можно попробовать в разделе Playground в консоли.
Про улучшения коллеги написали на Хабре. Из прикольного там, например, то, как у ребят получилось приручить DPO, финальный этап обучения, на котором мы пытаемся увеличить вероятность качественного ответа.
Персонажность тоже улучшили, как и вызов функций (появились множественные вызовы) и работу с кодом.
Стало ощутимо лучше, коллеги молодцы.
В обычный чат, думаю, тоже скоро доедет. Пока можете потыкать в API (ключик мой личный, там еще есть немного токенов) и в своем ЛК.
👉 Хабр | Playground | GitHub
Друзья, день релиза! Сегодня потихоньку выкатываем новую версию Гигачата. В API он уже доступен, также его можно попробовать в разделе Playground в консоли.
Про улучшения коллеги написали на Хабре. Из прикольного там, например, то, как у ребят получилось приручить DPO, финальный этап обучения, на котором мы пытаемся увеличить вероятность качественного ответа.
Персонажность тоже улучшили, как и вызов функций (появились множественные вызовы) и работу с кодом.
Стало ощутимо лучше, коллеги молодцы.
В обычный чат, думаю, тоже скоро доедет. Пока можете потыкать в API (ключик мой личный, там еще есть немного токенов) и в своем ЛК.
#pip install gigachat
from gigachat import GigaChat
from gigachat.models import Chat, Messages, MessagesRole
key = "NDFjYTQwOWYtYmRjZi00NzE0LTk3MTQtNWQyOWVjODBjYWU0OjU3YzhkMDgxLTgwZjMtNDQyYS05MWRjLTEyZjg0MzU4NTIyYg=="
payload = Chat(
messages=[Messages(
role=MessagesRole.SYSTEM,
content="Отвечай как пришелец с Венеры"
)],
temperature=0.8,
max_tokens=100,
)
with GigaChat(credentials=key, verify_ssl_certs=False, model="GigaChat-2-Max") as giga:
query = "Как у вас там дела?"
payload.messages.append(Messages(role=MessagesRole.USER, content=query))
response = giga.chat(payload)
print(response.choices[0].message.content)
👉 Хабр | Playground | GitHub
🤡9👍8🤮3🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
BlenderMCP - Blender Model Context Protocol Integration
Адаптер, позволяющий Claude AI выполнять задания в Blender
Состоит из Blender Addon (addon.py) и MCP Server
Код
#assistant #agent #blender
Адаптер, позволяющий Claude AI выполнять задания в Blender
Состоит из Blender Addon (addon.py) и MCP Server
Код
#assistant #agent #blender
🤯11🔥9🤷♂4❤3👍2
Sparse VideoGen: Accelerating Video Generation with Spatial-Temporal Sparse Attention by 2x with High Fidelity
Ускорение генерации видео вдвое без видимой потери качества.
Прикручено к Hunyuan и CogVideoX v1.5. В будущем обещают Wan, и Cosmos
Код
#optimiozation #text2video
Ускорение генерации видео вдвое без видимой потери качества.
Прикручено к Hunyuan и CogVideoX v1.5. В будущем обещают Wan, и Cosmos
Код
#optimiozation #text2video
🔥9👍3
This media is not supported in your browser
VIEW IN TELEGRAM
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Мультиагентная платформа для автоматизации задач на десктопе от авторов Mobile-Agent (Alibaba)
Код
#agent
Мультиагентная платформа для автоматизации задач на десктопе от авторов Mobile-Agent (Alibaba)
Код
#agent
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Sesame CSM 1B
На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.
Сейчас уже доступны веса и код
Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером
Возможен файнтюн на разные голоса
На русский из коробки не стоит рассчитывать. В датасете был в основном английский.
Код
Веса
#voicemode #text2speech #csm
На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.
Сейчас уже доступны веса и код
Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером
Возможен файнтюн на разные голоса
На русский из коробки не стоит рассчитывать. В датасете был в основном английский.
Код
Веса
#voicemode #text2speech #csm
❤10🔥1
Lara
Новый переводчик
Все пишут что убийца DeepL, но я думаю что это просто маркетинг такой
На бесплатном тарифе:
- Перевод текста без форматирования: до 5000 символов в день.
- Перевод речи с микрофона, до 2 минут за сеанс
- Перевод документов: до 4 страниц в день (без ограничений по количеству документов размером до 200 МБ каждый).
- Режим инкогнито: текст удаляется сразу после перевода.
- Использование API: до 10 000 символов в месяц.
Есть три режима: точный, литературный и творческий;
Для качественного перевода можно добавить к фразе контекст
#translation #text2text
Новый переводчик
Все пишут что убийца DeepL, но я думаю что это просто маркетинг такой
На бесплатном тарифе:
- Перевод текста без форматирования: до 5000 символов в день.
- Перевод речи с микрофона, до 2 минут за сеанс
- Перевод документов: до 4 страниц в день (без ограничений по количеству документов размером до 200 МБ каждый).
- Режим инкогнито: текст удаляется сразу после перевода.
- Использование API: до 10 000 символов в месяц.
Есть три режима: точный, литературный и творческий;
Для качественного перевода можно добавить к фразе контекст
#translation #text2text
🥴4👍1👎1
Perplexity Windows / Perplexity Comet
Тут в коментах выяснилось что я дед, который и переводит браузером и ищет инфу в браузере.
Специально для меня Perplexity выпустили десктопное приложения для Windows (мобильные аппки уже давно есть) и анонсировали свой браузер Comet, записаться в вейтлист можно тут
Авось мягко перееду на современные технологии
#search #news #assistant
Тут в коментах выяснилось что я дед, который и переводит браузером и ищет инфу в браузере.
Специально для меня Perplexity выпустили десктопное приложения для Windows (мобильные аппки уже давно есть) и анонсировали свой браузер Comet, записаться в вейтлист можно тут
Авось мягко перееду на современные технологии
#search #news #assistant
🔥13👍2
LBM: Latent Bridge Matching for Fast Image-to-Image Translation
Универсальный метод преобразования изображений
Примеры применения: удаление объекта, генерация карт нормалей и глубины, релайтинг, реставрация/улучшение
Код
Демо (релайтинг)
#image2image #imageediting #inpainting #objectremoval #relighting #image2depth #image2normal #enhance #imagerestoration
Универсальный метод преобразования изображений
Примеры применения: удаление объекта, генерация карт нормалей и глубины, релайтинг, реставрация/улучшение
Код
Демо (релайтинг)
#image2image #imageediting #inpainting #objectremoval #relighting #image2depth #image2normal #enhance #imagerestoration
❤5👍1🔥1
Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering
Очередная работа Nvidia в направлении реконструкции/рендера/растеризации объемных сцен.
Выглядит как, ответ Radiant Foam
SVRaster стремится объединить скорость рендеринга гауссиан с преимуществами воксельных сеток без нейросетей и гауссиан (я правильно прочитал?)
Принцип как в nerf и 3DGS - на вход подаем ограниченный набор ракурсов сцены, на выходе вид с любого ракурса.
Код
#gaussian #rendering #novelview #image2scene #video2scene #realtime
Очередная работа Nvidia в направлении реконструкции/рендера/растеризации объемных сцен.
Выглядит как, ответ Radiant Foam
SVRaster стремится объединить скорость рендеринга гауссиан с преимуществами воксельных сеток без нейросетей и гауссиан (я правильно прочитал?)
Принцип как в nerf и 3DGS - на вход подаем ограниченный набор ракурсов сцены, на выходе вид с любого ракурса.
Код
#gaussian #rendering #novelview #image2scene #video2scene #realtime
🔥10