NEW BOT Телеграм, страница

Llama-3.2

Новость погромче. На прошлой неделе вышла Llama-3.2, ее старшие версии 11B и 90B тоже мультимодальные.
Она уже есть на vision арене

Уже есть колаб ноутбук для дообучения и Instruct версия

Веса на HF
Демо (чат)
Демо Llama-3.2-11B-Vision-Instruct

👍4

1.5K viewsedited 07:13

0:32

Synchronize Dual Hands for Physics-Based Dexterous Guitar Playing

Очень нишевая штука
Стэнфордский университет представил новый подход к управлению двумя руками при физическом моделировании игры на гитаре.

Виртуальный гитарист играет по табам. Судя по видео, играет неправильно - оставляет пальцы левой руки только на тех струнах которые сейчас играет.

Код

#music2animation

🤯4👍2🔥2

1.67K viewsedited 08:03

awesome-denoiser

Коллекция звуковых денойзеров (шумодавов) в gradio интерфейсе

Код

#audiodenoise

👍6

1.55K views08:33

ElevenLabs Video Dubbing Application

Gradio интерфейс для дубляжа видео через API Elevenlabs. Потребуется API токен.

Напоминаю, что Elevenlabs блокируют обслуживание российских клиентов, предположительно потребуется VPN

Код

#dubbing

👍3

1.61K views09:03

TTS Generation WebUI

А тут агрегатор генераторов звука по тексту. Речь, музыка. Разложение музыки на стемы (отдельные партии) тоже есть

Код
Колаб

#tools #TTS #demucs #demix

👍10🔥2

1.91K viewsedited 09:23

LLaMa 3.2 Multimodal Web UI using Ollama

Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты

[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$

Код

#mllm #vlm #assistant

👍2

1.69K viewsedited 12:07

0:10

Держите три новые #Controlnet модели для #Flux, в том числе апскейлер

Flux.1-dev: Upscaler ControlNet
Flux.1-dev: Depth ControlNet
Flux.1-dev: Surface Normals ControlNet

#upscale #depth2image #normals2image

🔥13

2.16K views07:22

опубликован код заливщика анимаций LVCD
Под капотом SVD + sketch temporal controlnet

Код

#colorize

0:05

LVCD: Reference-based Lineart Video Colorization with Diffusion Models

Модель для раскрашивания линейных (lineart) анимаций по референсу

Код ждем

#colorize

👍9

1.68K views07:43

Forwarded from Psy Eyes

0:04

0:09

В Kling теперь доступны липсинк и API.

Не вау, но лучше, чем было, и нет "зажёванности" рта как у Wav2lip. Работает с Kling V 1 и V 1.5. На животных пока не пашет.

Через API теперь можно получить доступ к генерации видео, картинок, и виртуальной примерочной Virtual Try-on.

Также появилась секция Community, где можно шарить свои видео и есть шанс получить кредиты.

PS: теперь у ключевых генераторов видео (Runway, Luma, Kling) есть API.

Анонс
Подробнее о Kling

🔥5❤1

1.06K views07:54

Llama-3.2 3b voice

Кто хотел пообщаться с Llama-3.2 голосом?

#assistant

👍4🔥2

1.61K views08:01

Forwarded from эйай ньюз

0:18

Марк показал вот такую штуку – редактирование изображений в Meta AI.

Наша команда (и я) как раз работала над тем, чтобы достичь такой высокой скорости генерации по заданному промпту, ведь юзер не хочет долго ждать.

#personal #мойпуть
@ai_newz

👍6❤2

1.47K views12:36

Forwarded from Сиолошная

На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:

1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡

2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!

Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).

3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.

4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.

5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.

=====

И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: https://news.1rj.ru/str/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:

Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.

Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.

И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»

Ждём 2025-го! o2, GPT-4.5/5, 😯

Please open Telegram to view this post

VIEW IN TELEGRAM

1.17K views16:16

GitHub - balazik/ComfyUI-PuLID-Flux: PuLID-Flux ComfyUI implementation

PuLID-Flux for ComfyUI

Персонализатор PuLID FLUX теперь работает в #ComfyUI

Воркфлоу

#flux #personalization #text2image #image2image

GitHub

PuLID-Flux ComfyUI implementation. Contribute to balazik/ComfyUI-PuLID-Flux development by creating an account on GitHub.

👍8👌1

1.82K views19:02

0:46

Invoke 5

Обновился один из интерфейсов для генерации картинок Invoke до версии 5. Работает с #Flux
Одна из фишек, отличающих его от Forge и ComfyUI - холст со слоями наподобие фотошоповских (смотрите видео)

Установить его можно по инструкции на гитхабе или легкой установкой в агрегаторах Pinokio, Stable Matrix

#tools #text2image #image2image

👍10

1.75K viewsedited 05:03