Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text
👍11
Llama-3.2

Новость погромче. На прошлой неделе вышла Llama-3.2, ее старшие версии 11B и 90B тоже мультимодальные.
Она уже есть на vision арене

Уже есть колаб ноутбук для дообучения и Instruct версия


Веса на HF
Демо (чат)
Демо Llama-3.2-11B-Vision-Instruct
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Synchronize Dual Hands for Physics-Based Dexterous Guitar Playing

Очень нишевая штука
Стэнфордский университет представил новый подход к управлению двумя руками при физическом моделировании игры на гитаре.

Виртуальный гитарист играет по табам. Судя по видео, играет неправильно - оставляет пальцы левой руки только на тех струнах которые сейчас играет.

Код

#music2animation
🤯4👍2🔥2
awesome-denoiser

Коллекция звуковых денойзеров (шумодавов) в gradio интерфейсе

Код

#audiodenoise
👍6
ElevenLabs Video Dubbing Application

Gradio интерфейс для дубляжа видео через API Elevenlabs. Потребуется API токен.

Напоминаю, что Elevenlabs блокируют обслуживание российских клиентов, предположительно потребуется VPN

Код

#dubbing
👍3
TTS Generation WebUI

А тут агрегатор генераторов звука по тексту. Речь, музыка. Разложение музыки на стемы (отдельные партии) тоже есть

Код
Колаб

#tools #TTS #demucs #demix
👍10🔥2
LLaMa 3.2 Multimodal Web UI using Ollama

Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты

[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$

Код

#mllm #vlm #assistant
👍2
Forwarded from Psy Eyes
В Kling теперь доступны липсинк и API.

Не вау, но лучше, чем было, и нет "зажёванности" рта как у Wav2lip. Работает с Kling V 1 и V 1.5. На животных пока не пашет.

Через API теперь можно получить доступ к генерации видео, картинок, и виртуальной примерочной Virtual Try-on.

Также появилась секция Community, где можно шарить свои видео и есть шанс получить кредиты.

PS: теперь у ключевых генераторов видео (Runway, Luma, Kling) есть API.

Анонс
Подробнее о Kling
🔥51
Llama-3.2 3b voice

Кто хотел пообщаться с Llama-3.2 голосом?

#assistant
👍4🔥2
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Марк показал вот такую штуку – редактирование изображений в Meta AI.

Наша команда (и я) как раз работала над тем, чтобы достичь такой высокой скорости генерации по заданному промпту, ведь юзер не хочет долго ждать.

#personal #мойпуть
@ai_newz
👍62
Forwarded from Сиолошная
На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:

1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡

2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!

Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).

3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.

4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.

5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.

=====

И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: https://news.1rj.ru/str/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:

Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.

Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.

И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»

Ждём 2025-го! o2, GPT-4.5/5, 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Invoke 5

Обновился один из интерфейсов для генерации картинок Invoke до версии 5. Работает с #Flux
Одна из фишек, отличающих его от Forge и ComfyUI - холст со слоями наподобие фотошоповских (смотрите видео)

Установить его можно по инструкции на гитхабе или легкой установкой в агрегаторах Pinokio, Stable Matrix

#tools #text2image #image2image
👍10
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

Генератор глубины и нормалей. Где вы еще видели такую детализацию?

Код ждем на днях
Демо ждем на днях

#image2depth #image2normal
👍8🔥7