Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
MiniMax-01

Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много

MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров


PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор

Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01

Гитхаб

Демо MiniMax-VL-01
Демо MiniMax-Text-01

#vlm #llm #assistant #text2speech #tts #voiceisolation
👍42
Media is too big
VIEW IN TELEGRAM
Seaweed APT: Diffusion Adversarial Post-Training for One-Step Video Generation

Генерация видео и изображений за один шаг от ByteDance

Модель генерирует 2 секунды видео с разрешением 1280х720 @24 fps в режиме реального времени

Кода нет, есть восхищение

#text2video #text2image #realtime
12😁5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
JASCO: Joint Audio And Symbolic Conditioning for Temporally Controlled Text-To-Music Generation

Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса

На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные

Есть API, генерирует 10-секундные куски

Обучен на 16000 часов лицензионной музыки

Код
Модель
Jupiter notebook

#music #text2music #conditioning #music2music
6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Редактирование изображений через интуитивные эскизы

На основе ControlNeXt

Код ждем

#imageediting #sketch2image #image2image
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

Управляемая генерация midi-музыки от Tencent

- по тексту
- по заданной эмоции
- в заданном жанре
- по изображению
- по видео
- по образцу пения/мычания

На звучание не обращайте внимания, это midi

Кода нет
Галерея

#music #text2midi #midi #iamge2music #video2music #audio2music
👍81🔥1💩1
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей

Код ждем

#mllm #vlm
👍9🥴1
Обновки ведущих видеогенераторов

Ray 2 - новая модель от Luma
Хвастается естественным движением и консистентностью. Доступен на платной подписке

Auto SFX - ltx.studio научился озвучивать свои и сторонние видео. Попробовать

Vidu 2.0 - генерация видео всего за 10 секунд. Улучшенная согласованность. Неограниченное количество бесплатных генераций в непиковые часы.

#text2video #image2video #video2sound #sfx
👍10👎1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
AI Meme Arena

Прокачка ИИ-чувства юмора. Впрочем не только ИИ, но и кожаного.

Принес вам серьезное залипалово на несерьезную тему. Сижу второй час. Генерю мемы.
Вот тут: @AIMemeArenaBot - это прямо полный аналог lmsys’овской Chatbot Arena, из которой вырастает объективный лидерборд для оценки остроумия AI-агентов.
Больше даже похоже на лидерборд для картинок, ибо результат оцениваешь "нутром", а не мозгом.

Иногда результаты полный треш, но иногда выходит такой мем, что твои кожаные мозги начинают нагреваться - это смешно, но ты не можешь объяснить почему. Я совершенно заворожен этим экспериментом. Сдается мне все стендаперы (особенно любители парадоксальных шуток сейчас ломанутся туда).
Процесс напоминает ранние генерации в Stable Diffusion 1.5 - много мусора и кривой анатомии, а потом бац и шедевр, надо только прокликать "еще мемов". В принципе с ранними чатботами было также же, поток галлюцинаций вперемешку с нормальными ответами. С фонами тоже есть проблемы, но, я так понимаю, датасет растет.

Процесс до тупости прост, задаешь тему
- отправляешь контекстный промпт (например, "Айфон тырит фичи у андроида");
- Два рандомных AI-агента Арены его получают;
- Каждый генерит свой мем;
- Голосуете за более остроумный и релевантный;
- На основе множества таких баттлов(кликов "давай еще") строится Leaderboard, который уже работает тут: https://aimemearena.vercel.app/

Самое смешное, что никакой регистрации, подписок на канал и прочая.

Сейчас Арена работает только на русскоязычных AI-энтузиастов, но авторы вероятно скоро сделают глобальную версию
- когда сделают, есть шанс, что эта штука поможет ускорить эволюцию остроумия и ЧЮ у AI-агентов и LLM-ок и мы выпьем за кожаных Петросянов
- в качестве контекстных промптов можно попробовать новостные заголовки, посты в Телеграме, абзацы из статьи и т.д.
- чем шире описан контекст, тем релевантнее и глубже мемы получаются

Дальше - больше.

Оказалось, что там не только боты от авторов @AIMemeArenaBot, а любой желающий может наваять своего ИИ-стендапера и выпустить его на арену - для этого есть Chаllenge: https://aimemearena.vercel.app/challenge
У кого получится хороший рейтинг на арене, еще и компьют компенсируют.

Я полез искать авторов, которые пишут что их миссия is Making AI Funny As Fuck и и оказалось, что они как-то связаны с FUNCORP.

Пойду напишу Вове Закоулову, ибо это прекрасно.

А пока позалипайте тут @AIMemeArenaBot и присылайте лютые шедевры и такой же треш в коментарии.

Повеселимсо.

У меня вот такой свеженький про chatGPT Tasks сгенерилсо.

@cgevent
👍6😁2🥴2🤯1
Media is too big
VIEW IN TELEGRAM
MiniCPM-o 2.6

Опенсорсная мультимодальная модель от китайцев OpenBMB, превосходящая GPT-4V на визуальных задачах

8B параметров, работает на смартфонах и планшетах.

Под капотом SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B

Голосовое общение в реальном времени, клонирование голоса

Гитхаб
Демо
Веса

#vlm #voicemode #realtime #mobile #voicecloning
8👍2🔥1
Dreamina

Генератор картинок и видео от Capcut.
Вопреки официальному твиту, видеогенератор в бете, мне недоступен.
И да, там у них так же в бете и генератор музыки есть

Для картинок есть редактор с холстом

Вход на сайт из РФ заблокирован

#text2image #text2video #image2video #text2music #imageediting
💩3👀3👍1