MiniMax-01
Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много
MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров
PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор
Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01
Гитхаб
Демо MiniMax-VL-01
Демо MiniMax-Text-01
#vlm #llm #assistant #text2speech #tts #voiceisolation
Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много
MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров
PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор
Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01
Гитхаб
Демо MiniMax-VL-01
Демо MiniMax-Text-01
#vlm #llm #assistant #text2speech #tts #voiceisolation
👍4❤2
Media is too big
VIEW IN TELEGRAM
Seaweed APT: Diffusion Adversarial Post-Training for One-Step Video Generation
Генерация видео и изображений за один шаг от ByteDance
Модель генерирует 2 секунды видео с разрешением 1280х720 @24 fps в режиме реального времени
Кода нет, есть восхищение
#text2video #text2image #realtime
Генерация видео и изображений за один шаг от ByteDance
Модель генерирует 2 секунды видео с разрешением 1280х720 @24 fps в режиме реального времени
Кода нет, есть восхищение
#text2video #text2image #realtime
❤12😁5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
JASCO: Joint Audio And Symbolic Conditioning for Temporally Controlled Text-To-Music Generation
Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса
На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные
Есть API, генерирует 10-секундные куски
Обучен на 16000 часов лицензионной музыки
Код
Модель
Jupiter notebook
#music #text2music #conditioning #music2music
Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса
На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные
Есть API, генерирует 10-секундные куски
Обучен на 16000 часов лицензионной музыки
Код
Модель
Jupiter notebook
#music #text2music #conditioning #music2music
❤6👍4
MangaNinja: Line Art Colorization with Precise Reference Following
Раскрашивание линейного рисунка точно по референсу
Код
#lineart2color #colorize
Раскрашивание линейного рисунка точно по референсу
Код
#lineart2color #colorize
🔥18❤2
This media is not supported in your browser
VIEW IN TELEGRAM
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors
Редактирование изображений через интуитивные эскизы
На основе ControlNeXt
Код ждем
#imageediting #sketch2image #image2image
Редактирование изображений через интуитивные эскизы
На основе ControlNeXt
Код ждем
#imageediting #sketch2image #image2image
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
Управляемая генерация midi-музыки от Tencent
- по тексту
- по заданной эмоции
- в заданном жанре
- по изображению
- по видео
- по образцу пения/мычания
На звучание не обращайте внимания, это midi
Кода нет
Галерея
#music #text2midi #midi #iamge2music #video2music #audio2music
Управляемая генерация midi-музыки от Tencent
- по тексту
- по заданной эмоции
- в заданном жанре
- по изображению
- по видео
- по образцу пения/мычания
На звучание не обращайте внимания, это midi
Кода нет
Галерея
#music #text2midi #midi #iamge2music #video2music #audio2music
👍8❤1🔥1💩1
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей
Код ждем
#mllm #vlm
Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей
Код ждем
#mllm #vlm
👍9🥴1
Обновки ведущих видеогенераторов
Ray 2 - новая модель от Luma
Хвастается естественным движением и консистентностью. Доступен на платной подписке
Auto SFX - ltx.studio научился озвучивать свои и сторонние видео. Попробовать
Vidu 2.0 - генерация видео всего за 10 секунд. Улучшенная согласованность. Неограниченное количество бесплатных генераций в непиковые часы.
#text2video #image2video #video2sound #sfx
Ray 2 - новая модель от Luma
Хвастается естественным движением и консистентностью. Доступен на платной подписке
Auto SFX - ltx.studio научился озвучивать свои и сторонние видео. Попробовать
Vidu 2.0 - генерация видео всего за 10 секунд. Улучшенная согласованность. Неограниченное количество бесплатных генераций в непиковые часы.
#text2video #image2video #video2sound #sfx
👍10👎1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
AI Meme Arena
Прокачка ИИ-чувства юмора. Впрочем не только ИИ, но и кожаного.
Принес вам серьезное залипалово на несерьезную тему. Сижу второй час. Генерю мемы.
Вот тут: @AIMemeArenaBot - это прямо полный аналог lmsys’овской Chatbot Arena, из которой вырастает объективный лидерборд для оценки остроумия AI-агентов.
Больше даже похоже на лидерборд для картинок, ибо результат оцениваешь "нутром", а не мозгом.
Иногда результаты полный треш, но иногда выходит такой мем, что твои кожаные мозги начинают нагреваться - это смешно, но ты не можешь объяснить почему. Я совершенно заворожен этим экспериментом. Сдается мне все стендаперы (особенно любители парадоксальных шуток сейчас ломанутся туда).
Процесс напоминает ранние генерации в Stable Diffusion 1.5 - много мусора и кривой анатомии, а потом бац и шедевр, надо только прокликать "еще мемов". В принципе с ранними чатботами было также же, поток галлюцинаций вперемешку с нормальными ответами. С фонами тоже есть проблемы, но, я так понимаю, датасет растет.
Процесс до тупости прост, задаешь тему
- отправляешь контекстный промпт (например, "Айфон тырит фичи у андроида");
- Два рандомных AI-агента Арены его получают;
- Каждый генерит свой мем;
- Голосуете за более остроумный и релевантный;
- На основе множества таких баттлов(кликов "давай еще") строится Leaderboard, который уже работает тут: https://aimemearena.vercel.app/
Самое смешное, что никакой регистрации, подписок на канал и прочая.
Сейчас Арена работает только на русскоязычных AI-энтузиастов, но авторы вероятно скоро сделают глобальную версию
- когда сделают, есть шанс, что эта штука поможет ускорить эволюцию остроумия и ЧЮ у AI-агентов и LLM-ок и мы выпьем за кожаных Петросянов
- в качестве контекстных промптов можно попробовать новостные заголовки, посты в Телеграме, абзацы из статьи и т.д.
- чем шире описан контекст, тем релевантнее и глубже мемы получаются
Дальше - больше.
Оказалось, что там не только боты от авторов @AIMemeArenaBot, а любой желающий может наваять своего ИИ-стендапера и выпустить его на арену - для этого есть Chаllenge: https://aimemearena.vercel.app/challenge
У кого получится хороший рейтинг на арене, еще и компьют компенсируют.
Я полез искать авторов, которые пишут что их миссия is Making AI Funny As Fuck и и оказалось, что они как-то связаны с FUNCORP.
Пойду напишу Вове Закоулову, ибо это прекрасно.
А пока позалипайте тут @AIMemeArenaBot и присылайте лютые шедевры и такой же треш в коментарии.
Повеселимсо.
У меня вот такой свеженький про chatGPT Tasks сгенерилсо.
@cgevent
Прокачка ИИ-чувства юмора. Впрочем не только ИИ, но и кожаного.
Принес вам серьезное залипалово на несерьезную тему. Сижу второй час. Генерю мемы.
Вот тут: @AIMemeArenaBot - это прямо полный аналог lmsys’овской Chatbot Arena, из которой вырастает объективный лидерборд для оценки остроумия AI-агентов.
Больше даже похоже на лидерборд для картинок, ибо результат оцениваешь "нутром", а не мозгом.
Иногда результаты полный треш, но иногда выходит такой мем, что твои кожаные мозги начинают нагреваться - это смешно, но ты не можешь объяснить почему. Я совершенно заворожен этим экспериментом. Сдается мне все стендаперы (особенно любители парадоксальных шуток сейчас ломанутся туда).
Процесс напоминает ранние генерации в Stable Diffusion 1.5 - много мусора и кривой анатомии, а потом бац и шедевр, надо только прокликать "еще мемов". В принципе с ранними чатботами было также же, поток галлюцинаций вперемешку с нормальными ответами. С фонами тоже есть проблемы, но, я так понимаю, датасет растет.
Процесс до тупости прост, задаешь тему
- отправляешь контекстный промпт (например, "Айфон тырит фичи у андроида");
- Два рандомных AI-агента Арены его получают;
- Каждый генерит свой мем;
- Голосуете за более остроумный и релевантный;
- На основе множества таких баттлов(кликов "давай еще") строится Leaderboard, который уже работает тут: https://aimemearena.vercel.app/
Самое смешное, что никакой регистрации, подписок на канал и прочая.
Сейчас Арена работает только на русскоязычных AI-энтузиастов, но авторы вероятно скоро сделают глобальную версию
- когда сделают, есть шанс, что эта штука поможет ускорить эволюцию остроумия и ЧЮ у AI-агентов и LLM-ок и мы выпьем за кожаных Петросянов
- в качестве контекстных промптов можно попробовать новостные заголовки, посты в Телеграме, абзацы из статьи и т.д.
- чем шире описан контекст, тем релевантнее и глубже мемы получаются
Дальше - больше.
Оказалось, что там не только боты от авторов @AIMemeArenaBot, а любой желающий может наваять своего ИИ-стендапера и выпустить его на арену - для этого есть Chаllenge: https://aimemearena.vercel.app/challenge
У кого получится хороший рейтинг на арене, еще и компьют компенсируют.
Я полез искать авторов, которые пишут что их миссия is Making AI Funny As Fuck и и оказалось, что они как-то связаны с FUNCORP.
Пойду напишу Вове Закоулову, ибо это прекрасно.
А пока позалипайте тут @AIMemeArenaBot и присылайте лютые шедевры и такой же треш в коментарии.
Повеселимсо.
У меня вот такой свеженький про chatGPT Tasks сгенерилсо.
@cgevent
👍6😁2🥴2🤯1
Media is too big
VIEW IN TELEGRAM
MiniCPM-o 2.6
Опенсорсная мультимодальная модель от китайцев OpenBMB, превосходящая GPT-4V на визуальных задачах
8B параметров, работает на смартфонах и планшетах.
Под капотом SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B
Голосовое общение в реальном времени, клонирование голоса
Гитхаб
Демо
Веса
#vlm #voicemode #realtime #mobile #voicecloning
Опенсорсная мультимодальная модель от китайцев OpenBMB, превосходящая GPT-4V на визуальных задачах
8B параметров, работает на смартфонах и планшетах.
Под капотом SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B
Голосовое общение в реальном времени, клонирование голоса
Гитхаб
Демо
Веса
#vlm #voicemode #realtime #mobile #voicecloning
❤8👍2🔥1
Dreamina
Генератор картинок и видео от Capcut.
Вопреки официальному твиту, видеогенератор в бете, мне недоступен.
И да, там у них так же в бете и генератор музыки есть
Для картинок есть редактор с холстом
Вход на сайт из РФ заблокирован
#text2image #text2video #image2video #text2music #imageediting
Генератор картинок и видео от Capcut.
Вопреки официальному твиту, видеогенератор в бете, мне недоступен.
И да, там у них так же в бете и генератор музыки есть
Для картинок есть редактор с холстом
Вход на сайт из РФ заблокирован
#text2image #text2video #image2video #text2music #imageediting
💩3👀3👍1