NEW BOT Телеграм, страница - 427372606

Derp Learning

13.1K subscribers

3.16K photos

912 videos

9 files

1.32K links

Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Download Telegram

About

Blog

Apps

Platform

13.1K subscribers

Forwarded from AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

StoryDiffusion: генерация консистентных наборов изображений без дообучения

Если вам нужно сгенерировать последовательную историю из фотографий, чтобы везде чётко прослеживалась единая локация, а главные персонажи не меняли одежду и причёску от фото к фото, то StoryDiffusion — именно то, что вам нужно.

Идея гениальна в своей простоте — ничего даже учить не нужно, только заменить блок self-attention на версию, которая "смотрит" на соседние фотографии в батче. Оказалось, этого более чем достаточно, чтобы генерации стали согласованными между собой.

StoryDiffusion идеально подходит для создания комиксов и даже видео (нужно только интерполировать сгенерированные ключевые кадры, что авторы и делают). Код уже в открытом доступе! Должно работать почти с любыми обученными диффузионными моделями.

Статья, GitHub, HuggingFace

⚡22🔥14👍3❤2🤩1

4.33K views09:58

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

ElevenLabs тизерит конкурента Suno

Пока есть только пара демо-треков, по первым впечатлениям - выносят Suno по качеству. И не удивительно - ElevenLabs лучше всех умеют в клонирование голоса, что, надеюсь, они прикрутят и сюда.

Главная проблема тут, как и со всей ИИ музыкой — копирайт. Если не понятно на чём модель тренировали, то при использовании в чём-либо серьёзном есть нехилые шансы нарваться на многомилионный иск, музыкальная индустрия их любит. Решается это лишь полным лицензированием трейнинг сета, что сделали пока что лишь для Stable Audio (которая не умеет генерить вокал).

Как вы думаете, когда увидим первые судебные иски?

@ai_newz

🔥16

4.02K views18:30

Forwarded from AI для Всех (Kirill)

Gazelle - первая open source VoiceToLLM модель

TincansAI объявил о выпуске Gazelle v0.2, инновационной речевой модели, которая может может обрабатывать устные запросы и длинные аудиофайлы напрямую, без их транскрипции или распознавания речи.

Благодаря прямой обработке аудио данных, модель быстрее, точнее, а также способна интерпретировать эмоции и даже сарказм в речи.

Код "из коробки", с абсолютно нулевой оптимизацией и работающий с полной точностью, достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход. По оценкам авторов, задержка более сложной системы с синтезом составит менее 300 миллисекунд, что меньше воспринимаемой человеком задержки в реальном времени

Насколько известно авторам, данная модель является первой и единственной open source моделью, способной вести диалог в реальном времени. Кроме того, разработчики публично проводят оценку безопасности и сообщают об успешных атаках на речевую модель. Наконец, это первая речевая модель, в которой применяется мультимодальная оптимизация предпочтений.

Производительность Gazelle оптимизирована для реальных приложений, таких как поддержка клиентов, телефонные звонки и общение в чате.

🌐 Сайт
🤗 HuggingFace

👨‍💻

Демо1
✖️ Демо2

Please open Telegram to view this post

VIEW IN TELEGRAM

🏆33👍12🔥8🫡4

4.14K views18:02

Forwarded from Нейросети и Блендер

This media is not supported in your browser

VIEW IN TELEGRAM

Переносим ComfyUI в телеграм бота

Ожидая трансляцию OpenAI с апдейтами, хочется рассказать про еще рандомные тесты im-a-good-gpt2-chatbot:

Благодаря im-a-good-gpt2-chatbot понял как запихнуть ComfyUI, Gradio или Automatic внутрь бота, и работать прям из Телеграм с телефона.

🐈‍⬛ Из плохих вещей:
— Вам все еще нужно запустить GPU сервер в colab, runpod, вашего компа с доступом в инет
— Дизайн чуть адаптирован под телефон, но бывают трудности

🐈‍⬛ Из неожиданных плюсов:
— Теперь можно генерить в любимых UI для нейронок через тг и телефон со всеми своими лорами и чекпоинтами, которые вы собирали годами
— Можно шарить ссылку друзьям и вместе генерить, генерации автоматически попадают в очередь, или вы хотите сразу 5 разных пайпланов тестить с разных устройств.

Конечно я понимаю, что идеально переписывать все под формат телеграмма, чтобы это был готовый продукт. Но если вам нужно дешево и сердито, то вот ссылка на Colab.

Нужно только заменить API ключ бота ТГ и подставить ссылку публичную, которую выдаст ComfyUI, Automatic или Gradio.

☺️ Мне почему-то возможность менять ноды в ComfyUI сидя в лесу невероятно нравится. Еще немного лет и может с новым gpt адаптирую Блендер под Тг бота.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11👍4❤1

4.26K views17:04

Опенаи выкатили свою новую мультимодальную GPT-4o, которую величают омнимодальной. (Не иначе как переобщались с эпплом).

Она уже уделывала конкурентов на бенчмарке чатботов LMSYS, нативно понимает голос, быстрая, дешёвая, подробнее можете прочитать в каждом чайнике.

Самое главное - она доступна всем даром и пусть никто не уйдет обиженный
Сэм Альтман давно вещает про этот ваш гарантированный базовый доход, и даже вроде давал кому-то денег в рамках эксперимента.
Но недавно он переобулся и начал называть его universal basic compute. Тобищь гпт-7 будет уже в каждом чайнике (на этот раз буквально), и доступ к нему Сама предлагает приравнять к базовому доходу.

Звучит, конечно, альтруистично. Но мы-то с вами знаем, где бывает бесплатный сыр.

И вот, выходит новая gpt, 4o. Мощная и доступная каждому. Неужто Universal basic compute? Возможно, но пока рядовые домохозяйки поймут, как это монетизировать, большинство конкурирующих стартапов загнётся, так как не смогут конкурировать ни по цене, ни по качеству.

Ждём новую модель от Майкрософт, и надеемся, что остальные конкуренты тоже не оплошают.

👍31😁5❤2

5.12K views18:04

А еще недавно опенсорснули MS-DOS 4.0 (1 и 2 версии уже пылятся на гитхабе 6 лет)

github

🏆40👍2

4.99K views21:20

This media is not supported in your browser

VIEW IN TELEGRAM

Бедные индусы с Ютуба остались без работы 🥲

Интересно, можно ли попросить говорить с акцентом 🤔

😁40🔥4❤1👍1👀1

5.34K viewsedited 22:44

Любопытно.

🔥59❤5😁2

5.79K viewsedited 23:11

Теперь каждый может встречаться с моделью 🥲

🫡80😁22😢4👀4

5.82K views08:41

😁54👍11❤6😢1

5.38K views09:20

Forwarded from Andre

🫡25😁4

5.64K views03:56

О, а вот и Илью из подвала выпустили.
Новые сюжеты в передаче Sam себе режиссер.

Твит

🫡41😢19👀5👍3🔥1😁1😱1

6.25K viewsedited 04:03

This media is not supported in your browser

VIEW IN TELEGRAM

Коротко о презентации гугла

😁63👍8❤5

7.83K views11:52

😁84

6.36K views10:04

This media is not supported in your browser

VIEW IN TELEGRAM

🔥35👍11👨‍💻2😢1

6.36K views21:35

Forwarded from EJANERESS

Выхожу из тени с классными новостями.

Мой фильм DREAM вошел в финал в AIFA Awards. И 28 мая будет показываться на большой NFC конференции в Лиссабоне. Поздравляйте! 🍓

#jane #ai #aifilm

DREAM

Фильм-визуализация моего детского страшного сна.
Живя в эпоху социальных сетей, когда мы не выпускаем телефон из рук, мы попадаем в ловушку так называемого "информационного шума”, где постоянный мыслительный процесс становится обыденностью. Но наш…

🔥41🤩6💯2👀1

6.47K views09:30

Мелкомягкие выкатили пучок instruct моделей Phi-3:

Phi-3-Vision (mini, 4B, 128k context)
Phi-3-mini (4b, 128k)
Phi-3-small (7B, 128k)
Phi-3-medium (14B, 128)

Также есть и 4k контекст.

На бенчмарках vision-mini ведет себя на уровне 7B опенсорсных и некоторых проприетарных моделей. Сразу видно, обучали на лучших тестсетах.

😁40🤩8👍2

5.69K viewsedited 20:03

Forwarded from Denis Sexy IT 🤖

Люди: SORA иногда генерирует какой-то неправдоподобный бред

Реальный мир:

😁64🔥10🤣7😱1🤗1

5.33K views09:16

Forwarded from Dev Meme / devmeme

😁91💯9😎4👍2

7.14K views20:31

Dev Meme / devmeme

Надеемся, Openai не решат устроить battle royale

😁18🔥2

6.85K views22:11

Если этот ваш ai такой клёвый, то почему до их пор нет ai 2?

😁46❤4🔥3

6.71K views22:12