Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Сиолошная
Свершилось, Google разродился своей моделью-конкурентом GPT-4.

https://blog.google/technology/ai/google-gemini-ai/

Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano (самая шустрая).

Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).

Модели семейства Gemini мультимодальны — поддерживают и картинки, и аудио, и даже видео. Например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.

PDF с тех. репортом: тык, но деталей вроде размера модели нет (однако, рассказывают про железо).

И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. В начале 2025го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!
5😁3🎃1
Forwarded from Сиолошная
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat

НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял Browsec, вот ссылка для Google Chrome.

2️⃣нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language

Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.

Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (cmd/ctrl+shift+R ) и не забыть про cookies.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔1
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.

Предлагаю посмотреть видео📹, а не читать слова...но если вы остались тут, то ОК!

Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke 🤔) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.

Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.

Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.

Как думаете, зря не показали всем?)
Please open Telegram to view this post
VIEW IN TELEGRAM
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

Сегодня пройдемся по головам.
Реконструкция аватара головы по нескольким ракурсам, вместе с мимикой и деформациями. В деле замешаны гауссианы.
На выходе - рендер разрешением 2К, не без помощи апскейлера. Но вы его тут видите?

Код ждем есть

#gaussian #image2head #rendering #imageto3D #head
🔥9👍2
GAIA: Zero-shot Talking Avatar Generation

Теперь разработка Microsoft.
Говорящая голова. На вход нужна одна картинка и звук речи. Можно управлять позой, подать на вход управляющее видео или текст. А что еще можно придумать для управления говорящей головой?

Код ждем

#talkinghead #humananimation #humanavatar #image2head #image2video #head
6👍1
Diffusion AvatarsDeferred Diffusion for High-fidelity 3D Head Avatars

Управляемый аватар головы с реалистичной мимикой.
Анимацей управляет управляющее видео или параметрическая модель (NPHM).
Diffusion Avatars обучали на датасете голов, снятых 16 камерами с разных ракурсов. Предположительно, для того чтобы использовать Diffusion Avatars на своих задачах, понадобится или многоракурсный датасет или соответствующий набор 3D данных.

[Update] Код
Полное видео, 3 минуты

#talkinghead #humananimation #humanavatar #image2head #image2video #head
И снова Gemini.
Мне удалось зайти в обновленный Bard по инструкции Сиолошной. Есть плагин для анализа видео с YouTube. Но он упрямо не может получить доступ к большинству видео. Пятое видео согласился обработать, задумался уже минут на 5. Так что пока печально. Зато бесплатный анализ видео. Ну и в Барде сейчас не старшая модель, а старшую выкатят позже.

Теперь о хорошем. Если вы не видели вот это видео с официального канала Google, обязательно посмотрите, у меня сносит крышу
https://youtu.be/UIZAiXYceBI?si=kVlJjRIbbXxdHUde
This media is not supported in your browser
VIEW IN TELEGRAM
Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Новый инструмент точной оценки глубины на основе SD. Круче чем все что я видел

Код
Демо
Колаб

#image2depth
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
PatchFusion: An End-to-End Tile-Based Framework for High-Resolution Monocular Metric Depth Estimation

И его конкурент. Берет грубое предсказание глубины, например от ZoeDepth. Бьет картинку на патчи и поверх грубого делает более точную оценку.

Есть желающие экспериментально выяснить кто лучший из этих двух?

Код
Демо

#image2depth
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
pose.rip

Пляшем. Magic Animate для всех.
Тут можно сделать и DensePose и анимацию.

Накидывайте результаты в комменты

#tools #image2video #video2motion #video2pose
1👍1
Поздравляю всех причастных к VFX индустрии! Сегодня наш официальный праздник!

Организаторы запланировали бесчисленное количество лекций и стримов, подробности: worldvfxday.com
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
А праздник-то настоящий.
Пришел триал-доступ к Cuebrick
Проверьте свою почту
This media is not supported in your browser
VIEW IN TELEGRAM
Aura

Deepgram, известный своим транскрибатором Nova2, представил голосовой движок реального времени Aura. Задержка всего 200мс.

В комплекте API для голосовых агентов искусственного интеллекта. Много языков, в том числе русский

Записаться в вейтлист

#text2speech
👍1🔥1
Forwarded from AI для Всех (Artemii)
S-LoRA: матрица намного ближе, чем кажется

S-LoRA превращает любую большую языковую модель в "Матрицу", где каждый Агент Смит может быть адаптирован в уникального персонажа, создавая целый мир на одной платформе.

Представьте, если бы Агент Смит из "Матрицы" мог превращаться в любого уникального персонажа по вашему желанию. Вот рецепт:

1. Базовая модель - Агент Смит: LLaMA, наша базовая модель, аналогична Агенту Смиту - мощной и адаптируемой форме ИИ, готовой к изменениям.

2. LoRA-адаптеры - Настройки персонажей: Каждый LoRA-адаптер добавляет свои уникальные характеристики к базовой модели, превращая стандартного Агента Смита в множество разнообразных персонажей.

3. S-LoRA - Матрица: S-LoRA действует как "Матрица", в рамках которой все эти преобразования происходят. Она позволяет масштабировать и управлять множеством адаптированных персонажей, поддерживая сложную сеть взаимодействующих и эволюционирующих форм.

S-LoRA открывает новые горизонты в использовании LLMs, позволяя нам не только создавать уникальные характеристики базовой модели, но и управлять ими в масштабах, сравнимых с "Матрицей".

🤩 Статья
🐙 Код
😱4👍1