Forwarded from Zavtracast (Dmitriy Zombak)
This media is not supported in your browser
VIEW IN TELEGRAM
Компания Meta (запрещена в РФ) представила Fairy, нейросетевую систему для диффузионных моделей редактирования изображений. Ориентирована она на видео и его монтаж.
Идея в том, что система расставляет на кадрах готового видеоролика "якоря", на которые уже распространяет диффузионные особенности по кадрам. Это обеспечивает сгенерированному видео точность и похожесть на оригинал.
Применений такому масса, все показаны в ролике. Берёте видео с котиком, отдаёте модели, получаете то же самое видео, но уже с тигром. Берёте видео с собачкой, превращается его в видосик в стиле Ван Гога.
Fairy генерирует 120-кадровые видеоролики 512x384 пикселей (длительностью 4 секунды при 30 FPS) довольно шустро - всего за 14 секунд, превосходя предыдущие нейрости В СОРОК ЧЕТЫРЕ (44) раза.
Короче, если вы только-только привыкли к тому, что нейросети делают картиночки, начинайте привыкать к тому, что они будут делать видеоролики, а всему показанному в интернете вообще не надо будет верить никогда.
@zavtracast
Идея в том, что система расставляет на кадрах готового видеоролика "якоря", на которые уже распространяет диффузионные особенности по кадрам. Это обеспечивает сгенерированному видео точность и похожесть на оригинал.
Применений такому масса, все показаны в ролике. Берёте видео с котиком, отдаёте модели, получаете то же самое видео, но уже с тигром. Берёте видео с собачкой, превращается его в видосик в стиле Ван Гога.
Fairy генерирует 120-кадровые видеоролики 512x384 пикселей (длительностью 4 секунды при 30 FPS) довольно шустро - всего за 14 секунд, превосходя предыдущие нейрости В СОРОК ЧЕТЫРЕ (44) раза.
Короче, если вы только-только привыкли к тому, что нейросети делают картиночки, начинайте привыкать к тому, что они будут делать видеоролики, а всему показанному в интернете вообще не надо будет верить никогда.
@zavtracast
🔥20👍5🫡1
Тем временем один из самых крупных датасетов картинок из этих ваших интернетов, laion-5b, временное офлаен: судя по жалобам, там нашли ссылки на ЦП.
*Косые взгляды на stable diffusion incoming*
Отдельно хочется поинтересоваться у тех, кто писал жалобы: вы там как в 5 млрд картинок нашли ЦП? Нужно быть очень Цп елеустремленными 😅
(Знать домен, промтить, предоставить образец)
Реально жесть, что они это не отфильтровали, конечно. Эти данные очень популярны в опенсорсы.
Подробнее: https://laion.ai/notes/laion-maintanence/
@derplearning
*Косые взгляды на stable diffusion incoming*
Отдельно хочется поинтересоваться у тех, кто писал жалобы: вы там как в 5 млрд картинок нашли ЦП? Нужно быть очень Ц
(Знать домен, промтить, предоставить образец)
Реально жесть, что они это не отфильтровали, конечно. Эти данные очень популярны в опенсорсы.
Подробнее: https://laion.ai/notes/laion-maintanence/
@derplearning
❤7
Forwarded from что-то на DL-ском
Тут буквально на днях Microsoft выложили код огромной проделанной работы. Речь идет о LongNet представленном в июне этого года. Очередная попытка побороться с квадратичной сложностью внимания и заскелить длину последовательности до (просто вдумайтесь) 1B токенов (см график на срине 1) 😳
Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.
Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)
Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)
НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)
🖥 Еще раз. Код весь туть
Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.
Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)
Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)
НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍4❤1
Forwarded from что-то на DL-ском
This media is not supported in your browser
VIEW IN TELEGRAM
PowerInfer, aka как гонять LLM-ки быстрее lamma.cpp (по крайней мере на Linux авторы демонстрируют заметное ускорение, чего нельзя пока сказать о Mac OS). Такой эффект происходит за счет предзагрузки на GPU только так называемых hot-activated нейронов, и расчета на CPU cold-activated нейронов. В общем то основная суть деления на такие холодные и горячие – это то, как при генерации активируются разные нейроны в трансформере исходя из входной последовательности токенов ⏰
🖥 Репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍4❤2
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Последнюю неделю ходил по магазинам и ловил себя на мысли, что если бы нашел что-то похожее с голосовыми ассистентами, сразу бы купил.
Это и для детей, и для взрослых будет очень значимым этапом, который изменит восприятие общения с ассистентами, и для самих ассистентов будет новым опытом, когда они научатся различать, имеют ли они физическое воплощение или нет, пусть даже это и не будет осознано в полной мере.
Mr.Rob построен на Raspberry Pi, сменных батареях, сервоприводах, отвечающих за повороты головы, OLED-дисплеях для анимированных глаз, а способность описывать мир работает через GPT-4. Так как изначально она не предназначена для этого, справляется пока средне. Может понять, что смартфон – это цифровое устройство, но не более.
Это и для детей, и для взрослых будет очень значимым этапом, который изменит восприятие общения с ассистентами, и для самих ассистентов будет новым опытом, когда они научатся различать, имеют ли они физическое воплощение или нет, пусть даже это и не будет осознано в полной мере.
Mr.Rob построен на Raspberry Pi, сменных батареях, сервоприводах, отвечающих за повороты головы, OLED-дисплеях для анимированных глаз, а способность описывать мир работает через GPT-4. Так как изначально она не предназначена для этого, справляется пока средне. Может понять, что смартфон – это цифровое устройство, но не более.
❤18👍1😱1🤩1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis
Собственно, позволяет в реальном времени рендерить видео-нерфы на основе видео с нескольких камер.
Сама оптимизация, конечно, не риалтайм, но рендер заявлен в 60 фпс на 4090 @ 8k
Когда уже увидим воксельные игры с таким подходом к рендеру?
Git (MIT)
Подробнее
Демки
Ютуб
@derplearning
Собственно, позволяет в реальном времени рендерить видео-нерфы на основе видео с нескольких камер.
Сама оптимизация, конечно, не риалтайм, но рендер заявлен в 60 фпс на 4090 @ 8k
Когда уже увидим воксельные игры с таким подходом к рендеру?
Git (MIT)
Подробнее
Демки
Ютуб
@derplearning
🔥28👍2🏆1
Forwarded from тоже моушн
This media is not supported in your browser
VIEW IN TELEGRAM
в конце прошлого года мы делали предположения про что будет год следующий. много кто считал что после картинок - на очереди конечно же видео и 3д.
и видео сетки за год действительно проделали лихой путь от ультра криповых (один, два) до вполне артовых (один, два) и довольно реалистичных результатов (один, два, три, четыре). конечно со своими нейро-артефактами которые с каждой новой моделью выглядят все более естественно и все меньше бросаются в глаза
с 3д дело обстоит куда сложнее. уже есть неплохие решения (один, два, три, четыре) но все равно в основном шляпа на выходе
внезапно к концу года оказалось что если усилия 3д и видео моделей объединить - можно получить ну очень качественный псевдо 3д результат. не могу перестать удивляться - иллюзия работает почти идеально.
запускается это дело конечно же в ComfyUI. воркфлоу положу в комменты. там же дополнительные прикольные результаты
это видео от разработчика расширения IP-Adapter для комфи - обязательно к просмотру. чел сооружает похожий сетап и крутит девушку в 3д, сохраняя примерно ее внешность. вообще канал этого парня для меня настоящий исайт, уровень полезной информации зашкаливает
гайд о возможностях StableZero123 от Оливио
гайд от Матео Latent Vision
страничка воркфлоу в дискорде banodoco
всех с наступающим и пусть следующий год будет лучше чем этот! всем лучи добра
@тоже_моушн
и видео сетки за год действительно проделали лихой путь от ультра криповых (один, два) до вполне артовых (один, два) и довольно реалистичных результатов (один, два, три, четыре). конечно со своими нейро-артефактами которые с каждой новой моделью выглядят все более естественно и все меньше бросаются в глаза
с 3д дело обстоит куда сложнее. уже есть неплохие решения (один, два, три, четыре) но все равно в основном шляпа на выходе
внезапно к концу года оказалось что если усилия 3д и видео моделей объединить - можно получить ну очень качественный псевдо 3д результат. не могу перестать удивляться - иллюзия работает почти идеально.
запускается это дело конечно же в ComfyUI. воркфлоу положу в комменты. там же дополнительные прикольные результаты
это видео от разработчика расширения IP-Adapter для комфи - обязательно к просмотру. чел сооружает похожий сетап и крутит девушку в 3д, сохраняя примерно ее внешность. вообще канал этого парня для меня настоящий исайт, уровень полезной информации зашкаливает
гайд о возможностях StableZero123 от Оливио
гайд от Матео Latent Vision
страничка воркфлоу в дискорде banodoco
всех с наступающим и пусть следующий год будет лучше чем этот! всем лучи добра
@тоже_моушн
🔥14👍3❤2
Forwarded from Love. Death. Transformers.
Я всегда любил маленькие умные модели. Не очень сложно на большом масштабе получить хорошие результаты, а вот на маленьком - сложно.
Чуваки сделали 1.3b(mini llama based) в стиле llava модель, которая почти не уступает (3 цифра после запятой) 7b llava.
Hf
Чуваки сделали 1.3b(mini llama based) в стиле llava модель, которая почти не уступает (3 цифра после запятой) 7b llava.
Hf
😱18🔥10❤2🎉2
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Немножко странного на ночь.
Нейронка сгенерила людей, которых арестовывает полиция за ношение огромных ботинок.
Нейронка сгенерила людей, которых арестовывает полиция за ношение огромных ботинок.
😁69🤩4❤2👍2🫡1