Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Генератор комиксов и видео. Да, такая вот штука создана при участии ByteDance.

Может создавать набор персонажей, сохраняет их черты.
Видео 10 секунд и длиннее.

Код ждем
Демо ждем

#text2image #comics #image2video
👍10🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Lightplane: Highly-Scalable Components for Neural 3D Fields

Модель для генерации и рендера #nerf
Сокращает потребление памяти на рендере в 1000 раз по сравнению с Autograd и Instant-NGP, сохраняя скорость рендера

Код

#optimization #rendering
🔥10
Forwarded from Data Secrets
Там вышедший час назад убийца нейросетей производит небывалый фурор среди исследователей. Сейчас все расскажем ⬇️

В основе всех архитектур, к которым мы привыкли, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации.

А что, если мы переместим функции активации на веса и сделаем из обучаемыми? Звучит как бред, но yes, we KAN.

KAN (Kolmogorov-Arnold Networks) - новая парадигма, в которой исследователи реализовали перемещение активаций на «ребра» сети. Кажется, что решение взято из ниоткуда, но на самом деле тут зашита глубокая связь с математикой: в частности, с теоремами универсальной аппроксимации и аппроксимации Колмогорова-Арнольда.

Не будем вдаваться в детали. Главное: KAN работает намного точнее, чем MLP гораздо большего размера, и к тому же лучше интерпретируется. Единственный минус: из-за обучаемых активаций тренится все это дело в разы дороже и дольше, чем MLP.

И тем не менее, возможно сегодня мы наблюдаем рождение Deep Learning 2.0. Ведь такой подход меняет вообще все, от LSTM до трансформеров.

Статья | Код
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15🤔4👍2🎃1
Галя, у нас отмена
Forwarded from CG дневничок (Sergey Frolov)
Media is too big
VIEW IN TELEGRAM
Помните недавнюю новость, что OpenAI предоставили доступ к Sora узкому кругу креативщиков?

Так вот, один из них, мягко говоря, приукрасил правду, когда речь зашла про "полностью сгенерировано в Sora". Я про ролик с воздушным шариком вместо головы. Выяснилось, что рото, клинап и композ там были в том же объёме, что и в привычной рекламе. Ребята боролись с типичными AI-проблемами, например: отсутствие континьюити, артефакты генерации и прочие радости.

Так когда уже этот AI наконец заберет мою рутинную работу?
🤷‍♂10
Сравнил восемь image-to-3d нейронок на картинках, сгенерированных в Dall-E.

1. 3d.csm
2. TripoSR
3. CRM
4. GRM
5. mvedit
6. InstantMesh
7. tripo3d
8. dreamgaussian

Условно, эти решения делятся на три группы.
Самые слабые - GRM и dreamgaussian не справляются реконструкцией невидимых на картинке деталей и оставляют сквозные отверстия. Они создают деформированные, непригодные для дальнейшей обработки модели.

У второй категории решений: TripoSR, CRM, mvedit, InstantMesh - наблюдаются сложности с созданием симметричных моделей, мелкие артефакты, например, каверны и искаженные текстуры. Под ними - грязные сетки и сглаженные болванки-обмылки.

3d.csm, tripo3d - лучше создают текстуры, додумывают детали на невидимых частях объекта. Хотя tripo3d умеет в ретопологию, генерациям все еще недостает выраженного рельефа. Большая часть деталей остается на текстуре.

Все модели сгенерированы при настройках по умолчанию. Картинки в высоком разрешении ищите в комментариях. Выводы - в следующем посте.
👍111
​​Пока что технология image-to-3d находится в зачаточном состоянии и напоминает результаты, которые выдавали первые версии stable diffusion. Реконструкции поддаются только сравнительно простые изображения монолитных предметов.

Да, сравнивать 3d.csm, tripo3d с демо на huggingface нечестно, так как это демонстрационные версии коммерческих сервисов, которые используют более сложные пайплайны и генерируют в несколько этапов. Однако сейчас именно они юзабельнее. Более детальные текстуры - заметное преимущество, так как их можно преобразовать в карту высот и перенести часть деталей в меш.

Вряд ли результаты их работы подойдут для нужд 3D-художников, однако уже сейчас они могут быть основой для скульптинга и годятся для распечатки на FDM-принтере.

P.S. Бюст штурмовика создан при помощи Dall-E и tripo3d.
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Streamlining Image Editing with Layered Diffusion Brushes

Послойное создание и редактирование изображений в реальном времени

Код ждем
Демо

#imageediting #image2image #text2image #realtime
👍192
👀 Aeonium-v1-BaseWeb-1B

Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab

HuggingFace
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
6👀2