Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
FIBO

Новый многообещающий генератор картинок обученный на длинных структурированных промптах в формате JSON

Можно начать с краткой идеи, а затем постепенно уточнять и дорабатывать изображение - есть Generator и Refiner

Позволяет менять отдельные параметры (например, угол камеры) без изменения остальной части сцены

Вообще понимание промпта огонь по первому тесту. Из 4 картинок человекорыб на всех идет справа налево как и требовалось

Гитхаб
HF - всего около ~27 ГБ
Демо
Демо 2
Попробовать на офсайте - можно просто в плейграунде потестить, а можно еще взять месяц триалки API но придется дать свою кредитку

ComfyUI:

Generate Node
Refine Node

#text2image #json #longprompt #imageediting #ComfyUI
🔥17👍63
Forwarded from Киноборт
Этот советский фильм вдохновил Кубрика, Лукаса и Кэмерона! 🚀

Знакомьтесь: «Планета бурь» (1961), реж. Павел Клушанцев.
Это кино без супербюджетов, но которое изменило мир благодаря гениальными идеями.

Чем уникален?
– Первые реалистичные сцены невесомости (с помощью скрытых тросов)
– Робот-андроид с ИИ — за десятилетия до «Терминатора»
– Вулканы из пузырящегося теста и космические вездеходы от инженеров ЗИЛа
– Новаторские комбинированные съемки, когда макеты совмещали с живыми актерами.

Как повлиял на кинематограф?
🎬 Джордж Лукас называл Клушанцева «крёстным отцом „Звездных войн“» – его вездеходы стали прообразом флиппера
🎬 Стэнли Кубрик изучал фильм перед съёмками «Космической одиссеи 2001»
🎬 Джеймс Кэмерон использовал трюк со съёмкой через аквариум в «Титанике»
🎬 Сцена гибели Т-800 в «Терминаторе 2» – прямая отсылка к гибели робота в «Планете бурь»
🎬 Ридли Скотт в «Прометее» повторил дизайн скафандров из советского фильма!

👉 Подпишись на канал Киноборт, чтобы знать больше уникальных фактов!
11🔥8👍2🥴2
This media is not supported in your browser
VIEW IN TELEGRAM
Can Agent Conquer Web? Exploring the Frontiers of Atlas Agent in Web Games

Протестировали ChatGPT Atlas на способность играть в браузерные игры

Итоги исследования:

Atlas хорошо справляется с задачами, требующими логического мышления и систематического анализа (например, в Sudoku модель решала головоломки значительно быстрее человека).

Модель испытывает серьёзные трудности в играх, где нужны точная координация и управление в реальном времени (в T-Rex Runner и Flappy Bird результаты были намного ниже человеческих)

В RPG-играх (Stein.world) Atlas зависит от чётких инструкций и плохо понимает контекст и сюжет.

Модель демонстрирует некоторые адаптивные способности, например, пытается активировать облегчённые режимы или менять стратегию, но часто не может преодолеть базовые ограничения в управлении и стратегическом планировании.

Короче, Atlas обладает сильными аналитическими способностями, у него есть существенные ограничения в динамичных средах, требующих точного управления, стратегического планирования и понимания контекста.

По ссылке в шапке еще несколько видео с другими играми

#research
👍3
Awesome World Models

Гитхаб, где собраны актуальные работы на тему моделей понимания/моделирования мира.

#world
2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

Семантический реконструктор 3D сцен от StepFun и Ко.
#SOTA в 3D реконструкции и понимании сцен по 2D изображениям.

На вход принимает видео, набор изображений или RGBD

Сначала модель получает изображения и преобразует их в особый вид представления — токены. Для этого используется DINOv2. Потом эти токены обрабатываются 24 модулями внимания. Они анализируют изображения с разных точек зрения и объединяют информацию в единое представление.

Дальше это представление разделяется на два потока:

— один поток (Geometry Head) занимается геометрией: вычисляет параметры камеры, создаёт карты глубины и облака точек;

— другой поток (Instance Head) выделяет отдельные объекты в сцене, определяя их границы и особенности.

Чтобы лучше связать геометрию и объекты, используется специальный блок — Cross-Modal Fusion Block. Он помогает потоку с объектами «понимать» геометрию сцены, улучшая определение границ объектов. 1

Затем модель группирует найденные объекты в кластеры, используя метод HDBSCAN. Это позволяет создать маски, которые показывают, где в сцене находятся разные объекты. Эти маски можно использовать с разными языковыми моделями, чтобы задавать вопросы о сцене, сегментировать объекты или отслеживать их движение.

Код ждем

#video2scene #rgbd2scene #videoto3d #rgbdto3d #scenereconstruction
🔥53👍2
Forwarded from CG дневничок
This media is not supported in your browser
VIEW IN TELEGRAM
Coca-Cola перевыпустила свою легендарную новогоднюю рекламу — снова сгенерирована нейросетью. Но есть и хорошие новости, в отличие от прошлогодней рекламы — колеса у грузовиков теперь крутятся!

Судя по словам представителей бренда, в создании этого ролика участвовало около 100 человек.

99 продюсеров и 1 дизайнер 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
😁215🥴5👍3🔥1
В среду для запуска LLM Ollama завезли поддержку Qwen3-VL
В LM Studio, llama.cpp и Unsloth.ai - тоже

#assistant
👍12🔥1
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Горшочек не вари!

Генератор персонализированных видео от ByteDance

Умеет работать с промптами, описывающими сложные пространственные отношения, временную логику и взаимодействия между несколькими объектами.

Якобы превосходит существующие открытые и коммерческие модели по согласованности объектов, естественности и соответствию тексту. Ну посмотрим

Код лежит в бранчах, приз за внимательность @p0lygon
HF ~67 ГБ

#personalization #text2video #image2video #referencing
👍13🤔21