This media is not supported in your browser
VIEW IN TELEGRAM
Can Agent Conquer Web? Exploring the Frontiers of Atlas Agent in Web Games
Протестировали ChatGPT Atlas на способность играть в браузерные игры
Итоги исследования:
Atlas хорошо справляется с задачами, требующими логического мышления и систематического анализа (например, в Sudoku модель решала головоломки значительно быстрее человека).
Модель испытывает серьёзные трудности в играх, где нужны точная координация и управление в реальном времени (в T-Rex Runner и Flappy Bird результаты были намного ниже человеческих)
В RPG-играх (Stein.world) Atlas зависит от чётких инструкций и плохо понимает контекст и сюжет.
Модель демонстрирует некоторые адаптивные способности, например, пытается активировать облегчённые режимы или менять стратегию, но часто не может преодолеть базовые ограничения в управлении и стратегическом планировании.
Короче, Atlas обладает сильными аналитическими способностями, у него есть существенные ограничения в динамичных средах, требующих точного управления, стратегического планирования и понимания контекста.
По ссылке в шапке еще несколько видео с другими играми
#research
Протестировали ChatGPT Atlas на способность играть в браузерные игры
Итоги исследования:
Atlas хорошо справляется с задачами, требующими логического мышления и систематического анализа (например, в Sudoku модель решала головоломки значительно быстрее человека).
Модель испытывает серьёзные трудности в играх, где нужны точная координация и управление в реальном времени (в T-Rex Runner и Flappy Bird результаты были намного ниже человеческих)
В RPG-играх (Stein.world) Atlas зависит от чётких инструкций и плохо понимает контекст и сюжет.
Модель демонстрирует некоторые адаптивные способности, например, пытается активировать облегчённые режимы или менять стратегию, но часто не может преодолеть базовые ограничения в управлении и стратегическом планировании.
Короче, Atlas обладает сильными аналитическими способностями, у него есть существенные ограничения в динамичных средах, требующих точного управления, стратегического планирования и понимания контекста.
По ссылке в шапке еще несколько видео с другими играми
#research
👍3
Wan 2.2 Animate in ComfyUI - Tips for Control and Quality
Недавний стрим с хитростями для контроля и качества Wan Animate
#tutorial #comfyui #wan22
Недавний стрим с хитростями для контроля и качества Wan Animate
#tutorial #comfyui #wan22
YouTube
Wan 2.2 Animate in ComfyUI - Tips for Control and Quality
Wan 2.2 Animate is one of the most powerful open-source video models available today — capable of stunning motion, expressive characters, and cinematic control. But with that power comes complexity. In this session, we’ll take the mystery out of Wan 2.2 Animate…
❤13👍2
Wan ATI
Контроль анимации для WAN
Wan ATI with ComfyUI - Стрим ComfyOrg
HF
#conditioning #text2video #image2video #tutorial
Контроль анимации для WAN
Wan ATI with ComfyUI - Стрим ComfyOrg
HF
#conditioning #text2video #image2video #tutorial
🔥9❤2👍1😱1
Awesome World Models
Гитхаб, где собраны актуальные работы на тему моделей понимания/моделирования мира.
#world
Гитхаб, где собраны актуальные работы на тему моделей понимания/моделирования мира.
#world
❤2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
Семантический реконструктор 3D сцен от StepFun и Ко.
#SOTA в 3D реконструкции и понимании сцен по 2D изображениям.
На вход принимает видео, набор изображений или RGBD
Сначала модель получает изображения и преобразует их в особый вид представления — токены. Для этого используется DINOv2. Потом эти токены обрабатываются 24 модулями внимания. Они анализируют изображения с разных точек зрения и объединяют информацию в единое представление.
Дальше это представление разделяется на два потока:
— один поток (Geometry Head) занимается геометрией: вычисляет параметры камеры, создаёт карты глубины и облака точек;
— другой поток (Instance Head) выделяет отдельные объекты в сцене, определяя их границы и особенности.
Чтобы лучше связать геометрию и объекты, используется специальный блок — Cross-Modal Fusion Block. Он помогает потоку с объектами «понимать» геометрию сцены, улучшая определение границ объектов. 1
Затем модель группирует найденные объекты в кластеры, используя метод HDBSCAN. Это позволяет создать маски, которые показывают, где в сцене находятся разные объекты. Эти маски можно использовать с разными языковыми моделями, чтобы задавать вопросы о сцене, сегментировать объекты или отслеживать их движение.
Код ждем
#video2scene #rgbd2scene #videoto3d #rgbdto3d #scenereconstruction
Семантический реконструктор 3D сцен от StepFun и Ко.
#SOTA в 3D реконструкции и понимании сцен по 2D изображениям.
На вход принимает видео, набор изображений или RGBD
Сначала модель получает изображения и преобразует их в особый вид представления — токены. Для этого используется DINOv2. Потом эти токены обрабатываются 24 модулями внимания. Они анализируют изображения с разных точек зрения и объединяют информацию в единое представление.
Дальше это представление разделяется на два потока:
— один поток (Geometry Head) занимается геометрией: вычисляет параметры камеры, создаёт карты глубины и облака точек;
— другой поток (Instance Head) выделяет отдельные объекты в сцене, определяя их границы и особенности.
Чтобы лучше связать геометрию и объекты, используется специальный блок — Cross-Modal Fusion Block. Он помогает потоку с объектами «понимать» геометрию сцены, улучшая определение границ объектов. 1
Затем модель группирует найденные объекты в кластеры, используя метод HDBSCAN. Это позволяет создать маски, которые показывают, где в сцене находятся разные объекты. Эти маски можно использовать с разными языковыми моделями, чтобы задавать вопросы о сцене, сегментировать объекты или отслеживать их движение.
Код ждем
#video2scene #rgbd2scene #videoto3d #rgbdto3d #scenereconstruction
🔥5❤3👍2
Forwarded from CG дневничок
This media is not supported in your browser
VIEW IN TELEGRAM
Coca-Cola перевыпустила свою легендарную новогоднюю рекламу — снова сгенерирована нейросетью. Но есть и хорошие новости, в отличие от прошлогодней рекламы — колеса у грузовиков теперь крутятся!
Судя по словам представителей бренда, в создании этого ролика участвовало около 100 человек.
99 продюсеров и 1 дизайнер🤩
Судя по словам представителей бренда, в создании этого ролика участвовало около 100 человек.
99 продюсеров и 1 дизайнер
Please open Telegram to view this post
VIEW IN TELEGRAM
😁21❤5🥴5👍3🔥1
В среду для запуска LLM Ollama завезли поддержку Qwen3-VL
В LM Studio, llama.cpp и Unsloth.ai - тоже
#assistant
В LM Studio, llama.cpp и Unsloth.ai - тоже
#assistant
👍12🔥1
Опрос на тему использования нейросетей.
Безвозмездно размещаю в помощь студентам 3 курса
Заполнение формы займет 2-3 минуты
https://forms.gle/F3742QPRGYZzm6VDA
#опрос
Безвозмездно размещаю в помощь студентам 3 курса
Заполнение формы займет 2-3 минуты
https://forms.gle/F3742QPRGYZzm6VDA
#опрос
Google Docs
О нейросетях
Здравствуйте! Мы студенты Московского международного университета и в рамках конкурса на создание рекламной кампании для нейросети «Алиса» от Яндекса проводим исследование. Опрос полностью анонимный и займёт у вас около 5 минут.
Спасибо, ваше участие действительно…
Спасибо, ваше участие действительно…
⚡5👍3👎2
Microsoft запустил октябрьский картинкогенератор MAI-Image-1 в Bing и Copilot Audio Expressions
Пробовать через 3 буквы здесь
#text2image #image2image
Пробовать через 3 буквы здесь
#text2image #image2image
👍8
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
Горшочек не вари!
Генератор персонализированных видео от ByteDance
Умеет работать с промптами, описывающими сложные пространственные отношения, временную логику и взаимодействия между несколькими объектами.
Якобы превосходит существующие открытые и коммерческие модели по согласованности объектов, естественности и соответствию тексту. Ну посмотрим
Код лежит в бранчах, приз за внимательность @p0lygon
HF ~67 ГБ
#personalization #text2video #image2video #referencing
Горшочек не вари!
Генератор персонализированных видео от ByteDance
Умеет работать с промптами, описывающими сложные пространственные отношения, временную логику и взаимодействия между несколькими объектами.
Якобы превосходит существующие открытые и коммерческие модели по согласованности объектов, естественности и соответствию тексту. Ну посмотрим
Код лежит в бранчах, приз за внимательность @p0lygon
HF ~67 ГБ
#personalization #text2video #image2video #referencing
👍13🤔2❤1
Forwarded from Stefan
Привет, комрады
https://civitai.com/models/2100616/wan-22-i2v-10-steps-nsfw-fp8-model
Вчера выпустил модель тюненую. Это все тот же Ван 2.2 10 шагов, только фп8 .... Потому что эта модель специально заточена под NSFW генерацию
Чтоб вам было проще - указал какие триггерные слова юзать, чтоб контроль был легче
На 5080 скорость генерации такая
480п - 2.30 минуты
1024х576 - 4 минуты
Квантизированные модели не ждите - это все же специфичная модель, которая лучше всего под nsfw подходит, да и круче модель нет смысла ставить под такое
Наслаждайтесь
https://civitai.com/models/2100616/wan-22-i2v-10-steps-nsfw-fp8-model
Вчера выпустил модель тюненую. Это все тот же Ван 2.2 10 шагов, только фп8 .... Потому что эта модель специально заточена под NSFW генерацию
Чтоб вам было проще - указал какие триггерные слова юзать, чтоб контроль был легче
На 5080 скорость генерации такая
480п - 2.30 минуты
1024х576 - 4 минуты
Квантизированные модели не ждите - это все же специфичная модель, которая лучше всего под nsfw подходит, да и круче модель нет смысла ставить под такое
Наслаждайтесь
Civitai
Wan 2.2 I2V 10 Steps NSFW FP8 model - FP8_HighNoise1.0 | Wan Video Checkpoint | Civitai
Hi! I introduce my model WAN 2.2 I2V 10 steps for NSFW Generation if you want generate SFW content - go to my models https://civitai.com/models/208...
🍌9👍2
Нейронавт | Нейросети в творчестве
NOF1 Лидерборд и живой график Здесь можно посмотреть как языковые модели справляются с трейдингом Проект использует финансовые рынки для обучения новых базовых моделей ИИ. Утверждается, что финансовые рынки являются лучшим бенчмарком для ИИ, так как они…
Финита ля комедия. Эксперимент завершен.
Лучшим трейдером оказался Qwen 3 MAX - с убытком всего -3.57%
Cледом за ним идет DeepSeek Chat v1.3 - с убытком -37%, ему в спину дышит Gemini 2.5 PRO
Последний - GPT 5, он прос*ал больше половины депозита, -57.92%
Напомню, что трейдинг это казино, где гарантированно выигрывает только казино. На другом интервале результат был бы другой. Например 26 октября Дипсик всех опустил наторговав до $23000
#leaderboard #arena #trading #agent #news
Лучшим трейдером оказался Qwen 3 MAX - с убытком всего -3.57%
Cледом за ним идет DeepSeek Chat v1.3 - с убытком -37%, ему в спину дышит Gemini 2.5 PRO
Последний - GPT 5, он прос*ал больше половины депозита, -57.92%
Напомню, что трейдинг это казино, где гарантированно выигрывает только казино. На другом интервале результат был бы другой. Например 26 октября Дипсик всех опустил наторговав до $23000
#leaderboard #arena #trading #agent #news
😁23❤3👍3👨💻1