This media is not supported in your browser
VIEW IN TELEGRAM
Помните нейробалеты, нейрогимнастики и прочую нейронепотребщину?
Тут вот Метачка бахнула интересную работу.
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
Нет, это не новый видео-генератор, как щас напишут в интернетике.
Это не модель, а фреймворк для улучшения видеомоделей, который объединяет представление внешнего вида объекта и его движение (в латентном пространстве). Что приводит к резкому росту качества генерации и согласованности именно движений объектов.
A framework for enhanced motion generation, seamlessly compatible with various models.
Тут вот про совместимость я не понял.
This is achieved through two complementary modifications: during training, we amend the objective to predict motion in addition to appearance, and during inference, we propose a guidance mechanism to leverage the learned motion prior for temporally coherent generations.
Вот тут масса видосов:
https://hila-chefer.github.io/videojam-paper.github.io/
А вот тут даже бумага уже вышла:
https://hila-chefer.github.io/videojam-paper.github.io/VideoJAM_arxiv.pdf
Сравнивают со всем, что шевелится (и, конечно, свой бенчмарк придумали по дороге). Ну побивают всех на свете, от Клинга до Соры(кто ее, бедную только не пинает теперь).
Ну меня один вопрос, а что нам с этого обломится?
Будет код или это пойдет в метачкин проприетарный видеогенератор MovieGen?
Скорее второе, ибо это работа интерна из MetaAI...
@cgevent
Тут вот Метачка бахнула интересную работу.
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
Нет, это не новый видео-генератор, как щас напишут в интернетике.
Это не модель, а фреймворк для улучшения видеомоделей, который объединяет представление внешнего вида объекта и его движение (в латентном пространстве). Что приводит к резкому росту качества генерации и согласованности именно движений объектов.
A framework for enhanced motion generation, seamlessly compatible with various models.
Тут вот про совместимость я не понял.
This is achieved through two complementary modifications: during training, we amend the objective to predict motion in addition to appearance, and during inference, we propose a guidance mechanism to leverage the learned motion prior for temporally coherent generations.
Вот тут масса видосов:
https://hila-chefer.github.io/videojam-paper.github.io/
А вот тут даже бумага уже вышла:
https://hila-chefer.github.io/videojam-paper.github.io/VideoJAM_arxiv.pdf
Сравнивают со всем, что шевелится (и, конечно, свой бенчмарк придумали по дороге). Ну побивают всех на свете, от Клинга до Соры(кто ее, бедную только не пинает теперь).
Ну меня один вопрос, а что нам с этого обломится?
Будет код или это пойдет в метачкин проприетарный видеогенератор MovieGen?
Скорее второе, ибо это работа интерна из MetaAI...
@cgevent
👍32🔥16❤9
This media is not supported in your browser
VIEW IN TELEGRAM
А пока мы гадаем, что будет с VideoJAM, принес вам нейролыж и нейродосок.
Блин, зимы стали теплые, снега нет третий год.
Кстати, кто не в курсе на Кипре есть гора Олимп и там, наминутчку, километровый склон и кресельный подъемник (плюс бугеля).
Бывали годы, когда катались до 3 апреля (в майках).
Может не врут про потепление...
@cgevent
@cgevent
Блин, зимы стали теплые, снега нет третий год.
Кстати, кто не в курсе на Кипре есть гора Олимп и там, наминутчку, километровый склон и кресельный подъемник (плюс бугеля).
Бывали годы, когда катались до 3 апреля (в майках).
Может не врут про потепление...
@cgevent
@cgevent
😁33👍7😱3❤2
Нано-конкурент Eleven Labs, но с контролем эмоций.
Интересный сервис:
https://play.cartesia.ai/text-to-speech
Умеет дизайнить голос, дергая за педальки эмоций.
Там же клонинг голоса, войс ченджер и локализация на до хрена языков. И даже voice mixing (через эмбединги).
У них своя проприетарная TTS-модель Sonic.
Это нашлепка над их собственными разработками по реалтаймовым ИИ.
https://cartesia.ai/
Мне особо не надо, но в чате часто спрашивали...
Эмоции на видео прям читаются, не чит ли?
@cgevent
Интересный сервис:
https://play.cartesia.ai/text-to-speech
Умеет дизайнить голос, дергая за педальки эмоций.
Там же клонинг голоса, войс ченджер и локализация на до хрена языков. И даже voice mixing (через эмбединги).
У них своя проприетарная TTS-модель Sonic.
Это нашлепка над их собственными разработками по реалтаймовым ИИ.
https://cartesia.ai/
Мне особо не надо, но в чате часто спрашивали...
Эмоции на видео прям читаются, не чит ли?
@cgevent
👍30❤11
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и продолжим за голос.
Еще одна побивалка eleven labs - play.ai - с контролем эмоций в голосе.
Но если присмотреться, это вовсе не новый игрок, а давно известный всем PlayHT, который отхватил нарядный домен play.ai и срочно приподвзребренднулся.
Тоже с упоением пишут, что они избивают eleven labs по неким "человеческим" метрикам.
У них там и создание голосовых агентов (которых они путают с ассистентами) и создание подкастов, и Voiceover, и клонинг голосов.
Outperforms Elevenlabs on expressiveness and quality 3 to 1
<1% error rate
Supports 30+ languages
Best in class voice cloning
Low latency: 303ms TTFA (Time to First Audio)
На сайте небольшой бардак (хотя они подняли 25M в ноябре, могли бы нанять web-уборщика).
Ссылки на новую модель ведут в блог пост от 11 ноября.
Ссылки на AI Voice Studio ведут на старый домен https://play.ht/studio
Есть бесплатный тарифный план на попробовать.
В общем если вы по голосом, то можете попробовать продраться через микс из двух сайтов. Может реально у них голоса хорошие? PlayHT некоторые хвалили.
@cgevent
Еще одна побивалка eleven labs - play.ai - с контролем эмоций в голосе.
Но если присмотреться, это вовсе не новый игрок, а давно известный всем PlayHT, который отхватил нарядный домен play.ai и срочно приподвзребренднулся.
Тоже с упоением пишут, что они избивают eleven labs по неким "человеческим" метрикам.
У них там и создание голосовых агентов (которых они путают с ассистентами) и создание подкастов, и Voiceover, и клонинг голосов.
Outperforms Elevenlabs on expressiveness and quality 3 to 1
<1% error rate
Supports 30+ languages
Best in class voice cloning
Low latency: 303ms TTFA (Time to First Audio)
На сайте небольшой бардак (хотя они подняли 25M в ноябре, могли бы нанять web-уборщика).
Ссылки на новую модель ведут в блог пост от 11 ноября.
Ссылки на AI Voice Studio ведут на старый домен https://play.ht/studio
Есть бесплатный тарифный план на попробовать.
В общем если вы по голосом, то можете попробовать продраться через микс из двух сайтов. Может реально у них голоса хорошие? PlayHT некоторые хвалили.
@cgevent
👍22❤6😁5
Forwarded from Psy Eyes
2025 только начался, а OTOY уже приглашает тебя в 2026.
OctaneRender, движок для рендеринга 3D и эффектов, обзавёлся поддержкой сплатов в версии 2026.1 Alpha 1.
На видео показано как сплаты рендерятся в реальном времени при работе с DOF камеры, и как меняется освещение, когда другой объект добавляется в сцену.
Сплаты с трассировкой лучей работают медленнее, чем подходы на основе растеризации, однако есть все преимущества рейтрейсинга: сплаты видны в отражениях и преломлениях, могут освещать объекты сцены и отбрасывать на них тени.
Также внедряют поддержку разных AI сервисов: Kling, Luma, Black Forest Labs (Flux), итд.
Сайт
Скачать
OctaneRender, движок для рендеринга 3D и эффектов, обзавёлся поддержкой сплатов в версии 2026.1 Alpha 1.
На видео показано как сплаты рендерятся в реальном времени при работе с DOF камеры, и как меняется освещение, когда другой объект добавляется в сцену.
Сплаты с трассировкой лучей работают медленнее, чем подходы на основе растеризации, однако есть все преимущества рейтрейсинга: сплаты видны в отражениях и преломлениях, могут освещать объекты сцены и отбрасывать на них тени.
Также внедряют поддержку разных AI сервисов: Kling, Luma, Black Forest Labs (Flux), итд.
Сайт
Скачать
👍29❤6🔥6😱3
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Имба для удалёнщиков — Pickle
Записываем 3 минуты своей говорящей головы. Затем ждём сутки, а то и двое, пока тренируется моделька — и вуаля, готово! Лежим на диване во время мита, пока ваш виртуальный клон с реалтайм липсинком отсиживается за вас перед веб-камерой.
Это молодой стартап с командой из 5–7 человек, так что технических деталей никаких. Есть только подписка, по которой за 24 бакса в месяц можно наговорить аж на 1000 минут (чего, надеюсь, хватит всем). Пока работает только на Mac — поддержка остальных устройств в разработке.
Пообещайте, что не будете пользоваться этой штукой😗
getpickle.ai
@ai_newz
Записываем 3 минуты своей говорящей головы. Затем ждём сутки, а то и двое, пока тренируется моделька — и вуаля, готово! Лежим на диване во время мита, пока ваш виртуальный клон с реалтайм липсинком отсиживается за вас перед веб-камерой.
Это молодой стартап с командой из 5–7 человек, так что технических деталей никаких. Есть только подписка, по которой за 24 бакса в месяц можно наговорить аж на 1000 минут (чего, надеюсь, хватит всем). Пока работает только на Mac — поддержка остальных устройств в разработке.
Пообещайте, что не будете пользоваться этой штукой
getpickle.ai
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥75😁40👍17😱8❤6👎2
В chatGPT раскатали Search не только для бесплатных пользователей, но и для не залогиненных. Давно?
https://chatgpt.com
Доверну, не в бесплатности дело, а в том, что аккаунт не нужен.
Типа просто поисковик теперь.
Генерить картинки без логина не дает.
@cgevent
https://chatgpt.com
Доверну, не в бесплатности дело, а в том, что аккаунт не нужен.
Типа просто поисковик теперь.
Генерить картинки без логина не дает.
@cgevent
🔥21👍15❤4😱3👎1
Интересно, когда выйдет o4, то у пользователей chatGPT и вообще OpenAI мозги порвутся окончательно.
Они и сейчас-то надорваны каким-то иезуитским неймингом моделей.
А тут: чего сегодня изволите: 4o или o4?
https://www.youtube.com/watch?v=fUFhlIAM8bE
@cgevent
Они и сейчас-то надорваны каким-то иезуитским неймингом моделей.
А тут: чего сегодня изволите: 4o или o4?
https://www.youtube.com/watch?v=fUFhlIAM8bE
@cgevent
YouTube
DeepSeek Diss Track - GPT o4 - mini
no hard feelings tho
😁42👍6❤4😱1
This media is not supported in your browser
VIEW IN TELEGRAM
DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models
Вот прям хорошая работа от канадской Нвидии, оставшаяся незамеченной.
Прежде всего для композа.
Спойлер: кода нет, композера своего у Нвидии нет, так что это все скорее всего для их Omniverse.
Но красиво, обратный рендер получает на входе видос, вытаскивает оттуда глубину и пытается восстановить 3Д-объекты (трекинг?), причем даже с материалами.
А прямой рендер после этого, может перегенерить картинку с:
1. новым освещением
2. другим материалом на объекте
3. и даже вставить новый (свой, 3д из блендора) объект в эту "сцену", то есть в исходное видео.
Прям композкомпоз.
https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/
@cgevent
Вот прям хорошая работа от канадской Нвидии, оставшаяся незамеченной.
Прежде всего для композа.
Спойлер: кода нет, композера своего у Нвидии нет, так что это все скорее всего для их Omniverse.
Но красиво, обратный рендер получает на входе видос, вытаскивает оттуда глубину и пытается восстановить 3Д-объекты (трекинг?), причем даже с материалами.
А прямой рендер после этого, может перегенерить картинку с:
1. новым освещением
2. другим материалом на объекте
3. и даже вставить новый (свой, 3д из блендора) объект в эту "сцену", то есть в исходное видео.
Прям композкомпоз.
https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/
@cgevent
👍36🔥13❤3
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Simulon: вышел в тираж! Я уже погонял и оно действительно как на демках. Ловите инвайт в бету TestFlight и заодно их дискорд.
Нужен айфон. Ради такого дела даже в гости сгонял (сам буду ждать на дройдех). Ставите на айфон TestFlight и через него устанавливаете приложение по инвайту выше.
Открываем приложение и там три секции:
* Home — лента рендеров других людей (не надо будет шерстить твиттер, уже хорошо)
* Create — сканирование сцен, расположение в них 3D ассетов, и рендеринг фото или видео.
* Assets — если у вас нет своих 3D объектов, их можно скачать из встроенной библиотеки или добавить в закладки, что удобно. Просматриваются удобно (у них свой вьюер сплатов), грузятся почти моментально. Свои ассеты (как анимированные, так и нет) можно закидывать через десктопный софт с их сайта. Есть гайд с требованиями к 3D объектам.
Чтобы сделать рендер, зходим в Create и создаём сцену. Выбираем как будем рендерить на серверах Simulon или на своём железе, где установлен десктопный софт Simulon. В первом случае можно использовать все ассеты из встроенной библиотеки приложения, а во втором только свои загруженные 3D объекты с лицензией. Выбираем снимаем в помещении или снаружи. Свет естественный или искусственный. Сканируем камерой пространство вокруг, заполняя шар (отличный UI/UX). Задаём поверхность для вписывания 3D ассетов, либо сканируя окружение, либо указывая напрямую.
Дальше начинается этап расположения 3D ассетов в сцене. Нажимаем на кнопку добавить и выбираем из нашей библиотеки до 4 объектов (расставляются последовательно). Размер и положение меняются пальцами. Для некоторых (вроде динозавров) есть выбор анимации.
На этом этапе ассеты ещё отображаются в предварительном виде, но уже отлично сидят в сцене и при максимально приближении к ним ты их словно физически ощущаешь, особенно когда делаешь масштаб посерьёзнее.
Обратите внимание на глаза велоцираптора, в них отражается квартира.
Потом можно срендерить либо фотки, либо видео. Нажимаете на кнопку съёмки и сцена отправляется на обработку. Очередь на рендеринг можно наблюдать в правом верхнем углу на иконке облака (локально вероятно также). Фотки обрабатываются довольно быстро, видео минут 5-10. На выходе готовая сцена с качественно просчитанным освещением.
Пока не ясно как открыть ту же сцену и изменить её. Мне приходилось делать всё заново. Но это всё мелочи, которые поправят. А по результату у нас на руках очень крутой продукт.
Пока всё бесплатно. Там есть баллы, которые тратятся на рендеринг и похоже зарабатываются за какую-то активность. Так что дерзаем! Закидывайте своё 3D из Хуньяня, Postshot, Tripo, итд и скидывайте в комменты, что получилось.
Сайт
Приложение
Гайд по загрузке своих 3D объектов
Дискорд
Нужен айфон. Ради такого дела даже в гости сгонял (сам буду ждать на дройдех). Ставите на айфон TestFlight и через него устанавливаете приложение по инвайту выше.
Открываем приложение и там три секции:
* Home — лента рендеров других людей (не надо будет шерстить твиттер, уже хорошо)
* Create — сканирование сцен, расположение в них 3D ассетов, и рендеринг фото или видео.
* Assets — если у вас нет своих 3D объектов, их можно скачать из встроенной библиотеки или добавить в закладки, что удобно. Просматриваются удобно (у них свой вьюер сплатов), грузятся почти моментально. Свои ассеты (как анимированные, так и нет) можно закидывать через десктопный софт с их сайта. Есть гайд с требованиями к 3D объектам.
Чтобы сделать рендер, зходим в Create и создаём сцену. Выбираем как будем рендерить на серверах Simulon или на своём железе, где установлен десктопный софт Simulon. В первом случае можно использовать все ассеты из встроенной библиотеки приложения, а во втором только свои загруженные 3D объекты с лицензией. Выбираем снимаем в помещении или снаружи. Свет естественный или искусственный. Сканируем камерой пространство вокруг, заполняя шар (отличный UI/UX). Задаём поверхность для вписывания 3D ассетов, либо сканируя окружение, либо указывая напрямую.
Дальше начинается этап расположения 3D ассетов в сцене. Нажимаем на кнопку добавить и выбираем из нашей библиотеки до 4 объектов (расставляются последовательно). Размер и положение меняются пальцами. Для некоторых (вроде динозавров) есть выбор анимации.
На этом этапе ассеты ещё отображаются в предварительном виде, но уже отлично сидят в сцене и при максимально приближении к ним ты их словно физически ощущаешь, особенно когда делаешь масштаб посерьёзнее.
Обратите внимание на глаза велоцираптора, в них отражается квартира.
Потом можно срендерить либо фотки, либо видео. Нажимаете на кнопку съёмки и сцена отправляется на обработку. Очередь на рендеринг можно наблюдать в правом верхнем углу на иконке облака (локально вероятно также). Фотки обрабатываются довольно быстро, видео минут 5-10. На выходе готовая сцена с качественно просчитанным освещением.
Пока не ясно как открыть ту же сцену и изменить её. Мне приходилось делать всё заново. Но это всё мелочи, которые поправят. А по результату у нас на руках очень крутой продукт.
Пока всё бесплатно. Там есть баллы, которые тратятся на рендеринг и похоже зарабатываются за какую-то активность. Так что дерзаем! Закидывайте своё 3D из Хуньяня, Postshot, Tripo, итд и скидывайте в комменты, что получилось.
Сайт
Приложение
Гайд по загрузке своих 3D объектов
Дискорд
🔥50👍16❤6👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Немного про робатов.
Пока все показанные робаты, что у Маска, что у других, двигаются как полные инвалиды с мороза. Медленно, странно, угловато.
Интересная работа от Nvidia:
Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills
Двухступенчатый фреймворк для улучшения "маневренности" гуманоидного робота.
Он предварительно обучает динамику движений на человеческих данных, а затем уточняет ее с помощью реальных поправок, используя дельта-невязки, корректирующие несоответствия моделирования и данных. И код есть, апдейты 7 часов назад.
А я, кстати, завтра делаю Хаб на тему робатов. Гуманоиды, ИИ и даже web3 - все как мы любим. Будете в Пафосе, залетайте.
P.S. Одного не понял, зачем им странную маску-шапочку прикрутили? Эстетика? Странно, кожаная башка тяжелая и точно влияет на динамику движений, а эта масочка явно легкая и на движения явно не влияет.
@cgevent
Пока все показанные робаты, что у Маска, что у других, двигаются как полные инвалиды с мороза. Медленно, странно, угловато.
Интересная работа от Nvidia:
Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills
Двухступенчатый фреймворк для улучшения "маневренности" гуманоидного робота.
Он предварительно обучает динамику движений на человеческих данных, а затем уточняет ее с помощью реальных поправок, используя дельта-невязки, корректирующие несоответствия моделирования и данных. И код есть, апдейты 7 часов назад.
А я, кстати, завтра делаю Хаб на тему робатов. Гуманоиды, ИИ и даже web3 - все как мы любим. Будете в Пафосе, залетайте.
P.S. Одного не понял, зачем им странную маску-шапочку прикрутили? Эстетика? Странно, кожаная башка тяжелая и точно влияет на динамику движений, а эта масочка явно легкая и на движения явно не влияет.
@cgevent
👍26🔥10❤9😁1
У VideoSmile появился новый бесплатный мини-курс по нейросетям для видео и изображений!
Мне нравится Videosmile, что они во-первых старые и давно на рынке в отличие от неонейрокурсов, а во-вторых, что они идут от графики, а не от вакуума. У них по графике тонна курсов, поэтому опыт преломляется именно в графические скилы.
На курсе 5 уроков, разные сетки, генерация роботов..
Судя по отзывам, есть живая поддержка от кураторов, лайвчат и всякие ништяки типа сертификатов.
Курс тут - https://cloudlessons.ru/c/26469
@cgevent
Мне нравится Videosmile, что они во-первых старые и давно на рынке в отличие от неонейрокурсов, а во-вторых, что они идут от графики, а не от вакуума. У них по графике тонна курсов, поэтому опыт преломляется именно в графические скилы.
На курсе 5 уроков, разные сетки, генерация роботов..
Судя по отзывам, есть живая поддержка от кураторов, лайвчат и всякие ништяки типа сертификатов.
Курс тут - https://cloudlessons.ru/c/26469
@cgevent
👎46👍34😁6❤4🔥2
Forwarded from AI Product | Igor Akimov
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI тут на конфе в Японии показали, как они сделали AI сейлза по входящим лидам.
Вот как работает:
- Клиент заполняет форму Contact Sales.
- Контактные данные попадают в панель задач OpenAI в качестве лида
- Агент по продажам анализирует заявку и вызывает несколько функций
- Инструмент enrich_lead выполняет глубокое исследование лида, чтобы заполнить его информацией, например данными о роли, секторе, размере компании и т. д.
- Вызывает get_calendar_availability, чтобы проверить свободное время для назначения встречи.
- Вызывает send_email, чтобы составить проект электронного письма для планирования встречи.
- завершает задачу.
Так что сапожник - с сапогами (хотя честно говоря сколько не заполнял форму на общение с сейлзами OpenAI, ни разу не отвечали...)
Вот как работает:
- Клиент заполняет форму Contact Sales.
- Контактные данные попадают в панель задач OpenAI в качестве лида
- Агент по продажам анализирует заявку и вызывает несколько функций
- Инструмент enrich_lead выполняет глубокое исследование лида, чтобы заполнить его информацией, например данными о роли, секторе, размере компании и т. д.
- Вызывает get_calendar_availability, чтобы проверить свободное время для назначения встречи.
- Вызывает send_email, чтобы составить проект электронного письма для планирования встречи.
- завершает задачу.
Так что сапожник - с сапогами (хотя честно говоря сколько не заполнял форму на общение с сейлзами OpenAI, ни разу не отвечали...)
😁37👍15❤7👎1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за разметчиков!
Только мы нашли, чем будут заниматься кожаные (разметкой данных для ИИ), так ИИ уже подсуетился и все сделал сам.
Точнее сделал Andrew Ng, выкатив Agentic Object Detection
Обнаружение объектов на основе рассуждений: человекоподобная точность с помощью текстовых подсказок без лишних затрат на обучение - агенты используют\обдумывают\разглядывают? design patterns для обнаружения уникальных атрибутов, таких как цвет, форма и текстура, для более интеллектуального и точного распознавания нужных аттрибутов в любом сценарии. А не только на личиках и котиках.
Если не читать только заготовки, а пойти на сайт(что я, как дебил, постоянно делаю), то можно увидеть отличные примеры и вот такую сентенцию:
"В будущем планируется добавить трекинг объектов, обнаружение нескольких типов объектов и поддержку видео".
Вот это нам надо! Пора уже выпить за композ!
https://landing.ai/agentic-object-detection
Ну и поглядите видео, он там на пальцах объясняет, что LLM для разметки - как придорожный акын: что вижу, о том и пою. А агенты разглядывают, рассуждают, сравнивают паттерны и ну выдавать результат, но медленно.
@cgevent
Только мы нашли, чем будут заниматься кожаные (разметкой данных для ИИ), так ИИ уже подсуетился и все сделал сам.
Точнее сделал Andrew Ng, выкатив Agentic Object Detection
Обнаружение объектов на основе рассуждений: человекоподобная точность с помощью текстовых подсказок без лишних затрат на обучение - агенты используют\обдумывают\разглядывают? design patterns для обнаружения уникальных атрибутов, таких как цвет, форма и текстура, для более интеллектуального и точного распознавания нужных аттрибутов в любом сценарии. А не только на личиках и котиках.
Если не читать только заготовки, а пойти на сайт(что я, как дебил, постоянно делаю), то можно увидеть отличные примеры и вот такую сентенцию:
"В будущем планируется добавить трекинг объектов, обнаружение нескольких типов объектов и поддержку видео".
Вот это нам надо! Пора уже выпить за композ!
https://landing.ai/agentic-object-detection
Ну и поглядите видео, он там на пальцах объясняет, что LLM для разметки - как придорожный акын: что вижу, о том и пою. А агенты разглядывают, рассуждают, сравнивают паттерны и ну выдавать результат, но медленно.
@cgevent
👍50❤12😱11🔥9😁5
DeepSeek VL2 Small
DeepSeek представил версию своей новой модели DeepSeek VL2 Small - грубо говоря для разговора с картинками и видосами.
Средняя: 16 миллиардов параметров и Mixture of Experts (MoE)
Очень круто, что уже доступна на Hugging Face Space.
Пишут что нереально хороша в OCR - распознавании даже кривых текстов.
Я немного потыкал - действительно круто описывает картинки, но что более важно, имеет спец теги-токены, которые можно использовать в запросах, типа найди жирафа именно на заднем плане. Обязательно гляньте примеры внизу - из них понятно, что она умеет.
@cgevent
DeepSeek представил версию своей новой модели DeepSeek VL2 Small - грубо говоря для разговора с картинками и видосами.
Средняя: 16 миллиардов параметров и Mixture of Experts (MoE)
Очень круто, что уже доступна на Hugging Face Space.
Пишут что нереально хороша в OCR - распознавании даже кривых текстов.
Я немного потыкал - действительно круто описывает картинки, но что более важно, имеет спец теги-токены, которые можно использовать в запросах, типа найди жирафа именно на заднем плане. Обязательно гляньте примеры внизу - из них понятно, что она умеет.
@cgevent
❤31👍15