Forwarded from эйай ньюз
Что показали на Google I/O?
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...🎤
@ai_newz
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥2
1😁15👍11
Новая версия картинкогенератора Imagen 4 уже в Krea AI на платной подписке.
VEO 3 - скоро
#text2image #news
VEO 3 - скоро
#text2image #news
👍9
Hunyuan-TurboS
Hunyuanвыкатил показал свою #LLM, вдохновленную, на минуточку, человеческими когнитивными процессами
По-русски шпрехает, вот доказательства
Демо
#assistant
Hunyuan
По-русски шпрехает, вот доказательства
Демо
#assistant
😁10🤷♂3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Video 4D 2.0
Stability вновь высунулись из мрака с SV4D 2.0
SOTA в 4D генерации (движущиеся во времени 3D сцены), побил DreamGaussian4D, L4GM и SV4D
Напомню, прежняя модель могла менять ракурс видео, новая версия справляется с этим более лучше
Код
Веса
#videoto4d #4d #video2video #novelview #sota
Stability вновь высунулись из мрака с SV4D 2.0
SOTA в 4D генерации (движущиеся во времени 3D сцены), побил DreamGaussian4D, L4GM и SV4D
Напомню, прежняя модель могла менять ракурс видео, новая версия справляется с этим более лучше
Код
Веса
#videoto4d #4d #video2video #novelview #sota
👍10❤1
#оффтоп #набрюзжал
Ручной режим допуска к нашему чату связан с неудобствами для новых юзеров. Но придется терпеть. Вот эти все клоуны - боты, и только одна заявка похожа на настоящего человека. Каждый день отказываю им, на следующий день они снова тут. А некоторые - сразу, в следующее же мгновение. А @durov пофиг на это
Ручной режим допуска к нашему чату связан с неудобствами для новых юзеров. Но придется терпеть. Вот эти все клоуны - боты, и только одна заявка похожа на настоящего человека. Каждый день отказываю им, на следующий день они снова тут. А некоторые - сразу, в следующее же мгновение. А @durov пофиг на это
❤8🤯7😁5
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
Оживлятор персонажей по образцу движения
Код
Веса
Веса на основе CogVideoX-5B и Wan-2.1-14B - ждем
#characteranimation #pose2video
Оживлятор персонажей по образцу движения
Код
Веса
Веса на основе CogVideoX-5B и Wan-2.1-14B - ждем
#characteranimation #pose2video
👍8❤1👎1
Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation
Моделирование динамических сцен по видео, основано на гибриде 3D и 4D гауссиан
Быстрое обучение с сохранением качества.
Легко заменяет 4DGS в существующих пайплайнах
Код
#gaussian #video2gaussian #videoto4D #4D
Моделирование динамических сцен по видео, основано на гибриде 3D и 4D гауссиан
Быстрое обучение с сохранением качества.
Легко заменяет 4DGS в существующих пайплайнах
Код
#gaussian #video2gaussian #videoto4D #4D
👍5❤1
Bob Interactive character playground
Липсинк трех персонажей в браузере. Не трех одновременно, а всего на выбор три персонажа. Голос у каждого свой. Но почему-то девчачий голос из моего не получается даже из фальцета. Enjoy
#lipsync
Липсинк трех персонажей в браузере. Не трех одновременно, а всего на выбор три персонажа. Голос у каждого свой. Но почему-то девчачий голос из моего не получается даже из фальцета. Enjoy
#lipsync
👍5❤1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Index-AniSora
Модель для генерации аниме-видео с контролем стиля и движений от Bilibili.
Позволяет настраивать движения персонажей, мимику и даже отдельные кадры
AniSoraV1.0 (на базе CogVideoX-5B) - можно запустить на потребительских GPU
AniSoraV2.0 (Wan2.1-14B) - работает стабильнее
Гитхаб
#anime #text2video #motioncontrol #image2video #image2anime
Модель для генерации аниме-видео с контролем стиля и движений от Bilibili.
Позволяет настраивать движения персонажей, мимику и даже отдельные кадры
AniSoraV1.0 (на базе CogVideoX-5B) - можно запустить на потребительских GPU
AniSoraV2.0 (Wan2.1-14B) - работает стабильнее
Гитхаб
#anime #text2video #motioncontrol #image2video #image2anime
👍8❤1👏1😈1
Media is too big
VIEW IN TELEGRAM
Bagel
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
🔥15👍4👎2🤔1👀1