Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.7K subscribers
5.93K photos
4.34K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Генератор картинок Imagen 4 доступен в Gemini API и Google AI Studio. В последнем можно потестить бесплатно если притвориться что вы в правильной стране

Две модели:
Imagen 4 ($0.04 за картинку)
и более точная
Imagen 4 Ultra ($0.06 за картинку)

Попробовать

#text2image
👍30🔥63🙏1
А вот это смешная история!

Помните, как ИИ-художники пролезали на фото-конкурсы, и даже чего-то там занимали, пока их не разоблачали.

Помните, как у нас в коментах еще полгода-год назад были ортодоксальные кожаные, которые мощно задвигали "да я этот ваш генератив за версту чую, всегда отличу нейропиксель от кожаного фотошопа".

Ортодоксы что-то приподвывелись, а сегодня у нас другая фантастическая история.

Кожаный фотограф взял и заслал сделанную им фотографию на конкурс ИИ-арта. Где главное ограничение было "никаких материалов, вышедших из объектива камеры".

И победил!

Дальше его прогнали мокрыми тряпками:

Фотограф был дисквалифицирован с конкурса фотографий после того, как его настоящая фотография победила в номинации "Изображение ИИ".
A photographer has been disqualified from a picture competition after his real photograph won in the AI image category.


История хохочет над нами, кожаными бедолагами, с этой нашей тягой помериться письметриками, расставить баллы, оценки, и вообще поорать, кто круче.

А вот ИИ насрать. Его внутренние метрики скрыты в чорном ящике его мозгов, и нам неведомы, а над нашими метриками он ржет вместе с историей.

https://petapixel.com/2024/06/12/photographer-disqualified-from-ai-image-contest-after-winning-with-real-photo/

@cgevent
😁7516👍11🔥5👎1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini CLI — официальный агент для Gemini от Google

Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к Gemini 2.5 Pro и до тысячи в день. Кроме этого есть поддержка MCP, которая позволяет подключать туда сторонние тулы. Гугл даже запилил MCP серверы для взаимодействия с Veo/Imagen/Lyria.

Доступен код по лицензии Apache 2.0, так что с ним можно делать всё что угодно. А вот в апстрим залить что-либо будет сильно сложнее — у гугла очень специфическая политика по поводу сторонних контрибьюторов.

npm install -g @google/gemini-cli


Блогпост
Исходники

@ai_newz
🔥3110👍6
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Еще один ролик от Глеба:

Основные инструменты:

Chat GPT - адаптация промтов, обсуждение сюжетной линии.
Veo-3 - генерация видео и частично звук.
Пэкшот в Runway.
Suno - генерация музыки.
Монтаж - Adobe Premiere Pro.
Основной голос -
@Parkhom9
Голос на пэкшоте -
@bucksabbath

Изначальная идея была сделать динамичный сочный ролик про, то какие дегенераты мотоциклисты с громким выхлопом и как их не любят люди окружающие.
Прошлым летом меня это прям бомбило. Этим летом я на антидепрессантах )).
Я начал писать сценарий о том, как человек с детства от чего-то убегает. Пришел к тому, что это нездоровый человек, которому могла бы помочь терапия, но он поставил глушитель на свой крик о помощи.
Если бы я сделал это рекламой антидепрессантов, то это было бы не честно по отношению к страдающим окружающим людям). Тогда и родилась идея сделать это рекламой беруш. Мне нравится эффект, когда смотришь ролик про что-то одно, а оказывается, что это реклама того, о чем ты не думал во время просмотра.

Кадры в основном генерил с первого дубля, кое какие 2-3 дубля, допустим шлем - там постоянно что-то не то отражалось. В одном из кадров это удалось победить.

Не сразу удалось сделать такой пэкшот, каким я его задумал. Наиболее соответствующий девайс выдал DALL-E, через чат GPT.
В Sora и Veo-3 анимация пэкшота пошли из рук вон плохо. Вдобавок они отказываются работать с русскими буквами - превращают их в каракули.
Пришлось применить Runway. Там получилось с первого дубля.

Нагенерить видео , наверное было самым простым в данной истории, предварительно я расшотил сценарий (сделал раскадровку) и отправил чату джипити, чтобы он адаптировал ее в текст под Veo-3. Здесь тоже все прошло гладко. А вот сложить все кусочки так, чтобы рассказать историю и в ходе работы переписать сценарий было уже посложнее.

Ещё , непозволительно много времени отняла озвучка, пусть и дистанционно.
В следующих роликах, я всё-таки буду использовать голос нейросети.

Хотелось создать консистентного персонажа и мотоцикл, соответственно, которые будут более-менее одинаковые из кадра в кадр. Отчасти это получилось, конечно с огрехами.

Музыка тоже не слишком быстро подобралась. Но основное время - это монтаж видео и монтаж звука и постоянное переписывание сценария.

По времени заняло примерно 3 ночи и пол дня.


@cgevent
👎50🔥37😁20👍169
Я тут залип в канале у ребят, которые очень смешно рассказывают про то, как делают последнее коммерческое облако в России и особенности этого бизнеса.
То с пистолетом бегают, то в ванне электролиты растворяют, то серийники за 10 миллионов покупают, то с бюрократами хлещутся насмерть. Ну и мне нравится лексика - про йолочку смешно, похоже на мои приподвывороты со словами.

Канал тут, почитайте, правда смешно.

И там же сразу при пополнении баланса дают 2 виртуалки с 2 ядрами на каждой (+4 Гб DDR5, + 40 Гб сетевого диска и 50 Гб хранилища + белый v4 IP + балансировщик) бесплатно на год. Базы данных тоже включены. Расчёт на то, что вы сразу построите кластер, посмотрите на то, как просто работать с базами данных из коробки и залипнете у них с коммерческими проектами.

https://news.1rj.ru/str/+RDesoVFnQaphY2Ri

@cgevent
1👎43😱84👍3
Принес вам ещё один переодеватор.

Вы же помните, я за ними слежу внимательно.

Ибо им приходится несладко: Flux Kontext, OmniGen2, и даже chatGPT позволяют переодевать персонажей.

Мало того, что алый океан, так ещё и большие мальчики типа Хиггсфилд или даже Гугла со своей примерочной норовят истоптать прибрежную поляну своими неограниченными бюджетами.

Данный боец довольно мейнстримный. Даёт всего 10 картинок на free plan. Безлимит за 49 долларов, плюс обещает короткие видосы.
Сделано чистенько, ноль информации про низлежащую модель(думаю sdxl), хорошая упаковка.

Но, повторюсь, будущее таких стартапов туманно...

Ждём ответочки от Лены.

https://fashn.ai/

@cgevent
👍147🔥1
Flux Kontext Dev в опенсорсе!

Налетаем, забираем, ставим отсюда:

https://github.com/black-forest-labs/flux

https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Требуха под Комфи тоже уже есть:
https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras

@cgevent
🔥61👍14😱64
This media is not supported in your browser
VIEW IN TELEGRAM
DOPPL

Только что писал про несладкую и короткую жизнь переодеваторов.

Как тут же Гугль выпустил Допль! Убийцу virtual try on стартапов и примерочных.

Причем сразу в виде приложения.

Грузите свою фотку в полный рост, потом берете картинку шмота(фото, скриншот) и хоп! шмот уже ловко сидит на тебе!

А вишенкой Допль ещё и анимирует вас в новом прикиде. Там короткое видео генерится в конце примерки.

Есть в апсторе и для андроида, но только в US.
https://blog.google/technology/google-labs/doppl/


@cgevent
🔥399👍8
Suno - красавцы!

Взяли и пожрали WavTools/DAW.

WavTool это браузерный DAW-софт(Digital Audio Workstation), который объединил профессиональные функции создания музыки (поддержка плагинов VST, редактирование с точностью до сэмпла, запись в реальном времени и многое другое) с собственными возможностями ИИ, такими как разделение стемов, MIDI-файлы, сгенерированные ИИ, и встроенный чат-бот для редактирования музыки в реальном времени.

Представляете какой интерфейс и мощща будут у Suno 5?
https://www.prnewswire.com/news-releases/suno-acquires-wavtool-to-level-up-capabilities-for-professional-songwriters--producers-302491932.html

@cgevent
🔥9321👍7👎3
Я уже писал о том, что люди в 2025 году все чаще используют LLM для решения сугубо личных проблем.

Антропик сделал отдельную работу на эту тему: «How People Use Claude for Support, Advice, and Companionship»


Они исследовали как люди используют Claude.ai не только как интеллектуальный инструмент (IQ), но и как эмоциональную поддержку (EQ). В частности — разговоры с эмоциональным уклоном: советы, коучинг, сопровождение, терапия, ролплей. Цель — понять влияние таких взаимодействий на эмоциональное состояние пользователей

Основные находки
Именно задушевные беседы с уклоном в эмоциональную поддержку составляют где-то 3% от всех разговоров с Claude и относятся к эмоциональным (advice, coaching и т.д.).

Ролплей (романтический/сексуальный) встречается в <0,5% случаев

Темы запросов различны

Пользователи спрашивают о карьере, межличностных отношениях, одиночестве, экзистенциальных вопросах, тревожности и рабочем давлении.

Некоторые используют Claude для подготовки клинической документации и ведения терапевтических заметок

Менее 10% разговоров эмоциональной направленности сопровождаются сопротивлением Claude.
Отказы случаются, когда пользователь запрашивает опасные советы (например, экстремальное похудение) или выражает намерение навредить себе — при этом Claude рекомендует обращаться к специалистам

Тон общения становится позитивнее по ходу беседы.
Анализ эмоциональной окраски сообщений показывает переход от нейтральной или негативной тональности к более позитивной в конце беседы.

Результаты актуальны для текстового Claude.ai; с голосом или видео всё может пойти иначе.
(Тут я думаю, что не просто иначе, а радикально иначе).

Все это возвращает меня к моим же старым банальным мыслям: ИИ - идеальный инструмент для того, чтобы разобраться в себе. Это зеркало любого окраса, как запромптите, так и покажет. Вас самих.

Нужно просто иметь немного смелости идти с этим к ИИ.

https://www.anthropic.com/news/how-people-use-claude-for-support-advice-and-companionship

@cgevent
👍4816👎5😁1
У Хуньяня, похоже, есть набор моделей на все случаи жизни, от видео до 3Д, от игр до LLM.

Только что они бахнули Hunyuan-A13B - latest open-source LLM.

Модель MoE использует 80B общих параметров, из них 13B активных, обеспечивая производительность наравне с o1 и DeepSeek в нескольких основных бенчмарках.

Hunyuan-A13B имеет гибридную архитектуру с динамическим "быстрым и медленным" рассуждением, отлично справляется с задачами, связанными с длинными текстами, и обладает расширенными возможностями вызова агентных инструментов для выполнения сложных задач с помощью естественного языка.

https://github.com/Tencent-Hunyuan/Hunyuan-A13B

Демо: https://hunyuan.tencent.com/?model=hunyuan-a13b

Веса: 160гиг - https://huggingface.co/tencent/Hunyuan-A13B-Instruct

@cgevent
👍28🔥87
Media is too big
VIEW IN TELEGRAM
Первая в мире креативная операционная система

Хех, это новая (удачная) реклама от HeyGen.

Именно так, они называют свой HeyGen Video Agent.

Что он может:

Загружаете документ, отснятый материал или даже просто одно предложение текстом.

Он проанализирует ваши данные.

Находит в ваших каракулях историю.

Пишет сценарий, утверждается, что со вкусом.

Подбирает картинки или генерирует(!!!) видеоматериалы.

Набирает актеров (вот тут уже круто, за кастинг директоров и скаутов!)

И перемалывает все... Темп. Движение. Даже титры.

Будь то реклама, TikToks, короткометражные фильмы, демо-версии продуктов или любая другая идея, которая вам пришла в голову.

Вот такое позиционирование!

Сейчас опять заплакала и умерла соточка стартапов, которые делают "видео из ваших видео". Ибо на поляну вышли взрослые мальчики.

Записаться в вейтлист можно тут:
https://app.heygen.com/agent

#язаписалсо

@cgevent
🔥4314👍11👎2😱1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Нейропрожарка

Решили мы как-то с товарищами сделать видео, с закосом на мудовый клиповый видос, где не до конца понятно - генерация это или реальность.
По итогу вышло не до конца то, что было изначально в голове, но вполне достойно.

Работа длилась около недели, по несколько часов каждый день.
Все делалась в этих нейронках:
•Midjorney
•FLUX(только апскейл изображений)
•Runway Gen4(основной массив оживлений)
•Kling 1.6(пару сложных кадров)

Музыку не хотелось генерить, ибо был закос под реальный видос, а это добавляло бы реалистичного вайба.

Бюджет:
•Gen 4 безлимит - 95$
•Midjorney - 20$
•Kling - 7$
Итого - 122$


@cgevent
👍52👎16🙏9🔥87
Ребята из Cloud.​ru дропнули на GigaConf два интересных релиза

Клаудия — AI-помощник в публичном облаке, который берет на себя часть DevOps-задач: поднимает виртуалки, настраивает мониторинг, помогает в консоли, как второй пилот. Он упростит работу с облачными сервисами и сделает ее еще удобнее. Уже доступен в Public Preview.

Cloud.​ru Evolution AI Factory — облачная среда для работы с ИИ для тех, кто хочет заниматься своими LLM-ками и не париться с инфрой. Jupyter Notebooks, готовые API к популярным моделям, инструменты для файнтюна и инференс — все необходимое в одном месте. Готовые сервисы ускорят разработку и внедрение AI-агентов.

Кажется, российские облака наконец-то перестают быть просто «виртуалками в аренду», меняя привычный опыт и ожидания пользователей.
👍76👎407😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Новая фишка у Kling AI.

Video2Audio.

Вроде даже на бесплатных тарифах дают попробовать.

@cgevent
🔥53👍81
This media is not supported in your browser
VIEW IN TELEGRAM
QWEN-VLO - генерация картинок, видео, и редактирование всего, что шевелится.

Обновился Qwen3.


Чат у него весь из себя мультимодальный, принимает на вход документы, картинки, видео и даже звук.

А генерит вообще все, что шевелится. Включая видео, анализ изображений и даже брейншторм.

Го тестировать, пока быстро отвечает. Генерация видео довольно шустрая.

https://chat.qwen.ai/

Вот что пишут разрабы:

Сегодня мы рады представить новую модель - Qwen VLo, единую мультимодальную модель понимания и генерации. Эта обновленная модель не только "понимает" мир, но и генерирует высококачественные "воссоздания" на основе этого понимания, действительно преодолевая разрыв между восприятием и творчеством. Обратите внимание, что это предварительная версия, и вы можете получить доступ к ней через Qwen Chat. Вы можете напрямую отправить запрос типа "Создать изображение милой кошки", чтобы сгенерировать изображение, или загрузить изображение кошки и попросить "Добавить шапочку на голову кошки", чтобы изменить изображение.

Подробнее тут:
https://qwenlm.github.io/blog/qwen-vlo/ - поглядите примеры, они довольно убойные

@cgevent
2👍29🔥18😱76👎3
В общем видео новый Qwen VLo генерит примерно вот так.

К картинкам тоже есть вопросы, но думаю обсудим их в коментах.

@cgevent
😱20👎10😁8👍5🔥21