Forwarded from KHS | Digital Art
Media is too big
VIEW IN TELEGRAM
И все это для того, чтобы показать, как в итоге работает плагин для Premiere Pro — «AutoPod».
Общие впечатления такие:
Садись, 5!
Тут даже «2» не поставить, просто 0.
Мы сымитировали съемку подкаста и сняли его на 3 камеры. Настраивается плагин тут очень легко, просто выбираешь количество спикеров, камер, распределяешь, какая дорожка относится к конкретному спикеру и вуаля — готово за 2 минуты.
И пока ты смотришь, что у нас получилось, в прикрепленном видео, мы ставим этой функции твердую «4».
Работает хорошо, но иногда то делает слишком быстрые склейки, то долго на одном спикере останавливается.. Ну и плюс! Долгие паузы-то сама не убирает!
Вот такой тест получился.
Плагин неплохой, но стоит ли он своих 29$ в месяц? Что думаешь?
Кинь реакцией — ⚡️, если купил бы.
А если нет, кинь — 🌚.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚8⚡4👍1💩1
Forwarded from Denis Sexy IT 🤖
Регуляция ИИ-картинок точно грядет – вот эта разошлась вчера по твиттеру в куче новостных изданий с историей вроде: "НЕДАЛЕКО ОТ ЗДАНИЯ ПЕНТАГОНА ПРОИЗОШЕЛ ВЗРЫВ", что оказалось обычным фейком и вбросом.
Причем, судя по качеству и артефактам это скорее всего даже не Midjourney, а локальный Stable Diffusion, качество некоторых деталей было бы получше у MJ. Ну и судя по артефактам на фасаде автор не очень умеет пользоваться автоматиком1111.
Я честно, не очень понимаю как регуляция будет работать с локальными моделями, потому что стартапы то точно внедрят все невидимые ватермарки, с этим нет проблем, но как быть с зоопарком моделей которые люди запускают дома?
Мне кажется, очень важно обучить журналистов, что любые визуальные источники в 2023 году просто нужно даблчекать, а не бежать слать пуш в твиттер. Потому что, тут, буквально с лупой открой и уже видно что это сгенерированный фейк. Не говоря уже про то, что в фотошопе можно сделать так же.
Вся история тут:
https://www.vice.com/en/article/7kx84b/ai-generated-pentagon-explosion-hoax-twitter
Причем, судя по качеству и артефактам это скорее всего даже не Midjourney, а локальный Stable Diffusion, качество некоторых деталей было бы получше у MJ. Ну и судя по артефактам на фасаде автор не очень умеет пользоваться автоматиком1111.
Я честно, не очень понимаю как регуляция будет работать с локальными моделями, потому что стартапы то точно внедрят все невидимые ватермарки, с этим нет проблем, но как быть с зоопарком моделей которые люди запускают дома?
Мне кажется, очень важно обучить журналистов, что любые визуальные источники в 2023 году просто нужно даблчекать, а не бежать слать пуш в твиттер. Потому что, тут, буквально с лупой открой и уже видно что это сгенерированный фейк. Не говоря уже про то, что в фотошопе можно сделать так же.
Вся история тут:
https://www.vice.com/en/article/7kx84b/ai-generated-pentagon-explosion-hoax-twitter
🙈7❤2🤷♂1
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
MMS: Scaling Speech Technology to 1000+ languages
Коллеги из Meta AI просто на кэжуале выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст.
Это всего лишь новый майлстоун в спич-рекогнишене 😀.
Что по сути:
— wave2vec 2.0: многоязычная модель распознавания речи с 1млрд параметров, обученная на 1107 языках
— ошибка на 50% ниже по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!
— включает в себя Классификатор языков, идентифицируюший 4017 языков.
Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!
Самое клёвое, что веса и код уже на гитхабе!
Из минусов такого широкого набора языков в трейне — это то, что модель чуть хуже справляется с популярными языками типа английского, немецкого и тд. по сравнению с Whisper.
Блогпост
@ai_newz
Коллеги из Meta AI просто на кэжуале выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст.
Это всего лишь новый майлстоун в спич-рекогнишене 😀.
Что по сути:
— wave2vec 2.0: многоязычная модель распознавания речи с 1млрд параметров, обученная на 1107 языках
— ошибка на 50% ниже по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!
— включает в себя Классификатор языков, идентифицируюший 4017 языков.
Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!
Самое клёвое, что веса и код уже на гитхабе!
Из минусов такого широкого набора языков в трейне — это то, что модель чуть хуже справляется с популярными языками типа английского, немецкого и тд. по сравнению с Whisper.
Блогпост
@ai_newz
👍2
Forwarded from Эксплойт
Перед вами результат работы Generative Fill — свежей фичи в Photoshop.
Нейросеть прекрасно понимает, что за объекты на фото по самым мельчайшим деталям (на примере тарелки в углу), а самое главное — никаких промтов: просто выделяешь область и жмешь «Generate», после чего выбираешь один из трех вариантов.
Кнопка «Сделать красиво», это все-таки ты?
@exploitex
Нейросеть прекрасно понимает, что за объекты на фото по самым мельчайшим деталям (на примере тарелки в углу), а самое главное — никаких промтов: просто выделяешь область и жмешь «Generate», после чего выбираешь один из трех вариантов.
Кнопка «Сделать красиво», это все-таки ты?
@exploitex
🥰9👍5
Было нечего делать и вот до чего дошел. У многих контор есть логотипы и к каким ни будь праздничным датам маркетологи рисуют открытки и вот я попробовал упростить этот процесс загнав логотип в SD с ControlNet. Думаю тем кто делает подобное это очень упростит жизнь. Ну и если будут нужны абразивные материалы -пишите мне)
🔥5🤣5