АйТиБорода – Telegram
АйТиБорода
20.1K subscribers
263 photos
32 videos
7 files
1.26K links
Авторский by @iamitbeard. Про IT и технологии без цензуры и политстирильности. Чат @itbeard_talk

Жыве Беларусь. Слава Україні.

АйТиБорода: https://youtube.com/itbeard
Эволюция Кода: https://web.tribute.tg/l/ge
На Вайбе: https://onvibe.io
Download Telegram
Как я с помощью ИИ подкаст сгенерил.

Сегодня расскажу вам, как я с помощью нескольких инструментов и пары часов дороги в автобусе бесплатно настроил пайалайн создания вполне сносных ИИ-подкастов с видео и сабтитрами.

Суть задачи: есть хорошо оформленный еженедельный дайджест ИИ-новостей в виде статьи, нужно преобразовать его в аудио-подкаст с хоть каким-то внятным видеорядом и сабтитрами.

Стек технологий:
- Claude API для создания сценария на озвучку из статьи;
- Python + ElevenLabs API для озвучки;
- Pictory AI для генерации видеоряда и сабтитров;

Разберемся по пунктам:

Claude API

Недавно компания Anthropic выкатила свою модель Claude 3 Opus, и она божественна. После недели заигрываний с ней у меня сложилось чёткое ощущение, что она обходит GPT-4 почти во всём. И однозначно она обходит его в создании сценариев для подкаста.

Потому, идем в Claude API (предварительно получив 5$ на его тестирование), задаем инициирующий промпт, где четко описываем как должен выглядеть ваш подкаст. Я решил разбивать статью на двух ведущих (спасибо за идею подкасту Оля и Штучный интеллект), о чем в промпте прям так и писал, мол есть два ведущих, Рон и Гермиона, и вот так-то они должны взаимодействовать. Гермиона задает вопросы, Рон отвечает, Гермиона дополняет и делает переход на следующую тему. Примерно такой промпт по содержанию.

Дальше нужно получить реплики ведущих, лучше в каком JSON-формате. Потому в пропмте описываем формат ответа: у меня это список json-объектов с полями id (порядковый номер реплики), name (имя ведущего) и text (содержание реплики). С этим файлом уже можно работать и скармливать его вашему любимому python.

На всё про всё ушло пол часа - час. Но в следующие разы это займёт минут пять, ибо системный инициирующий промпт уже готов.

Python + ElevenLabs API

Дальше я навоял простенький скрипт на питончике, который бежит по джейсону и озвучивает реплики разными голосами в зависимости от имен ведущих, сохраняет их на диск в формате .mp3. Сам скрипт лежат вот тут, их мне помогал писать ИИ, 24ый же год на улице. Из приятного, у Elevenlabs есть много настроек голосов, и можно играться с настройками их эмоциональности. Я выкрутил эмоции почти на максимум, мне нравится. Бесплатных минут генерации Elevenlabs даёт примерно 15-20, а дальше можно новый акк зарегать, чего уж.

Итого: написание скриптов и тестирование настроек голосов заняло часа два, но при повторении действий займёт минуты три, ибо надо будет только json обновить и запустить скрипт.

Склейка

Дальше склеиваю полученные .mp3 в один файл и подкладываю фоновую музыку. Я ленивый, сделал это за три минуты через Premier Pro.

Pictory AI

Этот замечательный сервис позволяет загрузить в него итоговый аудио-файл, получить из него текстовые блоки, на основании которых сервис генерирует сцены и сабтитры. Каждую сцену можно тонко настраивать вручную, менять сабы, менять стоковые видео для сцен, выделять акценты в сабах и кучу всего ещё. Итоговые сцены можно в два клика синхронизировать с аудио-дорожкой, надо ее только повторно загрузить в проект с сгенеренными сценами.

Этот этап для меня был самым долгим, так как я решил самостоятельно расставить акценты в сабах и кое-где поменять видео у сцен. Ушло на всё минут тридцать, и при повторении это время не уменьшается (хотя, можно забить на кастомизацию, и сделать всё за минут 5).

После этого я экспортиртнул видео в FullHD прям на сайте Pictory AI, залил его на Ютуб и радовался. На пробном периоде они дают экспортировать 3 видео, ну а дальше вы знаете что делать xD

Итоговый выпуск подкаста вы можете посмотреть тут: https://youtu.be/iF68Lt0foms. Не поленитесь оставить там комментарий на английском языке.

Сам я результатом удивлён прям сильно, ибо по факту технологии позволяют программисту средней руки за пару часов настроить пайплайн создания ИИ-подкастов студийного качества, с последующей генерацией выпусков за десятки минут с хорошим аудио и сносным видео-рядами. Вау. Двадцать первый век как есть.
🔥45
Если потратить еще пяток-десяток часов, то это дело можно автоматизировать полностью, API у всех сервисов есть, и довести до нажатия одной кнопки. Но делать этого я, конечно же, не буду xD

Хорошего вечера, и жду в комментах ваши подгорания от того, что ИИ убивает очередную сферу деятельности 😊

UPD: все описанные выше действия не стоили мне ни копейки, всё на триальных периодах и пробных версиях. Но если придется платить, то без видео один выпуск обойдется примерно в 1$, с видео в 10-60$ (в зависимости от частоты выхода подкаста, Pictory AI подписка, а не pay-as-you-go).

Результат: https://youtu.be/iF68Lt0foms
👍21
Пока кто-то гадает, сколько процентов нарисует себе моль (делаю ставку на то, что не меньше чем в 2020ом нарисовал его друган-таракан), я решил записать на камеру мысли на тему Дэвина от Cognition Labs. А точнее, рассказал как он (скорее всего) работает, что уже давно можно попробовать из подобного софта, и почему эта технология ещё не скоро нас, программистов, заменит.

Действительно, хайпавоз устроили знатный, причем для людей следящих за прогрессом хайп этот совсем непонятный, ибо прорывного ничего не показали. Ну разве что UI приятненький, но в 2024ом любой UI будет приятнее CLI для современных разрабов, понимаю... В общем, вот видео: https://www.youtube.com/watch?v=fd9Di97eQ0Y

Уже традиционно записываю блоги на руинглише, надо же в этих ваших европах его тренировать 😅
🔥30
Тут выложили сырцы ттвиттерского AI-бота Grok.
Исходники выложил Игорь Бабушкин, тот самый малоизвестный разработчик xAI, который возможно умеет в русский язык, и которого я хочу позвать в АйТиБороду, но до которого нереально достучаться. Решил попробовать через issues. Лайкните или поддержите комментом там плз. Методы некрасивые, но блин, другие не работают: https://github.com/xai-org/grok/issues/9

Из забавного: там в ишуях пацаны уже и работу у Маска просят. Прям на русском 😅

UPD: Игорь закрыл ишью и пока никуда не написал. с 99% вероятностью можно считать эксперимент проваленным, но попытка достойная, всем спасибо!🥰
👍34
Тут, кстати, идет конференция отчетная Nvidia. Показывают новые зверь-карты на базе платформы NVIDIA Blackwell, который ближайшие пол года будут обеспечивать нас качественным доступом к ChatGPT, Gimini, Claude, Grok и т.п.: https://www.youtube.com/watch?v=Y2F8yisiS6E&ab_channel=NVIDIA

Дженсен Хуанг явно закорешил с Джимми Янгом, ибо выступление прям живое и со стендапом. Короче, присоединяйтесь. А обсудить можно в нашем AI-чатике @aiapodcast
👍21
Я тут купил таки подписку у твиттера, чтобы потестировать Grok, и могу уверенно сказать, что это шляпа, не стоящая 20$. Вы знаете, на что лучше потратить эти деньги (ChatGPT, ну или 20 баксов это 20 баксов, да Вить?).
Вот и новый влог про это: https://youtu.be/3GPj9XusR8E
👍33
Посмотрел за вас новое интервью Ольтмана Фридману, и вот что подчеркнул для себя:

- GPT-5 будет настолько лучше GPT-4, как GPT-4 был лучше GPT-3.5
- Ольтман считает GPT-4 тупой сетью. Страшно представить с каким зверем он тогда работает в ОпенИИ сейчас.
- GPT-5 не будет в этом году (скорее всего). Но в течение пары месяцев ОпенИИ порадует нас новыми штуками.
- GPT-5 будет сильно более умным и рассудительным. Качественно новый уровень, возможно новая архитектура.
- КьюСтар Сэм вообще не комментирует. Кажется, что там прям AGI делают, судя по уровню конспирации.
- SORA существует, и она прекрасна.
- Вычислительные мощности будут новой валютой.
- Без термоядерного синтеза AGI не заведется.
- Маск мудак, но без него было бы тяжко, потому терпим (это не дословно, но считывалось).
- Скоро будем программировать натуральным языком. Качайте базу, программисты (почти буквально его слова).
👍54
Мы с ребятами из awclub продолжаем эксперементировать с ИИ-генерацией подкастов. Выложили второй выпуск новостного подкаста "Most human-like podcast", и кажется что проработанная фоновая музыка и добавление нечеловеческого юмора сделали его прям интереснее первого выпуска: https://youtu.be/hUdtR7AEHos

Ваши мысли? Слушабельно ли это уже? Что бы добавили, какого наратива или еще чего? Или мб нафиг этих тостеров?
👍11
Forwarded from Сиолошная
Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать
🔥57
⚡️Новый эпизод AIA Podcast расскажет про Devin, Grok-1, Gemini 1.5 и полесских робо-оленей!

Сегодня обсуждаем релиз Grok-1 в опенсорс, решаем заменит ли программистов Devin и что похожего есть на рынке, говорим об интервью Лекса Фридмана и Сэма Альтмана, в котором много рассказывали про GPT-5 и немного про Q*, делимся первыми впечатлениями о Gemini 1.5, даем ссылки на тонну сервисов для программистов и обсуждаем удобство работы айтишником в поездах и полесских робо-олений.

👉 YouTube: https://youtu.be/loK0phK9nsA
👉 Google Podcasts: https://bit.ly/aia-google
👉 Apple Podcasts: https://bit.ly/aia-apple
👉 Spotify: https://bit.ly/aia-spotify
👉 Скачать mp3: https://aia.simplecast.com/episodes/30

Приятного просмотра и прослушивания, друзья! 🥰
👍14
#материалы из выпуска про Team Lead Architect

🔹 Егор в Linkedin: https://www.linkedin.com/in/egor-balyshev-09794b1b0/
🔹 Подкаст "TeamLeadTalks": https://www.youtube.com/@TeamLeadTalks

Ссылки
🔸 Доклад про Олимп: https://youtu.be/hvTmrAl78jw?si=L0XQmiE1lqC7UWTp
🔸 Подкаст про большую пятерку на Team Lead Talks: https://youtu.be/btd5On3EgQE?si=frtoFF0UJEllHUaD

Книги
🔹 Jocko Willink, Leadership Strategy and Tactics: https://www.amazon.com/Leadership-Strategy-Tactics-Field-Manual/dp/1250226848
🔹 Jocko Willink, Extreme Ownership: https://www.amazon.com/Extreme-Ownership-U-S-Navy-SEALs-ebook/dp/B0739PYQSS
🔹 Jocko Willink, The Dichotomy of Leadership: https://www.amazon.com/Dichotomy-Leadership-Balancing-Challenges-Ownership/dp/1250354943/
🔹 David L. Marquet, Leadership Is Language: https://www.ozon.ru/product/leadership-is-language-the-hidden-power-of-what-you-say-and-what-you-don-t-1319141983/
👍19
🔥 Новый выпуск про самую программерскую менеджерскую позицию уже на АйТиБороде!

Кто такой Team Lead Architect? Как работают команды архитекторов? Как нанимают и собеседуют архитекторов? Сложно ли быть тимлидом в команде, где каждый - лучший? Обо всём этом в сегодняшнем выпуске. Гость выпуска, Team Lead Backend Architecture, TeamLead, TechLead и соведущий подкаста "TeamLeadTalks" - Егор Балышев.
Заваривайте чаинский/кофеинский будет очень интересно! 😉

👉 YouTube: https://youtu.be/MzNRbpF9pEU
👉 Apple Podcasts: https://apple.co/41hwOIQ
👉 Google Podcasts: https://bit.ly/itbeard-googlepodcasts
👉 Spotify: https://spoti.fi/3Ktbf1Y
👉 Скачать mp3: https://podcast.itbeard.com/e/190
🔥35
Очень крутое видео про GPT и как GPT-подобные работают под капотом. Автор детально разбирает принципы работы трансформеров, а самое главное – понятно и наглядно.

Моя любимая часть про эмбеддинги, "как получить из суши братвурст (немецкую сосиску)".

Спасибо YouTube (его алгоритму) за это!

P.S.: Плейлист 'Нейронные сети' от этого же канала. Я уже добавил себе в 'посмотреть позже'.
25
Ещё из полезных видео прошедшей недели: мы на Anywhere Club наконец начали серию видео про то, как делать кодревью https://youtu.be/E6fcXkIY3vo
🔥19
В новом выпуске подкаста AIA говорим про клонирование голоса от OpenAI, смотрим на генерацию музыки через StableAudio 2.0, рассказываем про новые интересные ИИ-приблуды для программирования, и обсуждаем контент для взрослых. Всё, как вы любите 😊

👉 YouTube: https://youtu.be/0GXy99OPMTU
👉 Google Podcasts: https://bit.ly/aia-google
👉 Apple Podcasts: https://bit.ly/aia-apple
👉 Spotify: https://bit.ly/aia-spotify
👉 Скачать mp3: https://aia.simplecast.com/episodes/31
🔥16
Forwarded from ЗаТелеком 🌐
На воскресный вечер поиграться. Вот новый (ну как новый... я не так давно для себя открыл) ИИ-инструмент, который могу рекомендовать. Например, вместо поиска, особенно, если вы ищете что-то реально из мира технологий, науки и вот это все

Perplexity называется.

Вот их сайт: https://www.perplexity.ai/

Приложеньки:

iOS — https://apps.apple.com/us/app/perplexity-ask-anything/id1668000334

Android — https://play.google.com/store/apps/details?id=ai.perplexity.app.android

А еще можно поставить экстеншн в Хром — https://chromewebstore.google.com/detail/perplexity-ai-search/bnaffjbjpgiagpondjlnneblepbdchol

Я как-то незаметно для себя перестал пользоваться гуглом для работы и все там делаю. Удобно, когда все хочется разложить по полочкам, работает и с русским языком, отлично переводит. Результаты сохраняются. Подумываю даже отказаться от подписки на OpenAI и перейти на Perplexity — платная версия стоит примерно одинаково — 20 долларов в месяц, плюс налоги.

Или оба оставить... Они себя реально окупают, делая твою работу эффективнее.

PS: @itbeard сообщает, что у Перплексети ещё есть классная песочница, где можно тестить почти все опенсорсный ллмки https://labs.perplexity.ai
23
Мы тут зарелизили на AW Club интереснейший выпуск нового живого подкаста про ИИ. Первый гость подкаста - Дес Христов, Software Developer из стартапа Endel, в котором они люто скрещивают ИИ и музыку: https://youtu.be/KRJV-1Y61SM

Ну и поприветствуйте нового хоста (хостессу, получается) канала - Зуру, она большая молодец, да еще и варится в теме ИИ и аналитики 😊
👍16
🔥 Я третий год живу в Польше, и кажется момент настал - новый большой выпуск на АйТиБороде про то, как переехать и обустроиться в Польше айтишнику!

Как заехать в страну и легализироваться, трудоустроиться и открыть ИП и бизнес-инкубатор, купить недвижимости в ипотеку, что такое ужонд, внёсек и страж граничный и многое другое. Помогать разобраться мне в этих вопросах будут эксперты из WeExpert. Лично мне два года назад не хватало такого контента, надеюсь и вам будет полезно 😉

👉 YouTube: https://youtu.be/RtW_rzDkkGk
👉 Apple Podcasts: https://apple.co/41hwOIQ
👉 Google Podcasts: https://bit.ly/itbeard-googlepodcasts
👉 Spotify: https://spoti.fi/3Ktbf1Y
👉 Скачать mp3: https://podcast.itbeard.com/e/192
🔥67
Если у вас вдруг завалился Apple Vision Pro (ха-ха), и есть желание пописать код под спейшиал компьютер, то тут Сергей Гончар (кофаундер Луны и Маскарада) запилил видео да два часа с разработкой AR-пылесоса (игра такая) с нуля: https://twitter.com/the_gonchar/status/1764684195832504403
👍20
Компания Rewind занимающаяся приватным общением с вашими локальными файлами на компьютере сделала ребрендинг, и теперь это Limitless. А случилось это потому, что компания готовит к концу года новое и хорошо забытое старое устройство - Limitless Pendant. С пол года назад еще бывший Rewind начал предварительные сборы на устройство Rewind Pendant. За 59$ компания обещала сделать небольшую капсулу-кулон, оснащенный микрофонами и возможностью записи звука. Записанный за день материал саммаризируется и вы можете легко вспомнить, что происходило с вами весь день. Всё это конечно же приватно, обработка происходит локально на вашем ноутбуке, запись голосов других людей только после их согласия и вот это вот всё. Правда компания не уточнила, когда она начнет производство устройства.

И вот, буквально пару дней назад нам показали Limitless Pendant, обновленный и переименованный Rewind Pendant первые партии которого разошлют в конце 2024 года. Ребята не только переименовал девайс (и компанию), но и сильно изменили его дизайн - теперь это больше похоже на клипсу-подвеску в разных цветовых вариантах. Сейчас предзаказать сие чудо можно за 99 долларов. На фоне громкого провала дорогущего AI Pin за 699$ Pendant выглядит весьма вкусно.

Сам я предзаказал его еще когда он был Rewind Pendant, за 59$, потому с нетерпением жду, чтобы попробовать интегрировать его в дневную рутину. Кроме саммаризации разговоров в нем обещают синхронизации с календарями и почтой. Честно говоря, пока не придумал как это можно будет использовать в течении дня. Пока в голову пришло только делать дневные самари с экспортом в Obsidian (если пользуетесь им, то знаете, что там весьма удобно вести персональные дневники).

Ну а вообще, просто посмотрите видео с презентацией нового Pendant. Улыбке СЕО в конце видео можно только по-доброму позавидовать: https://www.youtube.com/watch?v=lt_WnR_GZqs

#ai
👍13
Когда последний раз вы видели интервью Паши Дурова кому-то? Правильно, примерно никогда. И вот, появилось часовое интервью: https://twitter.com/TuckerCarlson/status/1780355490964283565?t=aH59mC6sxdbCJGxDRXtz1w&s=19

Интервьюер там конечно спорный, тот самый, что делал интервью с молью, восхищался фейковой историей и после долго переобувался. Но прецедент создан, Паша дал это интервью, смотрим.

P.S. Паша или Николай, если вдруг вы это читаете, го сделаем интервью на русскоязычную айтишную аудиторию, а не вот это вот всё, с пиками точёными и беларашами (кстати, дальше Паша мою страну правильно называет 👍)
👍63