Кулстори про мой мастеркласс.
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
👍9🤡1
ConsistentID:Portrait Generation with Multimodal Fine-Grained Identity Preserving
Персонализация портретов по одному образцу
Код
Демо(медленно загружается)
Демо2(похоже, еще недоделан)
#personalization #text2image #image2image #conditioning
Персонализация портретов по одному образцу
Код
Демо(медленно загружается)
Демо2(похоже, еще недоделан)
#personalization #text2image #image2image #conditioning
👍5🔥3
😁7🥴2🤯1
ImageInWords: Unlocking Hyper-Detailed Image Denoscriptions
Инструмент для гипердетального описания изображений от Google/Deepmind. Есть демоспейс для просмотра датасетов и гитхаб, но нет кода и свое изображение на пробу загрузить некуда.
Потенциальная польза - датасеты применят для обучения генераторов и кэпшонеров. Ну а вдруг и кодом поделятся
Гитхаб
Просмотр датасета
Скачать датасет
#image2text
Инструмент для гипердетального описания изображений от Google/Deepmind. Есть демоспейс для просмотра датасетов и гитхаб, но нет кода и свое изображение на пробу загрузить некуда.
Потенциальная польза - датасеты применят для обучения генераторов и кэпшонеров. Ну а вдруг и кодом поделятся
Гитхаб
Просмотр датасета
Скачать датасет
#image2text
👍5
DeepSeek-V2
Давно не было новостей для кодеров. Держите.
Обновился Deepseek coder
- Занимает 3-е место в рейтинге AlignBench, превосходя GPT-4 и приближаясь к GPT-4 Turbo.
- Занимает первое место в рейтинге MT-Bench, конкурируя с LLaMA3-70B и превосходя Mixtral 8x22B.
- Специализируется на математике, коде и логических выводах.
- контекстное окно: 128 К (модель с открытым исходным кодом) / 32 К (онлайн-сервис)
Обещают после подтверждения номера телефона дать 5млн бесплатных токенов на платформе
Попробовать в режиме чата
Модель (для владельцев 100500 GB VRAM)
#coding #llm #chatbot #assistant
Давно не было новостей для кодеров. Держите.
Обновился Deepseek coder
- Занимает 3-е место в рейтинге AlignBench, превосходя GPT-4 и приближаясь к GPT-4 Turbo.
- Занимает первое место в рейтинге MT-Bench, конкурируя с LLaMA3-70B и превосходя Mixtral 8x22B.
- Специализируется на математике, коде и логических выводах.
- контекстное окно: 128 К (модель с открытым исходным кодом) / 32 К (онлайн-сервис)
Обещают после подтверждения номера телефона дать 5млн бесплатных токенов на платформе
Попробовать в режиме чата
Модель (для владельцев 100500 GB VRAM)
#coding #llm #chatbot #assistant
Deepseek
DeepSeek Platform
Join DeepSeek API platform to access our AI models, developer resources and API documentation.
❤5
Salient Object-Aware Background Generation using Text-Guided Diffusion Models
Инпейнтинг с сохранением границ объекта от Yahoo. Суть проблемы видна на картинке. Обычный SD инпейнтинг что-то дорисовывает к объекту который должен остаться неизменным
Код
#inpainting #image2image
Инпейнтинг с сохранением границ объекта от Yahoo. Суть проблемы видна на картинке. Обычный SD инпейнтинг что-то дорисовывает к объекту который должен остаться неизменным
Код
#inpainting #image2image
❤5🔥1😁1
Forwarded from Нейросети и Блендер
This media is not supported in your browser
VIEW IN TELEGRAM
im-a-good-gpt2-chatbot появился в сравнительной части chat.lmsys.org chat.lmsys.org — сейчас арена для теста лучших LLM, и арт вроде должен быть далеко от этого. Но я недавно узнал у Сиолошной про
im-a-good-gpt2-chatbot, говорят это проделки OpenAI.В общем я решил использовать старые промпты для P5JS (Помните был такой Генарт? Когда с помощью кода создают красоту)
И
im-a-good-gpt2-chatbot показал невероятное понимание как создать, анимировать и даже визуализировать объекты. В моем случае я попросил создать симуляцию столкновения двух нейтронных звезд и примерно рассчитать масштаб черной дыры и визуально показать ее. Очень хорошо видеть в сравнение со второй рандомной(Qwen и gemini-1.5-pro-api-0409-preview) моделью, как im-a-good-gpt2-chatbot превосходит другие модели и выдает рабочий, сложный код. Пока я прошу перевести код в Blender API(
что он тоже прекрасно делает) поглядите на симуляцию столкновения двух нейтронных звезд одинакового размера. А Денис успел раньше игру запилить.
P.S. Модель хорошо сгенерировала noscript вариант текстового сторис для инсты и даже запилила полноценный код с использования controlnet и кастомных моделей в diffusers. Это очень мощно.
👍8
IC-Light
Новая полезная тулза от автора Controlnet, Fooocus, Forge!
Релайтинг изображений, вписывание объекта в фон по свету. При том, что модель не обучалась на нормалях, она выдает нормали качественнее чем Geowizard и Switchlight (судя по примерам на гитхабе)
Код
Демо
#relighting #image2image
Новая полезная тулза от автора Controlnet, Fooocus, Forge!
Релайтинг изображений, вписывание объекта в фон по свету. При том, что модель не обучалась на нормалях, она выдает нормали качественнее чем Geowizard и Switchlight (судя по примерам на гитхабе)
Код
Демо
#relighting #image2image
🔥21👍1
Опубликован код 3DGStream. Рефакторизованный код выложат после CVPR 2024
Код
#novelveiw #rendering #stabilization #video2video #video2scene #FVV
Код
#novelveiw #rendering #stabilization #video2video #video2scene #FVV
Telegram
Нейронавт | Нейросети в творчестве
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
На входе мультикамерное видео, на выходе - видео с любого ракурса. Конкурент HyperReel и 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering…
На входе мультикамерное видео, на выходе - видео с любого ракурса. Конкурент HyperReel и 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering…
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians
И снова динамические гауссианы. "Высокоточная" генерация динамических 3D объектов по тексту, изображению или видео. О как.
Код
#novelveiw #rendering #videoto3D #imageto3D #textto3D
И снова динамические гауссианы. "Высокоточная" генерация динамических 3D объектов по тексту, изображению или видео. О как.
Код
#novelveiw #rendering #videoto3D #imageto3D #textto3D
👍3❤1
Нейронавт | Нейросети в творчестве
IC-Light Новая полезная тулза от автора Controlnet, Fooocus, Forge! Релайтинг изображений, вписывание объекта в фон по свету. При том, что модель не обучалась на нормалях, она выдает нормали качественнее чем Geowizard и Switchlight (судя по примерам на гитхабе)…
GitHub
GitHub - lllyasviel/IC-Light: More relighting!
More relighting! Contribute to lllyasviel/IC-Light development by creating an account on GitHub.
👍6🔥3