Forwarded from Santry's Singularity blog
Сравнил восемь image-to-3d нейронок на картинках, сгенерированных в Dall-E.
1. 3d.csm
2. TripoSR
3. CRM
4. GRM
5. mvedit
6. InstantMesh
7. tripo3d
8. dreamgaussian
Условно, эти решения делятся на три группы.
Самые слабые - GRM и dreamgaussian не справляются реконструкцией невидимых на картинке деталей и оставляют сквозные отверстия. Они создают деформированные, непригодные для дальнейшей обработки модели.
У второй категории решений: TripoSR, CRM, mvedit, InstantMesh - наблюдаются сложности с созданием симметричных моделей, мелкие артефакты, например, каверны и искаженные текстуры. Под ними - грязные сетки и сглаженные болванки-обмылки.
3d.csm, tripo3d - лучше создают текстуры, додумывают детали на невидимых частях объекта. Хотя tripo3d умеет в ретопологию, генерациям все еще недостает выраженного рельефа. Большая часть деталей остается на текстуре.
Все модели сгенерированы при настройках по умолчанию. Картинки в высоком разрешении ищите в комментариях. Выводы - в следующем посте.
1. 3d.csm
2. TripoSR
3. CRM
4. GRM
5. mvedit
6. InstantMesh
7. tripo3d
8. dreamgaussian
Условно, эти решения делятся на три группы.
Самые слабые - GRM и dreamgaussian не справляются реконструкцией невидимых на картинке деталей и оставляют сквозные отверстия. Они создают деформированные, непригодные для дальнейшей обработки модели.
У второй категории решений: TripoSR, CRM, mvedit, InstantMesh - наблюдаются сложности с созданием симметричных моделей, мелкие артефакты, например, каверны и искаженные текстуры. Под ними - грязные сетки и сглаженные болванки-обмылки.
3d.csm, tripo3d - лучше создают текстуры, додумывают детали на невидимых частях объекта. Хотя tripo3d умеет в ретопологию, генерациям все еще недостает выраженного рельефа. Большая часть деталей остается на текстуре.
Все модели сгенерированы при настройках по умолчанию. Картинки в высоком разрешении ищите в комментариях. Выводы - в следующем посте.
👍11❤1
Forwarded from Santry's Singularity blog
Пока что технология image-to-3d находится в зачаточном состоянии и напоминает результаты, которые выдавали первые версии stable diffusion. Реконструкции поддаются только сравнительно простые изображения монолитных предметов.
Да, сравнивать 3d.csm, tripo3d с демо на huggingface нечестно, так как это демонстрационные версии коммерческих сервисов, которые используют более сложные пайплайны и генерируют в несколько этапов. Однако сейчас именно они юзабельнее. Более детальные текстуры - заметное преимущество, так как их можно преобразовать в карту высот и перенести часть деталей в меш.
Вряд ли результаты их работы подойдут для нужд 3D-художников, однако уже сейчас они могут быть основой для скульптинга и годятся для распечатки на FDM-принтере.
P.S. Бюст штурмовика создан при помощи Dall-E и tripo3d.
Да, сравнивать 3d.csm, tripo3d с демо на huggingface нечестно, так как это демонстрационные версии коммерческих сервисов, которые используют более сложные пайплайны и генерируют в несколько этапов. Однако сейчас именно они юзабельнее. Более детальные текстуры - заметное преимущество, так как их можно преобразовать в карту высот и перенести часть деталей в меш.
Вряд ли результаты их работы подойдут для нужд 3D-художников, однако уже сейчас они могут быть основой для скульптинга и годятся для распечатки на FDM-принтере.
P.S. Бюст штурмовика создан при помощи Dall-E и tripo3d.
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Streamlining Image Editing with Layered Diffusion Brushes
Послойное создание и редактирование изображений в реальном времени
Код ждем
Демо
#imageediting #image2image #text2image #realtime
Послойное создание и редактирование изображений в реальном времени
Код ждем
Демо
#imageediting #image2image #text2image #realtime
👍19❤2
Forwarded from Кононюковщина
huggingface.co
aeonium/Aeonium-v0-Base-1B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab
HuggingFace
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👀2
Кулстори про мой мастеркласс.
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
👍9🤡1
ConsistentID:Portrait Generation with Multimodal Fine-Grained Identity Preserving
Персонализация портретов по одному образцу
Код
Демо(медленно загружается)
Демо2(похоже, еще недоделан)
#personalization #text2image #image2image #conditioning
Персонализация портретов по одному образцу
Код
Демо(медленно загружается)
Демо2(похоже, еще недоделан)
#personalization #text2image #image2image #conditioning
👍5🔥3
😁7🥴2🤯1