🚀 Docling: Мощный инструмент для анализа и преобразования документов 🚀
Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡
Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI
https://github.com/DS4SD/docling
Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡
Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI
https://github.com/DS4SD/docling
GitHub
GitHub - docling-project/docling: Get your documents ready for gen AI
Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.
🔥4
Forwarded from Derp Learning
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
👍1
Instructor: Самая популярная библиотека для структурированных выводов LLM
Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!
🚀 Основные возможности
* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI
https://github.com/instructor-ai/instructor
Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!
🚀 Основные возможности
* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI
https://github.com/instructor-ai/instructor
🔥3
Media is too big
VIEW IN TELEGRAM
🎥 X-Portrait 2 от ByteDance: анимация статичных изображений с высокой точностью
Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.
Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.
Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.
🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)
Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.
Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.
Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.
🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)
👍2🔥1
Forwarded from Machinelearning
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
Forwarded from Machinelearning
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Stable Diffusion 3.5 Prompt Guide: создание лучших промптов
Stability AI опубликовала детальное руководство по работе с Stable Diffusion 3.5, которое поможет генерировать более качественные изображения с минимальными усилиями. ✍️
Что внутри:
- Основы создания промптов: как правильно формулировать запросы.
- Примеры для разных стилей: от реализма до сюрреализма.
- Рекомендации по использованию negative prompts для устранения нежелательных элементов.
- Особенности 3.5-версии: улучшенная обработка текстовых описаний и деталей.
- Советы для настройки параметров, таких как
🔗 [Stable Diffusion 3.5 Prompt Guide](https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide?utm_medium)
Stability AI опубликовала детальное руководство по работе с Stable Diffusion 3.5, которое поможет генерировать более качественные изображения с минимальными усилиями. ✍️
Что внутри:
- Основы создания промптов: как правильно формулировать запросы.
- Примеры для разных стилей: от реализма до сюрреализма.
- Рекомендации по использованию negative prompts для устранения нежелательных элементов.
- Особенности 3.5-версии: улучшенная обработка текстовых описаний и деталей.
- Советы для настройки параметров, таких как
CFG Scale, Steps и других. 🔗 [Stable Diffusion 3.5 Prompt Guide](https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide?utm_medium)
Stability AI
Stable Diffusion 3.5 Prompt Guide — Stability AI
This guide offers practical prompting tips for Stable Diffusion 3.5, allowing you to refine image concepts quickly and precisely.
👍3
💡 RAG-Diffusion: Трансформация текста и изображений в сложные сцены
### 🔑 Ключевые особенности
- Референсная генерация: Использует изображения и текстовые подсказки для формирования визуально и концептуально согласованных сцен.
- Фрагментарная композиция: Позволяет указывать различные компоненты сцены отдельно, используя несколько текстовых описаний.
- Точные детали: Высокое качество генерации даже при сложных сценах благодаря кросс-энкодеру для мультимодальной фьюзии.
### 🖥️ Применение
- Генерация контента для фильмов, игр и AR/VR-среды.
- Прототипирование сложных визуальных сценариев для дизайнеров.
- Использование в мультимодальных поисковых системах.
🔗 [GitHub](https://github.com/NJU-PCALab/RAG-Diffusion)
### 🔑 Ключевые особенности
- Референсная генерация: Использует изображения и текстовые подсказки для формирования визуально и концептуально согласованных сцен.
- Фрагментарная композиция: Позволяет указывать различные компоненты сцены отдельно, используя несколько текстовых описаний.
- Точные детали: Высокое качество генерации даже при сложных сценах благодаря кросс-энкодеру для мультимодальной фьюзии.
### 🖥️ Применение
- Генерация контента для фильмов, игр и AR/VR-среды.
- Прототипирование сложных визуальных сценариев для дизайнеров.
- Использование в мультимодальных поисковых системах.
🔗 [GitHub](https://github.com/NJU-PCALab/RAG-Diffusion)
👍3❤1
⚡ FLUX: расширение инструментов для генерации и редактирования изображений ⚡
Black Forest Labs представили
### 🚀 Состав набора:
- FLUX.1 Fill
Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой точностью.
- FLUX.1 Depth и FLUX.1 Canny
Модули ControlNet для управления глубиной и контурами изображений. Доступны в формате LoRA для легковесной и удобной интеграции.
- FLUX.1 Redux
IP-адаптер, обеспечивающий управление стилем и деталями изображения. Полезен для гибкой кастомизации результатов генерации.
🔗 [Подробнее о FLUX](https://blackforestlabs.ai/flux-1-tools/)
🔗 [Репозиторий на GitHub](https://github.com/black-forest-labs/flux)
Black Forest Labs представили
### 🚀 Состав набора:
- FLUX.1 Fill
Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой точностью.
- FLUX.1 Depth и FLUX.1 Canny
Модули ControlNet для управления глубиной и контурами изображений. Доступны в формате LoRA для легковесной и удобной интеграции.
- FLUX.1 Redux
IP-адаптер, обеспечивающий управление стилем и деталями изображения. Полезен для гибкой кастомизации результатов генерации.
🔗 [Подробнее о FLUX](https://blackforestlabs.ai/flux-1-tools/)
🔗 [Репозиторий на GitHub](https://github.com/black-forest-labs/flux)
Generative Ai
⚡ FLUX: расширение инструментов для генерации и редактирования изображений ⚡ Black Forest Labs представили ### 🚀 Состав набора: - FLUX.1 Fill Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой…
💡 ComfyUI: моментальная поддержка FLUX-инструментов 💡
Команда ComfyUI уже внедрила обновления! Теперь пользователи ComfyUI могут легко интегрировать FLUX.1 Fill, Depth, Canny и Redux для улучшения своих рабочих процессов.
### 🔑 Что нового?
- Поддержка FLUX.1 Fill
Расширение возможностей inpainting и outpainting для точного редактирования изображений прямо в интерфейсе ComfyUI.
- Контур и глубина (Depth/Canny)
Используйте FLUX.1 Depth и FLUX.1 Canny для работы с глубинными картами и контурами. Полная интеграция модулей ControlNet позволяет работать с этими инструментами на лету.
- IP-адаптер (FLUX.1 Redux)
Новый уровень контроля стиля и детализации изображения теперь доступен прямо в ComfyUI.
### 🛠️ Преимущества интеграции:
- Удобная настройка инструментов через графический интерфейс ComfyUI.
- Полная поддержка LoRA для глубины и контуров.
- Быстрый старт без необходимости сложной настройки.
С этим обновлением ComfyUI становится еще мощнее для профессиональной генерации изображений!
🔗 [Подробнее о поддержке FLUX в ComfyUI](https://blog.comfy.org/day-1-support-for-flux-tools-in-comfyui/)
Команда ComfyUI уже внедрила обновления! Теперь пользователи ComfyUI могут легко интегрировать FLUX.1 Fill, Depth, Canny и Redux для улучшения своих рабочих процессов.
### 🔑 Что нового?
- Поддержка FLUX.1 Fill
Расширение возможностей inpainting и outpainting для точного редактирования изображений прямо в интерфейсе ComfyUI.
- Контур и глубина (Depth/Canny)
Используйте FLUX.1 Depth и FLUX.1 Canny для работы с глубинными картами и контурами. Полная интеграция модулей ControlNet позволяет работать с этими инструментами на лету.
- IP-адаптер (FLUX.1 Redux)
Новый уровень контроля стиля и детализации изображения теперь доступен прямо в ComfyUI.
### 🛠️ Преимущества интеграции:
- Удобная настройка инструментов через графический интерфейс ComfyUI.
- Полная поддержка LoRA для глубины и контуров.
- Быстрый старт без необходимости сложной настройки.
С этим обновлением ComfyUI становится еще мощнее для профессиональной генерации изображений!
🔗 [Подробнее о поддержке FLUX в ComfyUI](https://blog.comfy.org/day-1-support-for-flux-tools-in-comfyui/)
blog.comfy.org
Day 1 Support for Flux Tools in ComfyUI
We’re thrilled to share that ComfyUI now supports 3 series of new models from Black Forest Labs designed for Flux.1: the Redux Adapter, Fill Model, ControlNet Models & LoRAs (Depth and Canny).
🔥2
🚀 Sana: новая модель для генерации 4K-изображений от NVIDIA 🚀
Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.
### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.
- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.
- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.
### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.
🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)
Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.
### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.
- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.
- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.
### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.
🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)
❤3👎1
🔉 Crisper Whisperer: новая версия Whisper с акцентом на сверхточную транскрипцию речи 🎙️
Crisper Whisperer — это обновлённая модель на базе Whisper Large-V2, оптимизированная для максимальной точности автоматического распознавания речи (ASR). Она выделяется способностью фиксировать даже мельчайшие детали произнесённого текста: вводные слова, паузы, заикания и эмоциональные нюансы.
📌 Особенности
- 🏆 Точность на уровне лидеров рынка: входит в топ открытого ASR-лидерборда Hugging Face.
- 💬 Подробная транскрипция: передаёт все звуковые детали речи, вплоть до междометий.
- 🔧 Фокус на real-world применениях: идеально для задач, где нужна 100% передача смысла (медицина, стенография, юридические записи).
- 📈 Оптимизация под практическое использование: снижены ресурсоёмкость и увеличена стабильность.
🔗 [Модель и чекпоинты](https://huggingface.co/nyrahealth/CrisperWhisper)
🔗 [ASR-лидерборд](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)
Crisper Whisperer — это обновлённая модель на базе Whisper Large-V2, оптимизированная для максимальной точности автоматического распознавания речи (ASR). Она выделяется способностью фиксировать даже мельчайшие детали произнесённого текста: вводные слова, паузы, заикания и эмоциональные нюансы.
📌 Особенности
- 🏆 Точность на уровне лидеров рынка: входит в топ открытого ASR-лидерборда Hugging Face.
- 💬 Подробная транскрипция: передаёт все звуковые детали речи, вплоть до междометий.
- 🔧 Фокус на real-world применениях: идеально для задач, где нужна 100% передача смысла (медицина, стенография, юридические записи).
- 📈 Оптимизация под практическое использование: снижены ресурсоёмкость и увеличена стабильность.
🔗 [Модель и чекпоинты](https://huggingface.co/nyrahealth/CrisperWhisper)
🔗 [ASR-лидерборд](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)
huggingface.co
nyrahealth/CrisperWhisper · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥5👎1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 LTX Video: генерация видео
Lightricks представили LTX Video (LTXV) — open-source модель для генерации видео, работающую быстрее воспроизведения. В основе технологии — энкодер с коэффициентом сжатия 1:192, обеспечивающий высокую согласованность движения.
### 🔑 Основные характеристики:
- 5 секунд видео (121 кадр, 768x512) за 2.5 секунды (20 шагов диффузии на H100).
- Компактная модель (2B параметров): отличные результаты без массивных архитектур.
- Оптимизация для GPU/TPU с PyTorch XLA.
- Эффективная работа на потребительских GPU (например, RTX 4090).
### 📌 Ресурсы:
- [GitHub](https://github.com/Lightricks/LTX-Video)
- [Hugging Face](https://huggingface.co/Lightricks/LTX-Video)
- [ComfyUI Nodes](https://github.com/Lightricks/ComfyUI-LTXVideo)
- [Playground](https://huggingface.co/spaces/Lightricks/LTX-Video-Playground)
🔗 [Подробнее на сайте Lightricks](https://www.lightricks.com/ltxv)
Lightricks представили LTX Video (LTXV) — open-source модель для генерации видео, работающую быстрее воспроизведения. В основе технологии — энкодер с коэффициентом сжатия 1:192, обеспечивающий высокую согласованность движения.
### 🔑 Основные характеристики:
- 5 секунд видео (121 кадр, 768x512) за 2.5 секунды (20 шагов диффузии на H100).
- Компактная модель (2B параметров): отличные результаты без массивных архитектур.
- Оптимизация для GPU/TPU с PyTorch XLA.
- Эффективная работа на потребительских GPU (например, RTX 4090).
### 📌 Ресурсы:
- [GitHub](https://github.com/Lightricks/LTX-Video)
- [Hugging Face](https://huggingface.co/Lightricks/LTX-Video)
- [ComfyUI Nodes](https://github.com/Lightricks/ComfyUI-LTXVideo)
- [Playground](https://huggingface.co/spaces/Lightricks/LTX-Video-Playground)
🔗 [Подробнее на сайте Lightricks](https://www.lightricks.com/ltxv)
🔥4👍1
Andrew Ng представил библиотеку aisuite для работы с LLM
aisuite — новая open-source Python-библиотека, упрощающая интеграцию с различными провайдерами LLM (Large Language Models). Теперь вы можете переключаться между моделями разных поставщиков, просто изменяя одну строку.
Ключевые возможности
- Единый интерфейс: Упрощает работу с моделями OpenAI (`openai:gpt-4o`), Anthropic (`anthropic:claude-3-5-sonnet`), Ollama (`ollama:llama3.1:8b`) и другими.
- Гибкость: Быстрая замена модели через строковый идентификатор.
- Легкий старт: Установка одной командой:
https://github.com/andrewyng/aisuite
aisuite — новая open-source Python-библиотека, упрощающая интеграцию с различными провайдерами LLM (Large Language Models). Теперь вы можете переключаться между моделями разных поставщиков, просто изменяя одну строку.
Ключевые возможности
- Единый интерфейс: Упрощает работу с моделями OpenAI (`openai:gpt-4o`), Anthropic (`anthropic:claude-3-5-sonnet`), Ollama (`ollama:llama3.1:8b`) и другими.
- Гибкость: Быстрая замена модели через строковый идентификатор.
- Легкий старт: Установка одной командой:
pip install aisuite
https://github.com/andrewyng/aisuite
GitHub
GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers
Simple, unified interface to multiple Generative AI providers - GitHub - andrewyng/aisuite: Simple, unified interface to multiple Generative AI providers
👍2
🤖 Anthropic предлагает новый способ интеграции данных с AI-чатботами
Компания Anthropic представила метод подключения внешних данных к AI-чатботам, таких как Claude, с упором на приватность и контроль. Эта система позволяет чатботу извлекать данные из подключенных источников (например, корпоративных баз данных или облачных систем), минимизируя риск утечек.
### 🚀 Основные особенности:
- Локальный доступ к данным: данные остаются на стороне пользователя и предоставляются AI только по запросу, что повышает безопасность.
- Гибкая настройка доступа: можно регулировать, какие данные доступны и в каких пределах.
- Обновление информации в реальном времени: чатботы могут работать с актуальными данными, предоставляя пользователям контекстуальные и точные ответы.
- Применение в бизнесе: подходит для автоматизации процессов, поддержки клиентов и работы с конфиденциальной информацией.
Anthropic делает акцент на этичном использовании AI, избегая рисков, связанных с централизованным хранением пользовательских данных.
🔗 [Читать на TechCrunch](https://techcrunch.com/2024/11/25/anthropic-proposes-a-way-to-connect-data-to-ai-chatbots/)
Компания Anthropic представила метод подключения внешних данных к AI-чатботам, таких как Claude, с упором на приватность и контроль. Эта система позволяет чатботу извлекать данные из подключенных источников (например, корпоративных баз данных или облачных систем), минимизируя риск утечек.
### 🚀 Основные особенности:
- Локальный доступ к данным: данные остаются на стороне пользователя и предоставляются AI только по запросу, что повышает безопасность.
- Гибкая настройка доступа: можно регулировать, какие данные доступны и в каких пределах.
- Обновление информации в реальном времени: чатботы могут работать с актуальными данными, предоставляя пользователям контекстуальные и точные ответы.
- Применение в бизнесе: подходит для автоматизации процессов, поддержки клиентов и работы с конфиденциальной информацией.
Anthropic делает акцент на этичном использовании AI, избегая рисков, связанных с централизованным хранением пользовательских данных.
🔗 [Читать на TechCrunch](https://techcrunch.com/2024/11/25/anthropic-proposes-a-way-to-connect-data-to-ai-chatbots/)
TechCrunch
Anthropic proposes a new way to connect data to AI chatbots | TechCrunch
Anthropic is proposing a new standard for connecting AI assistants to the systems where data lives, called Model Context Protocol (MCP).
🎙️ OuteTTS-0.2-500M: обновление TTS-модели с улучшенным клонированием голоса
OuteTTS-0.2-500M — новая версия модели синтеза речи, основанная на Qwen-2.5-0.5B. Обучена на улучшенных датасетах (Emilia-Dataset, LibriTTS-R, Multilingual LibriSpeech) с поддержкой контекста до 4096 токенов (~54 секунды звука).
### Что нового?
🟢 Точность: Более согласованное следование промптам.
🟢 Натуральность: Ещё более естественная и плавная речь.
🟢 Словарь: Тренировка на 5+ млрд аудио-токенов.
🟢 Клонирование голоса: Точность и вариативность улучшены.
🟢 Многоязычность: Поддержка китайского, японского и корейского языков (экспериментально).
https://www.outeai.com/blog/outetts-0.2-500m
https://huggingface.co/OuteAI/OuteTTS-0.2-500M
OuteTTS-0.2-500M — новая версия модели синтеза речи, основанная на Qwen-2.5-0.5B. Обучена на улучшенных датасетах (Emilia-Dataset, LibriTTS-R, Multilingual LibriSpeech) с поддержкой контекста до 4096 токенов (~54 секунды звука).
### Что нового?
🟢 Точность: Более согласованное следование промптам.
🟢 Натуральность: Ещё более естественная и плавная речь.
🟢 Словарь: Тренировка на 5+ млрд аудио-токенов.
🟢 Клонирование голоса: Точность и вариативность улучшены.
🟢 Многоязычность: Поддержка китайского, японского и корейского языков (экспериментально).
https://www.outeai.com/blog/outetts-0.2-500m
https://huggingface.co/OuteAI/OuteTTS-0.2-500M
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent
Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.
Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.
По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.
Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.
В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.
Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.
Статья занятная, стоит прочитать в деталях.
Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.
Демка (нужен китайский номер)
Веса
Пейпер
@ai_newz
Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.
Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.
По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.
Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.
В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.
Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.
Статья занятная, стоит прочитать в деталях.
Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.
Демка (нужен китайский номер)
Веса
Пейпер
@ai_newz
🔥3
Forwarded from Machinelearning
PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.
Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.
PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.
Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.
⚠️ PydanticAI находится на ранней стадии бета-тестирования.
# Install via PyPI
pip install pydantic-ai
# Set Gemini API key
export GEMINI_API_KEY=your-api-key
# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #Framework #PydanticAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
Forwarded from Machinelearning
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
@ai_machinelearning_big_data
#AI #ML #TTS #FIshSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤1👍1
🎥 Sora: Новая текст-видео AI-модель от OpenAI
OpenAI объявила о запуске Sora — передовой модели для генерации видео по текстовым подсказкам.
### Ключевые особенности Sora
- 📝 Преобразование текста в видео: Модель принимает текстовые описания и генерирует короткие видео с реалистичными и стилизованными визуальными эффектами.
- 🎨 Широкий спектр стилей: Возможность выбора между реалистичными видео, мультяшными стилями и другими творческими визуальными решениями.
- 🔄 Стабильность последовательностей: Алгоритмы оптимизированы для сохранения плавности и логической согласованности движения объектов на видео.
- 🚀 Высокая скорость генерации: Ускоренные вычисления позволяют получать результаты быстрее по сравнению с предыдущими текст-видео моделями.
- 🛠️ Модульная интеграция: Sora легко встраивается в креативные процессы или корпоративные пайплайны благодаря API и гибким настройкам.
### Технологические новшества
Sora использует диффузионные модели нового поколения, которые объединяют высокую скорость генерации с улучшенной визуальной точностью. Для временной стабильности и детализации движения применяются специальные алгоритмы сглаживания динамики.
### Доступ и ограничения
- 🔑 Требуется учетная запись OpenAI: Доступ предоставляется через официальный интерфейс OpenAI (API или веб-платформа).
- 💵 Платный доступ: Модель предполагает коммерческую модель монетизации с оплатой за использование API. Детали тарифов уточняются.
- 🌍 Ограничения по регионам: Sora доступна только в странах, где OpenAI предоставляет свои сервисы.
### Этические рамки
- ⚠️ Контроль контента: Генерация запрещена для создания материалов, нарушающих законы, включая дезинформацию, вредоносный или неприемлемый контент.
- 🔍 Модерация: OpenAI внедрила строгие механизмы модерации, чтобы предотвращать злоупотребления моделью.
- 📜 Соответствие политике: Пользователи обязаны соблюдать политику использования, опубликованную на сайте OpenAI.
### Ограничения по генерации
- 🖼️ Максимальная длина видео: На начальном этапе Sora поддерживает короткие видео (до 30 секунд).
### Использование в бизнесе
Для корпоративных клиентов доступны дополнительные функции:
- 🛠️ Гибкая настройка: Адаптация модели под задачи компании.
- 📑 Лицензионные соглашения: Возможна покупка лицензии на использование модели в крупных проектах.
### Применение
Модель подходит для:
- Создания анимаций и рекламных роликов.
- Образовательных видео и презентаций.
- Прототипирования игровых сцен.
- Генерации контента для социальных сетей и платформ.
https://sora.com/
OpenAI объявила о запуске Sora — передовой модели для генерации видео по текстовым подсказкам.
### Ключевые особенности Sora
- 📝 Преобразование текста в видео: Модель принимает текстовые описания и генерирует короткие видео с реалистичными и стилизованными визуальными эффектами.
- 🎨 Широкий спектр стилей: Возможность выбора между реалистичными видео, мультяшными стилями и другими творческими визуальными решениями.
- 🔄 Стабильность последовательностей: Алгоритмы оптимизированы для сохранения плавности и логической согласованности движения объектов на видео.
- 🚀 Высокая скорость генерации: Ускоренные вычисления позволяют получать результаты быстрее по сравнению с предыдущими текст-видео моделями.
- 🛠️ Модульная интеграция: Sora легко встраивается в креативные процессы или корпоративные пайплайны благодаря API и гибким настройкам.
### Технологические новшества
Sora использует диффузионные модели нового поколения, которые объединяют высокую скорость генерации с улучшенной визуальной точностью. Для временной стабильности и детализации движения применяются специальные алгоритмы сглаживания динамики.
### Доступ и ограничения
- 🔑 Требуется учетная запись OpenAI: Доступ предоставляется через официальный интерфейс OpenAI (API или веб-платформа).
- 💵 Платный доступ: Модель предполагает коммерческую модель монетизации с оплатой за использование API. Детали тарифов уточняются.
- 🌍 Ограничения по регионам: Sora доступна только в странах, где OpenAI предоставляет свои сервисы.
### Этические рамки
- ⚠️ Контроль контента: Генерация запрещена для создания материалов, нарушающих законы, включая дезинформацию, вредоносный или неприемлемый контент.
- 🔍 Модерация: OpenAI внедрила строгие механизмы модерации, чтобы предотвращать злоупотребления моделью.
- 📜 Соответствие политике: Пользователи обязаны соблюдать политику использования, опубликованную на сайте OpenAI.
### Ограничения по генерации
- 🖼️ Максимальная длина видео: На начальном этапе Sora поддерживает короткие видео (до 30 секунд).
### Использование в бизнесе
Для корпоративных клиентов доступны дополнительные функции:
- 🛠️ Гибкая настройка: Адаптация модели под задачи компании.
- 📑 Лицензионные соглашения: Возможна покупка лицензии на использование модели в крупных проектах.
### Применение
Модель подходит для:
- Создания анимаций и рекламных роликов.
- Образовательных видео и презентаций.
- Прототипирования игровых сцен.
- Генерации контента для социальных сетей и платформ.
https://sora.com/
Sora
Transform text and images into immersive videos. Animate stories, visualize ideas, and bring your concepts to life.