📸 YandexART теперь может реставрировать архивные видеозаписи и кинохронику
Этот навык будет полезен для кинокомпаний, музеев, историков и других специалистов, работающих с историческим наследием.
С помощью нейросетевых технологий и компьютерной графики, команды компьютерного зрения Яндекса, Yandex Research и Плюс Студии уже смогли улучшить качество старых видеоматериалов для сериала «Игры» про Олимпиаду-80.
Нейросеть научилась добавлять фактуру и недостающие детали на размытые и нечёткие кадры, такие как кирпичная кладка на стенах, узоры на женском платье, фары и поворотники у автомобилей.
Особое внимание было уделено проблеме галлюцинаций — тенденции генеративных моделей добавлять несуществующие детали. Для её решения применили метод поэтапного обучения на данных низкого качества, что позволило повысить точность реконструкции.
@Devsp — Подписаться
Этот навык будет полезен для кинокомпаний, музеев, историков и других специалистов, работающих с историческим наследием.
С помощью нейросетевых технологий и компьютерной графики, команды компьютерного зрения Яндекса, Yandex Research и Плюс Студии уже смогли улучшить качество старых видеоматериалов для сериала «Игры» про Олимпиаду-80.
Нейросеть научилась добавлять фактуру и недостающие детали на размытые и нечёткие кадры, такие как кирпичная кладка на стенах, узоры на женском платье, фары и поворотники у автомобилей.
Особое внимание было уделено проблеме галлюцинаций — тенденции генеративных моделей добавлять несуществующие детали. Для её решения применили метод поэтапного обучения на данных низкого качества, что позволило повысить точность реконструкции.
@Devsp — Подписаться
🥷Агенты расширенного распространения: структура для эффективного исследования и передачи обучения
Diffusion Augmented Agents (DAAG), новую структуру, которая использует большие языковые модели, модели языка видения и модели диффузии для повышения эффективности выборки и переноса обучения в обучении с подкреплением для воплощенных агентов.
DAAG hindsight перемаркирует прошлый опыт агента, используя модели диффузии для преобразования видео временно и геометрически согласованным образом для согласования с целевыми инструкциями с помощью техники, которую мы называем Hindsight Experience Augmentation.
Большая языковая модель организует этот автономный процесс, не требуя человеческого надзора, что делает его хорошо подходящим для сценариев непрерывного обучения.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Diffusion Augmented Agents (DAAG), новую структуру, которая использует большие языковые модели, модели языка видения и модели диффузии для повышения эффективности выборки и переноса обучения в обучении с подкреплением для воплощенных агентов.
DAAG hindsight перемаркирует прошлый опыт агента, используя модели диффузии для преобразования видео временно и геометрически согласованным образом для согласования с целевыми инструкциями с помощью техники, которую мы называем Hindsight Experience Augmentation.
Большая языковая модель организует этот автономный процесс, не требуя человеческого надзора, что делает его хорошо подходящим для сценариев непрерывного обучения.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
😎Meltemi: первая открытая большая языковая модель для греческого языка
Модель имеет 7 миллиардов параметров и обучается на 40 миллиардах токенов греческого корпуса.
Она содержит актуальную информацию по состоянию на сентябрь 2023 года.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель имеет 7 миллиардов параметров и обучается на 40 миллиардах токенов греческого корпуса.
Она содержит актуальную информацию по состоянию на сентябрь 2023 года.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤔Real AI Семантический Анализатор и решение задачи по извлечению поручений из распорядительных документов
В этой статье мы расскажем о практической задаче – автоматическом заполнении карточек поручений в системе электронного документооборота путем анализа распорядительных документов, а также о нашем подходе к ее решению.
Читать...
В этой статье мы расскажем о практической задаче – автоматическом заполнении карточек поручений в системе электронного документооборота путем анализа распорядительных документов, а также о нашем подходе к ее решению.
Читать...
🖥 Самые интересные статьи за последние дни:
• Наш опыт применения AI-технологий для классификации документов для подачи в суд
• ИИ LLama3 без ограничений: локальный запуск, GROQ и интеграция в Телеграм бота с помощью Python
• Агенты расширенного распространения: структура для эффективного исследования и передачи обучения
• Наш опыт применения AI-технологий для классификации документов для подачи в суд
• ИИ LLama3 без ограничений: локальный запуск, GROQ и интеграция в Телеграм бота с помощью Python
• Агенты расширенного распространения: структура для эффективного исследования и передачи обучения
🥳 TexGen: генерация 3D-текстур на основе текста с многоракурсной выборкой и повторной выборкой
Новая структура выборки и повторной выборки нескольких видов для генерации текстур, использующую предварительно обученную модель диффузии текста в изображение.
Благодаря обширному количеству качественных и количественных оценок метод обеспечивает значительно лучшее качество текстур для разнообразных 3D-объектов с высокой степенью согласованности вида и богатой детализацией внешнего вида, превосходя современные методы.
Кроме того, этот метод генерации текстур может также применяться для редактирования текстур с сохранением исходной идентичности.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Новая структура выборки и повторной выборки нескольких видов для генерации текстур, использующую предварительно обученную модель диффузии текста в изображение.
Благодаря обширному количеству качественных и количественных оценок метод обеспечивает значительно лучшее качество текстур для разнообразных 3D-объектов с высокой степенью согласованности вида и богатой детализацией внешнего вида, превосходя современные методы.
Кроме того, этот метод генерации текстур может также применяться для редактирования текстур с сохранением исходной идентичности.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🚀LLaVA-OneVision: простая визуальная передача задач
LLaVA-OneVision — семейство открытых больших мультимодальных моделей (LMM), разработанных путем консолидации наших идей в области данных, моделей и визуальных представлений в серии блогов LLaVA-NeXT.
Модель, которая может одновременно раздвигать границы производительности открытых LMM в трех важных сценариях компьютерного зрения: сценарии с одним изображением, несколькими изображениями и видео.
Важно отметить, что конструкция LLaVA-OneVision допускает сильный перенос обучения между различными модальностями/сценариями, что дает новые появляющиеся возможности.
В частности, сильное понимание видео и возможности кросс-сценариев демонстрируются посредством переноса задач с изображений на видео.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
LLaVA-OneVision — семейство открытых больших мультимодальных моделей (LMM), разработанных путем консолидации наших идей в области данных, моделей и визуальных представлений в серии блогов LLaVA-NeXT.
Модель, которая может одновременно раздвигать границы производительности открытых LMM в трех важных сценариях компьютерного зрения: сценарии с одним изображением, несколькими изображениями и видео.
Важно отметить, что конструкция LLaVA-OneVision допускает сильный перенос обучения между различными модальностями/сценариями, что дает новые появляющиеся возможности.
В частности, сильное понимание видео и возможности кросс-сценариев демонстрируются посредством переноса задач с изображений на видео.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
⚡️LLM-DetectAIve: инструмент для точного машинного обнаружения текста
Система, разработанная для детального обнаружения MGT.
Она способна классифицировать тексты по четырем категориям: написанные человеком, сгенерированные машиной, написанные машиной-очеловеченные и написанные машиной-отшлифованные.
В отличие от предыдущих детекторов MGT, которые выполняют бинарную классификацию, введение двух дополнительных категорий в LLM-DetectiAIve дает представление о различных степенях вмешательства LLM во время создания текста.
Это может быть полезно в некоторых областях, таких как образование, где любое вмешательство LLM обычно запрещено.
Эксперименты показывают, что LLM-DetectAIve может эффективно определять авторство текстового контента, доказывая его полезность для повышения целостности в образовании, академической среде и других областях.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Система, разработанная для детального обнаружения MGT.
Она способна классифицировать тексты по четырем категориям: написанные человеком, сгенерированные машиной, написанные машиной-очеловеченные и написанные машиной-отшлифованные.
В отличие от предыдущих детекторов MGT, которые выполняют бинарную классификацию, введение двух дополнительных категорий в LLM-DetectiAIve дает представление о различных степенях вмешательства LLM во время создания текста.
Это может быть полезно в некоторых областях, таких как образование, где любое вмешательство LLM обычно запрещено.
Эксперименты показывают, что LLM-DetectAIve может эффективно определять авторство текстового контента, доказывая его полезность для повышения целостности в образовании, академической среде и других областях.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤖Transformer Explainer: Интерактивное обучение текстогенерирующим моделям
Этот инструмент помогает пользователям понять сложные концепции трансформеров, интегрируя обзор модели и обеспечивая плавные переходы между уровнями абстракции математических операций и структур моделей.
Он запускает живой экземпляр GPT-2 локально в браузере пользователя, позволяя пользователям экспериментировать с собственным вводом и наблюдать в реальном времени, как внутренние компоненты и параметры трансформера работают вместе, чтобы предсказывать следующие токены.
Инструмент не требует установки или специального оборудования, расширяя образовательный доступ общественности к современным генеративным методам ИИ.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Этот инструмент помогает пользователям понять сложные концепции трансформеров, интегрируя обзор модели и обеспечивая плавные переходы между уровнями абстракции математических операций и структур моделей.
Он запускает живой экземпляр GPT-2 локально в браузере пользователя, позволяя пользователям экспериментировать с собственным вводом и наблюдать в реальном времени, как внутренние компоненты и параметры трансформера работают вместе, чтобы предсказывать следующие токены.
Инструмент не требует установки или специального оборудования, расширяя образовательный доступ общественности к современным генеративным методам ИИ.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🦙Опенсорс на арене: правда ли так хороша Llama 3.1 405B?
В этой статье мы проведем независимое расследование: сравним возможности Llama 3.1 405B с GPT-4o и Claude 3.5 Sonnet на ряду задач, от программирования до творческого письма, и попробуем понять, насколько она готова к практическому применению.
Читать...
В этой статье мы проведем независимое расследование: сравним возможности Llama 3.1 405B с GPT-4o и Claude 3.5 Sonnet на ряду задач, от программирования до творческого письма, и попробуем понять, насколько она готова к практическому применению.
Читать...
🖥 Самые интересные статьи за последние дни:
• Как мы построили сервис, который поможет сократить поиск видео контента в огромной базе данных
• Опенсорс на арене: правда ли так хороша Llama 3.1 405B?
• Оценка LLM с большим окном контекста
• Как мы построили сервис, который поможет сократить поиск видео контента в огромной базе данных
• Опенсорс на арене: правда ли так хороша Llama 3.1 405B?
• Оценка LLM с большим окном контекста