This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😅 LanDiff – гибридный видеогенератор из LLM и Диффузии
Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.
Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.
Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.
Черрипики выше — судите сами. Помните, что это всего 5B параметров.
Project page
Пейпер
👉 Новости 👉 База вопросов
Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.
Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.
Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.
Черрипики выше — судите сами. Помните, что это всего 5B параметров.
Project page
Пейпер
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 Thera: Aliasing-Free Arbitrary-Scale Super-Resolution with Neural Heat Fields
Новая SOTA для апскейлинга изображений, в которой используются нейронные тепловые поля (Neural Heat Fields) для произвольного масштабирования изображений без наложения спектров.
Основная идея заключается в том, что вместо обычного подхода, где каждый пиксель обрабатывается отдельно, этот метод учитывает влияние соседних пикселей. Это позволяет избежать искажений и сохранить плавность изображения при увеличении.
Предложенный метод достигает нового уровня качества в задаче arbitrary-scale super-resolution, оставаясь при этом существенно более параметрически эффективным по сравнению с предыдущими решениями.
🔵 Универсальность: Возможность масштабирования с практически любым разрешением делает инструмент гибким для различных задач в компьютерном зрении и обработке изображений.
🔵 Простота интеграции: Доступны чекпоинты, понятная документация и готовые скрипты для суперразрешения позволяют легко внедрить инструмент в проекты.
🟠 Статья: arxiv.org/abs/2311.17643
🟠 Github: github.com/prs-eth/thera
🟠 Demo: https://huggingface.co/spaces/prs-eth/thera
👉 Новости 👉 База вопросов
Новая SOTA для апскейлинга изображений, в которой используются нейронные тепловые поля (Neural Heat Fields) для произвольного масштабирования изображений без наложения спектров.
Основная идея заключается в том, что вместо обычного подхода, где каждый пиксель обрабатывается отдельно, этот метод учитывает влияние соседних пикселей. Это позволяет избежать искажений и сохранить плавность изображения при увеличении.
Предложенный метод достигает нового уровня качества в задаче arbitrary-scale super-resolution, оставаясь при этом существенно более параметрически эффективным по сравнению с предыдущими решениями.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🤓 Смартфоны с искусственным интеллектом уже на подходе. Это только начало.
Все крупные компании последуют этому примеру - это следующий большой тренд. Как мы знаем, OpenAI уже давно занимается разработкой такого устройства с помощью бывшего главного дизайнера Apple Джони Айва.
В будущем появятся устройства, на которых не будет приложений и которые будут полностью управляться голосом.
На видео анонс первого телефона с искусственным интеллектом от perplexity.
👉 Новости 👉 База вопросов
Все крупные компании последуют этому примеру - это следующий большой тренд. Как мы знаем, OpenAI уже давно занимается разработкой такого устройства с помощью бывшего главного дизайнера Apple Джони Айва.
В будущем появятся устройства, на которых не будет приложений и которые будут полностью управляться голосом.
На видео анонс первого телефона с искусственным интеллектом от perplexity.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Что такое сериализация данных и как TensorFlow обрабатывает это с помощью TFRecords?
Сериализация данных - это процесс преобразования структуры данных в формат, удобный для хранения и передачи. TensorFlow использует формат TFRecord, который позволяет эффективно хранить и читать данные, разбивая их на бинарные строки и поддерживая различные типы данных.
👉 Новости 👉 Платформа
Сериализация данных - это процесс преобразования структуры данных в формат, удобный для хранения и передачи. TensorFlow использует формат TFRecord, который позволяет эффективно хранить и читать данные, разбивая их на бинарные строки и поддерживая различные типы данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😊 Mistral Small обновили
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
👉 Новости 👉 База вопросов
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 NarratoAI
Инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!
Гитхаб
👉 Новости 👉 База вопросов
Инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как TensorFlow Lite позволяет выполнять машинное обучение на мобильных устройствах?
TensorFlow Lite оптимизирует обученные модели для использования на мобильных устройствах, снижая размер модели и увеличивая скорость выполнения. Он использует конвертер для преобразования моделей и поддерживает аппаратное ускорение, чтобы обеспечить низкую задержку и эффективное использование ресурсов.
👉 Новости 👉 Платформа
TensorFlow Lite оптимизирует обученные модели для использования на мобильных устройствах, снижая размер модели и увеличивая скорость выполнения. Он использует конвертер для преобразования моделей и поддерживает аппаратное ускорение, чтобы обеспечить низкую задержку и эффективное использование ресурсов.
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥺 Blackwell Ultra — новые GPU от Nvidia
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
👉 Новости 👉 База вопросов
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 TrajectoryCrafter (Moving-Camera Diffusion) — свежий инструмент от Tencent, который предлагает новый подход к перенаправлению траекторий камеры в монохромных видео.
Как работает модель:
🚩 Инициализация:
начинается с существующей траектории движения камеры или даже с чистого шума. Так задаётся исходное состояние, которое модель будет постепенно улучшать.
Модель использует одновременно два типа входных данных – рендеры точечных облаков (3D-представления сцен) и исходные видео.
🚩 Диффузионный процесс:
Модель обучается шаг за шагом «очищать» случайный шум, превращая его в последовательность траекторий. На каждом шаге происходит итеративное уточнение — модель предсказывает, как должна выглядеть более реалистичная траектория, исходя из заданных условий (например, плавности движения, и согласованности сцены).
Вместо того чтобы использовать только видео снятые с разных ракурсов, авторы создали обучающий набор, комбинируя обширные монокулярные видео (с обычной камерой) с ограниченными, но качественными многоплановыми видео. Такую стратегию достигается с помощью назвали - «двойная репроекция», она помогает модели лучше адаптироваться к различным сценам.
🚩 Генерация итоговой траектории:
После серии итераций, когда шум устранен, генерируется новая траектория камеры, которая соответствует заданным условиям и обладает высоким качеством визуальной динамики.
Установка:
🟠 Github
🟠 Статья
🟠 Проект
🟠 Demo
🟠 Video
👉 Новости 👉 База вопросов
Как работает модель:
начинается с существующей траектории движения камеры или даже с чистого шума. Так задаётся исходное состояние, которое модель будет постепенно улучшать.
Модель использует одновременно два типа входных данных – рендеры точечных облаков (3D-представления сцен) и исходные видео.
Модель обучается шаг за шагом «очищать» случайный шум, превращая его в последовательность траекторий. На каждом шаге происходит итеративное уточнение — модель предсказывает, как должна выглядеть более реалистичная траектория, исходя из заданных условий (например, плавности движения, и согласованности сцены).
Вместо того чтобы использовать только видео снятые с разных ракурсов, авторы создали обучающий набор, комбинируя обширные монокулярные видео (с обычной камерой) с ограниченными, но качественными многоплановыми видео. Такую стратегию достигается с помощью назвали - «двойная репроекция», она помогает модели лучше адаптироваться к различным сценам.
После серии итераций, когда шум устранен, генерируется новая траектория камеры, которая соответствует заданным условиям и обладает высоким качеством визуальной динамики.
Установка:
git clone --recursive https://github.com/TrajectoryCrafter/TrajectoryCrafter.git
cd TrajectoryCrafterPlease open Telegram to view this post
VIEW IN TELEGRAM
#новости
❤️🔥 Mistral Small 3.1
Mistral недавно выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0
Модель превосходит аналогичные модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость инференса 150 токенов в секунду.
Это новая версия компактной языковой модели от Mistral.ai, разработанная для обеспечения высокой производительности при минимальных вычислительных затратах.
🟧 Оптимизированная архитектура: Улучшения в конструкции модели позволяют снизить задержки инференса и повысить точность генерации, что особенно важно для приложений в реальном времени. Mistral Small 3.1 может работать на одном RTX 4090 или Mac с 32 ГБ оперативной памяти.
🟧 Эффективное использование ресурсов: Благодаря сниженным вычислительным требованиям, модель идеально подходит для работы на устройствах с ограниченными ресурсами — от мобильных телефонов до облачных серверов.
🟧 Широкий спектр применения: Mistral Small 3.1 сохраняет баланс между компактностью и качеством, что делает её универсальным инструментом для задач обработки естественного языка: от чат-ботов и виртуальных помощников до систем анализа текстов.
🟧 Стабильность и надёжность: Новая версия демонстрирует улучшенную устойчивость и предсказуемость работы, что помогает разработчикам создавать более качественные и надежные приложения.
🟠 HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
🟠 Post: https://mistral.ai/news/mistral-small-3-1/
👉 Новости 👉 База вопросов
Mistral недавно выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0
Модель превосходит аналогичные модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость инференса 150 токенов в секунду.
Это новая версия компактной языковой модели от Mistral.ai, разработанная для обеспечения высокой производительности при минимальных вычислительных затратах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Что такое TensorFlow Estimator и какие его преимущества по сравнению с AP| tf.Session ()?
TensorFlow Estimator - это высокоуровневый АРІ, который упрощает создание и обучение моделей в TensorFlow. Он автоматизирует такие задачи, как управление сессиями, сохранение контрольных точек и обработку ошибок. Преимущества по сравнению с
👉 Новости 👉 Платформа
TensorFlow Estimator - это высокоуровневый АРІ, который упрощает создание и обучение моделей в TensorFlow. Он автоматизирует такие задачи, как управление сессиями, сохранение контрольных точек и обработку ошибок. Преимущества по сравнению с
tf.Session() включают меньшее количество кода для создания сложных моделей, поддержку распределенных вычислений, автоматическое сохранение контрольных точек и возможность упрощенной обработки данных.Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Pika тизерят очередную фичу: v2v.
На сей раз это что-то очень похожее на то, что делает наш MovieGen. Закидываешь в нейронку свой видос, текстом задаёшь, какие изменения или эффекты хочешь увидеть, и на выходе получаешь ролик с VFX. . Выглядит прикольно, но на практике наверняка будут вылезать артефакты. У Pika модели всё же послабее, чем у текущих лидеров — Kling и Luma, не говоря уже про Veo 2. Но для каких-нибудь приколов пойдет.
Мне нравится вектор развития Pika. Они уже зарелизили кучу прикольных инструментов, которые пока никто не повторил. Они, кажется, первыми придумали пресеты с нейроэффектами и ввели видеоэффекты типа Pikaditions, позволяющие вставлять в ролики новых персонажей или предметы просто по картинке. Пока им остаётся подтянуть качество базовой модели — и получится по-настоящему мощный продукт.
👉 Новости 👉 База вопросов
На сей раз это что-то очень похожее на то, что делает наш MovieGen. Закидываешь в нейронку свой видос, текстом задаёшь, какие изменения или эффекты хочешь увидеть, и на выходе получаешь ролик с VFX. . Выглядит прикольно, но на практике наверняка будут вылезать артефакты. У Pika модели всё же послабее, чем у текущих лидеров — Kling и Luma, не говоря уже про Veo 2. Но для каких-нибудь приколов пойдет.
Мне нравится вектор развития Pika. Они уже зарелизили кучу прикольных инструментов, которые пока никто не повторил. Они, кажется, первыми придумали пресеты с нейроэффектами и ввели видеоэффекты типа Pikaditions, позволяющие вставлять в ролики новых персонажей или предметы просто по картинке. Пока им остаётся подтянуть качество базовой модели — и получится по-настоящему мощный продукт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😵 Свежее видео с роботами, выполняющими настоящие клинические работы.
Для этого гуманоидного робота
UnitreeRobotics G1 была разработана компексная система двуручного управления, включающая в себя систему отслеживание позы, продвинутые настройки захвата движений и контроллер для безопасного и точного манипулирования медицинскими инструментами.
Робот тестируется для семи различных медицинских процедур, включая физические осмотры, экстренные вмешательства, точные задачи, требующие мелкой моторики и др.
На видео робот управляется оператором дистанционно, автономность это следующий этап развития!
В будущем у каждого будет свой личный врач💉
👉 Новости 👉 База вопросов
Для этого гуманоидного робота
UnitreeRobotics G1 была разработана компексная система двуручного управления, включающая в себя систему отслеживание позы, продвинутые настройки захвата движений и контроллер для безопасного и точного манипулирования медицинскими инструментами.
Робот тестируется для семи различных медицинских процедур, включая физические осмотры, экстренные вмешательства, точные задачи, требующие мелкой моторики и др.
На видео робот управляется оператором дистанционно, автономность это следующий этап развития!
В будущем у каждого будет свой личный врач
Please open Telegram to view this post
VIEW IN TELEGRAM
Свежий эксперимент показал, что LLM обрабатывают язык почти как человеческий мозг. Ученые записали нейронную активность людей во время разговора и сравнили с эмбеддингами Whisper.
Исследование объемное, собрали для вас самое важное:
Это удивительно, ведь мозг, по идее, работает по правилам, а нейросети просто предсказывают следующий токен. Но оказывается, такой статистический подход очень похож на реальную работу нашего мозга.
Фул исследование тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM