Hotshot и xAI: вместе против скучных видео 👩❤️💋👨
Маск пошёл по магазинам купил известный стартап, занимающийся разработкой классных AI-видеогенераторов.
За последние пару лет интересная команда Hotshot создала три модели:
1️⃣ Hotshot-XL
2️⃣ Hotshot Act One
3️⃣ просто Hotshot (генерации этой вы видели у меня не раз 🔥)
Ребята планируют масштабироваться дальше уже с xAI, используя их суперкомпьютер Colossus. Ждём новых конкурентов Sora и Veo 2.
Изображение Freepik
Маск пошёл по магазинам купил известный стартап, занимающийся разработкой классных AI-видеогенераторов.
За последние пару лет интересная команда Hotshot создала три модели:
1️⃣ Hotshot-XL
2️⃣ Hotshot Act One
3️⃣ просто Hotshot (генерации этой вы видели у меня не раз 🔥)
Ребята планируют масштабироваться дальше уже с xAI, используя их суперкомпьютер Colossus. Ждём новых конкурентов Sora и Veo 2.
Изображение Freepik
👍5
Искусственный разум и его тайная любовь к себе: preference leakage ❤️
Американцы изучили предвзятость LLM. Явление preference leakage возникает, когда одна и та же модель (или "родня" из одного семейства) и генерит тренировочные данные, и оценивает перформанс. Результаты порой необъективны 🚨
Основные выводы:
🔠 анализ на Arena-Hard и AlpaceEval 2.0 подтвердил наличие байеса. Чем ближе LLM связаны, тем сильнее проявляется эффект
❗️ сам механизм не изучен. Модели не могут статистически значимо определить, чьи это ответы — их собственные или их учеников
Надо разбираться 👨🎓
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Американцы изучили предвзятость LLM. Явление preference leakage возникает, когда одна и та же модель (или "родня" из одного семейства) и генерит тренировочные данные, и оценивает перформанс. Результаты порой необъективны 🚨
Основные выводы:
🔠 анализ на Arena-Hard и AlpaceEval 2.0 подтвердил наличие байеса. Чем ближе LLM связаны, тем сильнее проявляется эффект
❗️ сам механизм не изучен. Модели не могут статистически значимо определить, чьи это ответы — их собственные или их учеников
Надо разбираться 👨🎓
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
👍6🤔1
GRAPE: секрет идеальной настройки 🤹
Учёные из Фуданя и Университета Иллинойса в Урбане-Шампейне предлагают новую вариацию SFT. Суть: распределение тренировочных данных выравнивается с pre-trained распределением модели🔤
Работа проходит в два этапа:
💬 из разных LLM и датасетов собираются качественные ответы на инструкции
💻 второй шаг — особенная фишка именно GRAPE: данные кастомизируются под конкретную модель. Выбираются наиболее согласующиеся с ней результаты. Плюс оценка вероятности, присвоенная каждому ответу
Проверяли на UltraInteract-SFT, который специализируется по CoT. Модели брали разные (Mistral-7B, Qwen2.5-7B и прочие). Данные, отобранные для файнтюнинга GRAPE, улучшили перформанс на 13,7% даже в сравнении с SoTA-моделями для генерации тренировочных материалов⛏
Изображение UltraPixel
Учёные из Фуданя и Университета Иллинойса в Урбане-Шампейне предлагают новую вариацию SFT. Суть: распределение тренировочных данных выравнивается с pre-trained распределением модели
Работа проходит в два этапа:
Проверяли на UltraInteract-SFT, который специализируется по CoT. Модели брали разные (Mistral-7B, Qwen2.5-7B и прочие). Данные, отобранные для файнтюнинга GRAPE, улучшили перформанс на 13,7% даже в сравнении с SoTA-моделями для генерации тренировочных материалов
Изображение UltraPixel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🏆1
Тестила SkyReels V1, анонсированную чуть ли не как киногенератор. Получилось что-то вроде “обещания и реальность” 🤪
Реалистичность в целом вопросов не вызывает: люди действительно похожи на людей, хотя и не без ошибок. Но понимание промпта надо подтягивать🔤
Что разочаровало:
✍️ нейронка предлагает разбить сложный промпт на отдельные сцены. Цель — бОльшая плавность и связанность, красота и прочие детали (первый слайд)
🧐 на практике SkyReels забывает, что ей нужно было сделать, и генерит нечто отдельное (второй слайд). За имитацию монтажа спасибо, конечно, но персонажа могла бы и оставить 🤓
Хотела превратить средневековую даму в современную девушку💃
Результаты SkyReels предъявляю на ваш суд, а для сравнения — волшебный Minimax, который справился не в пример лучше😶
Реалистичность в целом вопросов не вызывает: люди действительно похожи на людей, хотя и не без ошибок. Но понимание промпта надо подтягивать
Что разочаровало:
Хотела превратить средневековую даму в современную девушку
Результаты SkyReels предъявляю на ваш суд, а для сравнения — волшебный Minimax, который справился не в пример лучше
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🤔2
🤖📉 Как запятые и артикли влияют на ИИ?
Новые открытия в работе языковых моделей!
Оказывается, знаки препинания и стоп-слова не так уж и просты, как кажется! 🧩 Исследователи из AIRI доказали: их удаление снижает точность языковых моделей на 20%! Как?
🔍 Что обнаружили:
1️⃣ Стоп-слова и пунктуация хранят ключевую информацию о контексте — это выяснилось, когда ИИ пытался восстановить «урезанный» текст.
2️⃣ Популярные модели (вроде GPT) ошибались чаще, если в задании не было «лишних» символов.
3️⃣ Даже технические задания для ИИ теряют ясность без артиклей и запятых — как если бы мы писали #всёслитно 😱
Почему это важно?
🚨 Вывод: «незначительные» элементы — основа понимания! Упрощая запросы, мы заставляем ИИ «гадать», а не анализировать.
📎 Для тех, кто хочет глубже разобраться: код исследования доступен здесь.
💬 А вы замечали, как запятая меняет смысл?
Новые открытия в работе языковых моделей!
Оказывается, знаки препинания и стоп-слова не так уж и просты, как кажется! 🧩 Исследователи из AIRI доказали: их удаление снижает точность языковых моделей на 20%! Как?
🔍 Что обнаружили:
1️⃣ Стоп-слова и пунктуация хранят ключевую информацию о контексте — это выяснилось, когда ИИ пытался восстановить «урезанный» текст.
2️⃣ Популярные модели (вроде GPT) ошибались чаще, если в задании не было «лишних» символов.
3️⃣ Даже технические задания для ИИ теряют ясность без артиклей и запятых — как если бы мы писали #всёслитно 😱
Почему это важно?
🚨 Вывод: «незначительные» элементы — основа понимания! Упрощая запросы, мы заставляем ИИ «гадать», а не анализировать.
📎 Для тех, кто хочет глубже разобраться: код исследования доступен здесь.
💬 А вы замечали, как запятая меняет смысл?
👍11🤔5
Fashion future: нейросеть на подиуме 💅
Рассказываю, что было:
В ЦДМ на Лубянке представили коллекцию одежды, созданную в коллаборации с AI🛍
Нейросеть Kandinsky в творческом тандеме с продюсерским центром «Грани» сгенерировала образы, а также разработала сценографию🎶
В результате получился первый в России модный показ, где AI выступил не просто инструментом, а полноправным соавтором🤝
Рассказываю, что было:
В ЦДМ на Лубянке представили коллекцию одежды, созданную в коллаборации с AI
Нейросеть Kandinsky в творческом тандеме с продюсерским центром «Грани» сгенерировала образы, а также разработала сценографию
В результате получился первый в России модный показ, где AI выступил не просто инструментом, а полноправным соавтором
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6
Не смогла пройти мимо. Сегодня у коллег из AIRI праздник❤️
За 4 года ребята опубликовали 600+ статей, выступили на 400 конференциях и провели почти 200 мероприятий на тему искусственного интеллекта
Желаю коллегам ещё больше вдохновения для новых исследований и прорывных открытий. С днём рождения!🎉
🥰 Аж захотелось пересмотреть выступление Ивана Оселедца на AI Journey 2024
За 4 года ребята опубликовали 600+ статей, выступили на 400 конференциях и провели почти 200 мероприятий на тему искусственного интеллекта
Желаю коллегам ещё больше вдохновения для новых исследований и прорывных открытий. С днём рождения!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Институт AIRI
4 года назад появился Институт AIRI ❤️
За это время мы объединили сильнейших исследователей в области искусственного интеллекта, опубликовали сотни научных статей и провели десятки семинаров. По традиции делимся карточками с итогами работы Института за 4…
За это время мы объединили сильнейших исследователей в области искусственного интеллекта, опубликовали сотни научных статей и провели десятки семинаров. По традиции делимся карточками с итогами работы Института за 4…
❤7
Наконец-то выпустили альфу новой модели, но есть нюансы. Доступ всё так же по подписке от $10.
Что нового:
📸 подтянули реалистичность: люди и предметы почти как фото
Отдельно выделю персонализацию:
И режим для набросков Draft Mode:
🎙 можно использовать голосовой ввод — просто описывай концепт и получай картинку
Минусы:
Разработчики обещают частые апдейты в ближайшие 2 месяца. Ждём
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤1
Представили целую коллекцию опенсорс-моделей: Scout, Maverick и Behemoth из линейки Llama 4.
Что нового:
1️⃣ Scout — модель с 17B активных параметров и 16 экспертами (всего 109B параметров), умеет обрабатывать огромные документы (до 10 млн токенов — примерно 5 000 страниц текста) и отлично справляется с суммаризацией текстов и анализом больших кодовых баз
2️⃣ Maverick — модель для рутинных задач с 17B активных параметров и 128 экспертами — в общей сложности 400B параметров. Превосходит GPT-4o в написании текстов и Gemini 2.0 в кодинге и мультиязычных задачах. Правда, до GPT-4.5 и Gemini 2.5 Pro пока не дотягивает
3️⃣ Behemoth — модель с 288B активных параметров, 16 экспертами и почти 2T общих параметров. Протестировать её пока нельзя, но по внутренним бенчмаркам она уже лучше GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Pro в STEM-задачах, например в математике
Что интересного:
Meta* заявляет, что новые модели стали «менее чувствительны» и теперь реже отказываются отвечать на запросы — модель не даст ответа меньше, чем в 1% случаев. Осталось это проверить
* экстремистская организация, деятельность которой запрещена на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4🤔3❤2
🕵️♂️ Copilot Search от Microsoft посоревнуется с AI-поисковиками
Bing, поисковая система от Microsoft, занимает менее 4% от рынка. Но в компании не оставляют надежд привлечь пользователей, поэтому внедрили AI-поиск. Copilot Search объединяет преимущества традиционного поиска и генеративного поиска на основе искусственного интеллекта.
📌 Особенности:
➡️ находит информацию из нескольких источников и даёт на них ссылки
➡️ поиск в стиле разговора — сервис способен вести диалог, как чат-бот
➡️ за ответом Copilot cледует обычная поисковая выдача
Избирательность AI в выборе ссылок, по мнению Microsoft, должна подтолкнуть авторов создавать достоверный и качественный контент.
Компания не раскрыла подробностей о том, как работает эта функция. Так как Copilot раньше использовал модели от OpenAI, возможно, «под капотом» нового поисковика скрывается собственная модель.
👀 Оценить работу поисковика можно по видео, а попробовать бесплатно — здесь (нужен VPN)
Bing, поисковая система от Microsoft, занимает менее 4% от рынка. Но в компании не оставляют надежд привлечь пользователей, поэтому внедрили AI-поиск. Copilot Search объединяет преимущества традиционного поиска и генеративного поиска на основе искусственного интеллекта.
📌 Особенности:
➡️ находит информацию из нескольких источников и даёт на них ссылки
➡️ поиск в стиле разговора — сервис способен вести диалог, как чат-бот
➡️ за ответом Copilot cледует обычная поисковая выдача
Избирательность AI в выборе ссылок, по мнению Microsoft, должна подтолкнуть авторов создавать достоверный и качественный контент.
Компания не раскрыла подробностей о том, как работает эта функция. Так как Copilot раньше использовал модели от OpenAI, возможно, «под капотом» нового поисковика скрывается собственная модель.
👀 Оценить работу поисковика можно по видео, а попробовать бесплатно — здесь (нужен VPN)
👍6🔥4❤3
🧠🎮 Quake II вернулся благодаря AI
Ты можешь бегать, прыгать, стрелять и даже находить секретки — только вот ты играешь не в сам Quake II, а в его симуляцию внутри нейросети🤯
🔄 Microsoft выложила демо своей модели WHAMM (World and Human Action MaskGIT Model). Она создана на базе Muse — семейства моделей от Microsoft, которые обучаются симулировать поведение игрового мира, исходя из действий геймера
⚡️ Новая версия куда шустрее предшественницы: 10 кадров в секунду против одного и удвоенное разрешение (640×360 вместо 300×180). Дело в архитектуре. WHAMM генерирует токены не последовательно, а параллельно, что позволяет взаимодействовать с ней в реальном времени
🧑💻 На обучение ушла неделя игры профи-тестеров. Прошлой версии на это потребовалось аж семь лет геймплея. Зато всё как в настоящем Quake II, но с нюансами. Враги порой размыты, здоровье хаотично, а если долго смотреть в небо, то можно телепортироваться. Есть и забавные глюки: в этой симуляции ты можешь буквально закрыть глаза, отвернуться — и враг исчезнет (хотели бы такое в реальной жизни?). Причина — в узком контекстном окне в 0,9 секунд (9 кадров по 10fps), модель просто забывает, что было секунду назад. Поиграть можно тут
🤖 Возможно, на наших глазах зарождается новый жанр самосоздающихся игр, где будут сталкиваться реальные и AI-игроки
Ты можешь бегать, прыгать, стрелять и даже находить секретки — только вот ты играешь не в сам Quake II, а в его симуляцию внутри нейросети
🤖 Возможно, на наших глазах зарождается новый жанр самосоздающихся игр, где будут сталкиваться реальные и AI-игроки
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤🔥3
AI рвется в будущее🔜
Собрала для вас главные достижения AI, которые привлекли мое внимание за прошедшую неделю⚠️
Видео и графика:
1️⃣ Вышло обновление для Runway Gen-4. Нейросеть точно воссоздаёт сцены и персонажей из изображений и промптов, редко галлюцинирует, а видео по качеству не уступает киносъёмке 👀 Запоминает стили, объекты и героев для повторного использования. Есть редактирование по сценам 🚀
2️⃣ Спустя год зарелизили Midjourney V7 — детализация сумасшедшая, но не всё так гладко, как хотелось бы. Этой обнове я посвятила отдельный пост ⚠️
3️⃣ ChatGPT теперь умеет редактировать и создавать изображения высокого качества. Надписи читабельны, артефактов нет, руки с нужным количеством пальцев и, конечно же, прогремевшая на весь интернет стилизация под мультики студии Ghibli 👏
Ассистенты и мультимодальные решения:
4️⃣ С китайской нейросетью Qwen теперь можно общаться в формате голосового и видеочата. Она понимает текст, картинки, звук и видео, запоминает фразы и ведёт диалог на достойном уровне. Правда, пока только на китайском и английском 🆒
5️⃣ Microsoft апгрейднула Copilot до полноценного AI-агента. Теперь пользоваться им можно на всех платформах — Windows, Android, iOS и в браузере 😮 Copilot научился бронировать отели, писать письма и искать товары по лучшим ценам. Про внедрение Copilot Search в поисковик Bing рассказала в посте
6️⃣ Anthropic выпустила Claude for Education на базе версии 3.7 — новую версию чат-бота для образовательных учреждений. Ассистент не даёт готовые ответы, а подталкивает студентов искать решение через диалог. Сейчас его тестируют в нескольких зарубежных университетах ✏️
Языковые модели:
7️⃣ Обновился Deep Research от Google — теперь на базе Gemini 2.5 Pro. Модель обходит ChatGPT в аналитике: копает глубже, аргументирует точнее, формулирует лучше. Последняя версия доступна бесплатно в AI Studio 🆓
8️⃣ Meta* представила LLaMa 4. У Scout, самой маленькой модели в линейке, память на 10 млн токенов. Это как если бы AI держал в голове сразу несколько толстенных энциклопедий 🔥 У флагмана Mavrick — 1 млн, но он мощнее. Младшие модели уже обгоняют GPT-4o в тестах
9️⃣ Grok — AI от Илона Маска — теперь в Telegram, модель доступна премиум-пользователям. Сам Маск утверждает, что она умнее конкурентов. Но есть нюанс: в мессенджере урезан функционал, нет поиска в интернете и бот иногда подлагивает ⚡️
Изображение Recraft
*экстремистская организация, деятельность которой запрещена на территории РФ
Собрала для вас главные достижения AI, которые привлекли мое внимание за прошедшую неделю⚠️
Видео и графика:
1️⃣ Вышло обновление для Runway Gen-4. Нейросеть точно воссоздаёт сцены и персонажей из изображений и промптов, редко галлюцинирует, а видео по качеству не уступает киносъёмке 👀 Запоминает стили, объекты и героев для повторного использования. Есть редактирование по сценам 🚀
2️⃣ Спустя год зарелизили Midjourney V7 — детализация сумасшедшая, но не всё так гладко, как хотелось бы. Этой обнове я посвятила отдельный пост ⚠️
3️⃣ ChatGPT теперь умеет редактировать и создавать изображения высокого качества. Надписи читабельны, артефактов нет, руки с нужным количеством пальцев и, конечно же, прогремевшая на весь интернет стилизация под мультики студии Ghibli 👏
Ассистенты и мультимодальные решения:
4️⃣ С китайской нейросетью Qwen теперь можно общаться в формате голосового и видеочата. Она понимает текст, картинки, звук и видео, запоминает фразы и ведёт диалог на достойном уровне. Правда, пока только на китайском и английском 🆒
5️⃣ Microsoft апгрейднула Copilot до полноценного AI-агента. Теперь пользоваться им можно на всех платформах — Windows, Android, iOS и в браузере 😮 Copilot научился бронировать отели, писать письма и искать товары по лучшим ценам. Про внедрение Copilot Search в поисковик Bing рассказала в посте
6️⃣ Anthropic выпустила Claude for Education на базе версии 3.7 — новую версию чат-бота для образовательных учреждений. Ассистент не даёт готовые ответы, а подталкивает студентов искать решение через диалог. Сейчас его тестируют в нескольких зарубежных университетах ✏️
Языковые модели:
7️⃣ Обновился Deep Research от Google — теперь на базе Gemini 2.5 Pro. Модель обходит ChatGPT в аналитике: копает глубже, аргументирует точнее, формулирует лучше. Последняя версия доступна бесплатно в AI Studio 🆓
8️⃣ Meta* представила LLaMa 4. У Scout, самой маленькой модели в линейке, память на 10 млн токенов. Это как если бы AI держал в голове сразу несколько толстенных энциклопедий 🔥 У флагмана Mavrick — 1 млн, но он мощнее. Младшие модели уже обгоняют GPT-4o в тестах
9️⃣ Grok — AI от Илона Маска — теперь в Telegram, модель доступна премиум-пользователям. Сам Маск утверждает, что она умнее конкурентов. Но есть нюанс: в мессенджере урезан функционал, нет поиска в интернете и бот иногда подлагивает ⚡️
Изображение Recraft
*экстремистская организация, деятельность которой запрещена на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4🔥1
GigaChat обновляется — версия 2.0 🔔
Sber выпустил новую версию GigaChat 2.0 — нейросеть доступна бесплатно в веб-версии по входу через Сбер ID, в новом мессенджере MAX от VK и в Telegram-боте
Что добавили:
🧑💻 актуальная информация: ответы со ссылками на источники
🆗 анализ ссылок: читает веб-страницы, изучает PDF-документы и изображения
🎶 анализ аудиофайлов и аудиосообщений: отвечает на вопросы по содержанию, промпты теперь можно отправлять голосом
🆒 подтянули обработку документов: можно загружать сразу несколько файлов, поддерживает до 200 страниц A4, лучше понимает контекст
✏️ улучшена работа с изображениями: даёт более точные ответы по содержанию, считывает текст и формулы
➕ GigaChat 2.0 теперь интегрирован в колонки от Sber — система стала умнее, понимает в 10 раз больше контекста и отвечает естественнее
💬 Звучит впечатляюще! Пробуем свежие фичи в деле 👀
Изображение GigaChat 2.0
Sber выпустил новую версию GigaChat 2.0 — нейросеть доступна бесплатно в веб-версии по входу через Сбер ID, в новом мессенджере MAX от VK и в Telegram-боте
Что добавили:
Изображение GigaChat 2.0
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8😁2