Platinum Benchmarks: когда 100% — это действительно 100% 💯
Спецы MIT проверили надёжность бенчей, которыми оценивают LLM.
Взяли тесты на математику (SingleOp, MMLU, GSM8K), логику, таблицы, рассуждения (Winograd WSC), понимание текста и визуала. И вот что поняли: некоторые датасеты содержат до 75%❗️ ошибочно размеченной инфы.
Как разбирались:
🧹 с помощью специального протокола для очистки данных создали суперточные platinum benchmarks, где до максимума доходят только реально классные модели
👎 выяснилось, что даже топовые LLM вроде Claude 3.5 Sonnet имеют ненулевую ошибку
🎓 Claude плохо округляет большие числа, из-за чего хромает арифметика, а Gemini 1.5 Flash и Pro не шарят в задачах на хронологию
А ведь сейчас бенчмарки важны не меньше моделей. Они помогают систематизировать знания о способностях LLM, так что было бы неплохо видеть реальную картину🧐
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Спецы MIT проверили надёжность бенчей, которыми оценивают LLM.
Взяли тесты на математику (SingleOp, MMLU, GSM8K), логику, таблицы, рассуждения (Winograd WSC), понимание текста и визуала. И вот что поняли: некоторые датасеты содержат до 75%
Как разбирались:
А ведь сейчас бенчмарки важны не меньше моделей. Они помогают систематизировать знания о способностях LLM, так что было бы неплохо видеть реальную картину
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💯3
This media is not supported in your browser
VIEW IN TELEGRAM
Dynabook XR1: видим больше 👍
Очки создали специально для деловых людей. Совмещают реальный мир с полезной инфой прямо перед глазами😎 Можно получать подсказки о туристических местах, инструкции по ремонту и даже расширять рабочий стол компа 👩💻
Что умеют:
🧐 проецировать чёткую картинку 1920x1080 на каждый глаз, причём яркость доходит до 1000 нит благодаря технологии LentinAR PinTILT
📸 встроенная камера на 13 Мп фоткает, а стереодинамики подходят для звонков
😳 сенсоры накладывают цифровые объекты на реальную картинку
Как управлять:
👩❤️💋👨 соединяются USB-C с контроллером dynaEdge C1 XR
▶️ контроллер работает на ARM SoC, управляется через тачпад, кнопки и датчики движения
📞 для связи с телефонами Wi-Fi 6 и Bluetooth 5.2
Цены пока секретные, но, скорее всего, будут стоить как аналогичные NTT QONOQ Mirza XR, тоже на базе LentinAR😵💫
Очки создали специально для деловых людей. Совмещают реальный мир с полезной инфой прямо перед глазами
Что умеют:
Как управлять:
Цены пока секретные, но, скорее всего, будут стоить как аналогичные NTT QONOQ Mirza XR, тоже на базе LentinAR
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3😁1🤔1
Проверь себя: что делает reward-функция в обучении с подкреплением (RL)?
Anonymous Poll
12%
Определяет потери модели и используется для её обучения
84%
Оценивает результат действий агента, выдавая награду или штраф
7%
Управляет поведением агента на основе текущего состояния среды
Proxy Value Propagation: как модели перенимают опыт 😓
Отвечаю на вопрос о reward-функции (опрос см. выше🤘 ). Она оценивает, успешно ли агент выполнил задачу, давая ему позитивные или негативные отзывы. Но теперь придумали, как ещё его научить 🆕
PVP — RL-метод, вместо системы наград использующий прямое обучение от экспертов. Меняют policy-функцию на основе человеческих правок. Так можно обойти несовершенства reward.
Работает так:
🍴 использует два буфера — для автономных действий агента (novice) и исправленных экспертом (human). Когда люди вмешиваются, система помечает их действие как хорошее, а своё — как ошибку 📊
✏️ автоматически переносит правки на похожие ситуации
На типичных задачах RL, включая автономное вождение, PVP точнее повторяет человеческие стратегии, генерализуется даже в новых условиях🌪
Так что разработка довольно перспективная🚗
Изображение University of California, University of Edinburg
Отвечаю на вопрос о reward-функции (опрос см. выше
PVP — RL-метод, вместо системы наград использующий прямое обучение от экспертов. Меняют policy-функцию на основе человеческих правок. Так можно обойти несовершенства reward.
Работает так:
На типичных задачах RL, включая автономное вождение, PVP точнее повторяет человеческие стратегии, генерализуется даже в новых условиях
Так что разработка довольно перспективная
Изображение University of California, University of Edinburg
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Илон Маск объявил, а я проверила
По факту:
А ещё говорят, что сразу после запуска Grok лёг из-за наплыва желающих с ним поговорить. Но у меня всё работает
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🏆3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Mercedes нафаршировал свою новую ”ласточку” кучей AI-опций 🚗
Рассказываю про всё:
☀️ MB.OS. Прошивка, на которой крутится мультимедиасистема MBUX. Способна учиться и адаптироваться к предпочтениям водителя: запоминать маршруты, музыкальные вкусы или даже настройки климата
🚐 машина умеет ездить сама почти как полноценный автопилот (уровень 2++), но водитель пока должен быть начеку
🚗 обновления онлайн: через интернет можно заливать свежие функции для автопилота и другой помощи водителю
📱 Google и Microsoft поделились технологиями (Gemini, Azure и Bing) для голосового ассистента. Разговаривает по-людски и помогает с навигатором или поиском кафе
😓 для ответов и сохранения контекста используют GPT-4o
Вся аналитика и обучение происходят прямо в машине, а не в облаке — личная инфа под защитой🗡
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Рассказываю про всё:
Вся аналитика и обучение происходят прямо в машине, а не в облаке — личная инфа под защитой
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤🔥2👏1
Достижения, рост и связь с человеком
Рассказываю о новых преимуществах AI в повседневной жизни🔡 🔡
1️⃣ Бенч ARC-AGI-2 от ARC Prize проверяет не только умение систем решать задачи, но и их эффективность. В этом модели (даже o3 ☺️ ) пока что не супер и требуют вмешательства людей. ARC-AGI-2 акцентирует внимание на тех моментах, где AI ещё сильно нам уступает.
2️⃣ Microsoft добавил в Copilot двух AI-ассистентов: Researcher проводит сложные исследования, Analyst работает с данными на уровне опытного аналитика 😎 Инструменты появятся у пользователей в апреле.
3️⃣ Апгрейд DeepSeek-V3. Китайцы мощно прокачали скиллы своей "нерассуждающей" модели. Версия 0324 эффективнее справляется с разными задачами, улучшает код и делает сайты ⭐ Китайский текст стал качественнее, поиск — точнее. Плюс добавили удобные штуки для работы с файлами.
4️⃣ На VK вышел инструмент для маркетологов. AI Persona помогает компаниям лучше понимать аудиторию и хорошо продвигаться 🤩 Анализирует разные группы клиентов, находит их уникальные черты и даже сам генерит персонализированные тексты рассылок.
Рассказываю о новых преимуществах AI в повседневной жизни
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
GPT-4o становится полезной для дизайнеров ⭐️
OpenAI выпустили обновление модели для генерации суперточных и реалистичных картинок.
Особенности:
3️⃣ обрабатывает сразу три типа данных: текст, визуал и аудио
❤️ адекватно генерит надписи на картинках
📊 учится прямо в процессе работы
Обещают ещё использование контекста чата. Это когда нейронка анализирует всю вашу беседу, чтобы учитывать и более ранние предпочтения✍️ Ну и доработку загруженных картинок. Генерится всё — от инфографик до сложных сцен с персонажами.
Советуют не просто фанатам нейрохудожников, но и профи — всем, кто занимается дизайном👍
Изображение OpenAI
OpenAI выпустили обновление модели для генерации суперточных и реалистичных картинок.
Особенности:
Обещают ещё использование контекста чата. Это когда нейронка анализирует всю вашу беседу, чтобы учитывать и более ранние предпочтения
Советуют не просто фанатам нейрохудожников, но и профи — всем, кто занимается дизайном
Изображение OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥5
Ой, да ладно! Тот самый код, который произвёл переворот? 😨 Computer History Museum и Google сделали доступной исходную версию кода AlexNet.
Помните, когда впервые начали говорить про глубокое обучение? Именно эта нейронка доказала, что оно эффективно, а компьютер может реально увидеть и распознать объект на картинке с высокой точностью🔥
AlexNet разработали тогда ещё студенты из Университета Торонто (среди которых, кстати, был и Илья Суцкевер🤘 ). Она буквально перевернула представление о способностях AI. Значительно превзошла предыдущие методы компьютерного зрения, хотя на тот момент это казалось фантастикой 🤩 А тут вдруг выяснилось, что такой подход реально работает!
Теперь мы все можем заглянуть в код и изучить истоки. Важный исторический артефакт😍
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Помните, когда впервые начали говорить про глубокое обучение? Именно эта нейронка доказала, что оно эффективно, а компьютер может реально увидеть и распознать объект на картинке с высокой точностью
AlexNet разработали тогда ещё студенты из Университета Торонто (среди которых, кстати, был и Илья Суцкевер
Теперь мы все можем заглянуть в код и изучить истоки. Важный исторический артефакт
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤2👍1
InfiniteYou: твой личный фотомир 📸
Генерим разные истории с собой в главной роли, сохраняя внешность! Новый фреймворк создаёт версии картинок, учитывая черты лица, но с пожеланиями по промпту.
Что делает InfiniteYou особенным:
😍 инструмент качественно сохраняет лицо на всех снимках
🙂 можно задавать условия: добавить фон или изменить позу
🤝 система совместима с различными существующими методами, что даёт простор для творчества
Разрабы предлагают специальную архитектуру InfuseNet, которая встраивает характеристики идентичности в базовую модель DiT.
Тренировали пошагово: предварительное обучение и SFT с использованием синтетического датасета изображений одного человека в нескольких выборках (single-person-multiple-sample)
Пробуем тут.
Генерим разные истории с собой в главной роли, сохраняя внешность! Новый фреймворк создаёт версии картинок, учитывая черты лица, но с пожеланиями по промпту.
Что делает InfiniteYou особенным:
Разрабы предлагают специальную архитектуру InfuseNet, которая встраивает характеристики идентичности в базовую модель DiT.
Тренировали пошагово: предварительное обучение и SFT с использованием синтетического датасета изображений одного человека в нескольких выборках (single-person-multiple-sample)
Пробуем тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5
AI на паузе: изобретение AGI придётся подождать 😔
Согласно отчёту Association for the Advancement of Artificial Intelligence, при нынешних подходах суперсильный AI нам не создать.😔
Поначалу все думали, что технологии превзойдут человеческий мозг за счёт простого масштабирования🧑🎓 Последние годы показали, что оно работает не так хорошо, как ожидалось. Это мнение 76% опрошенных.
Почему:
😭 модели впечатляют, но их прогресс постепенно замедляется. Хотя деньги в разработки вливаются огромные (речь идёт о триллионе долларов), результат пока оставляет желать лучшего
👎 эксперты полагают, что AI-системы далеки от того, чтобы реально заменить людей
🙅♂️ несмотря на шумиху, они продолжают делать ошибки там, где человек справился бы легко
Полную аналитику смотрим тут.
Изображение AAAI
Согласно отчёту Association for the Advancement of Artificial Intelligence, при нынешних подходах суперсильный AI нам не создать.
Поначалу все думали, что технологии превзойдут человеческий мозг за счёт простого масштабирования
Почему:
Полную аналитику смотрим тут.
Изображение AAAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍3
Пиши, выручай: где российские школьники применяют нейросети 🙄
Аналитики из MAXIMUM Education провели опрос. Оказалось, что чаще наши ребята обращаются к AI для подготовки докладов или проверки грамотности❌ Многие предпочитают текстовые нейронки, видео пока не в топе — им пользуется 5%.
Другие результаты:
🏋️♀️ 12% отметили, что нейросети помогают понимать сложные темы
📈 ещё 11% делают ими крутые презентации
👍 10% переводят тексты
Но почти четверть школьников ни разу не пробовали использовать AI. Кто-то не знает, как это делать, а кто-то боится, что будет больше вреда, чем пользы😨
Мнения родителей разделились. Треть поддерживает увлечение детей, столько же против, остальные воздержались. При этом большинство мам и пап хотели бы, чтобы детей обучали работе с нейросетями прямо в школах или вузах👨💻
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Аналитики из MAXIMUM Education провели опрос. Оказалось, что чаще наши ребята обращаются к AI для подготовки докладов или проверки грамотности
Другие результаты:
Но почти четверть школьников ни разу не пробовали использовать AI. Кто-то не знает, как это делать, а кто-то боится, что будет больше вреда, чем пользы
Мнения родителей разделились. Треть поддерживает увлечение детей, столько же против, остальные воздержались. При этом большинство мам и пап хотели бы, чтобы детей обучали работе с нейросетями прямо в школах или вузах
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🤔1
Gemini 2.5 Pro — умная сила для ваших проектов ⏳
Google представили “пробник” Gemini 2.5 Pro. Пока для подписчиков Advanced и разрабов😓
Вот несколько фишек:
😔 улучшенное мышление: модель теперь не просто отвечает, а сначала размышляет над вопросом
🧑🎓 скорость и мощь: превосходит предшественниц на разных тестах, включая математические и научные
🤬 возможность использовать расширенный контекстный объём: окно до 1 млн токенов с планами расширения до 2 млн
👍 крутые навыки кодера: создаёт сложные программные решения
Доступна в приложении и скоро появится в других сервисах Google⏱
Изображение Google
Google представили “пробник” Gemini 2.5 Pro. Пока для подписчиков Advanced и разрабов
Вот несколько фишек:
Доступна в приложении и скоро появится в других сервисах Google
Изображение Google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Hotshot и xAI: вместе против скучных видео 👩❤️💋👨
Маск пошёл по магазинам купил известный стартап, занимающийся разработкой классных AI-видеогенераторов.
За последние пару лет интересная команда Hotshot создала три модели:
1️⃣ Hotshot-XL
2️⃣ Hotshot Act One
3️⃣ просто Hotshot (генерации этой вы видели у меня не раз 🔥)
Ребята планируют масштабироваться дальше уже с xAI, используя их суперкомпьютер Colossus. Ждём новых конкурентов Sora и Veo 2.
Изображение Freepik
Маск пошёл по магазинам купил известный стартап, занимающийся разработкой классных AI-видеогенераторов.
За последние пару лет интересная команда Hotshot создала три модели:
1️⃣ Hotshot-XL
2️⃣ Hotshot Act One
3️⃣ просто Hotshot (генерации этой вы видели у меня не раз 🔥)
Ребята планируют масштабироваться дальше уже с xAI, используя их суперкомпьютер Colossus. Ждём новых конкурентов Sora и Veo 2.
Изображение Freepik
👍5
Искусственный разум и его тайная любовь к себе: preference leakage ❤️
Американцы изучили предвзятость LLM. Явление preference leakage возникает, когда одна и та же модель (или "родня" из одного семейства) и генерит тренировочные данные, и оценивает перформанс. Результаты порой необъективны 🚨
Основные выводы:
🔠 анализ на Arena-Hard и AlpaceEval 2.0 подтвердил наличие байеса. Чем ближе LLM связаны, тем сильнее проявляется эффект
❗️ сам механизм не изучен. Модели не могут статистически значимо определить, чьи это ответы — их собственные или их учеников
Надо разбираться 👨🎓
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Американцы изучили предвзятость LLM. Явление preference leakage возникает, когда одна и та же модель (или "родня" из одного семейства) и генерит тренировочные данные, и оценивает перформанс. Результаты порой необъективны 🚨
Основные выводы:
🔠 анализ на Arena-Hard и AlpaceEval 2.0 подтвердил наличие байеса. Чем ближе LLM связаны, тем сильнее проявляется эффект
❗️ сам механизм не изучен. Модели не могут статистически значимо определить, чьи это ответы — их собственные или их учеников
Надо разбираться 👨🎓
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
👍6🤔1
GRAPE: секрет идеальной настройки 🤹
Учёные из Фуданя и Университета Иллинойса в Урбане-Шампейне предлагают новую вариацию SFT. Суть: распределение тренировочных данных выравнивается с pre-trained распределением модели🔤
Работа проходит в два этапа:
💬 из разных LLM и датасетов собираются качественные ответы на инструкции
💻 второй шаг — особенная фишка именно GRAPE: данные кастомизируются под конкретную модель. Выбираются наиболее согласующиеся с ней результаты. Плюс оценка вероятности, присвоенная каждому ответу
Проверяли на UltraInteract-SFT, который специализируется по CoT. Модели брали разные (Mistral-7B, Qwen2.5-7B и прочие). Данные, отобранные для файнтюнинга GRAPE, улучшили перформанс на 13,7% даже в сравнении с SoTA-моделями для генерации тренировочных материалов⛏
Изображение UltraPixel
Учёные из Фуданя и Университета Иллинойса в Урбане-Шампейне предлагают новую вариацию SFT. Суть: распределение тренировочных данных выравнивается с pre-trained распределением модели
Работа проходит в два этапа:
Проверяли на UltraInteract-SFT, который специализируется по CoT. Модели брали разные (Mistral-7B, Qwen2.5-7B и прочие). Данные, отобранные для файнтюнинга GRAPE, улучшили перформанс на 13,7% даже в сравнении с SoTA-моделями для генерации тренировочных материалов
Изображение UltraPixel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🏆1
Тестила SkyReels V1, анонсированную чуть ли не как киногенератор. Получилось что-то вроде “обещания и реальность” 🤪
Реалистичность в целом вопросов не вызывает: люди действительно похожи на людей, хотя и не без ошибок. Но понимание промпта надо подтягивать🔤
Что разочаровало:
✍️ нейронка предлагает разбить сложный промпт на отдельные сцены. Цель — бОльшая плавность и связанность, красота и прочие детали (первый слайд)
🧐 на практике SkyReels забывает, что ей нужно было сделать, и генерит нечто отдельное (второй слайд). За имитацию монтажа спасибо, конечно, но персонажа могла бы и оставить 🤓
Хотела превратить средневековую даму в современную девушку💃
Результаты SkyReels предъявляю на ваш суд, а для сравнения — волшебный Minimax, который справился не в пример лучше😶
Реалистичность в целом вопросов не вызывает: люди действительно похожи на людей, хотя и не без ошибок. Но понимание промпта надо подтягивать
Что разочаровало:
Хотела превратить средневековую даму в современную девушку
Результаты SkyReels предъявляю на ваш суд, а для сравнения — волшебный Minimax, который справился не в пример лучше
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🤔2