Ресерчеры из Беркли опенсорснули Sky-T1-32B-Preview. Это ризонинг моделька, которую можно обучить локально всего за 450 долларов
При этом по бенчмаркам модель достаточно хороша: на AIME, Math500 и LiveCodeBench выбивает даже больше, чем o1-preview. В данных почти одна синтетика, которую генерировали с помощью QwQ и обрабатывали с помощью o1-mini. Базовая модель – Qwen2.5-32B-Instruct.
Все подробные инструкции по тому, как обучить модельку локально, есть в блогпосте и на гитхабе. При этом стоить это будет всего 450 долларов (против миллионов долларов на о1 и десятков тысяч даже на самые дешевые аналоги), и понадобится только 19 часов на восьми H100 (подъемно почти для любого бизнеса).
Скорость прогресса иногда просто шокирует
Блогпост | Веса | Репа | Датасет
При этом по бенчмаркам модель достаточно хороша: на AIME, Math500 и LiveCodeBench выбивает даже больше, чем o1-preview. В данных почти одна синтетика, которую генерировали с помощью QwQ и обрабатывали с помощью o1-mini. Базовая модель – Qwen2.5-32B-Instruct.
Все подробные инструкции по тому, как обучить модельку локально, есть в блогпосте и на гитхабе. При этом стоить это будет всего 450 долларов (против миллионов долларов на о1 и десятков тысяч даже на самые дешевые аналоги), и понадобится только 19 часов на восьми H100 (подъемно почти для любого бизнеса).
Скорость прогресса иногда просто шокирует
Блогпост | Веса | Репа | Датасет
🔥100👍34😁9❤4🤯1
Все: ИИ – это дорого!
Цукерберг: планирует до конца года заменить модельками инженеров с шестизначными зарплатами
Ладно, на самом деле он не говорил, что планирует заменять. Сказал только "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код". Читайте между строк.
На секундочку, по данным сайтов трекинга зарплат, сейчас миддлы в Meta получают сотни тысяч долларов. Представьте, сколько таких работает у Марка💀
Цукерберг: планирует до конца года заменить модельками инженеров с шестизначными зарплатами
Ладно, на самом деле он не говорил, что планирует заменять. Сказал только "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код". Читайте между строк.
На секундочку, по данным сайтов трекинга зарплат, сейчас миддлы в Meta получают сотни тысяч долларов. Представьте, сколько таких работает у Марка
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚103😁31👍17❤7🔥6🕊5🙈4🫡4🤔2🗿1🦄1
Вот это внезапно: OpenAI дропнули целый экономический план для укрепления лидерства США в сфере ИИ – OpenAI’s Economic Blueprint
В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).
Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий
Хорош, Сэм. Интересно, когда уже увидим его в конгрессе?
В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).
Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий
Хорош, Сэм. Интересно, когда уже увидим его в конгрессе?
🔥67🤔24😁16👍13😐10🤪4❤3💅2🤯1
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах
Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.
В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.
При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:
➖ Memory as Context: долгосрочная память используется как контекст для текущего внимания.
➖ Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
➖ Memory as Layer: самый простой вариант, вся память соединена как слой в сетке
MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.
Полный текст статьи здесь
P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.
В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.
При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:
MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.
Полный текст статьи здесь
P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍32❤16😐3⚡1😁1
Data Secrets
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит…
Кстати, эпилог к новой статье Google заслуживает отдельного внимания. Звучит как «The true art of memory is the art of attention!», то есть «Искусство запоминания это искусство внимания».
Это цитата Сэмюэля Джонсона (да, того самого, чей портрет стал мемом). Он был английским критиком и лексикографом, и сказал это (точнее, написал) в 1787.
Сегодня это высказывание можно делать лозунгом всего ML
Это цитата Сэмюэля Джонсона (да, того самого, чей портрет стал мемом). Он был английским критиком и лексикографом, и сказал это (точнее, написал) в 1787.
Сегодня это высказывание можно делать лозунгом всего ML
❤81👍25🦄12🕊6😁3☃2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
В ChatGPT появились Tasks
Теперь можно запланировать задачу на определенное время, например «пришли мне напоминание вытащить мясо из морозилки в 6 вечера» или «присылай мне колыбельную каждый день в 11 вечера». Бот выполнит ее в установленное время, при этом неважно, онлайн пользователь или нет. Поддерживается до 10 таких отложенных тасок одновременно.
Также теперь бот сам может предлагать какие-то задачи. Например, если видит, что вы не дописали код, может спросить, не хотите ли закончить задачу.
Почему это крутой и заметный релиз? Во-первых, потому что это первый чат-бот, который так умеет. Во-вторых, потому что это еще на шажок приближает нас к агентам, которые могут поддерживать действия в системе, а не просто диалог.
Вспоминается недавняя история о том, как ChatGPT написал юзеру первый и это произвело настоящий фурор в интернете (пост). Снова то, что удивляло нас еще недавно, сегодня становится реальным.
Пробовать можно уже сейчас (раскатили на всех платников), но у многих пока продолжаются сбои из-за наплыва трафика
Теперь можно запланировать задачу на определенное время, например «пришли мне напоминание вытащить мясо из морозилки в 6 вечера» или «присылай мне колыбельную каждый день в 11 вечера». Бот выполнит ее в установленное время, при этом неважно, онлайн пользователь или нет. Поддерживается до 10 таких отложенных тасок одновременно.
Также теперь бот сам может предлагать какие-то задачи. Например, если видит, что вы не дописали код, может спросить, не хотите ли закончить задачу.
Почему это крутой и заметный релиз? Во-первых, потому что это первый чат-бот, который так умеет. Во-вторых, потому что это еще на шажок приближает нас к агентам, которые могут поддерживать действия в системе, а не просто диалог.
Вспоминается недавняя история о том, как ChatGPT написал юзеру первый и это произвело настоящий фурор в интернете (пост). Снова то, что удивляло нас еще недавно, сегодня становится реальным.
Пробовать можно уже сейчас (раскатили на всех платников), но у многих пока продолжаются сбои из-за наплыва трафика
❤🔥53👍36🔥12❤6😁4👏3
Лаборатория Hailuo AI только что дропнула MiniMax-01: первую LLM с Lightning Attention и контекстным окном 4 миллиона токенов!
Lightning Attention – это модификация атеншена, которая разработана специально для длинных контекстов. Работает на основе key-value lookup (недавно Meta делали про этот подход статью, посмотрите наш разбор).
Ключевое отличие от ванильного внимания: ключи и значения являются обучаемыми параметрами, а не временными активациями. За счет этого архитектура, основанная на таких memory layers, лучше скейлится на длинные последовательности.
Плюсом прикрутили silu, гейтинг и CUDA оптимизации. В итоге получилось что-то довольно красивое: в таблицах видно хорошие приросты метрик в задачах, где надо анализировать много текста, а Memory+ с 64 миллионами ключей достигает точности близкой к Llama 7B, при этом используя в 10 раз меньше FLOPs.
Снова Китай на высоте. Попробовать можно здесь: www.hailuo.ai/
Lightning Attention – это модификация атеншена, которая разработана специально для длинных контекстов. Работает на основе key-value lookup (недавно Meta делали про этот подход статью, посмотрите наш разбор).
Ключевое отличие от ванильного внимания: ключи и значения являются обучаемыми параметрами, а не временными активациями. За счет этого архитектура, основанная на таких memory layers, лучше скейлится на длинные последовательности.
Плюсом прикрутили silu, гейтинг и CUDA оптимизации. В итоге получилось что-то довольно красивое: в таблицах видно хорошие приросты метрик в задачах, где надо анализировать много текста, а Memory+ с 64 миллионами ключей достигает точности близкой к Llama 7B, при этом используя в 10 раз меньше FLOPs.
Снова Китай на высоте. Попробовать можно здесь: www.hailuo.ai/
🔥61👍14❤11👏6🤯4⚡1🎉1