Еще несколько интересных технических деталей из статьи Llama 3.1:
➡️ Неожиданно раскрылись детали того, почему обучение сетки дважды прерывали. В статье детально описывается топология кластера из 24к H100. Оказывается, в первый раз обучение прервали из-за того, что 148 из них вышли из строя на ранней стадии предобучения. Во второй раз просто сервер отказал ❤️🔥
➡️ С данными тоже забавно: несколько раз их корректировали прямо во время предобучения, чтобы повысить перформанс. Разработчики также полностью отказались от переведенных данных. Вместо этого, чтобы собрать достаточно промптов для тюнинга моделей по определенным скиллам (в частности по математике), они провели масштабный краудсорсинг с экспертами. Теперь понятно, на что ушли сотни миллионов...
➡️ В статье также много интересного про пост-трейнинг с RL. Самое захватывающее: они обнаружили, что даже для моделей с длинным контекстом в DPO при дообучении достаточно использовать только short context data. Это своего рода прорыв. Общая схема пост-обучения на картинке.
К слову про RL: если взглянуть на сравнения по человеческим предпочтениям, то Llama 3.1 сильно уступает GPT-4o. Однако судя по всему OpenAI просто ОЧЕНЬ сильно натаскали свое детище на LMSYS, а значит эти результаты не означают лучший перформанс на реалворлд задачах.
К слову про RL: если взглянуть на сравнения по человеческим предпочтениям, то Llama 3.1 сильно уступает GPT-4o. Однако судя по всему OpenAI просто ОЧЕНЬ сильно натаскали свое детище на LMSYS, а значит эти результаты не означают лучший перформанс на реалворлд задачах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30👍9😁4
Please open Telegram to view this post
VIEW IN TELEGRAM
😁146 18💯7 6👍3❤2💅2
This media is not supported in your browser
VIEW IN TELEGRAM
У Цукерберга тем временем вышло новое интервью (видимо в честь релиза модельки). Некоторые занятные мысли бизнесмена оттуда:
➡️ В будущем у нас будет не один ИИ-бог (то есть сверхмодель), а миллиарды ИИ-агентов, которые будут версиями нас самих
➡️ Скорее всего, таких агентов будет даже больше, чем людей: художники, предприниматели и бизнес будут создавать сразу много моделей, которые будут взаимодействовать с миром от их лица
➡️ Альтман, конечно, заслуживает огромного уважения за его заслуги, но «немного иронично» иметь компанию под названием OpenAI и выпускать закрытые модели 🔵
➡️ У Meta уже есть настроенный вычислительный кластер, некоторые данные и архитектура, а также прямо сейчас они проводят эксперименты для того, чтобы максимально увеличить время обучения их следующей модели — Llama 4
➡️ Мы все еще должны отличать человека от интеллекта, загруженного в облако, ведь личностью нас делают не только мысли, но и такие вещи, как энергия и любовь 🥹
Please open Telegram to view this post
VIEW IN TELEGRAM
❤68 42👍14😁10🔥1🤔1 1
🇫🇷 Mistral разбавляет Llama-повестку дня своей новой моделью
Да-да, еще и дня не прошло с релиза прошлой громкой LLMки, а вот уже и новая подоспела. У свежей Large 2 от французов 123B параметров, контекст как у новой ламы (128к), опенсорс.
Особенно выделяется в математике и программировании. В целом, не SOTA, конечно, но свое почетное место займет. Вот веса на HF.
Видимо, скоро придется вообще из новостей не вылезать, чтобы за всем уследить😅
Да-да, еще и дня не прошло с релиза прошлой громкой LLMки, а вот уже и новая подоспела. У свежей Large 2 от французов 123B параметров, контекст как у новой ламы (128к), опенсорс.
Особенно выделяется в математике и программировании. В целом, не SOTA, конечно, но свое почетное место займет. Вот веса на HF.
Видимо, скоро придется вообще из новостей не вылезать, чтобы за всем уследить
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍10❤5
OpenAI грозит финансовый крах?
По данным нового отчета The Information, в 2024 компания может потерять до 5 миллиардов долларов. По данным их инсайдеров, по состоянию на март этого года OpenAI уже потратила почти $4 миллиарда на аренду серверов.
Плюсом к этому идут затраты на обучение (по оценкам, $3 млрд). Кстати, в начале года на это планировалось потратить всего $800 млн, но что-то пошло не по плану.
+ Зарплаты, которые составляют примерно $1.5 млрд. Учитывая, что общая выручка оценивается примерно в $4 млрд, несложная математика указывает на огромный дефицит. Похоже, Microsoft опять пора готовиться расчехлять кошелек.
Когда у тебя почти самый быстрорастущий бизнес в истории, а денег все равно нет🔵
По данным нового отчета The Information, в 2024 компания может потерять до 5 миллиардов долларов. По данным их инсайдеров, по состоянию на март этого года OpenAI уже потратила почти $4 миллиарда на аренду серверов.
Плюсом к этому идут затраты на обучение (по оценкам, $3 млрд). Кстати, в начале года на это планировалось потратить всего $800 млн, но что-то пошло не по плану.
+ Зарплаты, которые составляют примерно $1.5 млрд. Учитывая, что общая выручка оценивается примерно в $4 млрд, несложная математика указывает на огромный дефицит. Похоже, Microsoft опять пора готовиться расчехлять кошелек.
Когда у тебя почти самый быстрорастущий бизнес в истории, а денег все равно нет
Please open Telegram to view this post
VIEW IN TELEGRAM
В продолжении утреннего поста о возможном финансовом крахе OpenAI. Мы заинтересовались и собрали по сети еще несколько свежих артефактов о рынке. Оцените сами:
⚪️ Bloomberg отметил в статье, что инвесторы не уверены, что вложения компаний в ИИ смогут быстро окупиться.
⚪️ Материнская компания Google – Alphabet – превзошла ожидания аналитиков по прибыли, но трейдеры все же негативно восприняли рост капиталовложений Alphabet. На фоне общей картины рынок акций США резко обвалился, падение S&P 500 и Nasdaq стало максимальным с 2022г.
⚪️ Многие стартапы уходят с рынка из-за маленькой возможности роста и дороговизны разработки, из недавнего например: сервис бывшего ML-разработчика Google — CreatorML. Из-за высокой стоимости разработки и поддержки сервиса сервис пришлось закрыть.
Верим в рынок или все-таки пузырь?😭
Верим в рынок или все-таки пузырь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Подробности здесь и в Q&A видосе
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44👍22🔥10😁2
Google заезжают в гонку моделек-математиков
Система решает IMO на уровне серебряного медалиста: это подтвердил известный математик Джозеф Майерс (p.1).
Для не геометрических задач используется AlphaProof (р.2), который по сути представляет из себя предобученную LM с алгоритмом RL из Alpha Zero (тот самый ИИ-шахматист, который обыграл Каспарова).
Для обучения AlphaProof использовали Gemini, которая переводила текстовые задачи в формальный вид (р.3).
Что касается геометрии, в системе используется AlphaGeometry 2: нейро-символическая гибридная система. В роли базовой модели также использовалась Gemini, ее дообучали на синтетике. Р.4 – пример решения AlphaGeometry.
Статья
Система решает IMO на уровне серебряного медалиста: это подтвердил известный математик Джозеф Майерс (p.1).
Для не геометрических задач используется AlphaProof (р.2), который по сути представляет из себя предобученную LM с алгоритмом RL из Alpha Zero (тот самый ИИ-шахматист, который обыграл Каспарова).
Для обучения AlphaProof использовали Gemini, которая переводила текстовые задачи в формальный вид (р.3).
Что касается геометрии, в системе используется AlphaGeometry 2: нейро-символическая гибридная система. В роли базовой модели также использовалась Gemini, ее дообучали на синтетике. Р.4 – пример решения AlphaGeometry.
Статья
👏40👍14🔥10❤4🤯3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Breaking! SearchGPT на базе
Майские слухи оказались правдой: OpenAI официально анонсировала поисковик. Но…
Это лишь временный прототип. То есть Google, скорее всего, бояться рано: это просто красивое демо функции, которая станет просто частью функционала ChatGPT.
Видимо, все эти многочисленные контракты с крупными изданиями были направлены именно на этот продукт (чтобы не пришлось втихушку парсить ботами).
Будем ждать новостей😇
Майские слухи оказались правдой: OpenAI официально анонсировала поисковик. Но…
Это лишь временный прототип. То есть Google, скорее всего, бояться рано: это просто красивое демо функции, которая станет просто частью функционала ChatGPT.
Видимо, все эти многочисленные контракты с крупными изданиями были направлены именно на этот продукт (чтобы не пришлось втихушку парсить ботами).
Будем ждать новостей
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38👍14❤9😁1
Андрей Карпаты как всегда лучший в аналогиях
В своем твиттере он попытался объяснить концепцию токенизации через эмоджи. Каждый токен – уникальный смайлик, и, по сути, LLM должна с нуля изучить, что все это означает, на основе статистики обучающих данных.
Кроме того, Андрей даже ноутбучек в колабе залил, чтобы с аналогией можно было поиграться. Вот ссылка.
Подробнее о проблемах токенизации – в этом нашем посте
В своем твиттере он попытался объяснить концепцию токенизации через эмоджи. Каждый токен – уникальный смайлик, и, по сути, LLM должна с нуля изучить, что все это означает, на основе статистики обучающих данных.
«Так что проявите немного сочувствия, когда в следующий раз спросите LLM, сколько букв «r» в слове «strawberry», потому что ваш запрос для модели выглядит следующим образом:
👩🏿❤️💋👨🏻🧔🏼🤾🏻♀️🙍♀️🧑🦼➡️🧑🏾🦼➡️🤙🏻✌🏿🈴🧙🏽♀️📏🙍♀️🧑🦽🧎♀🍏💂»
Кроме того, Андрей даже ноутбучек в колабе залил, чтобы с аналогией можно было поиграться. Вот ссылка.
Подробнее о проблемах токенизации – в этом нашем посте
❤74👍22❤🔥13🔥6
Please open Telegram to view this post
VIEW IN TELEGRAM
❤96🔥31👍5😁5
Статья: как ломаются большие системы и как их траблшутить
Редко где сейчас обучают Site Reliability Engineering (SRE), то есть качественной работе с высоконагруженными системами. А зря 🦆
Такие задачи в индустрии очень востребованы (вся индустрия буквально == высоконагруженная система), и в идеальном мире каждый разработчик и программист должен быть в теме.
Нашел статью на Хабре для вкатывания. Автор – преподаватель Школы анализа данных Яндекса и руководитель Yandex Infrastructure Руслан Савченко (есть чему поучиться). В статье прикладная база: про распределенные системы, самые частые поломки, про подводные камни и то, как их побороть. Там же – ссылка на плейлист с материалами интенсива SRE-week от ШАДа, где найдете больше подробностей по теме .
Редко где сейчас обучают Site Reliability Engineering (SRE), то есть качественной работе с высоконагруженными системами. А зря 🦆
Такие задачи в индустрии очень востребованы (вся индустрия буквально == высоконагруженная система), и в идеальном мире каждый разработчик и программист должен быть в теме.
Нашел статью на Хабре для вкатывания. Автор – преподаватель Школы анализа данных Яндекса и руководитель Yandex Infrastructure Руслан Савченко (есть чему поучиться). В статье прикладная база: про распределенные системы, самые частые поломки, про подводные камни и то, как их побороть. Там же – ссылка на плейлист с материалами интенсива SRE-week от ШАДа, где найдете больше подробностей по теме .
👍39🔥11❤8
Headless-AD: первая модель в In-Context Learning, которая умеет обобщаться на новые действия
Ее представили исследователи из T-Bank AI Research и AIRI на ICML 2024. Раньше ИИ-агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.
Чтобы решить эту проблему, исследователи провели несколько модификаций с Algorithm Distillation: отказались от конечного линейного слоя (отсюда название Headless-AD), внедрили кодировку действий случайными векторами и контекст, который позволяет информировать модель о доступных действиях.
Эксперименты показали, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения.
Статья | Github
Ее представили исследователи из T-Bank AI Research и AIRI на ICML 2024. Раньше ИИ-агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.
Чтобы решить эту проблему, исследователи провели несколько модификаций с Algorithm Distillation: отказались от конечного линейного слоя (отсюда название Headless-AD), внедрили кодировку действий случайными векторами и контекст, который позволяет информировать модель о доступных действиях.
Эксперименты показали, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения.
Статья | Github
🔥49👍12❤8❤🔥2
* Информацией поделился тех.лид компании в соцсетях
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Secrets
Breaking! SearchGPT на базе Майские слухи оказались правдой: OpenAI официально анонсировала поисковик. Но… Это лишь временный прототип. То есть Google, скорее всего, бояться рано: это просто красивое демо функции, которая станет просто частью функционала…
This media is not supported in your browser
VIEW IN TELEGRAM
Кратко о ситуации на главной повестке дня:
😁49👍9❤4 4🗿2🔥1🎅1
Ладно, «со своей» – это громко сказано. На самом деле они просто взяли открытую Video-LLaVA и зафайнтюнили ее на датасете CinePile.
Несмотря на то, что никаких новых архитектурных трюков не было, прирост в качестве наблюдается неплохой. Все из-за хорошего датасета: он замысловатый и направлен специально на улучшение понимания видео целиком, а не отдельных его кадров.
Вот код. В репе два интересных ноутбука: с файнтюнингом и инференсом. Веса модели здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤗45🔥11👍9❤8🫡1