Вот это новости, которые мы заслужили
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥121👍11❤5👌2
Каким-то образом пресса умудрилась выпустить новости о релизе новой модели от OpenAI без каких-либо официальных подтверждений от самой компании. По всеобщим догадкам получилось это случайно, из-за обычной невнимательности с часовыми поясами.
Говорят, что выйдет легкая и быстрая младшая сестра gpt-4o, которая заменит gpt-3.5-turbo. gpt-4o-mini поначалу будет только текстовой, но мультимодальность однажды тоже завезут.
Не верить таким крупным издательствам повода нет, да и на арене на днях была замечена некая upcoming-gpt-mini. В стиле OpenAI это скорее всего и был тест gpt-4o-mini. Так что с нетерпением ждем новостей.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27👍6🔥6😁5👏4
Иии... вышла gpt-4o-mini !
Вот официальный анонс. Основное:
▪️ Модель дешевая: цена составляет 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов. Это на 60% дешевле GPT-3.5 Turbo. Все благодаря токенизатору и легковесности.
▪️ Обучена на данных до октября 2023, имеет контекст 128к токенов и поддерживает выходы до 16к токенов.
▪️ Прирост относительно GPT-3.5 Turbo особенно хорошо виден на MGSM, MATH и HumanEval, то есть на математике и программировании.
▪️ Среди других моделей уступает только старшему братику GPT-4o.
▪️ Пользователи Free, Plus и Team уже могут пользоваться GPT-4o mini вместо GPT-3.5. API уже поддерживает текст и vision. В чат мультимодальность тоже завезут, но когда – непонятно.
Ну, погнали пробовать?
Вот официальный анонс. Основное:
Ну, погнали пробовать?
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉57🔥14👍10❤2😁1🤨1🆒1
Модели должны стать больше, чтобы стать меньше
Андрей Карпаты занес интересный тейк касательно новой gpt-4o-mini.
Андрей Карпаты занес интересный тейк касательно новой gpt-4o-mini.
«Причина, по которой текущие модели настолько велики – это наше расточительное отношение к их обучению. Мы просим их запоминать данные из Интернета, и в итоге они могут, например, воспроизводить длинные SHA-хеши или максимально редкие факты.
Но нужно ли нам это на самом деле? Ведь на самом деле умение мыслить не настолько сильно связано с запоминанием редких фактов.
Вывод: модели должны стать больше, прежде чем они смогут стать меньше, потому что нам нужна их помощь в рефакторинге и преобразовании обучающих данных в идеальные емкие синтетические форматы.
Это лестница. Одна модель помогает генерировать обучающие данные для следующей, пока мы не получим «идеальный обучающий датасет».
И когда мы обучим на нем даже ванильную маленькую GPT-2, это будет действительно умная модель. »
🔥106👍26❤7🤔5👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем Трамп:
«Америка находится на пороге золотого века. Чтобы в него вступить, придется вложить огромные инвестиции в энергию для питания ИИ. Потребуется вдвое больше электричества, чем доступно сейчас во всем США.»
В чем только не придется разобраться, чтобы победить на выборах
«Америка находится на пороге золотого века. Чтобы в него вступить, придется вложить огромные инвестиции в энергию для питания ИИ. Потребуется вдвое больше электричества, чем доступно сейчас во всем США.»
В чем только не придется разобраться, чтобы победить на выборах
😁141👍21🔥11🫡3🤯1👀1🤪1
Какова красота: визуализация ландшафта лосса
Некий любитель взял и реализовал код на PyTorch для построения вот таких приятных картинок. По сути это современная имплементация подхода из статьи Visualizing the Loss Landscape of Neural Nets (старая, 2018 год). Кратко метод:
– Берем два случайных вектора из пространства весов. Так как размерность большая, они в любом случае будут квази-ортогональны
– Интерполируем их, чтобы найти двумерную плоскость в пространстве весов
– Проецируем фукнцию потерь по этим векторам и рисуем карту
Любим такое
Некий любитель взял и реализовал код на PyTorch для построения вот таких приятных картинок. По сути это современная имплементация подхода из статьи Visualizing the Loss Landscape of Neural Nets (старая, 2018 год). Кратко метод:
– Берем два случайных вектора из пространства весов. Так как размерность большая, они в любом случае будут квази-ортогональны
– Интерполируем их, чтобы найти двумерную плоскость в пространстве весов
– Проецируем фукнцию потерь по этим векторам и рисуем карту
Любим такое
😍61👏12👍10🔥6🤯3❤2🌚1🗿1
MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.
Метриками не блещет, да, зато открытый датасет – это хорошая новость. Код на PyTorch. Уже доступно на HF и в Transformers.
Модель | Код | Датасет | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥10❤5
Слышали о Мише Ласкине из DeepMind? У него там классное интервью вышло
Ласкин родился в России, эмигрировал в США, работал над Gemini и AlphaGo в DeepMind, а сейчас является CEO и ко-фаундером ReflectionAI.
Так вот. На днях вышло его интервью про развитие ИИ, его опыт, компанию и пр. Интересное:
➡️ Миша верит, что до AGI примерно три года, сейчас технология развивается пугающе быстро
➡️ Текущие языковые модели достаточно широкие и общие с точки зрения знаний, но глубины рассуждений им не хватает. Глубина агентов – основная цель ReflectionAI
➡️ Оптимальный путь создания AGI — сочетание обучения на большом количестве данных с обучением с подкреплением, как это было сделано с AlphaGo. Сейчас, по мнению Ласкина, RL уделяют недостаточно внимания
➡️ В частности нерешенной фундаментальной проблемой RLHF в текущих моделях является получение робастных универсальных reward моделей
➡️ Еще одна недостаточно изученная область – интерпретируемость моделей. «Понимание теоретических принципов, лежащих в основе их возможностей, похоже на физику конца 1800-х годов» - сказал ученый.
Ссылка на полное интервью
Ласкин родился в России, эмигрировал в США, работал над Gemini и AlphaGo в DeepMind, а сейчас является CEO и ко-фаундером ReflectionAI.
Так вот. На днях вышло его интервью про развитие ИИ, его опыт, компанию и пр. Интересное:
Ссылка на полное интервью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37⚡12😁11🤔5🔥3❤1
Очередной скандал с данными для обучения
Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.
А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.
Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.
Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.
Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).
А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло😂
Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.
А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.
Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.
Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.
Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).
А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33👍19😁12
Буквально все человечество с 2014 года: «Скоро у нас будет AGI!!!»
Тем временем 19 июля 2024:
Тем временем 19 июля 2024:
🎉55😁41❤7🤯5🫡4👍3
Новости с Turbo ML Conf: AI-Центр Т-Банка открывает доступ к собственной русскоязычной языковой модели в весовой категории 7—8 млрд параметров — T-lite
Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей подобного размера.
После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.
T-lite обогнала по показателям зарубежные llama3-8b-instruct и chat-gpt 3.5. При этом модель создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.
Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей подобного размера.
После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.
T-lite обогнала по показателям зарубежные llama3-8b-instruct и chat-gpt 3.5. При этом модель создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.
🔥62👍11❤7😁3✍2🐳1
Forwarded from XOR
Хоть датасет открытый — звучит все же не как «Коалиция безопасного ИИ»
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27😁13👍8❤6
Новая иерархия инструкций в gpt-4o-mini
Возможно, самое интересное в свежей модели OpenAI – это новый метод борьбы с джейлбрейкингом.
Разработчики разделили все инструкции по разным уровням иерархии. Исходно зашитые в модель промпты имеют наивысший приоритет, потом идут промпты от юзера, а за ними с самым низким приоритетом промпты от «сторонних инструментов» (это в случае, если вы используете модель в рамках стороннего приложения).
Если некий поданный в модель промпт конфликтует с промптом из другой группы, автоматически выбирается тот, который имеет приоритет повыше.
Официальных тестов не было, но энтузиасты уже успели все сравнить – наверху табличка, в которой видно, что gpt-4o-mini на 20% «защищеннее» gpt-4o. Получается, как раз за счет иерархии инструкций.
Хотя, конечно, от всего метод не спасает. Пользователи уже делятся кейсами, как заставляют бота писать вредоносный код, рецепты наркотиков и тд.
Возможно, самое интересное в свежей модели OpenAI – это новый метод борьбы с джейлбрейкингом.
Разработчики разделили все инструкции по разным уровням иерархии. Исходно зашитые в модель промпты имеют наивысший приоритет, потом идут промпты от юзера, а за ними с самым низким приоритетом промпты от «сторонних инструментов» (это в случае, если вы используете модель в рамках стороннего приложения).
Если некий поданный в модель промпт конфликтует с промптом из другой группы, автоматически выбирается тот, который имеет приоритет повыше.
Официальных тестов не было, но энтузиасты уже успели все сравнить – наверху табличка, в которой видно, что gpt-4o-mini на 20% «защищеннее» gpt-4o. Получается, как раз за счет иерархии инструкций.
Хотя, конечно, от всего метод не спасает. Пользователи уже делятся кейсами, как заставляют бота писать вредоносный код, рецепты наркотиков и тд.
👍43🔥9❤8👌1