Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.43K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚡️ Nvidia переходит на опенсорс ядра для GPU. Об этом компания сообщила в своем блоге. Следующий выпуск драйвера R560 уже будет с открытым исходным кодом.

Вот это новости, которые мы заслужили
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥121👍115👌2
😧 Новая модель от OpenAI или "Ой, куда я жмал"

Каким-то образом пресса умудрилась выпустить новости о релизе новой модели от OpenAI без каких-либо официальных подтверждений от самой компании. По всеобщим догадкам получилось это случайно, из-за обычной невнимательности с часовыми поясами.

Говорят, что выйдет легкая и быстрая младшая сестра gpt-4o, которая заменит gpt-3.5-turbo. gpt-4o-mini поначалу будет только текстовой, но мультимодальность однажды тоже завезут.

Не верить таким крупным издательствам повода нет, да и на арене на днях была замечена некая upcoming-gpt-mini. В стиле OpenAI это скорее всего и был тест gpt-4o-mini. Так что с нетерпением ждем новостей.
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍6🔥6😁5👏4
Иии... вышла gpt-4o-mini !

Вот официальный анонс. Основное:

▪️ Модель дешевая: цена составляет 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов. Это на 60% дешевле GPT-3.5 Turbo. Все благодаря токенизатору и легковесности.

▪️ Обучена на данных до октября 2023, имеет контекст 128к токенов и поддерживает выходы до 16к токенов.

▪️ Прирост относительно GPT-3.5 Turbo особенно хорошо виден на MGSM, MATH и HumanEval, то есть на математике и программировании.

▪️ Среди других моделей уступает только старшему братику GPT-4o.

▪️ Пользователи Free, Plus и Team уже могут пользоваться GPT-4o mini вместо GPT-3.5. API уже поддерживает текст и vision. В чат мультимодальность тоже завезут, но когда – непонятно.

Ну, погнали пробовать?
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉57🔥14👍102😁1🤨1🆒1
Модели должны стать больше, чтобы стать меньше

Андрей Карпаты занес интересный тейк касательно новой gpt-4o-mini.

«Причина, по которой текущие модели настолько велики – это наше расточительное отношение к их обучению. Мы просим их запоминать данные из Интернета, и в итоге они могут, например, воспроизводить длинные SHA-хеши или максимально редкие факты.

Но нужно ли нам это на самом деле? Ведь на самом деле умение мыслить не настолько сильно связано с запоминанием редких фактов.

Вывод: модели должны стать больше, прежде чем они смогут стать меньше, потому что нам нужна их помощь в рефакторинге и преобразовании обучающих данных в идеальные емкие синтетические форматы.

Это лестница. Одна модель помогает генерировать обучающие данные для следующей, пока мы не получим «идеальный обучающий датасет».

И когда мы обучим на нем даже ванильную маленькую GPT-2, это будет действительно умная модель. »
🔥106👍267🤔5👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем Трамп:

«Америка находится на пороге золотого века. Чтобы в него вступить, придется вложить огромные инвестиции в энергию для питания ИИ. Потребуется вдвое больше электричества, чем доступно сейчас во всем США

В чем только не придется разобраться, чтобы победить на выборах
😁141👍21🔥11🫡3🤯1👀1🤪1
Какова красота: визуализация ландшафта лосса

Некий любитель взял и реализовал код на PyTorch для построения вот таких приятных картинок. По сути это современная имплементация подхода из статьи Visualizing the Loss Landscape of Neural Nets (старая, 2018 год). Кратко метод:

– Берем два случайных вектора из пространства весов. Так как размерность большая, они в любом случае будут квази-ортогональны
– Интерполируем их, чтобы найти двумерную плоскость в пространстве весов
– Проецируем фукнцию потерь по этим векторам и рисуем карту

Любим такое
😍61👏12👍10🔥6🤯32🌚1🗿1
⚙️ Apple задает жару: только что они выпустили новую модель DCLM 7B и опенсорснули ее всю, от данных до весов

MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.

Метриками не блещет, да, зато открытый датасет – это хорошая новость. Код на PyTorch. Уже доступно на HF и в Transformers.

Модель | Код | Датасет | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥105
Ситуация прямо сейчас
😁105👍6🔥61🙈1
Слышали о Мише Ласкине из DeepMind? У него там классное интервью вышло

Ласкин родился в России, эмигрировал в США, работал над Gemini и AlphaGo в DeepMind, а сейчас является CEO и ко-фаундером ReflectionAI.

Так вот. На днях вышло его интервью про развитие ИИ, его опыт, компанию и пр. Интересное:

➡️Миша верит, что до AGI примерно три года, сейчас технология развивается пугающе быстро

➡️Текущие языковые модели достаточно широкие и общие с точки зрения знаний, но глубины рассуждений им не хватает. Глубина агентов – основная цель ReflectionAI

➡️Оптимальный путь создания AGI — сочетание обучения на большом количестве данных с обучением с подкреплением, как это было сделано с AlphaGo. Сейчас, по мнению Ласкина, RL уделяют недостаточно внимания

➡️В частности нерешенной фундаментальной проблемой RLHF в текущих моделях является получение робастных универсальных reward моделей

➡️Еще одна недостаточно изученная область – интерпретируемость моделей. «Понимание теоретических принципов, лежащих в основе их возможностей, похоже на физику конца 1800-х годов» - сказал ученый.

Ссылка на полное интервью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3712😁11🤔5🔥31
Очередной скандал с данными для обучения

Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.

А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.

Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.

Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.

Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).

А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍19😁12
Буквально все человечество с 2014 года: «Скоро у нас будет AGI!!!»

Тем временем 19 июля 2024:
🎉55😁417🤯5🫡4👍3
Новости с Turbo ML Conf: AI-Центр Т-Банка открывает доступ к собственной русскоязычной языковой модели в весовой категории 7—8 млрд параметров — T-lite

Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей подобного размера.

После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.

T-lite обогнала по показателям зарубежные llama3-8b-instruct и chat-gpt 3.5. При этом модель создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.
🔥62👍117😁32🐳1
Forwarded from XOR
⚡️ Крупные IT-компании, включая Microsoft, Google, Nvidia, Intel, IBM, PayPal, Amazon и OpenAI, объединились в «Коалицию за безопасный искусственный интеллект» (CoSAI).

🟢Основная цель организации — сделать ИИ безопасным путем предоставления доступа разработчикам к открытым методологиям, фреймворкам и инструментам.

🟢Также первоочередными задачами будут улучшение мониторинга цепочек поставок ПО для ИИ-систем и подготовка специалистов в области кибербезопасности.

🟢Все неплохо, но на этой неделе журналисты выпустили статью о том, что Apple, Nvidia, Anthropic используют для обучения ИИ датасет The Pile, где много мата, религиозных и расовых оскорблений и субтитры более 170к роликов с YouTube (что является нарушением платформы). Более того, некоторые ролики, используемые для обучения, также способствовали распространению теорий заговора и лженауки.

Хоть датасет открытый — звучит все же не как «Коалиция безопасного ИИ»

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27😁13👍86
Новая иерархия инструкций в gpt-4o-mini

Возможно, самое интересное в свежей модели OpenAI – это новый метод борьбы с джейлбрейкингом.

Разработчики разделили все инструкции по разным уровням иерархии. Исходно зашитые в модель промпты имеют наивысший приоритет, потом идут промпты от юзера, а за ними с самым низким приоритетом промпты от «сторонних инструментов» (это в случае, если вы используете модель в рамках стороннего приложения).

Если некий поданный в модель промпт конфликтует с промптом из другой группы, автоматически выбирается тот, который имеет приоритет повыше.

Официальных тестов не было, но энтузиасты уже успели все сравнить – наверху табличка, в которой видно, что gpt-4o-mini на 20% «защищеннее» gpt-4o. Получается, как раз за счет иерархии инструкций.

Хотя, конечно, от всего метод не спасает. Пользователи уже делятся кейсами, как заставляют бота писать вредоносный код, рецепты наркотиков и тд.
👍43🔥98👌1