На днях 2 года исполнилось InstructGPT – матери всех современных LLM. Статья про эту модель была опубликована на NeurIPS в 2022 году и стала главным предзнаменованием перехода LLM из статуса академической диковинки в реальный продукт. Неудивительно, что это была последняя статья от OpenAI, описывающая детали обучения.
3-этапный алгоритм, обрисованный в статье, до сих пор используется (с вариациями) как канон в большинстве LLM. Pre-training -> supervised finetuning -> RLHF. Вон он, рецепт счастья. Кстати, RLHF изобрели еще раньше (тоже в OpenAI). Аж в 2017 году, почти одновременно с трансформерами.
А еще эта статья – эталон презентации своего исследования. Ничего лишнего, кристально описанные 3 этапа обучения, подсветка важных деталей. Мёд 🍯
Ну вы поняли – это маст-рид, советуем!
3-этапный алгоритм, обрисованный в статье, до сих пор используется (с вариациями) как канон в большинстве LLM. Pre-training -> supervised finetuning -> RLHF. Вон он, рецепт счастья. Кстати, RLHF изобрели еще раньше (тоже в OpenAI). Аж в 2017 году, почти одновременно с трансформерами.
А еще эта статья – эталон презентации своего исследования. Ничего лишнего, кристально описанные 3 этапа обучения, подсветка важных деталей. Мёд 🍯
Ну вы поняли – это маст-рид, советуем!
🔥39🎉6❤5👍3🤯2
А почему 0.05?
Такой вопрос задавал себе каждый уважающий себя аналитик или человек, который имел дело с проверкой гипотез с помощью p-value. p-value – это такая мера, с помощью которой мы оцениваем, является ли наблюдаемый исход случайным. А 0.05 – это выбранный в качестве лакмусовой бумажки порог для этого значения.
Но... почему 0.05? Что за хардкодинг в статистике? Перечисляем 4 главные причины. Вот они слева направо:
Такой вопрос задавал себе каждый уважающий себя аналитик или человек, который имел дело с проверкой гипотез с помощью p-value. p-value – это такая мера, с помощью которой мы оцениваем, является ли наблюдаемый исход случайным. А 0.05 – это выбранный в качестве лакмусовой бумажки порог для этого значения.
Но... почему 0.05? Что за хардкодинг в статистике? Перечисляем 4 главные причины. Вот они слева направо:
👍60😁35🔥6❤5🤩2🤨2👏1
Meta выкатили свежую модель для генерации кода Code Llama-70B
Модель набрала 53 процента точности в тесте HumanEval, что лучше, чем у GPT-3.5 (48,1 процента) и ближе к отметке 67 процентов для GPT-4. Тем самым Code Llama-70B теперь является SOTA для программирования среди опенсурс-моделей. Модель по-прежнему бесплатна как для личного, так и для коммерческого использования.
Блогпост | Статья | Код | Download
Модель набрала 53 процента точности в тесте HumanEval, что лучше, чем у GPT-3.5 (48,1 процента) и ближе к отметке 67 процентов для GPT-4. Тем самым Code Llama-70B теперь является SOTA для программирования среди опенсурс-моделей. Модель по-прежнему бесплатна как для личного, так и для коммерческого использования.
Блогпост | Статья | Код | Download
❤26👍11🔥6🤯1
После появления эмбеддингов от OpenAI все только о них о говорят. Да, они довольно дешевые, качественные, не требуют GPU, и к тому же можно создавать эмбеддинги любой длины. Но.. одномерные! Идея сведения большого количества токенов к одному вектору неизбежно ведет к тому, что детали будут потеряны. Для некоторых задач это нестрашно, но, например, для RAG это поворотная точка.
Мы сегодня хотим напомнить о другой новой модели для эмбеддингов – ColBERT. Он использует небольшие эмбеддинги для каждого отдельного токена, сохраняя семантическую ценность. Это главная причина, почему ColBERT лучше для многих доменов.
Возвращаясь к RAG: именно ColBERT должен быть бэйзлайном для подобных задач поиска. Взгляните на этот проект. К тому же, ColBERT активно развивается: буквально на днях появился инструмент для пробы мини-версии прямо в браузере (идеально, если хотите разобраться), и число проектов с этой моделью растет.
Мы сегодня хотим напомнить о другой новой модели для эмбеддингов – ColBERT. Он использует небольшие эмбеддинги для каждого отдельного токена, сохраняя семантическую ценность. Это главная причина, почему ColBERT лучше для многих доменов.
Возвращаясь к RAG: именно ColBERT должен быть бэйзлайном для подобных задач поиска. Взгляните на этот проект. К тому же, ColBERT активно развивается: буквально на днях появился инструмент для пробы мини-версии прямо в браузере (идеально, если хотите разобраться), и число проектов с этой моделью растет.
👍18🤯7❤6🔥2
The New York Times ищет ML-инженера в команду новостей
Обычно мы не публикуем вакансии, но, как вы понимаете, тут особый случай. Генерация (!) новостей для крупнейшего издательства, все-таки. Ну ладно, пока не генерация, а только «эксперименты с генерацией». Журналисты по-прежнему будут редактировать и проверять все сами.
Напоминаем, что в недалеком прошлом The NY сгорели на Microsoft за то, что ChatGPT воспроизводит их статьи, и даже подали в суд. Видимо, этим инструментом их новые инженеры точно пользоваться не будут.
Обычно мы не публикуем вакансии, но, как вы понимаете, тут особый случай. Генерация (!) новостей для крупнейшего издательства, все-таки. Ну ладно, пока не генерация, а только «эксперименты с генерацией». Журналисты по-прежнему будут редактировать и проверять все сами.
Напоминаем, что в недалеком прошлом The NY сгорели на Microsoft за то, что ChatGPT воспроизводит их статьи, и даже подали в суд. Видимо, этим инструментом их новые инженеры точно пользоваться не будут.
😁43👍9🔥5🤯1
Мы нашли песочницу для построения MLOps системы
Это сайт, на котором можно поиграться и собрать полноценный MLOps для своей системы. Там уже есть шаблон, на базе которого предполгается собрать стек. Тут же можно узнать подробнее об инструментах, о том, когда их использовать и о подводных камнях, на которые стоит обратить внимание.
Это сайт, на котором можно поиграться и собрать полноценный MLOps для своей системы. Там уже есть шаблон, на базе которого предполгается собрать стек. Тут же можно узнать подробнее об инструментах, о том, когда их использовать и о подводных камнях, на которые стоит обратить внимание.
🔥41👍19❤4🤯3
Сегодня я узнал, что грандмастер Kaggle не прошел даже на этап скрининг-интервью на младшую AI-позицию в Google. Я уверен, они выберут кандидата, который умеет сортировать связный список. Именно поэтому я считаю, что процесс найма в техе прогнил.
©️ Ведущий ML-разработчик Nvidia
Бигтех’s moment
👍117😨45🔥14😁7💯2❤1
LASER – метод для улучшения перфоманса LLM от Microsoft
С LLM есть одна проблема – они неинтерпритируемы. Модель может хорошо справляться с одним типом задач, но с другим валять дурака. И исправить это сложно: мы не знаем, какие параметры за что отвечают, а значит не понимаем, что нужно менять.
Исследователи давно работают над этой проблемой. И на днях MIcrosoft сделали свой вклад. Они выкатили LASER (Layer-Selective Rank Reduction) и подробно рассказали, как работает инструмент. Идея состоит в том, чтобы экспериментально "вмешиваться" в отдельные куски весов, менять их и смотреть, как это воздействует на модель.
На практике берется матрица весов с очередного слоя трансформера и заменяется на приближенную к данной матрицу меньшего ранга (для этого используется сингулярное разложение). Казалось бы, точность должна понижаться. Но! Оказывается, что это работает как процесс шумоподавления, и улучшает ответы модели.
И обратите внимание: такой подход не только может улучшить ответы и повысить интерпретируемость, но и сокращает занимаемую моделью память!
В общем, отличная работа. Советуем прочитать статью и посмотреть ее красивый разбор.
С LLM есть одна проблема – они неинтерпритируемы. Модель может хорошо справляться с одним типом задач, но с другим валять дурака. И исправить это сложно: мы не знаем, какие параметры за что отвечают, а значит не понимаем, что нужно менять.
Исследователи давно работают над этой проблемой. И на днях MIcrosoft сделали свой вклад. Они выкатили LASER (Layer-Selective Rank Reduction) и подробно рассказали, как работает инструмент. Идея состоит в том, чтобы экспериментально "вмешиваться" в отдельные куски весов, менять их и смотреть, как это воздействует на модель.
На практике берется матрица весов с очередного слоя трансформера и заменяется на приближенную к данной матрицу меньшего ранга (для этого используется сингулярное разложение). Казалось бы, точность должна понижаться. Но! Оказывается, что это работает как процесс шумоподавления, и улучшает ответы модели.
И обратите внимание: такой подход не только может улучшить ответы и повысить интерпретируемость, но и сокращает занимаемую моделью память!
В общем, отличная работа. Советуем прочитать статью и посмотреть ее красивый разбор.
👍35🔥16❤7🤝1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁148👍16🤯8🙈5🔥2
Если в вашем проекте бардак, то скорее зовите на помощь мистера Пропера MLflow
👍46❤9🔥8❤🔥1
Forwarded from Бэкдор
Расходимся: ChatGPT не будут встраивать в Госуслуги! Речь шла не конкретно о нейронке Сэма Альтмана, а о технологии Generative Pre-trained Transformer.
Сейчас основной претендент на главного помощника россиян — GigaChat от Сбера.
@whackdoor
Сейчас основной претендент на главного помощника россиян — GigaChat от Сбера.
@whackdoor
❤31😁19🤯4🗿4
This media is not supported in your browser
VIEW IN TELEGRAM
Сэм Альтман:
К такому выводу пришли он и его CEO-друзья в их чатике. Верим?
ИИ очень скоро позволит человеку в одиночку построить миллиардную компанию.
К такому выводу пришли он и его CEO-друзья в их чатике. Верим?
😁64👍39🙈23❤3🔥3🌚3🤔1🗿1
Так, ну все ведь слышали про парня, который женится на девушке, которую нашел для него ChatGPT (общался с ней тоже бот)? Это тот самый человек, который весной защитил диплом с помощью этой же нейросети.
А теперь давайте прочтем технический разбор этой сказочной истории. Мнения?
А теперь давайте прочтем технический разбор этой сказочной истории. Мнения?
😁99👍17❤4🫡4😐2⚡1