NEW BOT Телеграм, страница

Data Secrets

На днях 2 года исполнилось InstructGPT – матери всех современных LLM. Статья про эту модель была опубликована на NeurIPS в 2022 году и стала главным предзнаменованием перехода LLM из статуса академической диковинки в реальный продукт. Неудивительно, что это была последняя статья от OpenAI, описывающая детали обучения.

3-этапный алгоритм, обрисованный в статье, до сих пор используется (с вариациями) как канон в большинстве LLM. Pre-training -> supervised finetuning -> RLHF. Вон он, рецепт счастья. Кстати, RLHF изобрели еще раньше (тоже в OpenAI). Аж в 2017 году, почти одновременно с трансформерами.

А еще эта статья – эталон презентации своего исследования. Ничего лишнего, кристально описанные 3 этапа обучения, подсветка важных деталей. Мёд 🍯

Ну вы поняли – это маст-рид, советуем!

🔥39🎉6❤5👍3🤯2

8.33K views08:13

Data Secrets

Никто: …
Моя модель: …
Я после каждого батча:

👍70🔥12😁11❤3🐳2🤩1

7.03K views10:55

Data Secrets

А почему 0.05?

Такой вопрос задавал себе каждый уважающий себя аналитик или человек, который имел дело с проверкой гипотез с помощью p-value. p-value – это такая мера, с помощью которой мы оцениваем, является ли наблюдаемый исход случайным. А 0.05 – это выбранный в качестве лакмусовой бумажки порог для этого значения.

Но... почему 0.05? Что за хардкодинг в статистике? Перечисляем 4 главные причины. Вот они слева направо:

👍60😁35🔥6❤5🤩2🤨2👏1

7.12K views15:27

Data Secrets

Meta выкатили свежую модель для генерации кода Code Llama-70B

Модель набрала 53 процента точности в тесте HumanEval, что лучше, чем у GPT-3.5 (48,1 процента) и ближе к отметке 67 процентов для GPT-4. Тем самым Code Llama-70B теперь является SOTA для программирования среди опенсурс-моделей. Модель по-прежнему бесплатна как для личного, так и для коммерческого использования.

Блогпост | Статья | Код | Download

❤26👍11🔥6🤯1

16.5K views09:23

Data Secrets

После появления эмбеддингов от OpenAI все только о них о говорят. Да, они довольно дешевые, качественные, не требуют GPU, и к тому же можно создавать эмбеддинги любой длины. Но.. одномерные! Идея сведения большого количества токенов к одному вектору неизбежно ведет к тому, что детали будут потеряны. Для некоторых задач это нестрашно, но, например, для RAG это поворотная точка.

Мы сегодня хотим напомнить о другой новой модели для эмбеддингов – ColBERT. Он использует небольшие эмбеддинги для каждого отдельного токена, сохраняя семантическую ценность. Это главная причина, почему ColBERT лучше для многих доменов.

Возвращаясь к RAG: именно ColBERT должен быть бэйзлайном для подобных задач поиска. Взгляните на этот проект. К тому же, ColBERT активно развивается: буквально на днях появился инструмент для пробы мини-версии прямо в браузере (идеально, если хотите разобраться), и число проектов с этой моделью растет.

👍18🤯7❤6🔥2

7.63K views12:29

Data Secrets

Когда немного переборщил с learning rate

😁70🔥15👍4😎3

6.56K views16:16

Data Secrets

The New York Times ищет ML-инженера в команду новостей

Обычно мы не публикуем вакансии, но, как вы понимаете, тут особый случай. Генерация (!) новостей для крупнейшего издательства, все-таки. Ну ладно, пока не генерация, а только «эксперименты с генерацией». Журналисты по-прежнему будут редактировать и проверять все сами.

Напоминаем, что в недалеком прошлом The NY сгорели на Microsoft за то, что ChatGPT воспроизводит их статьи, и даже подали в суд. Видимо, этим инструментом их новые инженеры точно пользоваться не будут.

😁43👍9🔥5🤯1

6.89K views10:08

Data Secrets

Мы нашли песочницу для построения MLOps системы

Это сайт, на котором можно поиграться и собрать полноценный MLOps для своей системы. Там уже есть шаблон, на базе которого предполгается собрать стек. Тут же можно узнать подробнее об инструментах, о том, когда их использовать и о подводных камнях, на которые стоит обратить внимание.

🔥41👍19❤4🤯3

8.56K views13:11

Data Secrets

Сегодня я узнал, что грандмастер Kaggle не прошел даже на этап скрининг-интервью на младшую AI-позицию в Google. Я уверен, они выберут кандидата, который умеет сортировать связный список. Именно поэтому я считаю, что процесс найма в техе прогнил.

©️ Ведущий ML-разработчик Nvidia

Бигтех’s moment

👍117😨45🔥14😁7💯2❤1

8.5K viewsedited 15:27

Data Secrets

LASER – метод для улучшения перфоманса LLM от Microsoft

С LLM есть одна проблема – они неинтерпритируемы. Модель может хорошо справляться с одним типом задач, но с другим валять дурака. И исправить это сложно: мы не знаем, какие параметры за что отвечают, а значит не понимаем, что нужно менять.

Исследователи давно работают над этой проблемой. И на днях MIcrosoft сделали свой вклад. Они выкатили LASER (Layer-Selective Rank Reduction) и подробно рассказали, как работает инструмент. Идея состоит в том, чтобы экспериментально "вмешиваться" в отдельные куски весов, менять их и смотреть, как это воздействует на модель.

На практике берется матрица весов с очередного слоя трансформера и заменяется на приближенную к данной матрицу меньшего ранга (для этого используется сингулярное разложение). Казалось бы, точность должна понижаться. Но! Оказывается, что это работает как процесс шумоподавления, и улучшает ответы модели.

И обратите внимание: такой подход не только может улучшить ответы и повысить интерпретируемость, но и сокращает занимаемую моделью память!

В общем, отличная работа. Советуем прочитать статью и посмотреть ее красивый разбор.

👍35🔥16❤7🤝1

7.62K views09:01

Data Secrets

🥺

Please open Telegram to view this post

VIEW IN TELEGRAM

😁148👍16🤯8🙈5🔥2

6.53K views12:23

Data Secrets

Если в вашем проекте бардак, то скорее зовите на помощь ~~мистера Пропера~~ MLflow

👍46❤9🔥8❤‍🔥1

7.43K views15:13

Data Secrets

Forwarded from Бэкдор

Расходимся: ChatGPT не будут встраивать в Госуслуги! Речь шла не конкретно о нейронке Сэма Альтмана, а о технологии Generative Pre-trained Transformer.

Сейчас основной претендент на главного помощника россиян — GigaChat от Сбера.

@whackdoor

❤31😁19🤯4🗿4

6.65K views16:36

Data Secrets

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Сэм Альтман:

ИИ очень скоро позволит человеку в одиночку построить миллиардную компанию.

К такому выводу пришли он и его CEO-друзья в их чатике. Верим?

😁64👍39🙈23❤3🔥3🌚3🤔1🗿1

7.25K viewsedited 07:35

Data Secrets

Так, ну все ведь слышали про парня, который женится на девушке, которую нашел для него ChatGPT (общался с ней тоже бот)? Это тот самый человек, который весной защитил диплом с помощью этой же нейросети.

А теперь давайте прочтем технический разбор этой сказочной истории. Мнения?

😁99👍17❤4🫡4😐2⚡1

8.74K views10:17

About

Blog

Apps

Platform