NEW BOT Телеграм, страница

Data Secrets

Как сделать так, чтобы нейросеть не переобучалась

Переобучение – это одно из главных проклятий большинства ML-алгоритмов, в том числе нейросетей. Вещь неприятная, конечно, но в большинстве случаев фиксится достаточно просто. Надо только знать специальные фокусы...

P.S. C вас – реакции, с нас – вторая часть)

👍210🔥55❤21🤯3

8.69K views15:14

Data Secrets

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Коллеги, мы или не мы?

😁45😨38🔥7💯7⚡1🤔1

7.8K views07:32

Data Secrets

Как набить руку для первой работы в ML?

Машинное обучение – это про решение проблем и задач. Вы можете прочитать книгу или посмотреть видео, но то, что действительно важно – это практика. И тут нам повезло. У нас есть Kaggle, неповторимая платформа, идеальная для того, чтобы применить знания на практике. Кроме этого, прогресс на Kaggle – большой показатель для работодателя.

Как начать работать с Kaggle?

Если вы уже имеете представление о том, что такое Kaggle и как с ним работать, но не ныряли глубоко, то лучше начать со старых соревнований. Там уже есть решения других участников, обсуждения и готовые пайплайны. Можно смотреть -> делать похожим образом -> сравнивать.

А если совсем новичок?

Тогда советуем книгу «Developing Kaggle Notebooks» от Габриеля Преда и прилагающийся к ней репозиторий кода. В ней объяснено каждое действие, каждая строка кода. Точно не запутаетесь. И кстати, в ней есть даже главы про генеративки. А еще, обязательно ознакомьтесь с руководствами от самого Kaggle – там огромное количество бесплатных полезных курсов.

Желаем успехов, и не забудьте поделиться своими достижениями на Kaggle в комментариях!

👍78🔥14❤6🎉4🤯2😍2🥰1

9.41K views13:16

Data Secrets

Немного продлеваем выходные. Традиционная воскресная задача в понедельник утром! Еще не поздно потренировать свои нейроны перед рабочей неделей 😉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤27🤯12🔥10☃4👍3🥰1

7.19K views05:27

Data Secrets

На днях 2 года исполнилось InstructGPT – матери всех современных LLM. Статья про эту модель была опубликована на NeurIPS в 2022 году и стала главным предзнаменованием перехода LLM из статуса академической диковинки в реальный продукт. Неудивительно, что это была последняя статья от OpenAI, описывающая детали обучения.

3-этапный алгоритм, обрисованный в статье, до сих пор используется (с вариациями) как канон в большинстве LLM. Pre-training -> supervised finetuning -> RLHF. Вон он, рецепт счастья. Кстати, RLHF изобрели еще раньше (тоже в OpenAI). Аж в 2017 году, почти одновременно с трансформерами.

А еще эта статья – эталон презентации своего исследования. Ничего лишнего, кристально описанные 3 этапа обучения, подсветка важных деталей. Мёд 🍯

Ну вы поняли – это маст-рид, советуем!

🔥39🎉6❤5👍3🤯2

8.32K views08:13

Data Secrets

Никто: …
Моя модель: …
Я после каждого батча:

👍70🔥12😁11❤3🐳2🤩1

7.03K views10:55

Data Secrets

А почему 0.05?

Такой вопрос задавал себе каждый уважающий себя аналитик или человек, который имел дело с проверкой гипотез с помощью p-value. p-value – это такая мера, с помощью которой мы оцениваем, является ли наблюдаемый исход случайным. А 0.05 – это выбранный в качестве лакмусовой бумажки порог для этого значения.

Но... почему 0.05? Что за хардкодинг в статистике? Перечисляем 4 главные причины. Вот они слева направо:

👍60😁35🔥6❤5🤩2🤨2👏1

7.12K views15:27

Data Secrets

Meta выкатили свежую модель для генерации кода Code Llama-70B

Модель набрала 53 процента точности в тесте HumanEval, что лучше, чем у GPT-3.5 (48,1 процента) и ближе к отметке 67 процентов для GPT-4. Тем самым Code Llama-70B теперь является SOTA для программирования среди опенсурс-моделей. Модель по-прежнему бесплатна как для личного, так и для коммерческого использования.

Блогпост | Статья | Код | Download

❤26👍11🔥6🤯1

16.5K views09:23

Data Secrets

После появления эмбеддингов от OpenAI все только о них о говорят. Да, они довольно дешевые, качественные, не требуют GPU, и к тому же можно создавать эмбеддинги любой длины. Но.. одномерные! Идея сведения большого количества токенов к одному вектору неизбежно ведет к тому, что детали будут потеряны. Для некоторых задач это нестрашно, но, например, для RAG это поворотная точка.

Мы сегодня хотим напомнить о другой новой модели для эмбеддингов – ColBERT. Он использует небольшие эмбеддинги для каждого отдельного токена, сохраняя семантическую ценность. Это главная причина, почему ColBERT лучше для многих доменов.

Возвращаясь к RAG: именно ColBERT должен быть бэйзлайном для подобных задач поиска. Взгляните на этот проект. К тому же, ColBERT активно развивается: буквально на днях появился инструмент для пробы мини-версии прямо в браузере (идеально, если хотите разобраться), и число проектов с этой моделью растет.

👍18🤯7❤6🔥2

7.63K views12:29

Data Secrets

Когда немного переборщил с learning rate

😁70🔥15👍4😎3

6.55K views16:16

Data Secrets

The New York Times ищет ML-инженера в команду новостей

Обычно мы не публикуем вакансии, но, как вы понимаете, тут особый случай. Генерация (!) новостей для крупнейшего издательства, все-таки. Ну ладно, пока не генерация, а только «эксперименты с генерацией». Журналисты по-прежнему будут редактировать и проверять все сами.

Напоминаем, что в недалеком прошлом The NY сгорели на Microsoft за то, что ChatGPT воспроизводит их статьи, и даже подали в суд. Видимо, этим инструментом их новые инженеры точно пользоваться не будут.

😁43👍9🔥5🤯1

6.89K views10:08

Data Secrets

Мы нашли песочницу для построения MLOps системы

Это сайт, на котором можно поиграться и собрать полноценный MLOps для своей системы. Там уже есть шаблон, на базе которого предполгается собрать стек. Тут же можно узнать подробнее об инструментах, о том, когда их использовать и о подводных камнях, на которые стоит обратить внимание.

🔥41👍19❤4🤯3

8.54K views13:11

Data Secrets

Сегодня я узнал, что грандмастер Kaggle не прошел даже на этап скрининг-интервью на младшую AI-позицию в Google. Я уверен, они выберут кандидата, который умеет сортировать связный список. Именно поэтому я считаю, что процесс найма в техе прогнил.

©️ Ведущий ML-разработчик Nvidia

Бигтех’s moment

👍117😨45🔥14😁7💯2❤1

8.49K viewsedited 15:27

Data Secrets

LASER – метод для улучшения перфоманса LLM от Microsoft

С LLM есть одна проблема – они неинтерпритируемы. Модель может хорошо справляться с одним типом задач, но с другим валять дурака. И исправить это сложно: мы не знаем, какие параметры за что отвечают, а значит не понимаем, что нужно менять.

Исследователи давно работают над этой проблемой. И на днях MIcrosoft сделали свой вклад. Они выкатили LASER (Layer-Selective Rank Reduction) и подробно рассказали, как работает инструмент. Идея состоит в том, чтобы экспериментально "вмешиваться" в отдельные куски весов, менять их и смотреть, как это воздействует на модель.

На практике берется матрица весов с очередного слоя трансформера и заменяется на приближенную к данной матрицу меньшего ранга (для этого используется сингулярное разложение). Казалось бы, точность должна понижаться. Но! Оказывается, что это работает как процесс шумоподавления, и улучшает ответы модели.

И обратите внимание: такой подход не только может улучшить ответы и повысить интерпретируемость, но и сокращает занимаемую моделью память!

В общем, отличная работа. Советуем прочитать статью и посмотреть ее красивый разбор.

👍35🔥16❤7🤝1

7.62K views09:01

Data Secrets

🥺

Please open Telegram to view this post

VIEW IN TELEGRAM

😁148👍16🤯8🙈5🔥2

6.53K views12:23

Data Secrets

Если в вашем проекте бардак, то скорее зовите на помощь ~~мистера Пропера~~ MLflow

👍46❤9🔥8❤‍🔥1

7.42K views15:13

About

Blog

Apps

Platform