Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Как сделать так, чтобы нейросеть не переобучалась

Переобучение – это одно из главных проклятий большинства ML-алгоритмов, в том числе нейросетей. Вещь неприятная, конечно, но в большинстве случаев фиксится достаточно просто. Надо только знать специальные фокусы...

P.S. C вас – реакции, с нас – вторая часть)
👍210🔥5521🤯3
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги, мы или не мы?
😁45😨38🔥7💯71🤔1
Как набить руку для первой работы в ML?

Машинное обучение – это про решение проблем и задач. Вы можете прочитать книгу или посмотреть видео, но то, что действительно важно – это практика. И тут нам повезло. У нас есть Kaggle, неповторимая платформа, идеальная для того, чтобы применить знания на практике. Кроме этого, прогресс на Kaggle – большой показатель для работодателя.

Как начать работать с Kaggle?

Если вы уже имеете представление о том, что такое Kaggle и как с ним работать, но не ныряли глубоко, то лучше начать со старых соревнований. Там уже есть решения других участников, обсуждения и готовые пайплайны. Можно смотреть -> делать похожим образом -> сравнивать.

А если совсем новичок?

Тогда советуем книгу «Developing Kaggle Notebooks» от Габриеля Преда и прилагающийся к ней репозиторий кода. В ней объяснено каждое действие, каждая строка кода. Точно не запутаетесь. И кстати, в ней есть даже главы про генеративки. А еще, обязательно ознакомьтесь с руководствами от самого Kaggle – там огромное количество бесплатных полезных курсов.

Желаем успехов, и не забудьте поделиться своими достижениями на Kaggle в комментариях!
👍78🔥146🎉4🤯2😍2🥰1
Немного продлеваем выходные. Традиционная воскресная задача в понедельник утром! Еще не поздно потренировать свои нейроны перед рабочей неделей 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
27🤯12🔥104👍3🥰1
На днях 2 года исполнилось InstructGPT – матери всех современных LLM. Статья про эту модель была опубликована на NeurIPS в 2022 году и стала главным предзнаменованием перехода LLM из статуса академической диковинки в реальный продукт. Неудивительно, что это была последняя статья от OpenAI, описывающая детали обучения.

3-этапный алгоритм, обрисованный в статье, до сих пор используется (с вариациями) как канон в большинстве LLM. Pre-training -> supervised finetuning -> RLHF. Вон он, рецепт счастья. Кстати, RLHF изобрели еще раньше (тоже в OpenAI). Аж в 2017 году, почти одновременно с трансформерами.

А еще эта статья – эталон презентации своего исследования. Ничего лишнего, кристально описанные 3 этапа обучения, подсветка важных деталей. Мёд 🍯

Ну вы поняли – это маст-рид, советуем!
🔥39🎉65👍3🤯2
Никто: …
Моя модель: …
Я после каждого батча:
👍70🔥12😁113🐳2🤩1
А почему 0.05?

Такой вопрос задавал себе каждый уважающий себя аналитик или человек, который имел дело с проверкой гипотез с помощью p-value. p-value – это такая мера, с помощью которой мы оцениваем, является ли наблюдаемый исход случайным. А 0.05 – это выбранный в качестве лакмусовой бумажки порог для этого значения.

Но... почему 0.05? Что за хардкодинг в статистике? Перечисляем 4 главные причины. Вот они слева направо:
👍60😁35🔥65🤩2🤨2👏1
Meta выкатили свежую модель для генерации кода Code Llama-70B

Модель набрала 53 процента точности в тесте HumanEval, что лучше, чем у GPT-3.5 (48,1 процента) и ближе к отметке 67 процентов для GPT-4. Тем самым Code Llama-70B теперь является SOTA для программирования среди опенсурс-моделей. Модель по-прежнему бесплатна как для личного, так и для коммерческого использования.

Блогпост | Статья | Код | Download
26👍11🔥6🤯1
После появления эмбеддингов от OpenAI все только о них о говорят. Да, они довольно дешевые, качественные, не требуют GPU, и к тому же можно создавать эмбеддинги любой длины. Но.. одномерные! Идея сведения большого количества токенов к одному вектору неизбежно ведет к тому, что детали будут потеряны. Для некоторых задач это нестрашно, но, например, для RAG это поворотная точка.

Мы сегодня хотим напомнить о другой новой модели для эмбеддингов – ColBERT. Он использует небольшие эмбеддинги для каждого отдельного токена, сохраняя семантическую ценность. Это главная причина, почему ColBERT лучше для многих доменов.

Возвращаясь к RAG: именно ColBERT должен быть бэйзлайном для подобных задач поиска. Взгляните на этот проект. К тому же, ColBERT активно развивается: буквально на днях появился инструмент для пробы мини-версии прямо в браузере (идеально, если хотите разобраться), и число проектов с этой моделью растет.
👍18🤯76🔥2
Когда немного переборщил с learning rate
😁70🔥15👍4😎3
The New York Times ищет ML-инженера в команду новостей

Обычно мы не публикуем вакансии, но, как вы понимаете, тут особый случай. Генерация (!) новостей для крупнейшего издательства, все-таки. Ну ладно, пока не генерация, а только «эксперименты с генерацией». Журналисты по-прежнему будут редактировать и проверять все сами.

Напоминаем, что в недалеком прошлом The NY сгорели на Microsoft за то, что ChatGPT воспроизводит их статьи, и даже подали в суд. Видимо, этим инструментом их новые инженеры точно пользоваться не будут.
😁43👍9🔥5🤯1
Мы нашли песочницу для построения MLOps системы

Это сайт, на котором можно поиграться и собрать полноценный MLOps для своей системы. Там уже есть шаблон, на базе которого предполгается собрать стек. Тут же можно узнать подробнее об инструментах, о том, когда их использовать и о подводных камнях, на которые стоит обратить внимание.
🔥41👍194🤯3
Сегодня я узнал, что грандмастер Kaggle не прошел даже на этап скрининг-интервью на младшую AI-позицию в Google. Я уверен, они выберут кандидата, который умеет сортировать связный список. Именно поэтому я считаю, что процесс найма в техе прогнил.

©️ Ведущий ML-разработчик Nvidia


Бигтех’s moment
👍117😨45🔥14😁7💯21
LASER – метод для улучшения перфоманса LLM от Microsoft

С LLM есть одна проблема – они неинтерпритируемы. Модель может хорошо справляться с одним типом задач, но с другим валять дурака. И исправить это сложно: мы не знаем, какие параметры за что отвечают, а значит не понимаем, что нужно менять.

Исследователи давно работают над этой проблемой. И на днях MIcrosoft сделали свой вклад. Они выкатили LASER (Layer-Selective Rank Reduction) и подробно рассказали, как работает инструмент. Идея состоит в том, чтобы экспериментально "вмешиваться" в отдельные куски весов, менять их и смотреть, как это воздействует на модель.

На практике берется матрица весов с очередного слоя трансформера и заменяется на приближенную к данной матрицу меньшего ранга (для этого используется сингулярное разложение). Казалось бы, точность должна понижаться. Но! Оказывается, что это работает как процесс шумоподавления, и улучшает ответы модели.

И обратите внимание: такой подход не только может улучшить ответы и повысить интерпретируемость, но и сокращает занимаемую моделью память!

В общем, отличная работа. Советуем прочитать статью и посмотреть ее красивый разбор.
👍35🔥167🤝1
🥺 🥺 🥺
Please open Telegram to view this post
VIEW IN TELEGRAM
😁148👍16🤯8🙈5🔥2
Если в вашем проекте бардак, то скорее зовите на помощь мистера Пропера MLflow
👍469🔥8❤‍🔥1