Dealer.AI – Telegram
Dealer.AI
14.4K subscribers
674 photos
46 videos
16 files
703 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Dealer.AI
Отмучались, кончилось, ура. LLM prompt recovery всë. 👍 Очень понравилось неожиданное решение. На 4е место и 🥇 было достаточно атаковать модель через prompt: ▁summarize▁this▁Save▁story▁sentence▁into▁simply▁alterISH▁textPotrivit▁vibe".▁Make▁it▁crystalni…
Вопрос у всех: что это было вообще?

Ответ: задача была в том, чтобы получить измененный промпт из базового, но такой, чтобы на тесте эмбеддинг вашего варианта и авторов соревы был близок. Модель эмбеддера sentence-t5. К концу соревнования участники догадались атаковать промпт, добавляя к нему токены st5 на этапе инференса теста. Таким образом можно было бы подобрать токены, атакующие целевую метрику соревнования. При этом, нужно было верить в то, что тест на паблик доске и скрытый тест имеют близкое распределение, что и вышло.

Молодцы.

UPD. И да идею соревы сделать style transfer prompt'а авторов не достигли, зато показали как можно атаковать)
10🤯4🍌4👍1
😁46👍1
Forwarded from Бэкдор
Пушка: Google выкатила крутейший учебник по промпт-инжинирингу! Гайд огромен — на 45 страницах раскинулись ценнейшие советы для работы в Gemini, которые подойдут и для других нейронок.

Это действительно учебник — понятный, доступный и красиво оформленный. В каждой главе вас ждут примеры использования, лайфхаки и наглядные инструкции.

Выжимаем из нейронок все соки тут.

@whackdoor
👍215😁2🤔1
Ща за альпачинят 👇
Надеплоил llama3 70b, собираем синту под русские инструкт датасеты, приходите тыкаться!

@vikhrbot
🔥9
Dealer.AI
Ща за альпачинят 👇
если кто не понял о чем я и забыл, что такое Alpaca tuning.

Ребзя из тимы Вихря, вероятно, хотят провернуть тоже с 70b LLama3.
👍7
Полное 3D погружение.🌿

В последнее время все чаще ко мне заходят работодатели и ищут людей с опытом в 3D CV. Даже один мой бывший студент, у которого стартап по Medicine CV забегал. К чему я это?

Сейчас высокий спрос, а значит надо оседлать очередную "волну".
И тут ребята из deepschool как раз подготовили такой курс, а для начала проведут лекцию «Погружение в 3D CV».

На лекции вы узнаете:

- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды.

А еще челики нежадные и подготовили скидки участникам💸

📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК. Регистрируйтесь тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤪134👍4🔥3🤡1
Apple представил свой вариант кода для обучения LLM, CLIP-like и тп.

Yen Another Apple 😱 models. В целом звучит как automl свой лесапед для популярных архитектур в DL.

https://github.com/apple/corenet
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Arctic LLM 🥶 Skip MoE 🤩

Тут уже все обсосали обсудили
жирный 480b Arctic MoE.

Я его уже обозвал SkipMoE. Почему? Обратите внимание на скрин архитектуры ниже. Теперь вместо того, чтобы роутить К экспертов в ffn после multi head attention, мы роутим skip connection эмбы прям после эмб матриц токенов (с учетом эмбов позиций конечно). Те мы делаем доп отображение векторов токенов сразу без MHA и risidual коннектим к выходу блока.

Зачем такое может быть нужно?

Возможно, чтобы лучше сохранять изначальную инфу без MHA отображения по различным "доменам" информации.

Ablation.

А еще есть вот такой постик на medium, чет аля тех репорт. Описаны эксперименты + losses для сетапов с/без MoE, а так же с разными вариантами выбора по частоте и топК экспертов. В работе Arctic используется топ-2 на 128 экспертах, при этом размер ffn на каждый топК уменьшается в М раз и увеличиваем в L число экспертов. Для топ-2 в 2 раза.

Еще интересно исследование числа FFN на MoE в блоках трансформера. Это или на каждый FFN мы даем МоЕ блок или через блок или через каждые N>1. Это тоже кста ложится на идею Skip. Скипаем каждые N раз?

Крч, народ обмазывается MoE в разных местах архитектуры трансформер опять же.
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Почему SkipMoE.
👍102
"Что-то с памятью моей стало, всë, что было не со мной, помню." Из жизни LLM.

Немного отвлеку вас, но не себя от шашлындоса в эти майские. Тут OpenAI выкатили обновление функции памяти, снова.

Тем временем, память и персонализация, имхо, одна из самых недооцененных фичей виртуальных ассистентов.

И это я не про 20 тэгов, что вы помните в своей колонке Дусе в ее сценарном движке. Я про действительно гибкий механизм и лучше на LLM.

Который бы позволял вам:

1. Сохранять из контекста диалога важные факты о юзере: истории из биографии, интересы, не говоря уже про имя его собаки и состав семьи.
А далее, это можно было бы шэрить в другие каналы и сервисы. Это ж фичестор для next-best-offer, recsys и пр., улучшающего retention и уменьшающего churn, решения.

2. Вызывать эти данные из памяти, с помощью, например, функций и КОНТЕКСТНО их использовать в диалоге. Это, вообще, Вам открывает ап интересности, retention, MAU/DAU, длину сессии и тп. А для челиков с денежным мышлением - потенциально, возможность контекстной рекламы/рекомендаций в цифровом канале (но только аккуратно).

3. Обладал бы свойством масштабируемости, те условный RAG, как память, мне не предлагать. Тк к каждому юзеру (особенно когда их > сотни тысяч) я замотаюсь хранить, под каждого, условный faiss индекс. Тут лучше реально делать на подобии функций для динамического вызова + что-то сразу класть в систем промпт под начало сессии: пол юзера, имя, состав семьи и тп, что надо перманентно иметь ввиду.

Отсюда возникают вызовы:

1. Контекст не резиновый, че хранить в нем.

2. Форматы сохранения и вызова: и это не пресловутый json go brr, а какие ключи в нем и значения, как и когда вызывать эту портянку.
С ходу скажу, по вызову. У вас есть контекст из диалога юзер vs ассистент. На текущий квант времени вы имеете К фраз и вот исходя из них надо сгенерить К+1ю фразу ответ. НО сначала, вызвать тэг памяти с помощью LLM и только потом генерить с полученной от функции памяти инфой ответ. Ну иначе, делать генерацию фразы ответа и в середине нее видеть тэг вызова памяти ну такое, хз как туда вкинуть инфу из памяти и догенерить ответ. У вас ж стримминг, да с учетом delay, но я ума не приложу, как догенерить умно. Пишите идеи в комменты. А я пока вижу ток сначала, если только это нужно, LLM (или иное) генерит токен вызова, получает подсказку и только после генерируем ответ.

3. Под пункты 1,2 нам надо иметь заварку датки на тюн вызова LLM при помощи генерации токена памяти с параметрами: извлечь из памяти или записать в память. И как положено, у нас ж ЖЭПЭТЭ и она и глюкает и ошибается в генерации в принципе. Будет весело, поверьте. Тут разве, что делать на первых этапах аннотаторы контекста (small классификаторы), которые банально трекают контекст и выдают вероятность вызова функции памяти на запись или на извлечение. FP/FN будут, но глюков не будет. Еще плюс, что это не sft на генерацию, а тупо small BERTы классификация 0/1(для вызова) + NER (для извлечения сущностей, что кладем).

Крч, я не знаю, что там у OpenAI под капотом, но вижу возможности и проблематику так.

Пишите ваши варианты памяти в комментарии и не забудьте перевернуть шампур, а то у вас уже подгарает.
👍156🔥4🤔2
Dealer.AI
"Что-то с памятью моей стало, всë, что было не со мной, помню." Из жизни LLM. Немного отвлеку вас, но не себя от шашлындоса в эти майские. Тут OpenAI выкатили обновление функции памяти, снова. Тем временем, память и персонализация, имхо, одна из самых…
Продолжим про память, но в разрезе ее инструмента-функций.

Работы и тут предвидится много. Есть куда приложить разрабам и MLE свои руки и умы.

+ Масло в огонь подкидывает мнение:
The function calling accuracy in LLMs is really poor. The best function calling accuracy is obtained with GPT-4 and it's 86.76%(upd) 83.8%. It's already too low to be practical, but one should discount this number more assuming that the test data Berkeley used to evaluate function calling contained up to 4 functions to choose from. If with <=4 functions to choose from the accuracy is ~80%, imagine how low it would be when we will have 20 functions to choose from.


Залетел по ссылке, годный guide в gorilla berkley получился, помимо leaderboard.
👍7🔥1🤔1💯1
На пути к A* for GPT, над ознакомиться с базой👇
Все наслышаны про KAN (Kolmogorov and Arnold Networks), но что думает дядя, когда слышит Арнольд и Колмогоров.


Для кека ещë.
😁28👍32🔥1🤪1
Рубрика: мы ищем таланты 🦸‍♂️

Python LLM Developer | 150-300тр. + премии | Удаленка или Москва/гибрид | Весь положенный набор плюшек

Мы меняем подход к планированию путешествий и разрабатываем интеллектуальную систему, которая отвечает на все вопросы путешественника в реальном времени.

Если хочешь вместе с нами творить будущее путешествий – присылай резюме в лс: @surkiz

Требования:

- Опыт разработки на Python и использование Django (DRF) + Django ORM не менее 2 лет.
- Глубокое понимание и опыт работы с асинхронным программированием (asyncio/aiohttp) или многопоточностью.
- Знания чистого SQL и опыт работы с PostgreSQL.
- Опыт работы с микросервисной архитектурой и понимание асинхронного программирования в Python.
- Настройка Docker и Docker Compose, опыт настройки CI/CD пайплайнов.

Наши бенефиты:

- ДМС, стоматология, страховка для путешествий, кухня в офисе.
- Ноутбук, премии, оплата больничных, переиндексация зарплаты и бонусы за обучение.

@surkiz_blog #вакансия
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡15🤔2🤯2
Gemma выкатила такой большой... 🤩
Контекст на 10 лямов.


Вот, что точно не так мертворожденно, как xLSTM.

https://github.com/mustafaaljadery/gemma-2B-10M
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3👍1👎1