Dealer.AI
Отмучались, кончилось, ура. LLM prompt recovery всë. 👍 Очень понравилось неожиданное решение. На 4е место и 🥇 было достаточно атаковать модель через prompt: ▁summarize▁this▁Save▁story▁sentence▁into▁simply▁alterISH▁textPotrivit▁vibe".▁Make▁it▁crystalni…
Вопрос у всех: что это было вообще?
Ответ: задача была в том, чтобы получить измененный промпт из базового, но такой, чтобы на тесте эмбеддинг вашего варианта и авторов соревы был близок. Модель эмбеддера sentence-t5. К концу соревнования участники догадались атаковать промпт, добавляя к нему токены st5 на этапе инференса теста. Таким образом можно было бы подобрать токены, атакующие целевую метрику соревнования. При этом, нужно было верить в то, что тест на паблик доске и скрытый тест имеют близкое распределение, что и вышло.
Молодцы.
UPD. И да идею соревы сделать style transfer prompt'а авторов не достигли, зато показали как можно атаковать)
Ответ: задача была в том, чтобы получить измененный промпт из базового, но такой, чтобы на тесте эмбеддинг вашего варианта и авторов соревы был близок. Модель эмбеддера sentence-t5. К концу соревнования участники догадались атаковать промпт, добавляя к нему токены st5 на этапе инференса теста. Таким образом можно было бы подобрать токены, атакующие целевую метрику соревнования. При этом, нужно было верить в то, что тест на паблик доске и скрытый тест имеют близкое распределение, что и вышло.
Молодцы.
UPD. И да идею соревы сделать style transfer prompt'а авторов не достигли, зато показали как можно атаковать)
❤10🤯4🍌4👍1
Forwarded from Бэкдор
Пушка: Google выкатила крутейший учебник по промпт-инжинирингу! Гайд огромен — на 45 страницах раскинулись ценнейшие советы для работы в Gemini, которые подойдут и для других нейронок.
Это действительно учебник — понятный, доступный и красиво оформленный. В каждой главе вас ждут примеры использования, лайфхаки и наглядные инструкции.
Выжимаем из нейронок все соки тут.
@whackdoor
Это действительно учебник — понятный, доступный и красиво оформленный. В каждой главе вас ждут примеры использования, лайфхаки и наглядные инструкции.
Выжимаем из нейронок все соки тут.
@whackdoor
👍21❤5😁2🤔1
Forwarded from Love. Death. Transformers.
🔥9
Dealer.AI
Ща за альпачинят 👇
если кто не понял о чем я и забыл, что такое Alpaca tuning.
Ребзя из тимы Вихря, вероятно, хотят провернуть тоже с 70b LLama3.
Ребзя из тимы Вихря, вероятно, хотят провернуть тоже с 70b LLama3.
👍7
Полное 3D погружение.🌿
В последнее время все чаще ко мне заходят работодатели и ищут людей с опытом в 3D CV. Даже один мой бывший студент, у которого стартап по Medicine CV забегал. К чему я это?
Сейчас высокий спрос, а значит надо оседлать очередную "волну".
И тут ребята из deepschool как раз подготовили такой курс, а для начала проведут лекцию «Погружение в 3D CV».
На лекции вы узнаете:
- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды.
А еще челики нежадные и подготовили скидки участникам💸
📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК. Регистрируйтесь тут.
В последнее время все чаще ко мне заходят работодатели и ищут людей с опытом в 3D CV. Даже один мой бывший студент, у которого стартап по Medicine CV забегал. К чему я это?
Сейчас высокий спрос, а значит надо оседлать очередную "волну".
И тут ребята из deepschool как раз подготовили такой курс, а для начала проведут лекцию «Погружение в 3D CV».
На лекции вы узнаете:
- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды.
А еще челики нежадные и подготовили скидки участникам
📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК. Регистрируйтесь тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSchool | Погружение в 3D CV
Онлайн-лекция"Погружение в 3D CV"
🤪13❤4👍4🔥3🤡1
Apple представил свой вариант кода для обучения LLM, CLIP-like и тп.
Yen Another Apple😱 models. В целом звучит как automl свой лесапед для популярных архитектур в DL.
https://github.com/apple/corenet
Yen Another Apple
https://github.com/apple/corenet
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - apple/corenet: CoreNet: A library for training deep neural networks
CoreNet: A library for training deep neural networks - apple/corenet
👍4
Arctic LLM 🥶 Skip MoE 🤩
Тут уже всеобсосали обсудили
жирный 480b Arctic MoE.
Я его уже обозвал SkipMoE. Почему? Обратите внимание на скрин архитектуры ниже. Теперь вместо того, чтобы роутить К экспертов в ffn после multi head attention, мы роутим skip connection эмбы прям после эмб матриц токенов (с учетом эмбов позиций конечно). Те мы делаем доп отображение векторов токенов сразу без MHA и risidual коннектим к выходу блока.
Зачем такое может быть нужно?
Возможно, чтобы лучше сохранять изначальную инфу без MHA отображения по различным "доменам" информации.
Ablation.
А еще есть вот такой постик на medium, чет аля тех репорт. Описаны эксперименты + losses для сетапов с/без MoE, а так же с разными вариантами выбора по частоте и топК экспертов. В работе Arctic используется топ-2 на 128 экспертах, при этом размер ffn на каждый топК уменьшается в М раз и увеличиваем в L число экспертов. Для топ-2 в 2 раза.
Еще интересно исследование числа FFN на MoE в блоках трансформера. Это или на каждый FFN мы даем МоЕ блок или через блок или через каждые N>1. Это тоже кста ложится на идею Skip. Скипаем каждые N раз?
Крч, народ обмазывается MoE в разных местах архитектуры трансформер опять же.
Тут уже все
жирный 480b Arctic MoE.
Я его уже обозвал SkipMoE. Почему? Обратите внимание на скрин архитектуры ниже. Теперь вместо того, чтобы роутить К экспертов в ffn после multi head attention, мы роутим skip connection эмбы прям после эмб матриц токенов (с учетом эмбов позиций конечно). Те мы делаем доп отображение векторов токенов сразу без MHA и risidual коннектим к выходу блока.
Зачем такое может быть нужно?
Возможно, чтобы лучше сохранять изначальную инфу без MHA отображения по различным "доменам" информации.
Ablation.
А еще есть вот такой постик на medium, чет аля тех репорт. Описаны эксперименты + losses для сетапов с/без MoE, а так же с разными вариантами выбора по частоте и топК экспертов. В работе Arctic используется топ-2 на 128 экспертах, при этом размер ffn на каждый топК уменьшается в М раз и увеличиваем в L число экспертов. Для топ-2 в 2 раза.
Еще интересно исследование числа FFN на MoE в блоках трансформера. Это или на каждый FFN мы даем МоЕ блок или через блок или через каждые N>1. Это тоже кста ложится на идею Skip. Скипаем каждые N раз?
Крч, народ обмазывается MoE в разных местах архитектуры трансформер опять же.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Snowflake/snowflake-arctic-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤6
Dealer.AI
LLM отправили на олимпиаду по матише. 🧑🎓 Новый сорев по NLP на kaggle. Над решать олимпиадные задачки при помощи LLM. Вопреки тренду тут и тут, train сетик имеется 🤙 Да еще даже есть указание откуда он взялся, те можно наскрапать поболее датки. Что тут…
На майские начать с нового листа. Сорева по решению математических задач с LLM обнулилась...
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/leaderboard
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/leaderboard
🥴9
"Что-то с памятью моей стало, всë, что было не со мной, помню." Из жизни LLM.
Немного отвлеку вас,но не себя от шашлындоса в эти майские. Тут OpenAI выкатили обновление функции памяти, снова.
Тем временем, память и персонализация, имхо, одна из самых недооцененных фичей виртуальных ассистентов.
И это я не про 20 тэгов, что вы помните в своей колонке Дусе в ее сценарном движке. Я про действительно гибкий механизм и лучше на LLM.
Который бы позволял вам:
1. Сохранять из контекста диалога важные факты о юзере: истории из биографии, интересы, не говоря уже про имя его собаки и состав семьи.
А далее, это можно было бы шэрить в другие каналы и сервисы. Это ж фичестор для next-best-offer, recsys и пр., улучшающего retention и уменьшающего churn, решения.
2. Вызывать эти данные из памяти, с помощью, например, функций и КОНТЕКСТНО их использовать в диалоге. Это, вообще, Вам открывает ап интересности, retention, MAU/DAU, длину сессии и тп. А для челиков с денежным мышлением - потенциально, возможность контекстной рекламы/рекомендаций в цифровом канале (но только аккуратно).
3. Обладал бы свойством масштабируемости, те условный RAG, как память, мне не предлагать. Тк к каждому юзеру (особенно когда их > сотни тысяч) я замотаюсь хранить, под каждого, условный faiss индекс. Тут лучше реально делать на подобии функций для динамического вызова + что-то сразу класть в систем промпт под начало сессии: пол юзера, имя, состав семьи и тп, что надо перманентно иметь ввиду.
Отсюда возникают вызовы:
1. Контекст не резиновый, че хранить в нем.
2. Форматы сохранения и вызова: и это не пресловутый json go brr, а какие ключи в нем и значения, как и когда вызывать эту портянку.
С ходу скажу, по вызову. У вас есть контекст из диалога юзер vs ассистент. На текущий квант времени вы имеете К фраз и вот исходя из них надо сгенерить К+1ю фразу ответ. НО сначала, вызвать тэг памяти с помощью LLM и только потом генерить с полученной от функции памяти инфой ответ. Ну иначе, делать генерацию фразы ответа и в середине нее видеть тэг вызова памяти ну такое, хз как туда вкинуть инфу из памяти и догенерить ответ. У вас ж стримминг, да с учетом delay, но я ума не приложу, как догенерить умно. Пишите идеи в комменты. А я пока вижу ток сначала, если только это нужно, LLM (или иное) генерит токен вызова, получает подсказку и только после генерируем ответ.
3. Под пункты 1,2 нам надо иметь заварку датки на тюн вызова LLM при помощи генерации токена памяти с параметрами: извлечь из памяти или записать в память. И как положено, у нас ж ЖЭПЭТЭ и она и глюкает и ошибается в генерации в принципе. Будет весело, поверьте. Тут разве, что делать на первых этапах аннотаторы контекста (small классификаторы), которые банально трекают контекст и выдают вероятность вызова функции памяти на запись или на извлечение. FP/FN будут, но глюков не будет. Еще плюс, что это не sft на генерацию, а тупо small BERTы классификация 0/1(для вызова) + NER (для извлечения сущностей, что кладем).
Крч, я не знаю, что там у OpenAI под капотом, но вижу возможности и проблематику так.
Пишите ваши варианты памяти в комментарии и не забудьте перевернуть шампур, а то у вас уже подгарает.
Немного отвлеку вас,
Тем временем, память и персонализация, имхо, одна из самых недооцененных фичей виртуальных ассистентов.
И это я не про 20 тэгов, что вы помните в своей колонке Дусе в ее сценарном движке. Я про действительно гибкий механизм и лучше на LLM.
Который бы позволял вам:
1. Сохранять из контекста диалога важные факты о юзере: истории из биографии, интересы, не говоря уже про имя его собаки и состав семьи.
А далее, это можно было бы шэрить в другие каналы и сервисы. Это ж фичестор для next-best-offer, recsys и пр., улучшающего retention и уменьшающего churn, решения.
2. Вызывать эти данные из памяти, с помощью, например, функций и КОНТЕКСТНО их использовать в диалоге. Это, вообще, Вам открывает ап интересности, retention, MAU/DAU, длину сессии и тп. А для челиков с денежным мышлением - потенциально, возможность контекстной рекламы/рекомендаций в цифровом канале (но только аккуратно).
3. Обладал бы свойством масштабируемости, те условный RAG, как память, мне не предлагать. Тк к каждому юзеру (особенно когда их > сотни тысяч) я замотаюсь хранить, под каждого, условный faiss индекс. Тут лучше реально делать на подобии функций для динамического вызова + что-то сразу класть в систем промпт под начало сессии: пол юзера, имя, состав семьи и тп, что надо перманентно иметь ввиду.
Отсюда возникают вызовы:
1. Контекст не резиновый, че хранить в нем.
2. Форматы сохранения и вызова: и это не пресловутый json go brr, а какие ключи в нем и значения, как и когда вызывать эту портянку.
С ходу скажу, по вызову. У вас есть контекст из диалога юзер vs ассистент. На текущий квант времени вы имеете К фраз и вот исходя из них надо сгенерить К+1ю фразу ответ. НО сначала, вызвать тэг памяти с помощью LLM и только потом генерить с полученной от функции памяти инфой ответ. Ну иначе, делать генерацию фразы ответа и в середине нее видеть тэг вызова памяти ну такое, хз как туда вкинуть инфу из памяти и догенерить ответ. У вас ж стримминг, да с учетом delay, но я ума не приложу, как догенерить умно. Пишите идеи в комменты. А я пока вижу ток сначала, если только это нужно, LLM (или иное) генерит токен вызова, получает подсказку и только после генерируем ответ.
3. Под пункты 1,2 нам надо иметь заварку датки на тюн вызова LLM при помощи генерации токена памяти с параметрами: извлечь из памяти или записать в память. И как положено, у нас ж ЖЭПЭТЭ и она и глюкает и ошибается в генерации в принципе. Будет весело, поверьте. Тут разве, что делать на первых этапах аннотаторы контекста (small классификаторы), которые банально трекают контекст и выдают вероятность вызова функции памяти на запись или на извлечение. FP/FN будут, но глюков не будет. Еще плюс, что это не sft на генерацию, а тупо small BERTы классификация 0/1(для вызова) + NER (для извлечения сущностей, что кладем).
Крч, я не знаю, что там у OpenAI под капотом, но вижу возможности и проблематику так.
Пишите ваши варианты памяти в комментарии и не забудьте перевернуть шампур, а то у вас уже подгарает.
X (formerly Twitter)
OpenAI (@OpenAI) on X
Memory is now available to all ChatGPT Plus users. Using Memory is easy: just start a new chat and tell ChatGPT anything you’d like it to remember.
Memory can be turned on or off in settings and is not currently available in Europe or Korea. Team, Enterprise…
Memory can be turned on or off in settings and is not currently available in Europe or Korea. Team, Enterprise…
👍15❤6🔥4🤔2
Dealer.AI
"Что-то с памятью моей стало, всë, что было не со мной, помню." Из жизни LLM. Немного отвлеку вас, но не себя от шашлындоса в эти майские. Тут OpenAI выкатили обновление функции памяти, снова. Тем временем, память и персонализация, имхо, одна из самых…
Продолжим про память, но в разрезе ее инструмента-функций.
Работы и тут предвидится много. Есть куда приложить разрабам и MLE свои руки и умы.
+ Масло в огонь подкидывает мнение:
The function calling accuracy in LLMs is really poor. The best function calling accuracy is obtained with GPT-4 and it's86.76%(upd) 83.8%. It's already too low to be practical, but one should discount this number more assuming that the test data Berkeley used to evaluate function calling contained up to 4 functions to choose from. If with <=4 functions to choose from the accuracy is ~80%, imagine how low it would be when we will have 20 functions to choose from.
Залетел по ссылке, годный guide в gorilla berkley получился, помимо leaderboard.
Работы и тут предвидится много. Есть куда приложить разрабам и MLE свои руки и умы.
+ Масло в огонь подкидывает мнение:
The function calling accuracy in LLMs is really poor. The best function calling accuracy is obtained with GPT-4 and it's
Залетел по ссылке, годный guide в gorilla berkley получился, помимо leaderboard.
X (formerly Twitter)
Andriy Burkov (@burkov) on X
Function calling accuracy in LLMs really sucks. The best function calling accuracy is obtained with GPT-4 and it's 83.8%. It's already too low to be practical, but one should discount this number more assuming that the test data Berkeley used to evaluate…
👍7🔥1🤔1💯1
Forwarded from Alexander C
👨🔬 Никита Бухал "Уравнение Беллмана и (А*) - алгоритм поиска путь в графе"
📹 Video: https://youtu.be/oli-8SPhsSI?si=Hrp6GDByEm5HwE9d
📖 Presentation: https://docs.google.com/presentation/d/1phFZf8NZgNHchhj67LNcbLPwa39vKlKLELoXS_ES9Jk/edit?usp=sharing
✔️ Abstract: https://news.1rj.ru/str/sberlogabig/405
📓 Notebook: https://www.kaggle.com/code/tttzof351/a-star
📹 Video: https://youtu.be/oli-8SPhsSI?si=Hrp6GDByEm5HwE9d
📖 Presentation: https://docs.google.com/presentation/d/1phFZf8NZgNHchhj67LNcbLPwa39vKlKLELoXS_ES9Jk/edit?usp=sharing
✔️ Abstract: https://news.1rj.ru/str/sberlogabig/405
📓 Notebook: https://www.kaggle.com/code/tttzof351/a-star
YouTube
Никита Бухал "Уравнение Беллмана и (А*) - алгоритм поиска путь в графе"
🚀 https://news.1rj.ru/str/sberlogabig/405
👨🔬 Никита Бухал "Уравнение Беллмана и (А*) - алгоритм поиска путь в графе"
⌚️ Четверг 2 мая 19.00 по Москве
📓 Notebook: https://www.kaggle.com/code/tttzof351/a-star?noscriptVersionId=174356800
Уравнение Беллмана - это основа…
👨🔬 Никита Бухал "Уравнение Беллмана и (А*) - алгоритм поиска путь в графе"
⌚️ Четверг 2 мая 19.00 по Москве
📓 Notebook: https://www.kaggle.com/code/tttzof351/a-star?noscriptVersionId=174356800
Уравнение Беллмана - это основа…
🔥13❤4😁4🤔3
Вышла текстовая версия нашего выступления про retrieval/ranking с R&D day.
Хабр
Практические аспекты ранжирования ответов виртуального ассистента Салют
Всем привет! Меня зовут Аня Максимова, я занимаюсь NLP в команде Нейронные сети продукта Собеседник! 5 апреля проходила конференция Giga R&D Day , где мой коллега — Артем Снегирев...
👍22🔥5❤3
Все наслышаны про KAN (Kolmogorov and Arnold Networks), но что думает дядя, когда слышит Арнольд и Колмогоров.
Для кека ещë.
Для кека ещë.
😁28👍3❤2🔥1🤪1
Forwarded from Макси́м Сурки́з – Создаю продукты
Рубрика: мы ищем таланты 🦸♂️
Мы меняем подход к планированию путешествий и разрабатываем интеллектуальную систему, которая отвечает на все вопросы путешественника в реальном времени.
Если хочешь вместе с нами творить будущее путешествий – присылай резюме в лс: @surkiz
Требования:
- Опыт разработки на Python и использование Django (DRF) + Django ORM не менее 2 лет.
- Глубокое понимание и опыт работы с асинхронным программированием (asyncio/aiohttp) или многопоточностью.
- Знания чистого SQL и опыт работы с PostgreSQL.
- Опыт работы с микросервисной архитектурой и понимание асинхронного программирования в Python.
- Настройка Docker и Docker Compose, опыт настройки CI/CD пайплайнов.
Наши бенефиты:
- ДМС, стоматология, страховка для путешествий, кухня в офисе.
- Ноутбук, премии, оплата больничных, переиндексация зарплаты и бонусы за обучение.
@surkiz_blog #вакансия
Python LLM Developer | 150-300тр. + премии | Удаленка или Москва/гибрид | Весь положенный набор плюшекМы меняем подход к планированию путешествий и разрабатываем интеллектуальную систему, которая отвечает на все вопросы путешественника в реальном времени.
Если хочешь вместе с нами творить будущее путешествий – присылай резюме в лс: @surkiz
Требования:
- Опыт разработки на Python и использование Django (DRF) + Django ORM не менее 2 лет.
- Глубокое понимание и опыт работы с асинхронным программированием (asyncio/aiohttp) или многопоточностью.
- Знания чистого SQL и опыт работы с PostgreSQL.
- Опыт работы с микросервисной архитектурой и понимание асинхронного программирования в Python.
- Настройка Docker и Docker Compose, опыт настройки CI/CD пайплайнов.
Наши бенефиты:
- ДМС, стоматология, страховка для путешествий, кухня в офисе.
- Ноутбук, премии, оплата больничных, переиндексация зарплаты и бонусы за обучение.
@surkiz_blog #вакансия
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡15🤔2🤯2
Gemma выкатила такой большой... 🤩
Контекст на 10 лямов.
Вот, что точно не так мертворожденно, как xLSTM.
https://github.com/mustafaaljadery/gemma-2B-10M
Вот, что точно не так мертворожденно, как xLSTM.
https://github.com/mustafaaljadery/gemma-2B-10M
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - mustafaaljadery/gemma-2B-10M: Gemma 2B with 10M context length using Infini-attention.
Gemma 2B with 10M context length using Infini-attention. - mustafaaljadery/gemma-2B-10M
❤7🔥3👍1👎1
Dealer.AI
Gemma выкатила такой большой... 🤩 Контекст на 10 лямов. Вот, что точно не так мертворожденно, как xLSTM. https://github.com/mustafaaljadery/gemma-2B-10M
Примерно настолько больше, чем 8к в твоем любимом наборе круп из LLM
🤔10🥴4❤3