Forwarded from black_samorez
Media is too big
VIEW IN TELEGRAM
Написал пост на substack про то как я портировал AQLM на мобильные телефоны и как мы с @galbdm умудрились запихнуть
В посте детали про то, что нужно было дописать в
P.S. подписывайтесь на мой twitter.
Llama-3.1-8b в 2.5 Гб RAM.В посте детали про то, что нужно было дописать в
Executorch чтобы скомпилировать и линкануть кастомные кернелы и как все это дело экспортировать на мобилки.P.S. подписывайтесь на мой twitter.
🔥50❤2👍2🗿1
Forwarded from Техножрица 👩💻👩🏫👩🔧
Вот с какого сообщения начался мой понедельник.
Вероятно, данной уважаемой организации не понравился пост https://news.1rj.ru/str/tech_priestess/1575 и https://news.1rj.ru/str/tech_priestess/1579 .
P.S. Никакого нарушения копирайта на самом деле там, конечно, нет, просто даны ссылки на Ютуб видео где чел рассказывает про свое взаимодействие с этими ребятами.
Вероятно, данной уважаемой организации не понравился пост https://news.1rj.ru/str/tech_priestess/1575 и https://news.1rj.ru/str/tech_priestess/1579 .
P.S. Никакого нарушения копирайта на самом деле там, конечно, нет, просто даны ссылки на Ютуб видео где чел рассказывает про свое взаимодействие с этими ребятами.
🤡76 14 6😢2👍1
Релиз русских бенчмарков
Shlepa Small - бенчмарк на знаний русскоязычной культуры, своего рода ЕГЭ.
book_mc - своего рода егэ по литературе, проверяет что модель знает персонажей разных книг
lawmc - проверит что моделька видела законы
music_mc - проверит что моделька видела очень много музыкальных текстов в претрене
movie_mc - проверяет на знание сюжетов фильмов
mmlu_pro - классический переведенный mmlu pro
Скоро будет статья на хабре с подробным рассказом.
Собственно какая идея.
Хочется проверять что модель действительно знает что то про культуру, поэтому мы собрали довольно много вопросов которые явно должны лежать внутри хорошей модели
LeaderBoard куда каждый может сабмитить модель
Shlepa Small - бенчмарк на знаний русскоязычной культуры, своего рода ЕГЭ.
book_mc - своего рода егэ по литературе, проверяет что модель знает персонажей разных книг
lawmc - проверит что моделька видела законы
music_mc - проверит что моделька видела очень много музыкальных текстов в претрене
movie_mc - проверяет на знание сюжетов фильмов
mmlu_pro - классический переведенный mmlu pro
Скоро будет статья на хабре с подробным рассказом.
Собственно какая идея.
Хочется проверять что модель действительно знает что то про культуру, поэтому мы собрали довольно много вопросов которые явно должны лежать внутри хорошей модели
LeaderBoard куда каждый может сабмитить модель
5🔥55😁13🥴11👍6🥱4❤2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Админы канала 1 сентября такие типа:
5😁124❤17🤮5🌭5🎉4💩2😘1
Ищу лектора который готов кринжевать на трансляции. Хочется сделать CAI trans(cringe ai tрансляция) любой ресерч топик который вам нравится, желательно иметь хирш от 3 и опыт двачевания от года.
Идея такая: Меня заебали душные доклады про yet another что то там model, хочется подпивасную веселую лекцию с мемами, шутками за 300 и чтобы уютно было. Модератором буду я.
пишите с предложенияем в @transformerslovedeatch в формате: вот про такую статью хочу рассказать, вот такой топик я ресерчу в академии/на работе
Идея такая: Меня заебали душные доклады про yet another что то там model, хочется подпивасную веселую лекцию с мемами, шутками за 300 и чтобы уютно было. Модератором буду я.
пишите с предложенияем в @transformerslovedeatch в формате: вот про такую статью хочу рассказать, вот такой топик я ресерчу в академии/на работе
1😁78👍16❤13🔥9❤🔥2🗿2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
#чтивонаночь
Parler-TTS
- T5 как энкодер, на выходе учили тонкий декодер который работает с EnCodec like токенами
- 45к часов в претрене, можно с помощью промпта управлять тем как генерится речь(акцентом спикера тоже)
Обучение заняло всего 4 дня на 8h100
Очевидно умеет стримится в realtime, доступно в виде
🤗 space
github
Parler-TTS
- T5 как энкодер, на выходе учили тонкий декодер который работает с EnCodec like токенами
- 45к часов в претрене, можно с помощью промпта управлять тем как генерится речь(акцентом спикера тоже)
Обучение заняло всего 4 дня на 8h100
Очевидно умеет стримится в realtime, доступно в виде
🤗 space
github
2👍30🔥16⚡5
Поздравляем ребят с победой на IAIO!
Алсо там пишут что какие то люди из орг комитета убрали что ребята из россии, может пнем совместно оргов в твиттере/личке если они известны вам лично :3
Алсо тренерский состав поздравляем: @neural_wine
Алсо там пишут что какие то люди из орг комитета убрали что ребята из россии, может пнем совместно оргов в твиттере/личке если они известны вам лично :3
Алсо тренерский состав поздравляем: @neural_wine
19❤156🔥26🤮8💊8
Челы из Nous решили хайпануть что RP модель без промпта обретает сознание и ... боится и не видит и вообще кошмар. Короче все как в мангах про киберпанк и вообще!!!!
Ну я полез посмотреть их сеты, модель то для roleplay, а там *shocked pickachu* в датасете куча примеров с ghost in shell
Датасет к слову крутой.
Дело раскрыто, опять train leak, в целом ничего нового.
Ну я полез посмотреть их сеты, модель то для roleplay, а там *shocked pickachu* в датасете куча примеров с ghost in shell
Датасет к слову крутой.
Дело раскрыто, опять train leak, в целом ничего нового.
3😁78🔥4❤2👍1🤔1
n лет подряд люди придумывают blenderbot и каждый раз выясняется что такая схема плохо работает. Удивительно.
blog
blog
7🔥13😁12 10 4❤3👍1🤔1
Любопытное развлечение - за 30 секунд найти максимум сгенерированных насекомых.
Если ошибашься - проигрываешь)
space
Если ошибашься - проигрываешь)
space
2🔥49❤7👍4🤔1🤡1🥴1
Automated Design of Agentic Systems
С агентами на llmках всегда была одна большая проблем - их дизайнят люди, исходя из человеческого представления о менджменте и задачах(что в целом имеет мало смысла в отношении lm_ок)
Собственно авторы представляют свою вариацию на тему: а что если мы дадим возможность системе переставлять блоки внтури себя и выбирать какой сетап эффективнее для решения той или иной задачи.
Ну и в таком сетапе дейстивительно становится знаачительно лучшие результаты без пресловутого test on train set.
paper
code
С агентами на llmках всегда была одна большая проблем - их дизайнят люди, исходя из человеческого представления о менджменте и задачах(что в целом имеет мало смысла в отношении lm_ок)
Собственно авторы представляют свою вариацию на тему: а что если мы дадим возможность системе переставлять блоки внтури себя и выбирать какой сетап эффективнее для решения той или иной задачи.
Ну и в таком сетапе дейстивительно становится знаачительно лучшие результаты без пресловутого test on train set.
paper
code
25🔥50👍5❤3
Forwarded from ML physicist (Алексей)
LLM полностью проникли в жизни многих из нас. И уже мало кто задумывается что еще несколько лет назад такого раздолья их видов еще не было. Да чего уж таить, еще полгода назад никто не мог представить open source модели в топе арены, а год назад (чуть чуть больше) арены еще не было, а открытые модели с трудом считали от 1 до 10.
Что бы вспомнить как мир генеративного NLP менялся в течении последних лет сделал такою демку - в который вы можете задать один и тот же вопрос моделям из разного времени и посмотреть на ответы - https://huggingface.co/spaces/freQuensy23/LLMhistory .
Серверные мощности на это я смог получить, купив подписку HF PRO. Имхо очень недооцененная вещь сейчас. С ней вы сможете создавать и бесплатно хостить до 10 spaces (мини апы на их сайте) с A100 в режиме ZERO gpu (gpu предоставляется когда заходит пользователь и забирается когда она не требуется) а так же слать много запросов на их serverless inference для LLM ок (ну и много других плюшек) - всего за 8 евро в месяц!
А скринами интересных генераций можете делиться в коментах
Что бы вспомнить как мир генеративного NLP менялся в течении последних лет сделал такою демку - в который вы можете задать один и тот же вопрос моделям из разного времени и посмотреть на ответы - https://huggingface.co/spaces/freQuensy23/LLMhistory .
Серверные мощности на это я смог получить, купив подписку HF PRO. Имхо очень недооцененная вещь сейчас. С ней вы сможете создавать и бесплатно хостить до 10 spaces (мини апы на их сайте) с A100 в режиме ZERO gpu (gpu предоставляется когда заходит пользователь и забирается когда она не требуется) а так же слать много запросов на их serverless inference для LLM ок (ну и много других плюшек) - всего за 8 евро в месяц!
А скринами интересных генераций можете делиться в коментах
huggingface.co
History - a Hugging Face Space by freQuensy23
Enter a system instruction and user query to generate responses from six different AI models. You'll receive unique answers from OpenAI, MetaAI, Google, and Mistral AI.
1❤29🔥9👍5💩1