This media is not supported in the widget
VIEW IN TELEGRAM
576🤡201 46👎18 11🥴6😢3🎅2❤1🍌1🗿1
Новое поколение вихрей выходит💨!
Первая из на основе gemma-2b, работает на уровне 8B моделей согласно нашей arena hard lb. Пока что с gemma prompting.
Cкоро будут модели на основе llama8b, gemma 9b.
model
reddit
Коллектив авторов: @LakoMoorDev @nlpwanderer
Первая из на основе gemma-2b, работает на уровне 8B моделей согласно нашей arena hard lb. Пока что с gemma prompting.
Cкоро будут модели на основе llama8b, gemma 9b.
model
Коллектив авторов: @LakoMoorDev @nlpwanderer
8👍40❤4👎2 2🥱1
ищу челиксов которые торгуют 3090/4090 с 48gb памяти, отпишитесь в @transformerslovedeatch
речь про перепаянные карты с 48гб памяти
речь про перепаянные карты с 48гб памяти
2✍46👾6❤2😢2🥱2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
5😁139🔥14❤🔥4👏4🥴2❤1👍1
Forwarded from Роман с данными
И первая новость в обновленном канале следующая:
Мы с командой запустили свою российскую LLM Aрену.
Это такой сайт (идею скопировали у LMSYS), на котором обычные люди могут использовать разные LLM бесплатно, но взамен должны определять лучшую модель.
А мы на основе фидбека пользователей составляем рейтинг LLM и рассчитываем какая модель работает лучше всех на русском языке.
Мы попали прям в боль ML сообщества: кол-во LLM в России растет как на дрожжах, уже помимо YandexGPT, Гигачата есть и T-lite, и Вихрь, и Сайга. Новые LLM появляются каждую неделю и возникает потребность их сравнивать.
За последний месяц посещаемость проекта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru.
Заходите на llmarena.ru и выбирайте лучшую модель!
Мы с командой запустили свою российскую LLM Aрену.
Это такой сайт (идею скопировали у LMSYS), на котором обычные люди могут использовать разные LLM бесплатно, но взамен должны определять лучшую модель.
А мы на основе фидбека пользователей составляем рейтинг LLM и рассчитываем какая модель работает лучше всех на русском языке.
Мы попали прям в боль ML сообщества: кол-во LLM в России растет как на дрожжах, уже помимо YandexGPT, Гигачата есть и T-lite, и Вихрь, и Сайга. Новые LLM появляются каждую неделю и возникает потребность их сравнивать.
За последний месяц посещаемость проекта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru.
Заходите на llmarena.ru и выбирайте лучшую модель!
5👍37❤8💩5🥴5
Scaling LLM Test-Time Compute Optimally can
be More Effective than Scaling Model Parameters
Генерить из ллм хорошо - сложно, часто на решение задачи уходит много попыток и эти попытки надо как то проверять.
Это не особо проблема - у нас есть BoN sampling который за увеличение числа генераций может очень значимо докидывать к перфомансу модели. Единственный нюанс - никто никогда не сравнивал - а что дороже, очень много сэмплить мелкую дешевую тушку или взять большую дорогую и генерить меньше?
Авторы предлогают три бейзлайна: Beam search, BoN, LookAhead(типа сгенерили, спросили LM не хуйню ли, перегенерили если хуйню)
Собственно авторы учат маленькую RM для своего LookAhead, и показывают что в 4х раза эффективнее чем BoN и так же показывают что такой инференс не проигрывает 14х кратно большей модели(почему то PALM)
paper
be More Effective than Scaling Model Parameters
Генерить из ллм хорошо - сложно, часто на решение задачи уходит много попыток и эти попытки надо как то проверять.
Это не особо проблема - у нас есть BoN sampling который за увеличение числа генераций может очень значимо докидывать к перфомансу модели. Единственный нюанс - никто никогда не сравнивал - а что дороже, очень много сэмплить мелкую дешевую тушку или взять большую дорогую и генерить меньше?
Авторы предлогают три бейзлайна: Beam search, BoN, LookAhead(типа сгенерили, спросили LM не хуйню ли, перегенерили если хуйню)
Собственно авторы учат маленькую RM для своего LookAhead, и показывают что в 4х раза эффективнее чем BoN и так же показывают что такой инференс не проигрывает 14х кратно большей модели(почему то PALM)
paper
3 17🔥8 5❤2🤔2👍1
Каждый день на LB шлепы и Arena Hard появляются новые модели, благодаря контрибьютерам замерили: Mistral large, Openchat, ruadapt от МГУ(очень недооценные модели) а так же скоро будут мерится квантованные версии!
Заливайте свои модели тут!
Заливайте свои модели тут!
2👍8👎6❤2 1
Короче, недогайд как искать работу стажем/джуном.
Нанимал стажеров себе на работу + помогал людям найти стажировку, чо то да знаю наверное.
Очевидно это рынок нанимателя, а не сотрудника, но есть нюанс. Конкурируете вы вероятнее всего с выпускниками скиллбоксов и прочих недошараг которые мало что умеют.
Поэтому позиции стажеров всегда закрываются миллион лет, а чаще всего лиды отмахиваются - стажер это чаще всего абуза на которого будут уходить силы сина/мидла. короче сплошной геморр.
Как это контрить? Показать что вы не обуза))) у многих команд есть opensource github и прочее, закиньте туда quickstart.ipynb который АККУРАТНО И ХОРОШО оформлен, покажите что от вас есть толк.
Писать hr_ам - гиблое дело заранее забейте , заметную часть cv тупо не прочитают. Хотите чтобы ваше св прочитали? Деаоньте лидов/синов из целевой команды))) ну и лучше всего искать команду себе по профилю, ну типа хоть один пет проект по теме лучше иметь чтобы приходить и можно было флексануть: да я уже чо то делал, чо то умею и вообще не лох.
Всякие лекции сбера-яндекса-и прочих ОТЛИЧНОЕ место чтобы найти работу. Ходите и пиздите, ищите людей из целевых команд, подходите и знакомьтесь. Так победите.
А как проходить собесы - ну тут любой гайд из интернета поможет, но в целом - leetcode(друг с чат гпт) и учебник бишопа - ваши лучшие друзья + учебник тындекса
Нанимал стажеров себе на работу + помогал людям найти стажировку, чо то да знаю наверное.
Очевидно это рынок нанимателя, а не сотрудника, но есть нюанс. Конкурируете вы вероятнее всего с выпускниками скиллбоксов и прочих недошараг которые мало что умеют.
Поэтому позиции стажеров всегда закрываются миллион лет, а чаще всего лиды отмахиваются - стажер это чаще всего абуза на которого будут уходить силы сина/мидла. короче сплошной геморр.
Как это контрить? Показать что вы не обуза))) у многих команд есть opensource github и прочее, закиньте туда quickstart.ipynb который АККУРАТНО И ХОРОШО оформлен, покажите что от вас есть толк.
Писать hr_ам - гиблое дело заранее забейте , заметную часть cv тупо не прочитают. Хотите чтобы ваше св прочитали? Деаоньте лидов/синов из целевой команды))) ну и лучше всего искать команду себе по профилю, ну типа хоть один пет проект по теме лучше иметь чтобы приходить и можно было флексануть: да я уже чо то делал, чо то умею и вообще не лох.
Всякие лекции сбера-яндекса-и прочих ОТЛИЧНОЕ место чтобы найти работу. Ходите и пиздите, ищите людей из целевых команд, подходите и знакомьтесь. Так победите.
А как проходить собесы - ну тут любой гайд из интернета поможет, но в целом - leetcode(
Issuu
Deep Learning: Foundations and Concepts
This book offers a comprehensive introduction to the central ideas that underpin deep learning. It is intended both for newcomers to machine learning and for those already experienced in the field. Co
5👍63❤8❤🔥7🤡4🔥2
зарпалата ds сина в россии в месяц
Anonymous Poll
3%
100-150
2%
150-250
6%
250-350
14%
350-450
10%
450-600
3%
600-800
1%
800-1м
3%
1м+
58%
просто спросить
🤡35🤔8❤3👍2🥴2
800 тыщ рублей в месяц на двоих не так уж и много
2🤡101👍51❤7 7😁6🤷♂5😢4🤮2💩2
Forwarded from Рекомендательная [RecSys Channel]
ICML 2024 — как это было
В этом году на одну из крупнейших конференций по машинному обучению, ICML, ездила большая делегация от Яндекса — там были и наши специалисты в сфере рекомендательных систем. Мы поговорили с Даниилом Лещёвым и Андреем Мищенко и узнали, какие доклады запомнились коллегам больше всего.
Рекомендательные системы
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
Статья на актуальную тему — о новой архитектуре ML-моделей в рекомендациях, позволяющей использовать все преимущества скейлинга. Результаты впечатляют — нам и самим захотелось попробовать!
Wukong: Towards a Scaling Law for Large-Scale Recommendations
Ещё один интересный пейпер, тоже от Meta, на тему масштабирования моделей в рекомендательных системах.
xLSTM: Extended Long Short-Term Memory
Авторы применяют методы и техники из мира новейших LLM, чтобы улучшить архитектуру, увеличить масштаб и повысить производительность LSTM-моделей.
Inferring the Long-Term Causal Effects of Long-Term Treatments from Short-Term Experiments
Статья от Netflix — авторы замеряют долгосрочные эффекты от внедрений через краткосрочные эксперименты. Рассматривая задачу в RL-постановке, получают теоретические оценки на результат и проверяют подход в симуляционных средах.
Интересное и забавное
Discovering environments with XRM
Статья об обучении в целом. Авторы предлагают метод перекрестной минимизации рисков (XRM) — учат 2 сети, каждая из которых использует случайную половину обучающих данных, тем самым повышая внимание к примерам, на которых ошибается текущая версия модели.
Enforced Amnesia as a Way to Mitigate the Potential Risk of Silent Suffering in Conscious AI
Не обошлось без забавного — здесь название говорит само за себя 😉
A Touch, Vision, and Language Dataset for Multimodal Alignment
Оригинальная тема — авторы обучали роборуку осязанию — трогать разные поверхности и описывать их: «мягкое, с пупырышками», «гладкое и твёрдое» и т. д.
А вам захотелось изучить статьи и опробовать подходы на практике?
@RecSysChannel
В этом году на одну из крупнейших конференций по машинному обучению, ICML, ездила большая делегация от Яндекса — там были и наши специалисты в сфере рекомендательных систем. Мы поговорили с Даниилом Лещёвым и Андреем Мищенко и узнали, какие доклады запомнились коллегам больше всего.
Рекомендательные системы
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
Статья на актуальную тему — о новой архитектуре ML-моделей в рекомендациях, позволяющей использовать все преимущества скейлинга. Результаты впечатляют — нам и самим захотелось попробовать!
Wukong: Towards a Scaling Law for Large-Scale Recommendations
Ещё один интересный пейпер, тоже от Meta, на тему масштабирования моделей в рекомендательных системах.
xLSTM: Extended Long Short-Term Memory
Авторы применяют методы и техники из мира новейших LLM, чтобы улучшить архитектуру, увеличить масштаб и повысить производительность LSTM-моделей.
Inferring the Long-Term Causal Effects of Long-Term Treatments from Short-Term Experiments
Статья от Netflix — авторы замеряют долгосрочные эффекты от внедрений через краткосрочные эксперименты. Рассматривая задачу в RL-постановке, получают теоретические оценки на результат и проверяют подход в симуляционных средах.
Интересное и забавное
Discovering environments with XRM
Статья об обучении в целом. Авторы предлагают метод перекрестной минимизации рисков (XRM) — учат 2 сети, каждая из которых использует случайную половину обучающих данных, тем самым повышая внимание к примерам, на которых ошибается текущая версия модели.
Enforced Amnesia as a Way to Mitigate the Potential Risk of Silent Suffering in Conscious AI
Не обошлось без забавного — здесь название говорит само за себя 😉
A Touch, Vision, and Language Dataset for Multimodal Alignment
Оригинальная тема — авторы обучали роборуку осязанию — трогать разные поверхности и описывать их: «мягкое, с пупырышками», «гладкое и твёрдое» и т. д.
А вам захотелось изучить статьи и опробовать подходы на практике?
@RecSysChannel
2👍26🔥7❤5🤡1