Forwarded from что-то на DL-ском
Британские ученые решили проводить научные опыты вместо мышей на стажерах.
Во-первых, стажеров больше. Во-вторых, мышей жалко. И в-третьих, есть вещи, которые мыши отказываются делать
Во-первых, стажеров больше. Во-вторых, мышей жалко. И в-третьих, есть вещи, которые мыши отказываются делать
😁179 48👍17😢5🔥4🤡4💊1
Love. Death. Transformers.
https://teletype.in/@alexwortega/r6zha1uPaAS Если вы по каким то причинам не знаете как делать лучших кошкодевочек на civit, Велком
Большая статья от гугл где показывают известные факты на ээээ Palm.
arXiv.org
What Matters for Model Merging at Scale?
Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for...
👍1
Love. Death. Transformers.
прикольно, а зачем..
А куда потерялись картиночные токены то....
В релиз карточке было прям очень хорошо
В релиз карточке было прям очень хорошо
Openai
Hello GPT-4o
We’re announcing GPT-4 Omni, our new flagship model which can reason across audio, vision, and text in real time.
Forwarded from Русский research
Высокоцитируемый и безработный
В канал Русский research обратился учёный с необычной судьбой, Сергей Вениаминович Дорожкин, с просьбой рассказать о его ситуации и, возможно, помочь тем самым его научной работе. Я крайне редко посвящаю посты отдельным людям, но тут случай действительно уникальный.
Начнём с того, что С.В. Дорожкин является одним из самых цитируемых российских учёных (8-е место при нормировке цитирований на число соавторов) и попадает в топ-100 мирового рейтинга специалистов по биоматериаловедению. Одновременно с этим уже 20 лет Сергей Вениаминович занимается наукой лишь в качестве хобби по 1-1,5 часа в день, работая инженером по калибровке лабораторных приборов в коммерческой компании. Не имея доступа к лаборатории, учёный занимается анализом литературы и написанием обзорных статей, что само со себе непростой труд. Обзоры С.В. Дорожкина выходят в международных журналах и хорошо цитируются. Об этой удивительной ситуации писал ранее А.Р. Хохлов.
Сергей Вениаминович рассказывает, что в 2004 году закончился его последний контракт постдока в Канаде, и он вернулся в Москву, предварительно написав во все московские научные институты, где занимались близкой тематикой. Никто не ответил, приглашений на работу не поступило. В дальнейшем учёный периодически пытался выйти на контакт с представителями химфака МГУ, ИМЕТ РАН и, ранее, ИОНХ РАН, но тоже не получал ответов. В итоге он стал искать работу в коммерческих предприятиях и пришёл к текущей специальности инженера.
Единственная конструктивная реакция последовала буквально недавно от академика А.Р. Хохлова, который организовал у себя в лаборатории семинар С.В. Дорожкина, а затем принял его на работу на полставки. К сожалению, тематически интересы двух учёных в итоге не совпали, энтузиазм стал угасать, а сотрудничество на данный момент не сложилось.
Сейчас цель Сергея Вениаминовича очень проста. Найти возможность заниматься исследованиями по основному месту работы, уделять науке кратно больше времени и получать за это достойные деньги. Учёный готов как продолжить свою деятельность по написанию обзорных работ, так и подключиться к действующей лаборатории в рамках её тематики. Да, Сергей Вениаминович честно признаёт, что не умеет и не хочет участвовать в грантовой гонке. С другой стороны, свою способность выдавать востребованную «научную продукцию» он уже доказал, и, я думаю, имеет право претендовать на место в коллективе без традиционной административной нагрузки.
P.S. Честно говоря, я удивляюсь, почему никакой университет (особенно из числа бьющихся за показатели) не догадался пригласить С.В. Дорожкина на работу чисто из утилитарных соображений. Просто обеспечив учёному хороший оклад и рабочее место, организация получает, как минимум, стабильный поток востребованных статей в международных журналах и высокорейтингового сотрудника в качестве вечнозелёного инфоповода. Как максимум – при наличии близких по тематике химиков – получает консультации специалиста с широкой эрудицией в своей области.
С другой стороны, приходится признать, что уехавшим за рубеж учёным зачастую бывает сложно вернуться в российскую научную жизнь. Это другая система отношений (не худшая и не лучшая, а именно другая), и разница не сводится к пресловутым бегам за грантами. Хотя, безусловно, и вечный поиск финансирования доливает масла в огонь.
Ну и поскольку пост в жанре "ищу работу" публикуется в канале впервые, я понятия не имею, чем его заканчивать. Пожелаю Сергею Вениаминовичу найти правильное место и, наконец, уделять науке столько времени, сколько хочется.
В канал Русский research обратился учёный с необычной судьбой, Сергей Вениаминович Дорожкин, с просьбой рассказать о его ситуации и, возможно, помочь тем самым его научной работе. Я крайне редко посвящаю посты отдельным людям, но тут случай действительно уникальный.
Начнём с того, что С.В. Дорожкин является одним из самых цитируемых российских учёных (8-е место при нормировке цитирований на число соавторов) и попадает в топ-100 мирового рейтинга специалистов по биоматериаловедению. Одновременно с этим уже 20 лет Сергей Вениаминович занимается наукой лишь в качестве хобби по 1-1,5 часа в день, работая инженером по калибровке лабораторных приборов в коммерческой компании. Не имея доступа к лаборатории, учёный занимается анализом литературы и написанием обзорных статей, что само со себе непростой труд. Обзоры С.В. Дорожкина выходят в международных журналах и хорошо цитируются. Об этой удивительной ситуации писал ранее А.Р. Хохлов.
Сергей Вениаминович рассказывает, что в 2004 году закончился его последний контракт постдока в Канаде, и он вернулся в Москву, предварительно написав во все московские научные институты, где занимались близкой тематикой. Никто не ответил, приглашений на работу не поступило. В дальнейшем учёный периодически пытался выйти на контакт с представителями химфака МГУ, ИМЕТ РАН и, ранее, ИОНХ РАН, но тоже не получал ответов. В итоге он стал искать работу в коммерческих предприятиях и пришёл к текущей специальности инженера.
Единственная конструктивная реакция последовала буквально недавно от академика А.Р. Хохлова, который организовал у себя в лаборатории семинар С.В. Дорожкина, а затем принял его на работу на полставки. К сожалению, тематически интересы двух учёных в итоге не совпали, энтузиазм стал угасать, а сотрудничество на данный момент не сложилось.
Сейчас цель Сергея Вениаминовича очень проста. Найти возможность заниматься исследованиями по основному месту работы, уделять науке кратно больше времени и получать за это достойные деньги. Учёный готов как продолжить свою деятельность по написанию обзорных работ, так и подключиться к действующей лаборатории в рамках её тематики. Да, Сергей Вениаминович честно признаёт, что не умеет и не хочет участвовать в грантовой гонке. С другой стороны, свою способность выдавать востребованную «научную продукцию» он уже доказал, и, я думаю, имеет право претендовать на место в коллективе без традиционной административной нагрузки.
P.S. Честно говоря, я удивляюсь, почему никакой университет (особенно из числа бьющихся за показатели) не догадался пригласить С.В. Дорожкина на работу чисто из утилитарных соображений. Просто обеспечив учёному хороший оклад и рабочее место, организация получает, как минимум, стабильный поток востребованных статей в международных журналах и высокорейтингового сотрудника в качестве вечнозелёного инфоповода. Как максимум – при наличии близких по тематике химиков – получает консультации специалиста с широкой эрудицией в своей области.
С другой стороны, приходится признать, что уехавшим за рубеж учёным зачастую бывает сложно вернуться в российскую научную жизнь. Это другая система отношений (не худшая и не лучшая, а именно другая), и разница не сводится к пресловутым бегам за грантами. Хотя, безусловно, и вечный поиск финансирования доливает масла в огонь.
Ну и поскольку пост в жанре "ищу работу" публикуется в канале впервые, я понятия не имею, чем его заканчивать. Пожелаю Сергею Вениаминовичу найти правильное место и, наконец, уделять науке столько времени, сколько хочется.
Telegram
Алексей Хохлов
В постах от 18 и 20 октября я информировал об очередном обновлении рейтинга наиболее цитируемых ученых мира по числу цитирований в Scopus. Этот рейтинг вычисляется на основе нормированных показателей для данной области науки, без учета самоцитирований.
…
…
🔥85😢53👍22🥱6😁4💩2🤡2
Мне очень нравится что до сих пор в image/video gen работах используется ul2/т5 при том что для nlp их эмбеды прям говно
👍31 7🥱6 4🍓3❤🔥1🔥1😁1
Love. Death. Transformers.
Мне очень нравится что до сих пор в image/video gen работах используется ul2/т5 при том что для nlp их эмбеды прям говно
moviegen фбшный
примеру:
- авторы собрали буквально пачку контента на которых старые video gen модели плохо работали и разметили
- проверили чтобы 60% данных содержали людей(sic!!!)
- выкинули всякие сомнительные классы движения
- учили biderectional llama и сами пишут: "we don't explore design choice" те прикинули да, китайская лаба с бюджетом два доширака может позволить себе 1б модель погонять и проверить, а что лучше работаеи, а что хуже, а meta нет))
- "параграф для флекса инфрой" - просто существует
- данные это по сути масштабированный panda 70m
- усреднили sft чекпоинт с претрен.
- evaluation мне лично не особо интересен, забейте, все всех победили
примеру:
- авторы собрали буквально пачку контента на которых старые video gen модели плохо работали и разметили
- проверили чтобы 60% данных содержали людей(sic!!!)
- выкинули всякие сомнительные классы движения
- учили biderectional llama и сами пишут: "we don't explore design choice" те прикинули да, китайская лаба с бюджетом два доширака может позволить себе 1б модель погонять и проверить, а что лучше работаеи, а что хуже, а meta нет))
- "параграф для флекса инфрой" - просто существует
- данные это по сути масштабированный panda 70m
- усреднили sft чекпоинт с претрен.
- evaluation мне лично не особо интересен, забейте, все всех победили
👍22😁14❤🔥2🍓2🔥1👏1
Love. Death. Transformers.
moviegen фбшный примеру: - авторы собрали буквально пачку контента на которых старые video gen модели плохо работали и разметили - проверили чтобы 60% данных содержали людей(sic!!!) - выкинули всякие сомнительные классы движения - учили biderectional llama…
Мы тут наукой занимаемся, точно не stack more layers
😁45❤🔥4🔥3🍓3💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера было robotaxi party Илона маска, держите краткий пересказ
😁74
Forwarded from .ml
Шо пацаны, вращаем и масштабируем!
Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания.
В статье “Scaling Laws of RoPE-based Extrapolation” ребята исследовали влияние выбора параметра rope base на поведение модели при разном размере контекста.
А еще:
📌 Ввели концепцию critical dimension, которая чуть-чуть приводит в порядок теорию про адаптацию RoPE для Train Short Test Long сценариев.
📌 Пофлексили тем, что “we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B” — но есть нюанс 🙃
Основные интересные моменты:
Велкам в полную версию статьи — давайте в комментариях обсудим, кто что полезное в ней нашел.
Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания.
В статье “Scaling Laws of RoPE-based Extrapolation” ребята исследовали влияние выбора параметра rope base на поведение модели при разном размере контекста.
А еще:
📌 Ввели концепцию critical dimension, которая чуть-чуть приводит в порядок теорию про адаптацию RoPE для Train Short Test Long сценариев.
📌 Пофлексили тем, что “we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B” — но есть нюанс 🙃
Основные интересные моменты:
- Маленькие rope base из коробки ведут к лучшей устойчивости к длинам контекста, которых не было в трейне, но при этом работают хуже на длинах, которые были в трейне.
- Есть понятный способ вычислить оптимальные rope base, если хочется сделать его маленьким.
- Большие rope base неустойчивы к длинам контекста, которых не было в трейне, но при этом работают лучше на длинах, которые были в трейне.
- Есть понятный способ вычислить оптимальный rope base, если хочется сделать его большим. Для этого нужно знать, на какой максимальной длине сиквенсов будет учиться модель, и на какой максимальной длине сиквенсов она будет работать на тесте.
- Пусть есть вектор размерности d для репрезентации какого-то query или key внутри башки атеншена. Тогда будет существовать d_extra, и во время претрейна позиционная информация в измерениях d_i ≤ d_extra будет полностью выучена, а в измерениях d_i > d_extra будет выучена не полностью и потребует дальнейших упражнений с адаптацией.
Велкам в полную версию статьи — давайте в комментариях обсудим, кто что полезное в ней нашел.
👍22💅4❤🔥3🤡1🍓1
Ахуеть вышел альбом Пошлой Молли...
13🤡105🔥36👎17💩16🍓5👍4❤🔥3🤔2🍌2