Media is too big
VIEW IN TELEGRAM
Atlas working in a factory - no teleoperation
Soon they will work 24/7/365...
without sleep...
without pay...
without tiring...
without food...
without striking...
without calling in sick...
without suing their employer...
with superhuman limb movements...
with superhuman speed...
with superhuman precision...
when one robot learns something new, it will propagate the update to the other robots simultaneously as a hive mind...
with full of VC investment without unit economics
Soon they will work 24/7/365...
without sleep...
without pay...
without tiring...
without food...
without striking...
without calling in sick...
without suing their employer...
with superhuman limb movements...
with superhuman speed...
with superhuman precision...
when one robot learns something new, it will propagate the update to the other robots simultaneously as a hive mind...
with full of VC investment without unit economics
🤔36😨13🍓8🔥4👍3😍3❤🔥1🤡1
Forwarded from quant barbie
сложно недооценить вклад в обстановку дома, внесённый совместно просмотренной серией менталиста, в которой слегка аутичного математика убила жена за то, что он не уделял ей внимания
😨53❤🔥14😁10🗿3🙈2
АЛЛО МЫ ИЩЕМ ГОЛОСА2
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Интервалы.
должны.
Сойтись.
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Интервалы.
должны.
Сойтись.
2👍20👎13🔥6💩4 2😁1
Оракулы объявили неделю точно не купленных постов вида: учёные в говне моченые открыли гитхаб китайских бакалавров, с помощью сонета написали текст и этот текст прошел ревью на A конфу
🌚44😁11🍓10👍2
Love. Death. Transformers.
АЛЛО МЫ ИЩЕМ ГОЛОСА2 https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую! Интервалы. должны. Сойтись.
Оригинальную арену продолжают дробить по скорам(что логично, аутичные соннеты хороши в коде, но не хороши для RP/рассказов)
👍9
Love. Death. Transformers.
Atlas working in a factory - no teleoperation Soon they will work 24/7/365... without sleep... without pay... without tiring... without food... without striking... without calling in sick... without suing their employer... with superhuman limb movements...…
This media is not supported in your browser
VIEW IN TELEGRAM
Это что выходит, для взаимодействия с человеческой средой не нужен робот похожий на человека?
🔥40🌚14🤡8🤔6👍3🥴1
Forwarded from ебãные идеи для трейдинга
> решать задачу optimal execution-а крипто зарплаты с рандомизацией по трем осям (date, quantity, frequency) чтобы не попасть под 115 ФЗ
> защищить PhD по Оperations Research по этой работе
> защищить PhD по Оperations Research по этой работе
👍41🔥12 9🍓3
This media is not supported in your browser
VIEW IN TELEGRAM
World model говорили они
Будущее игр говорили они
Не мешай лёгкие наркотики с тяжёлым алкоголем говорю я
Собственно есть работа diamond - тут учат видео диффузию на действиях из игр. Ребята из <стартап> собрали примерно тоже самое но в Майнкрафте, рассказывают что будут гонять в 4k 100b диффузию.
Почитать diamond
Будущее игр говорили они
Не мешай лёгкие наркотики с тяжёлым алкоголем говорю я
Собственно есть работа diamond - тут учат видео диффузию на действиях из игр. Ребята из <стартап> собрали примерно тоже самое но в Майнкрафте, рассказывают что будут гонять в 4k 100b диффузию.
Почитать diamond
☃46😁27🥴11👍3🔥1💩1
Forwarded from Vikhr models
Мы дочинили arenahard, сабмиты снова работают как и раньше (спасибо gradio за обновления)
А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.
Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.
Крутой рост за полгода, посмотрим что будет дальше.
А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.
Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.
Крутой рост за полгода, посмотрим что будет дальше.
🔥44🤡8👍7🥴2🗿1
Love. Death. Transformers.
World model говорили они Будущее игр говорили они Не мешай лёгкие наркотики с тяжёлым алкоголем говорю я Собственно есть работа diamond - тут учат видео диффузию на действиях из игр. Ребята из <стартап> собрали примерно тоже самое но в Майнкрафте, рассказывают…
https://github.com/etched-ai/open-oasis
На момент написания поста я не читал репу, кидал на угад, попал во все +-
На момент написания поста я не читал репу, кидал на угад, попал во все +-
🔥19👍4😁2🤓1
Вот они слева направо:
float8_e3m4
float8_e4m3
float8_e4m3b11fnuz
float8_e4m3fn
float8_e4m3fnuz
float8_e5m2
float8_e5m2fnuz
float8_e8m0fnu
float8_e3m4
float8_e4m3
float8_e4m3b11fnuz
float8_e4m3fn
float8_e4m3fnuz
float8_e5m2
float8_e5m2fnuz
float8_e8m0fnu
😁67❤🔥11👍2🍓2💊2🔥1
Forwarded from Старший Авгур
Ура, релиз Сайги Немо!
Модель: https://huggingface.co/IlyaGusev/saiga_nemo_12b
Уже доступна в боте.
GGUF завтра подвезу.
По метрикам: 85 на РуАрене, что чуть хуже 87 у Вихря. И 3 место на ПингПонге.
Пайплайн абсолютно классический: SFT + SimPO. Датасеты, конфиги обучения, W&B логи лежат в карточке модели.
Уникальная фича модели — расцензурированность и ориентация на role-play. Обучал я её поверх abliterated версии Немо, и из и SFT, и SimPO датасетов агрессивно вычищал отказы. В оба датасета доливал role-play промпты, но не с теми персонажами, которые есть в ПингПонге.
Я поштырил и в RP диалоги, и в ответы на арене, и увидел несколько проблем:
1) Модель не умеет рисовать ASCII.
2) В 2 примерах я наблюдал повторы. Это было там, где нужно было написать пример кода, а в нём был какой-нибудь токен. И вот этот токен генерировался бесконечно. Эта проблема специфична для нулевой температуры.
3) Длина. Хоть я и пытался бороться с слишком длинными ответами, по бенчам видно, что ответы всё равно длиннее среднего.
4) Очень изредка попадются выдуманные слова. Причём они вполне разумны, просто их не существует.
Модель: https://huggingface.co/IlyaGusev/saiga_nemo_12b
Уже доступна в боте.
GGUF завтра подвезу.
По метрикам: 85 на РуАрене, что чуть хуже 87 у Вихря. И 3 место на ПингПонге.
Пайплайн абсолютно классический: SFT + SimPO. Датасеты, конфиги обучения, W&B логи лежат в карточке модели.
Уникальная фича модели — расцензурированность и ориентация на role-play. Обучал я её поверх abliterated версии Немо, и из и SFT, и SimPO датасетов агрессивно вычищал отказы. В оба датасета доливал role-play промпты, но не с теми персонажами, которые есть в ПингПонге.
Я поштырил и в RP диалоги, и в ответы на арене, и увидел несколько проблем:
1) Модель не умеет рисовать ASCII.
2) В 2 примерах я наблюдал повторы. Это было там, где нужно было написать пример кода, а в нём был какой-нибудь токен. И вот этот токен генерировался бесконечно. Эта проблема специфична для нулевой температуры.
3) Длина. Хоть я и пытался бороться с слишком длинными ответами, по бенчам видно, что ответы всё равно длиннее среднего.
4) Очень изредка попадются выдуманные слова. Причём они вполне разумны, просто их не существует.
🔥35 15👍10🥴8 3🗿2
Статья от ребят из DIT Moscow RESEARCH - присядь на штраф если не регаешь канал в РКН!
👍20💊9
Love. Death. Transformers.
Красивая кривая? Мне тоже нравится, а ещё она нравится менеджерам инвесторам и прочим. Но она неверная, правильная кривая - та что я нарисовал красным. а100 - 640tflops bf16 h100 - 1500tflops bf16 B100 - 3600tflops bf16 Не, фактически она верна, прирост…
https://epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop
Блин опять логарифм подсунули что ли?
Ладно если серьезно:
- компьют не скейлится бесконечно из-за скорости сети
- multi datacenter обучение головные(скоро будет обзор как учить multi DC и НЕ умирать)
- железки Nvidia не предназначены для такого
Блин опять логарифм подсунули что ли?
Ладно если серьезно:
- компьют не скейлится бесконечно из-за скорости сети
- multi datacenter обучение головные(скоро будет обзор как учить multi DC и НЕ умирать)
- железки Nvidia не предназначены для такого
Epoch AI
Data Movement Bottlenecks to Large-Scale Model Training: Scaling Past 1e28 FLOP
Data movement bottlenecks limit LLM scaling beyond 2e28 FLOP, with a “latency wall” at 2e31 FLOP. We may hit these in ~3 years. Aggressive batch size scaling could potentially overcome these limits.
🍓13👍4🔥3🤷♂2
Резерчеры из z банка заменили relu на gelu в трансформере, тем самым ускорив обучение на 4%!!
Респект и уважуха нашим ребятам, удачи им на А конференции Диалог 2025!!
Респект и уважуха нашим ребятам, удачи им на А конференции Диалог 2025!!
👎87🥴71🤡40🔥27💩15 12😁11👍5🗿3😐1