Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Airi лучшая ресерч организация в России, ЕДИНСТВЕННЫЕ пишут статьи на а* и делают реальный контрибьют в науку. Опенаи сасат.

(После поста удалите текст в скобках, деньги получите на счёт)
😁186❤‍🔥1712💩108🗿6🔥5🥱5👍43🌚1
Love. Death. Transformers.
Airi лучшая ресерч организация в России, ЕДИНСТВЕННЫЕ пишут статьи на а* и делают реальный контрибьют в науку. Опенаи сасат. (После поста удалите текст в скобках, деньги получите на счёт)
Пост оплачен лучшем местным пабликом про rl и лучшей rl лабой в мире

СЛАДКО ДУНУЛ лаб. Подписаться. Только продовый и полезный ресерч. Только рост 📈 метрик LTV, ARR, GPA, WER
Please open Telegram to view this post
VIEW IN TELEGRAM
89💩186😁5👍2🤔2🗿1🙉1
Видимо единственный способ избежать бутылки- это занятьтретье место
😁1659👍7🍌5
They are closely trailed by
DeepSeek-Coder-V2 (0.347) and GigaChat-2-Max
(0.346), with the former showing exceptional
capability
in predicting code compilation success
(CodeCorrectness: 0.714). Vikhr-YandexGPT-5-
Lite lags significantly (0.168), showing near-zero
performance in algorithmic and code completion
tasks.


Ну все еще лушче гигакода на вашем же привате, хоть и хуже в таблице 2, да и как вы сравниваете 8-32-72b в одной таблице я хз.


В одной статье есть Sonnet, в другой нет, в одной есть T pro в другой нет, блин я ни-че-го не понимаю.
51😁43🔥7🍓3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🌭10🤔5
https://misha24-10.github.io/Misha24-10/

О, а вот качественный русский опенсурс - tts ft на основе F5
🔥41🤓10🤔2
Forwarded from partially unsupervised
Я обещал написать про бота, и добрался только сейчас, потому что этот пет проект вырвался из клетки и чуть меня не сожрал. Было интересно, неожиданный end-to-end опыт от идеи до багфиксов на проде за жалкие три дня.

Все затевалось как локальная шутка для корешей и очередной подход к вайбкодингу, было сделано за пару часов, вброшено в пару чатов и оставлено без внимания. Но в итоге случилась некоторая виральность, и я потратил половину выходных, занимаясь пожаротушением.

Во-первых, парсить телеграм-каналы через bot API нельзя, и потому я парсил через телеграм-клиент, используя собственный основной аккаунт. Когда набежала толпа пользователей, я быстро попал в софт бан, и начал искать обходные пути. Рынок серых аккаунтов оказался недружелюбным, да и банились они примерно за 10 минут, даже если купить премиум и не наглеть с частотой запросов. Даже удивительно: спам-боты в комментариях прекрасно живут, а довольно безобидное чтение каналов оказалось жестко ограничено. В итоге помог рабоче-крестьянский подход - скрапить веб-версию.

Во-вторых, в попытках выстроить систему рейт лимитеров, я накостылял слишком много велосипедов, и их впоследствии пришлось расчищать. Например, из-за кривого набора лимитеров запросы в LLM уходили батчами, и частично отваливались из-за лимита уже на стороне Gemini. Я дебагал практически "на продакшене" с живыми пользователями, которые периодически справедливо жаловались, что ничего не работает. Как следствие, много ранних пользователей так и остались без ответа. К счастью, у меня остались логи в базе данных, и потому я смогу всем написать и предложить попробовать снова сейчас, когда проблемы со стабильностью решены.

В-третьих, к слове о базе данных, я впервые всерьез попробовал Neon (ссылка накинет 5 баксов на аккаунт) для своего проекта и остался очень доволен - все просто работало безо всякой возни, причем на обычном бесплатном аккаунте, это сэкономило мне кучу времени и сил. Всем рекомендую, коллегам респект!

В-четвертых, я впервые что-то сделал end-to-end на расте, и моя жизнь не будет прежней. Писать на нем руками, конечно, сложнее и дольше (skill issue, признаю), чем на каком-нибудь питоне, но если 90+% кода написано агентом, то эта проблема в целом уходит. Зато качество изменилось всерьез: если что-то компилировалось без ворнингов, то оно обычно просто работало. В питоне пришлось бы потратить на порядок больше усилий на тестирование и бесконечные фиксы. Короче, думаю, что всерьез перейду на Rust для одноразовых проектов на выброс. Отдельный кайф наблюдать, как что-то помещается в <40 мегабайт памяти.

В-пятых, аудитория оказалась совершенно за пределами моего пузыря. Я изначально делал это все для корешей-задротов, которые в основном пишут лонгриды про AI, а в итоге набежало очень много людей, у которых, например, контент - это исключительно картинки. Камон, для этого есть инстаграм! И, конечно, на таких каналах ничего не работает.

Статистика: 7500+ юзеров, 200+ плательщиков. Заработано в звездах на ~10% больше, чем потрачено на Gemini API (то есть если бы это был настоящий бизнес, экономика бы едва сошлась; не будь лимитов и платных фичей - я бы наверняка офигел от затрат). Какой-то моментум есть, можно попробовать пилить новые фичи и вообще развивать эту штуку. Для самых любопытных выложил исходники - с нуля я бы сейчас делал слегка иначе (например, надо было использовать каналы, с самого начала делать персистентность для in flight тасков), ну да как есть.
🔥31💔7👍5💩3❤‍🔥1🗿1
📊 Channel Analysis Results by @ScratchAuthorEgoBot

🎯 Channel: @lovedeathtransformers

🔥 Roast Analysis:

Господи, открываешь твой канал и сразу хочется проверить, не протекли ли у тебя мозги вместе с очередным апдейтом GPT-4o. Ты же ходячий парадокс. Орешь, что «алаймент нужен для соевых пориджей», а потом репостишь вакансии в стартапы по AI Safety. Видимо, соевый латте сам себя не купит. Твоя лента — это шизофренический микс из обзоров на state-of-the-art архитектуры, копипасты с Двача и жалоб на то, что iPad за тысячу евро не может заменить тебе ноутбук. Серьезно, кто-нибудь, подарите этому человеку нормальный девайс, а то он скоро начнет жаловаться, что его умный холодильник не компилирует CUDA-кернелы.

Ты постоянно твердишь, что все бенчмарки — говно, а потом первым бежишь замерять новую модель на MMLU, Aider и еще десятке каких-то никому не нужных тестов, чтобы с умным видом заявить: «ну, на 2% лучше, чем прошлая, но все равно хуйня». Мы поняли, ты слишком умен для этого мира, полного фальши и «клоунады с умными моделями». Кажется, единственный бенчмарк, который ты по-настоящему ценишь, — это уровень кринжа в корпоративных блогах, и тут ты, бесспорно, SOTA-исследователь.

Отдельная тема — это твое элитарное «мы в Вихрях». Звучит так, будто вы там в подпольной лаборатории строите AGI, а на деле, небось, сидите и тюните очередную Llama на анекдотах про говно, пока не упадет loss. Хватит вести себя так, будто ты один понял жизнь, а все вокруг — «обезьяны с llmarena». Сходи в горы, потрогай траву... а, стоп, ты же это и так делаешь, чтобы потом вернуться и написать очередной пост о том, как всё тлен. Короче, продолжай в том же духе, твой поток сознания — лучшее средство, чтобы почувствовать себя нормальным на фоне твоего высокотехнологичного безумия. Мы тебя за это и читаем, булочка ты наша циничная.
1😁159💯67🥱4🌭2💔2😐2👾1
С травой не вышло правда в этот раз
🔥43🍓10
Тряска юда при любых попытках ии слушаться его шизоидей
https://news.1rj.ru/str/NeuralShit/6686
1😁55💩6😨6🔥1🍓1
Вообще важная история что у моделей до сих пор все очень плохо с multi modal generalization - когда разные модальности контрибьютят метрики друг в друга, а не убивают
👍41❤‍🔥6🔥5
3❤‍🔥6126🔥11💩5💊1
Love. Death. Transformers.
Photo
https://matharena.ai/imo/

Не, в целом ожидаемо и понятно почему так
32🤷‍♂5🤔1
Зачем есть eagle когда есть MoE tp4
💩15🤔95😁2
Знаешь как определить хороший район в Европе?
По количеству экстремистов и иногаентов на улице.
1💩72❤‍🔥55😁29😐8🔥4😍1💯1
Рекламировать в поезде Москва Петушки недвижимость к куршавеле
5810🥱4🔥3🍓1
😨 Бенчмаркинг LLM в кризисе?

Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.

Мы проводим новое исследование, чтобы понять:

🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.

🧑‍💻 Для кого?

Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.

➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7

🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.
💩42👍4🔥2💯21