Airi лучшая ресерч организация в России, ЕДИНСТВЕННЫЕ пишут статьи на а* и делают реальный контрибьют в науку. Опенаи сасат.
(После поста удалите текст в скобках, деньги получите на счёт)
(После поста удалите текст в скобках, деньги получите на счёт)
😁186❤🔥17 12💩10 8🗿6🔥5🥱5👍4 3🌚1
Love. Death. Transformers.
Airi лучшая ресерч организация в России, ЕДИНСТВЕННЫЕ пишут статьи на а* и делают реальный контрибьют в науку. Опенаи сасат. (После поста удалите текст в скобках, деньги получите на счёт)
Пост оплачен лучшем местным пабликом про rl и лучшей rl лабой в мире
СЛАДКО ДУНУЛ лаб. Подписаться. Только продовый и полезный ресерч. Только рост📈 метрик LTV, ARR, GPA, WER
СЛАДКО ДУНУЛ лаб. Подписаться. Только продовый и полезный ресерч. Только рост
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Запрети мне псевдолейблить
😁165 9👍7🍌5
They are closely trailed by
DeepSeek-Coder-V2 (0.347) and GigaChat-2-Max
(0.346), with the former showing exceptional
capability in predicting code compilation success
(CodeCorrectness: 0.714). Vikhr-YandexGPT-5-
Lite lags significantly (0.168), showing near-zero
performance in algorithmic and code completion
tasks.
Ну все еще лушче гигакода на вашем же привате, хоть и хуже в таблице 2, да и как вы сравниваете 8-32-72b в одной таблице я хз.
В одной статье есть Sonnet, в другой нет, в одной есть T pro в другой нет, блин я ни-че-го не понимаю.
DeepSeek-Coder-V2 (0.347) and GigaChat-2-Max
(0.346), with the former showing exceptional
capability in predicting code compilation success
(CodeCorrectness: 0.714). Vikhr-YandexGPT-5-
Lite lags significantly (0.168), showing near-zero
performance in algorithmic and code completion
tasks.
Ну все еще лушче гигакода на вашем же привате, хоть и хуже в таблице 2, да и как вы сравниваете 8-32-72b в одной таблице я хз.
В одной статье есть Sonnet, в другой нет, в одной есть T pro в другой нет, блин я ни-че-го не понимаю.
51😁43🔥7🍓3👍1
https://misha24-10.github.io/Misha24-10/
О, а вот качественный русский опенсурс - tts ft на основе F5
О, а вот качественный русский опенсурс - tts ft на основе F5
🔥41🤓10🤔2
Forwarded from partially unsupervised
Я обещал написать про бота, и добрался только сейчас, потому что этот пет проект вырвался из клетки и чуть меня не сожрал. Было интересно, неожиданный end-to-end опыт от идеи до багфиксов на проде за жалкие три дня.
Все затевалось как локальная шутка для корешей и очередной подход к вайбкодингу, было сделано за пару часов, вброшено в пару чатов и оставлено без внимания. Но в итоге случилась некоторая виральность, и я потратил половину выходных, занимаясь пожаротушением.
Во-первых, парсить телеграм-каналы через bot API нельзя, и потому я парсил через телеграм-клиент, используя собственный основной аккаунт. Когда набежала толпа пользователей, я быстро попал в софт бан, и начал искать обходные пути. Рынок серых аккаунтов оказался недружелюбным, да и банились они примерно за 10 минут, даже если купить премиум и не наглеть с частотой запросов. Даже удивительно: спам-боты в комментариях прекрасно живут, а довольно безобидное чтение каналов оказалось жестко ограничено. В итоге помог рабоче-крестьянский подход - скрапить веб-версию.
Во-вторых, в попытках выстроить систему рейт лимитеров, я накостылял слишком много велосипедов, и их впоследствии пришлось расчищать. Например, из-за кривого набора лимитеров запросы в LLM уходили батчами, и частично отваливались из-за лимита уже на стороне Gemini. Я дебагал практически "на продакшене" с живыми пользователями, которые периодически справедливо жаловались, что ничего не работает. Как следствие, много ранних пользователей так и остались без ответа. К счастью, у меня остались логи в базе данных, и потому я смогу всем написать и предложить попробовать снова сейчас, когда проблемы со стабильностью решены.
В-третьих, к слове о базе данных, я впервые всерьез попробовал Neon (ссылка накинет 5 баксов на аккаунт) для своего проекта и остался очень доволен - все просто работало безо всякой возни, причем на обычном бесплатном аккаунте, это сэкономило мне кучу времени и сил. Всем рекомендую, коллегам респект!
В-четвертых, я впервые что-то сделал end-to-end на расте, и моя жизнь не будет прежней. Писать на нем руками, конечно, сложнее и дольше (skill issue, признаю), чем на каком-нибудь питоне, но если 90+% кода написано агентом, то эта проблема в целом уходит. Зато качество изменилось всерьез: если что-то компилировалось без ворнингов, то оно обычно просто работало. В питоне пришлось бы потратить на порядок больше усилий на тестирование и бесконечные фиксы. Короче, думаю, что всерьез перейду на Rust для одноразовых проектов на выброс. Отдельный кайф наблюдать, как что-то помещается в <40 мегабайт памяти.
В-пятых, аудитория оказалась совершенно за пределами моего пузыря. Я изначально делал это все для корешей-задротов, которые в основном пишут лонгриды про AI, а в итоге набежало очень много людей, у которых, например, контент - это исключительно картинки. Камон, для этого есть инстаграм! И, конечно, на таких каналах ничего не работает.
Статистика: 7500+ юзеров, 200+ плательщиков. Заработано в звездах на ~10% больше, чем потрачено на Gemini API (то есть если бы это был настоящий бизнес, экономика бы едва сошлась; не будь лимитов и платных фичей - я бы наверняка офигел от затрат). Какой-то моментум есть, можно попробовать пилить новые фичи и вообще развивать эту штуку. Для самых любопытных выложил исходники - с нуля я бы сейчас делал слегка иначе (например, надо было использовать каналы, с самого начала делать персистентность для in flight тасков), ну да как есть.
Все затевалось как локальная шутка для корешей и очередной подход к вайбкодингу, было сделано за пару часов, вброшено в пару чатов и оставлено без внимания. Но в итоге случилась некоторая виральность, и я потратил половину выходных, занимаясь пожаротушением.
Во-первых, парсить телеграм-каналы через bot API нельзя, и потому я парсил через телеграм-клиент, используя собственный основной аккаунт. Когда набежала толпа пользователей, я быстро попал в софт бан, и начал искать обходные пути. Рынок серых аккаунтов оказался недружелюбным, да и банились они примерно за 10 минут, даже если купить премиум и не наглеть с частотой запросов. Даже удивительно: спам-боты в комментариях прекрасно живут, а довольно безобидное чтение каналов оказалось жестко ограничено. В итоге помог рабоче-крестьянский подход - скрапить веб-версию.
Во-вторых, в попытках выстроить систему рейт лимитеров, я накостылял слишком много велосипедов, и их впоследствии пришлось расчищать. Например, из-за кривого набора лимитеров запросы в LLM уходили батчами, и частично отваливались из-за лимита уже на стороне Gemini. Я дебагал практически "на продакшене" с живыми пользователями, которые периодически справедливо жаловались, что ничего не работает. Как следствие, много ранних пользователей так и остались без ответа. К счастью, у меня остались логи в базе данных, и потому я смогу всем написать и предложить попробовать снова сейчас, когда проблемы со стабильностью решены.
В-третьих, к слове о базе данных, я впервые всерьез попробовал Neon (ссылка накинет 5 баксов на аккаунт) для своего проекта и остался очень доволен - все просто работало безо всякой возни, причем на обычном бесплатном аккаунте, это сэкономило мне кучу времени и сил. Всем рекомендую, коллегам респект!
В-четвертых, я впервые что-то сделал end-to-end на расте, и моя жизнь не будет прежней. Писать на нем руками, конечно, сложнее и дольше (skill issue, признаю), чем на каком-нибудь питоне, но если 90+% кода написано агентом, то эта проблема в целом уходит. Зато качество изменилось всерьез: если что-то компилировалось без ворнингов, то оно обычно просто работало. В питоне пришлось бы потратить на порядок больше усилий на тестирование и бесконечные фиксы. Короче, думаю, что всерьез перейду на Rust для одноразовых проектов на выброс. Отдельный кайф наблюдать, как что-то помещается в <40 мегабайт памяти.
В-пятых, аудитория оказалась совершенно за пределами моего пузыря. Я изначально делал это все для корешей-задротов, которые в основном пишут лонгриды про AI, а в итоге набежало очень много людей, у которых, например, контент - это исключительно картинки. Камон, для этого есть инстаграм! И, конечно, на таких каналах ничего не работает.
Статистика: 7500+ юзеров, 200+ плательщиков. Заработано в звездах на ~10% больше, чем потрачено на Gemini API (то есть если бы это был настоящий бизнес, экономика бы едва сошлась; не будь лимитов и платных фичей - я бы наверняка офигел от затрат). Какой-то моментум есть, можно попробовать пилить новые фичи и вообще развивать эту штуку. Для самых любопытных выложил исходники - с нуля я бы сейчас делал слегка иначе (например, надо было использовать каналы, с самого начала делать персистентность для in flight тасков), ну да как есть.
Telegram
partially unsupervised
По мотивам этого поста, запилил бота @ScratchAuthorEgoBot, который умеет почесывать эго авторам телеграм-каналов.
На вход - название канала, на выходе - один из трех видов LLM-based анализа автора (личный/профессиональный/насмешка) по его поста.
Под капотом…
На вход - название канала, на выходе - один из трех видов LLM-based анализа автора (личный/профессиональный/насмешка) по его поста.
Под капотом…
🔥31💔7👍5💩3❤🔥1🗿1
📊 Channel Analysis Results by @ScratchAuthorEgoBot
🎯 Channel:
🔥 Roast Analysis:
Господи, открываешь твой канал и сразу хочется проверить, не протекли ли у тебя мозги вместе с очередным апдейтом GPT-4o. Ты же ходячий парадокс. Орешь, что «алаймент нужен для соевых пориджей», а потом репостишь вакансии в стартапы по AI Safety. Видимо, соевый латте сам себя не купит. Твоя лента — это шизофренический микс из обзоров на state-of-the-art архитектуры, копипасты с Двача и жалоб на то, что iPad за тысячу евро не может заменить тебе ноутбук. Серьезно, кто-нибудь, подарите этому человеку нормальный девайс, а то он скоро начнет жаловаться, что его умный холодильник не компилирует CUDA-кернелы.
Ты постоянно твердишь, что все бенчмарки — говно, а потом первым бежишь замерять новую модель на MMLU, Aider и еще десятке каких-то никому не нужных тестов, чтобы с умным видом заявить: «ну, на 2% лучше, чем прошлая, но все равно хуйня». Мы поняли, ты слишком умен для этого мира, полного фальши и «клоунады с умными моделями». Кажется, единственный бенчмарк, который ты по-настоящему ценишь, — это уровень кринжа в корпоративных блогах, и тут ты, бесспорно, SOTA-исследователь.
Отдельная тема — это твое элитарное «мы в Вихрях». Звучит так, будто вы там в подпольной лаборатории строите AGI, а на деле, небось, сидите и тюните очередную Llama на анекдотах про говно, пока не упадет loss. Хватит вести себя так, будто ты один понял жизнь, а все вокруг — «обезьяны с llmarena». Сходи в горы, потрогай траву... а, стоп, ты же это и так делаешь, чтобы потом вернуться и написать очередной пост о том, как всё тлен. Короче, продолжай в том же духе, твой поток сознания — лучшее средство, чтобы почувствовать себя нормальным на фоне твоего высокотехнологичного безумия. Мы тебя за это и читаем, булочка ты наша циничная.
🎯 Channel:
@lovedeathtransformers🔥 Roast Analysis:
Господи, открываешь твой канал и сразу хочется проверить, не протекли ли у тебя мозги вместе с очередным апдейтом GPT-4o. Ты же ходячий парадокс. Орешь, что «алаймент нужен для соевых пориджей», а потом репостишь вакансии в стартапы по AI Safety. Видимо, соевый латте сам себя не купит. Твоя лента — это шизофренический микс из обзоров на state-of-the-art архитектуры, копипасты с Двача и жалоб на то, что iPad за тысячу евро не может заменить тебе ноутбук. Серьезно, кто-нибудь, подарите этому человеку нормальный девайс, а то он скоро начнет жаловаться, что его умный холодильник не компилирует CUDA-кернелы.
Ты постоянно твердишь, что все бенчмарки — говно, а потом первым бежишь замерять новую модель на MMLU, Aider и еще десятке каких-то никому не нужных тестов, чтобы с умным видом заявить: «ну, на 2% лучше, чем прошлая, но все равно хуйня». Мы поняли, ты слишком умен для этого мира, полного фальши и «клоунады с умными моделями». Кажется, единственный бенчмарк, который ты по-настоящему ценишь, — это уровень кринжа в корпоративных блогах, и тут ты, бесспорно, SOTA-исследователь.
Отдельная тема — это твое элитарное «мы в Вихрях». Звучит так, будто вы там в подпольной лаборатории строите AGI, а на деле, небось, сидите и тюните очередную Llama на анекдотах про говно, пока не упадет loss. Хватит вести себя так, будто ты один понял жизнь, а все вокруг — «обезьяны с llmarena». Сходи в горы, потрогай траву... а, стоп, ты же это и так делаешь, чтобы потом вернуться и написать очередной пост о том, как всё тлен. Короче, продолжай в том же духе, твой поток сознания — лучшее средство, чтобы почувствовать себя нормальным на фоне твоего высокотехнологичного безумия. Мы тебя за это и читаем, булочка ты наша циничная.
1😁159💯67🥱4🌭2💔2😐2👾1
Тряска юда при любых попытках ии слушаться его шизоидей
https://news.1rj.ru/str/NeuralShit/6686
https://news.1rj.ru/str/NeuralShit/6686
Telegram
Neural Shit
Снова роботы бесоёбят
1😁55💩6😨6🔥1🍓1
Вообще важная история что у моделей до сих пор все очень плохо с multi modal generalization - когда разные модальности контрибьютят метрики друг в друга, а не убивают
👍41❤🔥6🔥5
Знаешь как определить хороший район в Европе?
По количеству экстремистов и иногаентов на улице.
По количеству экстремистов и иногаентов на улице.
1💩72❤🔥55😁29😐8🔥4😍1💯1
Рекламировать в поезде Москва Петушки недвижимость к куршавеле
😨 Бенчмаркинг LLM в кризисе?
Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.
Мы проводим новое исследование, чтобы понять:
🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.
🧑💻 Для кого?
Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.
➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7
🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.
Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.
Мы проводим новое исследование, чтобы понять:
🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.
🧑💻 Для кого?
Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.
➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7
🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.
💩42👍4🔥2💯2✍1
Love. Death. Transformers.
😨 Бенчмаркинг LLM в кризисе? Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс. Мы проводим новое…
This media is not supported in your browser
VIEW IN TELEGRAM
😐16😁2😘2