AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро отвечать, не false positiвить. Челы из https://whitecircle.ai озаботились и сделали первый бенчмарк для гардрейлов, а еще измерили на нем все самые популярные LLM, в том числе давая моделям поррасуждать над ответом.
Твиттер
Полистать подробнее в блоге
Твиттер
Полистать подробнее в блоге
🔥31😁18💩11❤🔥5👍4🤔1
Forwarded from ебãные идеи для трейдинга
This media is not supported in your browser
VIEW IN TELEGRAM
😁120👍27🥴5👏2
Forwarded from Поросёнок Пётр
Внимательные читатели вспомнят что ребята из XBOW запустили AI-агента, который умеет собирать баги из приватных и публичных программ на HackerOne. Практически буквально сделали кнопку "Бабло". Которая при этом работает.
На текущий момент их Xbow AI-hacker дострелял до первого места в US Leaderboard в Q2 2025. И теперь уже это выглядит весьма "стремно". Наталкивает на мысли о том что AI уже лучше обычного хакера. Ведь ему как минимум спать не надо. Я конечно так тоже могу, но мне нужен redbull 😁
Но если посмотреть на статистику внимательно, то выходит что основная поляна уязвимостей этого ai-агента - XSS уязвимости. Данный вектор как правило подвластен автоматическим детектам, ну и суммы выплат по XSS как правило средненькие.
Так что расслабляемся, выдыхаем и продолжаем искать серверсайд в пятницу вечером 😉
На текущий момент их Xbow AI-hacker дострелял до первого места в US Leaderboard в Q2 2025. И теперь уже это выглядит весьма "стремно". Наталкивает на мысли о том что AI уже лучше обычного хакера. Ведь ему как минимум спать не надо. Я конечно так тоже могу, но мне нужен redbull 😁
Но если посмотреть на статистику внимательно, то выходит что основная поляна уязвимостей этого ai-агента - XSS уязвимости. Данный вектор как правило подвластен автоматическим детектам, ну и суммы выплат по XSS как правило средненькие.
Так что расслабляемся, выдыхаем и продолжаем искать серверсайд в пятницу вечером 😉
HackerOne
HackerOne profile - xbow
https://www.xbow.com - https://www.xbow.com
👍31🤔3🤡1
NLP для Казахского
В Казахстане есть ребята из перестажеров Вихрей строящие LLM для казахского. Рецепты те же самые - расширяем токенайзер, доучиваем LLM.
Из интерсного - собрали современные сеты для оценок, cобрали ArenaHard , cобрали вариацию Shlepa и даже вариацию MMLU на основе казахского теста для старшей школы.
Ребята работают на своем энтузиазме, полайкате их что ли!
В Казахстане есть ребята из перестажеров Вихрей строящие LLM для казахского. Рецепты те же самые - расширяем токенайзер, доучиваем LLM.
Из интерсного - собрали современные сеты для оценок, cобрали ArenaHard , cобрали вариацию Shlepa и даже вариацию MMLU на основе казахского теста для старшей школы.
Ребята работают на своем энтузиазме, полайкате их что ли!
2🔥181👍36🤡20🤮5👎3
This media is not supported in your browser
VIEW IN TELEGRAM
к unitree go2 (один из самых доступных роботов) добавили поддержку MCP сервера, теперь практически любая современная LLM может иметь физическое тело тупить в несколько раз дольше
Github
Github
😁80🔥9
Forwarded from max.sh
Давно хотел сделать лонг рид про ML Breadth секцию на собеседованиях и вот наконец-то дошли руки.
Полный текст прочитать можно тут.
Все еще самый популярный раунд ML-интервью даже в 2025. Этот этап встречается в компаниях любого уровня — от стартапов до FAANG-ов, от джунов до стаффов — как в западных компаниях, так и отечественных. Очень часто секцию Breadth ставят на этапах скрининга или на ранних интервью, где самая большая воронка кандидатов и нужно отфильтровать кандидатов.
В лонг риде сделал фокус на самые важные моменты:
И еще небольшой список ресурсов для подготовки к такому собеседованию.
Если оказалось полезно и хотите еще подобного контента, накидайте
Своим опытом, мнением, вопросами делитесь в комментариях
@max_dot_sh
#карьера
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🔥29❤🔥8🎉4👎3⚡1🤡1🥴1🍌1
Forwarded from AI[ex]Time (Alex Golubev)
SWE-rebench: A Continuously Evolving and Decontaminated Benchmark for Software Engineering LLMs
Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:
- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.
Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.
Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.
Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:
- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.
Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.
Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.
👍29🔥9👏1
AlphaEvolve
идея как и у всех Alpha* статей deepmind - давайте возьмем проблему которую достаточно легко и быстро можно проверять автоматически, а затем напишем некоторый бейзлайн код решения этой проблемы. Далее даем код агенту, вливаем 1e6 попыток решения и получаем небольшое улучшение которое мало что меняет, но позволяет показывать SOTA(какой сота в математике гспди)
Из отличий от прошлых частей: теперь Gemeni в качестве LM + агентность тк кодовая база разрослась, так же используют эволюционное обновление мета промптов(читать тут )
white paper
интересно что будет если ценник токенов на компьют+людей вбухать в одно небизвестное математическое пту на арбате
идея как и у всех Alpha* статей deepmind - давайте возьмем проблему которую достаточно легко и быстро можно проверять автоматически, а затем напишем некоторый бейзлайн код решения этой проблемы. Далее даем код агенту, вливаем 1e6 попыток решения и получаем небольшое улучшение которое мало что меняет, но позволяет показывать SOTA(какой сота в математике гспди)
Из отличий от прошлых частей: теперь Gemeni в качестве LM + агентность тк кодовая база разрослась, так же используют эволюционное обновление мета промптов(читать тут )
white paper
😁56 14👍7🥴5❤🔥2💩2🔥1
ifanyonebuildsit.com
лучшеб фанфики по хогвартсу писал
>Eliezer Yudkowsky is a founding researcher of the field of AI alignment and played a major role in shaping the public conversation about smarter-than-human AI. He appeared on Time magazine's 2023 list of the 100 Most Influential People In AI,
c каждым годом это все смешнее
лучшеб фанфики по хогвартсу писал
>Eliezer Yudkowsky is a founding researcher of the field of AI alignment and played a major role in shaping the public conversation about smarter-than-human AI. He appeared on Time magazine's 2023 list of the 100 Most Influential People In AI,
c каждым годом это все смешнее
😍46😁31🤡21🥴7👎2✍1💯1😐1
Forwarded from LLM Arena
Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.
Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.
Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»
Как работает:
Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath
Своё мнение и вопросы можете оставлять прямо под этим постом 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥15👎5😁2
почему в русском форбс30до30 нет номинации "лучший мемный тг админ" и знаете там конкурирует:
"сторонник неконвенционального шитпостинга" с "cтраший мемолог в администрации президента"
"сторонник неконвенционального шитпостинга" с "cтраший мемолог в администрации президента"
👍70😁32💯8 5🤡2🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
В фортнайт добавили Dart Vaider_а, но не простого а с 11labs tts и gemeni на борту. Поредтимить правда забыли, в итоге пользователи даже не пытаясь джейлбрейкнули модель и получилось ЭТО:
😁104 11🌚7👍1💅1
я просто айтишник проработавший всю жизнь в бигтехе однажды ко мне заходит в комнату сын и спрашивает пап а что ты сделал для человечества и я потирая ручки довольный качусь на кресле с колесиками к полке достаю пыльный ноутбук открываю какой то странный дашборд и говорю смотри вот это вот метрика очень важная метрика у нас на ней весь продукт завязан на метрике этой и вон слева двадцать лет назад она была 0.576 потом я пришел и смотри вон как она двадцать лет менялась над ней работал я и шесть человек еще фулл тайм сейчас она 0.591 нихуево так скажи да +2.5% за двадцать лет а в прибыль знаешь какая конверция ты ахуеешь это мое детище это мое все я умру за продукт за дашборд за корпоративы за рабочее место за два монитора за сидр по пятницам за удаленку по четвергам за анекдоты в курилке по понедельникам как много твой папа сделал для этого мира скажи
😁444😢97💊53💯29👍13🤡7🎉6🔥4🗿3🐳1
The optimal life is simple for girls. One pregnancy a year, starting at puberty. Living with parents means offloading care duties. Assuming twins/triplets, that's a dozen kids by the time for college. Graduate in 3 years while leetcoding. Get a job at
big tech. Then transition to being a man. Transition *after* being hired, but *before* starting work. Very important to get the order right. Take
the signing bonus and buy a house in detroit. Store kids/nannies there. After 2 years, start looking for a remote job. Offload the actual labor
to your first born. Other kids watch/learn. All work as they age into prime coding years (10ish). After 5 years, you have 12 experienced coders and $3
million in savings. Everyone's expecting you to use
that capital to found a startup with your kids as the labor. No. You're a maverick. You buy a
commercial barge with a marine loan. 3 million down payment gets you a solid 15 mil tank barge with living accommodations. Kids continue
working remotely via starlink. You form rationalist fleet and smuggle oil for Russia. On your 30th birthday you "die" at sea. Your 2 dozen grandkids
put on a show crying. The fbi ends its investigation.
big tech. Then transition to being a man. Transition *after* being hired, but *before* starting work. Very important to get the order right. Take
the signing bonus and buy a house in detroit. Store kids/nannies there. After 2 years, start looking for a remote job. Offload the actual labor
to your first born. Other kids watch/learn. All work as they age into prime coding years (10ish). After 5 years, you have 12 experienced coders and $3
million in savings. Everyone's expecting you to use
that capital to found a startup with your kids as the labor. No. You're a maverick. You buy a
commercial barge with a marine loan. 3 million down payment gets you a solid 15 mil tank barge with living accommodations. Kids continue
working remotely via starlink. You form rationalist fleet and smuggle oil for Russia. On your 30th birthday you "die" at sea. Your 2 dozen grandkids
put on a show crying. The fbi ends its investigation.
🥴101✍41😁21 15🤡5👍4🤔2🌚2💩1🍓1🦄1
Forwarded from ебãные идеи для трейдинга
Приветствую,Еб*ные идеи для трейдинга.
Я Антонио,рекрутер компании HI-Barbie!
Хочу предложить тебе позицию Quantitative Researcher в компанию Overnight.fi-Лидера в области DeFI. Проект-стартап, можем закрыться в любую неделю, вероятность рассчитывается по Пуассону.
🦾Компания меняет правила игры (которых и так нет) в децентрализованных финансах (DeFi), используя стратегии с дельта-гамма-бета-штрих-нейтральным риском, которые обеспечивают стабильность и
надежную доходность. В основе инновации — USD+ (который мы форкнули с Terra USD), стейблкоин с доходностью,разработанный для получения стабильного (и не очень) дохода на DeFi-рынках.
🙌Используя автоматизацию и vibe кодинг, алгоритмические стратегии и обучение с подкреплением (кто с утра подкрепился - тот многого добился), Overnight.fi раздвигает границы финансовых технологий и ноги инвесторов!
Ожидания:
⚡️Высшее образование или сертификат об обрезании КРАЙНЕ необходимы
⚡️Навыки построения бэктестинга и симуляционных моделей или опыт симулирования оргазма будут
плюсом.
Условия:
🌖Конкурентоспособная зарплата с вилкой и ложкой.
🌖Бонусы за успешные стратегии, избиение за неуспешные.
😁157🥴26🔥12👍3
Yandex Datafest в белграде будет веселый, заходите https://ods.ai/events/fest2025-yandex-belgrade
👍39👎25🤡19🔥4🌭4
SageAttention1-2
Ускоряет перемножение матриц за счет сниежения точности до 8бит, используют разделения перемножения и множат по блокам, каналам, токенам одновременно используя матрички маленькой размерности+квантуют до 8бит.
paper
github
Мальчик: метрики FLOPS, скорость перемножения, утилизация
Мужчина:
Ускоряет перемножение матриц за счет сниежения точности до 8бит, используют разделения перемножения и множат по блокам, каналам, токенам одновременно используя матрички маленькой размерности+квантуют до 8бит.
paper
github
Мальчик: метрики FLOPS, скорость перемножения, утилизация
Мужчина:
🔥75👍17😁5