Пару скринов из линкедина и ссылка на чат
У нас у канала есть чат - ML Physycist coworking
Там мы много обсуждаем ML, AI, поиск работы и просто жизнь. А еще чат часто переключается в режим коворкинга - топ фича для удаленной работы. Ты заходишь на звонок, шаришь экран и камеру и продуктивно работаешь со всеми участниками коворкинга. 0 шансов начать прокрастинировать в тиктоке или просто балдеть.
У нас у канала есть чат - ML Physycist coworking
Там мы много обсуждаем ML, AI, поиск работы и просто жизнь. А еще чат часто переключается в режим коворкинга - топ фича для удаленной работы. Ты заходишь на звонок, шаришь экран и камеру и продуктивно работаешь со всеми участниками коворкинга. 0 шансов начать прокрастинировать в тиктоке или просто балдеть.
❤5
Начинается начинается ранняя осень, самый активный сезон найма
Что бы вам было проще искать работу завайбкодил расширение hide_yandex которое скрывает вакансии одноименной компании на джобагрегатарах.
Самое интересное что оно было навайбкожено за один запрос в claude code. Opus-4.1 сам сходил на нужные сайты, изучил структуру их html и написал нужные фильтры. Думаю еще никогда раньше не было так же приятно кодить как сейчас)
Что бы вам было проще искать работу завайбкодил расширение hide_yandex которое скрывает вакансии одноименной компании на джобагрегатарах.
Самое интересное что оно было навайбкожено за один запрос в claude code. Opus-4.1 сам сходил на нужные сайты, изучил структуру их html и написал нужные фильтры. Думаю еще никогда раньше не было так же приятно кодить как сейчас)
❤27😁21👍6🎉4🤮2💩2👎1
Блин походу придется еще раз извиняться как год назад (((
Telegram
ML physicist
Добрый день,
Ранее в этом канале я позволял себе некоторые комментарии и оценочные суждения (зачастую грубые и неуважительные) в отношении Яндекс облака, а также проводимых ими мероприятий. Такое поведение было ошибочным, неподобающим, некорректным и недопустимым…
Ранее в этом канале я позволял себе некоторые комментарии и оценочные суждения (зачастую грубые и неуважительные) в отношении Яндекс облака, а также проводимых ими мероприятий. Такое поведение было ошибочным, неподобающим, некорректным и недопустимым…
😁10🐳6💩1
Новый стартап Сема
Проблема фейков в интернете до сих пор не решена.
Любая соцсеть тонет в ботах, компании собирают целые ботнеты из тысяч «людей», которых на самом деле не существует.
Сейчас верификация обычно выглядит так: «загрузи фотку паспорта и покрути лицом на камеру».
Минусы:
– это тривиально подделать
– надо отдавать имя, фамилию и номер паспорта каждому приложению → привет, персональные данные и юр. риски
Wld пытается решить это радикально по-другому.
У них есть шар–сканер («orb»), который считывает сетчатку. Это доказывает, что ты живой человек, чем защищает от мультиаккаунтов.
Дальше WLD дает API, и любые сервисы могут подключить его для верификации реальности пользователей.
В США уже даже Tinder начал предлагать верификацию через world id. Пока оставили и старые методы, но похоже, что глобальная экспансия близко.
Проблема фейков в интернете до сих пор не решена.
Любая соцсеть тонет в ботах, компании собирают целые ботнеты из тысяч «людей», которых на самом деле не существует.
Сейчас верификация обычно выглядит так: «загрузи фотку паспорта и покрути лицом на камеру».
Минусы:
– это тривиально подделать
– надо отдавать имя, фамилию и номер паспорта каждому приложению → привет, персональные данные и юр. риски
Wld пытается решить это радикально по-другому.
У них есть шар–сканер («orb»), который считывает сетчатку. Это доказывает, что ты живой человек, чем защищает от мультиаккаунтов.
Дальше WLD дает API, и любые сервисы могут подключить его для верификации реальности пользователей.
В США уже даже Tinder начал предлагать верификацию через world id. Пока оставили и старые методы, но похоже, что глобальная экспансия близко.
👍9❤5🤡5🤩2
Forwarded from commit history
🏆 Наш SWE-rebench — ТОП-1 датасет в мире по скачиваниям на HuggingFace! 🚀
Рассказываю подробнее про эту новость из последнего месячного апдейта.
Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.
А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.
У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥
Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть.
Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!
Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.
Рассказываю подробнее про эту новость из последнего месячного апдейта.
Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.
А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.
У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥
Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть.
Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!
Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.
🔥17👍5❤1
Думаю многие понимают что в современных LLM attention работает не как Attention(Q, K, V) = softmax(QK^T / √d_k)V
Решил покопаться в том, какие хаки используют в топовых моделях чтобы выжать максимум качества из внимания.
Multi-head Latent Attention (MLA)
Сжимают KV - проецируют в низкоразмерное пространство, а потом восстанавливают обратно когда нужно вычислять внимание.
Что дает: KV-cache меньше в 28 раз (с 213GB до 7.6GB), скорость +20x
Где: DeepSeek
Grouped Query Attention (GQA)
Вместо отдельных KV для каждой головы - шарят между группами. Типа 32 query головы делят 8 KV голов.
Что дает: Память меньше в 2-4 раза, инференс быстрее, можно дообучить существующую MHA модель за 5% compute
Где: Llama-2/3, Mistral, Gemma-2, Qwen
Multi-Query Attention (MQA)
Экстремальная версия GQA - всего 1 KV голова на все queries.
Что дает: Максимальная экономия памяти (до 8x), но качество страдает
Где: Falcon, PaLM, старые модели Google
Sliding Window Attention
Каждый токен смотрит только на n ближайших
Что дает: O(N) сложность вместо O(N²), можно обрабатывать бесконечные последовательности
Где: Mistral, Gemma-2 (чередует с полным), Longformer
Unmasked attention for prefix
Для системного сообщения в диалоге атеншн работает без маски, а для остальных сообщений в диалоге с. Таким образом ЛЛМ начинает напоминать encoer-decoder архитектуру.
Что дает: лучшее следование инструкциям
Где: эксперементировал гугл в 2021-23, но не вылилось ни во что большое. Сейчас в многих VLM атеншн по визуальным патчам работает именно так
Sparse Attention (H2O, Scissorhands)
На каждом шаге выкидываем из KV кеша те токены на которые мало смотрели на прошлыхх заменяя их 0.
Что дает: KV-cache меньше в 10-20 раз, но можно потерять важную информацию
Где: StreamingLLM, модели для длинного контекста, скорее экзотика
Linear Attention
Заменяют softmax на линейное ядро, позволяя формулировать как RNN.
Что дает: O(N) сложность, можно делать рекуррентный инференс с постоянной памятью
Где: RWKV, RetNet, Hyena, GLA - экзотика
Решил покопаться в том, какие хаки используют в топовых моделях чтобы выжать максимум качества из внимания.
Multi-head Latent Attention (MLA)
Сжимают KV - проецируют в низкоразмерное пространство, а потом восстанавливают обратно когда нужно вычислять внимание.
Что дает: KV-cache меньше в 28 раз (с 213GB до 7.6GB), скорость +20x
Где: DeepSeek
Grouped Query Attention (GQA)
Вместо отдельных KV для каждой головы - шарят между группами. Типа 32 query головы делят 8 KV голов.
Что дает: Память меньше в 2-4 раза, инференс быстрее, можно дообучить существующую MHA модель за 5% compute
Где: Llama-2/3, Mistral, Gemma-2, Qwen
Multi-Query Attention (MQA)
Экстремальная версия GQA - всего 1 KV голова на все queries.
Что дает: Максимальная экономия памяти (до 8x), но качество страдает
Где: Falcon, PaLM, старые модели Google
Sliding Window Attention
Каждый токен смотрит только на n ближайших
Что дает: O(N) сложность вместо O(N²), можно обрабатывать бесконечные последовательности
Где: Mistral, Gemma-2 (чередует с полным), Longformer
Unmasked attention for prefix
Для системного сообщения в диалоге атеншн работает без маски, а для остальных сообщений в диалоге с. Таким образом ЛЛМ начинает напоминать encoer-decoder архитектуру.
Что дает: лучшее следование инструкциям
Где: эксперементировал гугл в 2021-23, но не вылилось ни во что большое. Сейчас в многих VLM атеншн по визуальным патчам работает именно так
Sparse Attention (H2O, Scissorhands)
На каждом шаге выкидываем из KV кеша те токены на которые мало смотрели на прошлыхх заменяя их 0.
Что дает: KV-cache меньше в 10-20 раз, но можно потерять важную информацию
Где: StreamingLLM, модели для длинного контекста, скорее экзотика
Linear Attention
Заменяют softmax на линейное ядро, позволяя формулировать как RNN.
Что дает: O(N) сложность, можно делать рекуррентный инференс с постоянной памятью
Где: RWKV, RetNet, Hyena, GLA - экзотика
👍20❤10🥰5🔥3
Дифузионнки для текста
Пару месяцев назад gemini анонсировало gemini diffusion - первую дифузионную текстовую модель, которая по метрикам относительно близка к обычным LLM (и то и то трансформер, но один авторегерессионный а другой - дифузионный)
Как она работает
Обычная ллмка последовательно, токен за токеном генерирует последовательность. На запрос LLM(Какая сталица франции) результатом будет распределение вероятности следующего токена из которого сразу выберется самый вероятный кандидат
Gemini diffusion работает немного подругому. Вместо того что бы сразу определяться с токеном, она "постепенно" расшумляет его распределение вероятности. То есть на выходе из модели так же распределения вероятностей токенов, но мы не семплируем output сразу, а много раз вызываем одну и ту же модель, подавая output i го шага как вход i+1
И только после этого семплируем токен.
Такой подход позваляет генерировать не "токен за токеном", а сразу "разшумлять" весь ответ ллмки, так что скорости генерации таких моделей получаются ошеломительные
Пару месяцев назад gemini анонсировало gemini diffusion - первую дифузионную текстовую модель, которая по метрикам относительно близка к обычным LLM (и то и то трансформер, но один авторегерессионный а другой - дифузионный)
Как она работает
Обычная ллмка последовательно, токен за токеном генерирует последовательность. На запрос LLM(Какая сталица франции) результатом будет распределение вероятности следующего токена из которого сразу выберется самый вероятный кандидат
Gemini diffusion работает немного подругому. Вместо того что бы сразу определяться с токеном, она "постепенно" расшумляет его распределение вероятности. То есть на выходе из модели так же распределения вероятностей токенов, но мы не семплируем output сразу, а много раз вызываем одну и ту же модель, подавая output i го шага как вход i+1
И только после этого семплируем токен.
Такой подход позваляет генерировать не "токен за токеном", а сразу "разшумлять" весь ответ ллмки, так что скорости генерации таких моделей получаются ошеломительные
👍9🔥8❤5
VLA: Как LLM-ки помогают в робототехнике
Берем предобученную vision LLM (условно квен) и вместо следующего токена учим предсказывать предсказывать позиции суставов робота.
Google RT-2: "возьми красную кружку" + картинка с камеры → [0.1, -0.5, 0.3, 0.0, 0.2, -0.1, 1.0]
Семь чисел = семь суставов манипулятора на следующее 100 мс
Главный прорыв VLA
Претреинед модель уже знает что такое "кружка" из текстовых данных. Не надо показывать 1000 примеров как брать кружку - она понимает концепцию "взять" и концепцию "кружка" из предобучения на интернете.
Physical Intelligence показали как их модель π0 складывает одежду, хотя обучалась на совсем других задачах. Просто потому что "понимает" инструкции.
Разумеется, что бы это все заставить хорошо работать, нужно применить много разных хаков - например предсказывать сразу несколько следующих токенов, сложной математикой бороться с дерганьем и залипанями итп, но сама идея моделей остается довольно простой
Если вам было бы интересно позаниматься чем то подобным, можете купить себе LeRobot (от Huggingface) или пойти в команду яндекса по робототехнике, закинув свое резюме сюда @Bonstor
Берем предобученную vision LLM (условно квен) и вместо следующего токена учим предсказывать предсказывать позиции суставов робота.
Google RT-2: "возьми красную кружку" + картинка с камеры → [0.1, -0.5, 0.3, 0.0, 0.2, -0.1, 1.0]
Семь чисел = семь суставов манипулятора на следующее 100 мс
Главный прорыв VLA
Претреинед модель уже знает что такое "кружка" из текстовых данных. Не надо показывать 1000 примеров как брать кружку - она понимает концепцию "взять" и концепцию "кружка" из предобучения на интернете.
Physical Intelligence показали как их модель π0 складывает одежду, хотя обучалась на совсем других задачах. Просто потому что "понимает" инструкции.
Разумеется, что бы это все заставить хорошо работать, нужно применить много разных хаков - например предсказывать сразу несколько следующих токенов, сложной математикой бороться с дерганьем и залипанями итп, но сама идея моделей остается довольно простой
Если вам было бы интересно позаниматься чем то подобным, можете купить себе LeRobot (от Huggingface) или пойти в команду яндекса по робототехнике, закинув свое резюме сюда @Bonstor
🔥13❤3👍3❤🔥2🍓2
Continue posting job openings, this time for a small startup engaged in AI game generation. The founder is in my extended network, and they're working on some insanely cool things with a very good team. Strongly recommend reaching out
❤4
Forwarded from Toms 👾
Roam is a an AI Lab training Viral World Models. We’re currently building a Super App where everyone can make studio-quality multiplayer games in minutes.
Looking for an Applied AI engineer to add to the team. $200-350K
We’ve signed 100s of Gaming Creators, just raised $4.5M from great investors (backed Bytedance, Deepmind, PokemonGo, SpaceX & Zuckerbergs). Team is Ex-NASA Applied AI/Voodoo/Supersonic, made 100+ games in the past.
www.roam.lol/ai
Looking for an Applied AI engineer to add to the team. $200-350K
We’ve signed 100s of Gaming Creators, just raised $4.5M from great investors (backed Bytedance, Deepmind, PokemonGo, SpaceX & Zuckerbergs). Team is Ex-NASA Applied AI/Voodoo/Supersonic, made 100+ games in the past.
www.roam.lol/ai
Ashbyhq
Research Engineer
About Roam
Roam is an Applied AI lab building World Models for highly retentive 3D environments. We're lifting models from the 2D plane of pixels into the full dimensionality of interactive worlds. Our work spans everything required to perceive, reason about…
Roam is an Applied AI lab building World Models for highly retentive 3D environments. We're lifting models from the 2D plane of pixels into the full dimensionality of interactive worlds. Our work spans everything required to perceive, reason about…
👍6
Браузер Comet от perplexity 🌠
Последний месяц пользовался браузером Comet от перплексити. Помимо стандартных ИИ фичей типо саммари страниц и всего такого, есть ИИ агент который полностью берет на себя управление страницей
Из классного - в отличии от агента опени не требует логина в свои сервисы и кажется что реже требует аппрува действий. Но мобильного приложения нет, так что для управления запущенными агентами надо возвращаться к компьютеру
С задачами в простых интерфейсах справляется без проблем, вот почистить гугл календарь от мусорных эвентов которые мне заспамили в календли он уже не смог - думаю слишком сложный UI.
Думаю что будущее агенского AI все таки за управлением вашем ПК а не сандбоксом, где то в облаке. 2-ое это пока дикий костыль пока модели еще тупые что бы не сделать sudo rm -rf в вашей системе.
Antropic тоже запустило свое расширение для браузера с агентом, если этот пост не наберет ни одного эмодзи клоуна - завтра напишу что думаю после недели использования его.
Последний месяц пользовался браузером Comet от перплексити. Помимо стандартных ИИ фичей типо саммари страниц и всего такого, есть ИИ агент который полностью берет на себя управление страницей
Из классного - в отличии от агента опени не требует логина в свои сервисы и кажется что реже требует аппрува действий. Но мобильного приложения нет, так что для управления запущенными агентами надо возвращаться к компьютеру
С задачами в простых интерфейсах справляется без проблем, вот почистить гугл календарь от мусорных эвентов которые мне заспамили в календли он уже не смог - думаю слишком сложный UI.
Думаю что будущее агенского AI все таки за управлением вашем ПК а не сандбоксом, где то в облаке. 2-ое это пока дикий костыль пока модели еще тупые что бы не сделать sudo rm -rf в вашей системе.
Antropic тоже запустило свое расширение для браузера с агентом, если этот пост не наберет ни одного эмодзи клоуна - завтра напишу что думаю после недели использования его.
🤡24🤔12👍8😁4❤3
Похоже Openai расширяет список сайд бизнесов (помимо продажи самих моделей) и делает AI-HR платформу (сервис для найма людей)
Для нас с вами это хорошие новости, потому что даже Сем считает что хотя бы в ближайшее время агенты заменят людей не полностью
Для нас с вами это хорошие новости, потому что даже Сем считает что хотя бы в ближайшее время агенты заменят людей не полностью
Openai
Expanding economic opportunity with AI
Fidji Simo - CEO, Applications
👍6❤3😁1😱1🤣1
Лучше чем Kaggle
Roam.lol (компания куда я публиковал вакансию пару постов выше) открывает программу Research Bounties
Они занимаются чем то на подобнее bolt.new , но для игр, и готовы платить за прорывы по сложным ресерч направилениям. Например
- 8'000$ за AI агента который по промпту пользователя будет выставлять обьекты на 3д сцене
- 10'000$ за фреймворк для тестирования их агентов
Недавно они подняли большой раунд от секвои и собрали куча топовых ресерчеров из Nasa, Bytedance и Deepmind - и эта программа отличный способ попробовать свои силы и поработать с ними
Сейчас, когда из за нейронок learning curve в новом проекте стал намного более быстрым, подобные позиции способны если не полностью заменить, но хотя бы конкурировать с обычным наймом в изолированных задачах
Roam.lol (компания куда я публиковал вакансию пару постов выше) открывает программу Research Bounties
Они занимаются чем то на подобнее bolt.new , но для игр, и готовы платить за прорывы по сложным ресерч направилениям. Например
- 8'000$ за AI агента который по промпту пользователя будет выставлять обьекты на 3д сцене
- 10'000$ за фреймворк для тестирования их агентов
Недавно они подняли большой раунд от секвои и собрали куча топовых ресерчеров из Nasa, Bytedance и Deepmind - и эта программа отличный способ попробовать свои силы и поработать с ними
Сейчас, когда из за нейронок learning curve в новом проекте стал намного более быстрым, подобные позиции способны если не полностью заменить, но хотя бы конкурировать с обычным наймом в изолированных задачах
🔥8❤3👍2
После выхода GPT-5, в последние 2 недели
Anonymous Poll
51%
пользуюсь OPENAI и не заметил проблем
22%
пользуюсь OPENAI и заметил ухудшение
8%
подумал отменить подписку/отменил подписку
16%
перешел на Claude в качестве основной
15%
перешел в другую модель в качестве основной
Наткнулся на интересный пост сотрудника из известного AI стартапа для юристов Harvey - тык . Летом они закрыли раунд в $300M с оценкой $5 млрд.
Он пишет, что Harvey - обертка на GPT-5 в АПИ которого сгрузили файлы документов, законов итп (в целом в этом ничего плохого нет, если вы не продаете подписку за 1000 $/ сотрудника, позицианируя это как revolution)
Метрики использования очень низкие, почти все кто платит за подписку не пользуются ею (хотя это средне-крупный b2b рынок). Ретеншн на повторную оплату минимальный
CEO Harvey ответил на этот пост в линкедине, и говорит что все не так плохо это неправда. Однако коментаторы уже обнаружили проблемы в его ответе.
Все еще считаете что ИИ пузыря нет и 5 млрд (~10% от госбюджета Казахстана) это справедливая оценка для openai.chat.completion(...)?
Он пишет, что Harvey - обертка на GPT-5 в АПИ которого сгрузили файлы документов, законов итп (в целом в этом ничего плохого нет, если вы не продаете подписку за 1000 $/ сотрудника, позицианируя это как revolution)
Метрики использования очень низкие, почти все кто платит за подписку не пользуются ею (хотя это средне-крупный b2b рынок). Ретеншн на повторную оплату минимальный
CEO Harvey ответил на этот пост в линкедине, и говорит что
Все еще считаете что ИИ пузыря нет и 5 млрд (~10% от госбюджета Казахстана) это справедливая оценка для openai.chat.completion(...)?
Reddit
[deleted by user] : r/legaltech
315 votes, 271 comments. 19K subscribers in the legaltech community. This subreddit is for those in the legal field interested in improving the legal…
😁9👍6✍1🔥1🥰1🕊1🐳1🤣1