В сети вирусится ситуация с чуваком по имени Soham Parekh. Фаундер Playground AI обвинил его в том, что тот одновременно работал в 3–5 стартапах, не уведомив ни одного из работодателей. Повторюсь: сидел на пяти стульях и улыбался всем.
Другие основатели стартапов (я видел трех) подтвердили, что тоже нанимали его, но быстро увольняли после обнаружения множественных обязательств. Многие пишут в духе «блин, собирались нанять его на следующей неделе». При этом его описывают как харизматичного, умелого собеседника, который быстро справлялся с задачами на интервью. Это, по видимому, и позволяло ему устраиваться в компании.
Мне кажется, это многое говорит о процессе найма во многие стартапы. Сегодня такой hiring process - как слепое свидание. Главное, чтобы решал алгоритмическую задачку и говорил «passionate about building».
Другие основатели стартапов (я видел трех) подтвердили, что тоже нанимали его, но быстро увольняли после обнаружения множественных обязательств. Многие пишут в духе «блин, собирались нанять его на следующей неделе». При этом его описывают как харизматичного, умелого собеседника, который быстро справлялся с задачами на интервью. Это, по видимому, и позволяло ему устраиваться в компании.
Мне кажется, это многое говорит о процессе найма во многие стартапы. Сегодня такой hiring process - как слепое свидание. Главное, чтобы решал алгоритмическую задачку и говорил «passionate about building».
😁33👍7❤1
Команда ARC-AGI про Grok 4:
“Мы получили звонок от @xai 24 часа назад
«Мы хотим протестировать Grok 4 на ARC-AGI»
Были слухи, мы знали, что будет хорошо. Мы не ожидали, что он станет моделью номер один на ARC-AGI.
Вот как проходило тестирование и что значат результаты:
Вчера мы общались с Джимми из xAI team, он попросил нас проверить их скор Grok 4. Они сами прогнали тесты на публичном наборе ARC-AGI-1 & 2
Чтобы подтвердить цифры и проверить переобучение, мы сами прогнали новую модель на нашем полуприватном датасете.
Мы объяснили им наши правила тестирования:
- никакого сохранения данных
- чекпойнт модели должен быть предназначен для паблика
- временное увеличение rate limits для burst-тестов
Они согласились, так что мы начали тесты.
Сначала словили таймауты на обычных запросах, перешли на streaming и рроблема ушла.
Что значат эти результаты?
Во-первых, факты: Grok 4 теперь топовая публично доступная модель на ARC-AGI. Она даже обходит заточенные решения с Kaggle.
Во-вторых, ARC-AGI-2 сложен для текущих AI моделей. Чтобы набрать хороший балл, модели должны выучить мини-скилл по серии обучающих примеров и показать его на тесте.
Предыдущий топ был около 8 % (у Opus 4). Всё ниже 10 % - это шум.
Скор 15.9 % пробивает шумовой барьер, Grok 4 показывает ненулевой уровень fluid intelligence”
Source
“Мы получили звонок от @xai 24 часа назад
«Мы хотим протестировать Grok 4 на ARC-AGI»
Были слухи, мы знали, что будет хорошо. Мы не ожидали, что он станет моделью номер один на ARC-AGI.
Вот как проходило тестирование и что значат результаты:
Вчера мы общались с Джимми из xAI team, он попросил нас проверить их скор Grok 4. Они сами прогнали тесты на публичном наборе ARC-AGI-1 & 2
Чтобы подтвердить цифры и проверить переобучение, мы сами прогнали новую модель на нашем полуприватном датасете.
Мы объяснили им наши правила тестирования:
- никакого сохранения данных
- чекпойнт модели должен быть предназначен для паблика
- временное увеличение rate limits для burst-тестов
Они согласились, так что мы начали тесты.
Сначала словили таймауты на обычных запросах, перешли на streaming и рроблема ушла.
Что значат эти результаты?
Во-первых, факты: Grok 4 теперь топовая публично доступная модель на ARC-AGI. Она даже обходит заточенные решения с Kaggle.
Во-вторых, ARC-AGI-2 сложен для текущих AI моделей. Чтобы набрать хороший балл, модели должны выучить мини-скилл по серии обучающих примеров и показать его на тесте.
Предыдущий топ был около 8 % (у Opus 4). Всё ниже 10 % - это шум.
Скор 15.9 % пробивает шумовой барьер, Grok 4 показывает ненулевой уровень fluid intelligence”
Source
🔥36🤯14👍3❤2
В X начали распространяться посты о том, что OpenAI якобы случайно выложили на Hugging Face две open-source модели.
Речь идёт о двух моделях: одной (плотной?) на 20B и второй 120B MoE.
Что следует из лика:
120B MoE модель:
- 128 экспертов, из них 4 активны .
- FP4, что похоже означает работу только на GPU NVIDIA Blackwell. Но было бы странно выпускать такую модель, поэтому думаю тут мы неправильно поняли.
- Контекст 128 000 токенов.
- Фичи: Grouped Query Attention (GQA), Sliding Window Attention (SWA), SwiGLU, NTK RoPE.
20B модель:
- Почти нет инфы. Пишут, что это, скорее всего, обычная dense модель.
- Архитектура и скорость не указаны.
Похоже модельки вот вот дропнут. Ждем бенчмарки и сравнение с китайцами.
Речь идёт о двух моделях: одной (плотной?) на 20B и второй 120B MoE.
Что следует из лика:
120B MoE модель:
- 128 экспертов, из них 4 активны .
- FP4, что похоже означает работу только на GPU NVIDIA Blackwell. Но было бы странно выпускать такую модель, поэтому думаю тут мы неправильно поняли.
- Контекст 128 000 токенов.
- Фичи: Grouped Query Attention (GQA), Sliding Window Attention (SWA), SwiGLU, NTK RoPE.
20B модель:
- Почти нет инфы. Пишут, что это, скорее всего, обычная dense модель.
- Архитектура и скорость не указаны.
Похоже модельки вот вот дропнут. Ждем бенчмарки и сравнение с китайцами.
🤔12❤4🔥2
Помните хаки промпт инжиниринга? «Я дам тебе чаевые», «От этого зависит моя карьера» и т.д.
Похоже, с современными моделями это все больше не работает.
И даже chain-of-thought промптинг на non-reasoning моделях больше не помогает.
Серия статей:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5165270
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5375404
Source
Похоже, с современными моделями это все больше не работает.
И даже chain-of-thought промптинг на non-reasoning моделях больше не помогает.
Серия статей:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5165270
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5375404
Source
🔥29👍6
Нейро-игры все ближе.
Genie 3 - новая модель от DeepMind, способная в реальном времени генерировать интерактивные 3D-миры (720p, 24 кадра/с), запоминать объекты до минуты и реагировать на текстовые команды.
Доступ не дают, только хвалятся.
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
Genie 3 - новая модель от DeepMind, способная в реальном времени генерировать интерактивные 3D-миры (720p, 24 кадра/с), запоминать объекты до минуты и реагировать на текстовые команды.
Доступ не дают, только хвалятся.
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
Google DeepMind
Genie 3: A new frontier for world models
Today we are announcing Genie 3, a general purpose world model that can generate an unprecedented diversity of interactive environments. Given a text prompt, Genie 3 can generate dynamic worlds that …
🔥9👍4❤3😁2
Вышел Claude Opus 4.1 и OpenAI oss на подходе 🙃
Раз: https://www.anthropic.com/news/claude-opus-4-1
Два:
https://github.com/huggingface/transformers/releases/tag/v4.55.0
Раз: https://www.anthropic.com/news/claude-opus-4-1
Два:
https://github.com/huggingface/transformers/releases/tag/v4.55.0
Anthropic
Claude Opus 4.1
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
❤8🔥7🤯7
https://openai.com/open-models/
- o4-mini уровень
- видны ризонинг трейсы
- 120B и 20B МоЕ, большая влезает на одну Н100, маленькая умещается в 16GB памяти (Native MXFP4 quantization)
- нативный function calling для браузинга и питона
- o4-mini уровень
- видны ризонинг трейсы
- 120B и 20B МоЕ, большая влезает на одну Н100, маленькая умещается в 16GB памяти (Native MXFP4 quantization)
- нативный function calling для браузинга и питона
Openai
Open models by OpenAI
Advanced open-weight reasoning models to customize for any use case and run anywhere.
👍13🔥9❤4
У нас в Нидерландах прошло большое исследование по использованию ИИ в обнаружении рака груди.
Вывод там простой - ИИ молодец и очень помогает.
В радиологии принята практика второго мнения - снимки всегда смотрят два врача независимо друг от друга. Это нужно для повышения точности и исключения ошибок.
Ну и ИИ, в общем-то, заменяет второго врача, да еще и общую точность повышает.
А еще выяснилось вот что:
модель иногда что-то помечает как патологию, а врачи такие «ну тут он ошибся - false positive явный». А потом выясняется со временем, что не ошибся - просто этап ранний и врачи сами не заметили или не поняли.
Вот что про это говорит руководитель исследования Ритсе Манн:
Опубликовано это все в журнале Lancet. (Вы о нем могли слышать во времена пандемии в связке с исследованиями спутника V)
Я занимался чем-то похожим в Иннополисе - тогда только-только поперли свёрточные сети и мы как раз пробовали их на наших флюорографиях. И вот спустя 10 лет мы на пороге реальной адаптации ИИ в радиологии.
Сами исследователи оценивают реальное внедрение в клиники на горизонте 5 лет.
What a time to be alive.
Вывод там простой - ИИ молодец и очень помогает.
В радиологии принята практика второго мнения - снимки всегда смотрят два врача независимо друг от друга. Это нужно для повышения точности и исключения ошибок.
Ну и ИИ, в общем-то, заменяет второго врача, да еще и общую точность повышает.
А еще выяснилось вот что:
модель иногда что-то помечает как патологию, а врачи такие «ну тут он ошибся - false positive явный». А потом выясняется со временем, что не ошибся - просто этап ранний и врачи сами не заметили или не поняли.
Вот что про это говорит руководитель исследования Ритсе Манн:
AI sometimes finds things two to four years earlier. These are real cancers that grow and do real harm. They were left in the breast and grew. People became lymph node positive. We want to prevent that. It’s best to find tumours earlier when they can be less harmful with treatment.
Опубликовано это все в журнале Lancet. (Вы о нем могли слышать во времена пандемии в связке с исследованиями спутника V)
Я занимался чем-то похожим в Иннополисе - тогда только-только поперли свёрточные сети и мы как раз пробовали их на наших флюорографиях. И вот спустя 10 лет мы на пороге реальной адаптации ИИ в радиологии.
Сами исследователи оценивают реальное внедрение в клиники на горизонте 5 лет.
What a time to be alive.
The Lancet Digital Health
AI as an independent second reader in detection of clinically relevant breast cancers within a population-based screening programme…
Evaluating screening mammograms with one human reader and AI leads to increased breast
cancer detection compared with double human reading, independent of breast density.
However, an effective arbitration process is needed as the recall rate increases.
AI…
cancer detection compared with double human reading, independent of breast density.
However, an effective arbitration process is needed as the recall rate increases.
AI…
🔥49❤18👍8
Коллега съездил в Сеул на RECOMB - конференцию про численную молекулярную биологию. Искал там медь, а нашел, как говорится, золото.
#storytime
Выступал на конфе Лесли Вэлиант. Лауреат Тьюринга. Человек, которому, в принципе, разрешено говорить любые странности, и это всё равно будет наукой.
И он там очень поэтично высказался:
Красиво, конечно.
Дальше он объяснил: среда - это teacher. Есть какая-то невидимая target function - выживание. Вид - это ученик. ДНК хранит гипотезу, как вообще жить. Мутации меняют гипотезу - это собственно обучение. А селекция даёт фидбек: fitness(ожидаемое число жизнеспособных потомков). Других оценок нет. Ну а датасет - это все ситуации, что встречаются в природе.
Если мутации и отбор успевают за разумное время подогнать гипотезу к жизни - задачу называют evolvable.
По сути, получается, что всё человечество - это большой курс по машинному обучению. И экзамен у нас принимает смерть.
#storytime
Выступал на конфе Лесли Вэлиант. Лауреат Тьюринга. Человек, которому, в принципе, разрешено говорить любые странности, и это всё равно будет наукой.
И он там очень поэтично высказался:
Darwinian evolution is a kind of supervised machine learning… Who is the supervisor?
It's Death.
Красиво, конечно.
Дальше он объяснил: среда - это teacher. Есть какая-то невидимая target function - выживание. Вид - это ученик. ДНК хранит гипотезу, как вообще жить. Мутации меняют гипотезу - это собственно обучение. А селекция даёт фидбек: fitness(ожидаемое число жизнеспособных потомков). Других оценок нет. Ну а датасет - это все ситуации, что встречаются в природе.
Если мутации и отбор успевают за разумное время подогнать гипотезу к жизни - задачу называют evolvable.
По сути, получается, что всё человечество - это большой курс по машинному обучению. И экзамен у нас принимает смерть.
❤39👍13🤔8
Thinking machines наконец что-то выпустили. И это - блогпост. muratiface.jpg
Довольно интересная тема, кстати: Defeating Nondeterminism in LLM Inference
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
Довольно интересная тема, кстати: Defeating Nondeterminism in LLM Inference
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
Thinking Machines Lab
Defeating Nondeterminism in LLM Inference
Reproducibility is a bedrock of scientific progress. However, it’s remarkably difficult to get reproducible results out of large language models.
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
🔥16❤1
Пока OpenAI строит старгейты, DeepSeek публикуются в Nature
https://www.nature.com/articles/s41586-025-09422-z
https://www.nature.com/articles/s41586-025-09422-z
😁16🔥3👍2❤1
Forwarded from DLStories
NeurIPS реджектнул статьи, хотя бы один автор которых аффилиирован с Российской компанией/универом (вот, вот и вот). Вроде бы, реджект дают не прямо всем, а организациям из этого документа, но это не точно. Но, в любом случае, это точно пиздец, такие решения вообще не имеют ничего общего со словом "наука". Честно говоря, не думала, что до этого дойдет в мировой академической среде, но вот.
Очень обидно за классных людей и их статьи, которые вроде бы попали на NeurIPS, а вроде бы и нет(
Очень обидно за классных людей и их статьи, которые вроде бы попали на NeurIPS, а вроде бы и нет(
🤯28🔥12😁7🤔5👍2
Говорят, SAM 3 засабмитили на ICLR 2026.
SAM 1 - тыкаем на картинки и оно сегментирует
SAM 2 - тыкаем в видео и оно сегментирует и трекает
SAM 3 - как SAM 2, только не тыкаем, а пишем промптом
https://openreview.net/forum?id=r35clVtGzw
На работе мы используем SAM 2 для сильного облегчения разметки разных типов клеток помидоров и трекинга их развития на изображениях с микроскопа. Так что ждем релиза.
SAM 1 - тыкаем на картинки и оно сегментирует
SAM 2 - тыкаем в видео и оно сегментирует и трекает
SAM 3 - как SAM 2, только не тыкаем, а пишем промптом
https://openreview.net/forum?id=r35clVtGzw
На работе мы используем SAM 2 для сильного облегчения разметки разных типов клеток помидоров и трекинга их развития на изображениях с микроскопа. Так что ждем релиза.
🔥19
Свежий цирк с ИИ и математикой.
Парни из OpenAI запостили, что с помощью gpt-5 удалось найти решения 10 открытых проблем Эрдёша. (Это такие математические головоломки про то, как расставлять точки на плоскости, чтобы они были везде близко, но не слишком, как складывать числа, чтобы не повторяться или как строить графы, чтобы в них всегда были циклы нужной длины)
Почти для всех это звучало как «gpt-5 решил нерешенную математику». ИИ рвет ученых в щепки, мы обречены, вот это вот всё.
Реальность оказалась проще: gpt-5 нашел старые статьи с решениями, которые банально пропустили раньше. Тоже неплохо, но уже не так сочно.
Прокомментил аж CEO Google DeepMind (нобелевский лауреат межу прочим) - «это стыдоба».
Оригинальный пост автор уже удалил со словами «сорян, я думал очевидно, что я имею ввиду». Правда это или отмазки - решайте сами.
Короче, математика жива, ИИ - еще не бог (пока что). Продолжаем жечь токены.
Парни из OpenAI запостили, что с помощью gpt-5 удалось найти решения 10 открытых проблем Эрдёша. (Это такие математические головоломки про то, как расставлять точки на плоскости, чтобы они были везде близко, но не слишком, как складывать числа, чтобы не повторяться или как строить графы, чтобы в них всегда были циклы нужной длины)
Почти для всех это звучало как «gpt-5 решил нерешенную математику». ИИ рвет ученых в щепки, мы обречены, вот это вот всё.
Реальность оказалась проще: gpt-5 нашел старые статьи с решениями, которые банально пропустили раньше. Тоже неплохо, но уже не так сочно.
Прокомментил аж CEO Google DeepMind (нобелевский лауреат межу прочим) - «это стыдоба».
Оригинальный пост автор уже удалил со словами «сорян, я думал очевидно, что я имею ввиду». Правда это или отмазки - решайте сами.
Короче, математика жива, ИИ - еще не бог (пока что). Продолжаем жечь токены.
😁49👍9🔥3❤1🤔1
Давайте теперь положительный кейс ИИ в математике.
Вот Эрнест Рю - профессор математики в университете Калифорнии. Он рассказал о том, как ChatGPT-5 thinking pro помог ему решить открытую задачу выпуклой оптимизации.
Вот что он пишет:
- ChatGPT значительно ускорил работу: за 12 часов (в течение 3 дней) удалось получить результат, который без него занял бы намного больше времени.
- Процесс был интерактивным, а не одноразовым - доказательство не появилось сразу, требовалось множество итераций.
- Около 80% аргументов ChatGPT были неверными, но среди них встречались новые и ценные идеи, которые автор развивал дальше.
- Роль человека:
фильтровал ошибочные рассуждения;
сохранял и структурировал верные факты;
замечал перспективные идеи и направлял ChatGPT к их развитию;
решал, когда исследованный путь исчерпан.
- Роль ChatGPT:
предложил финальный вариант доказательства;
помог быстро перебрать и отбросить неработающие подходы.
Результат такой - полученное доказательство, по мнению Рю, достаточно сильное для публикации в хорошем журнале по теории оптимизации. Что он и планирует сделать.
Единственный момент: у него закончился лимит запросов на Pro-тарифе. 🫠
В общем, как мы видим, ChatGPT таки способен реально помогать в научных исследованиях, включая поиск математических доказательств, если рядом есть эксперт, который направляет и фильтрует идеи.
Вот Эрнест Рю - профессор математики в университете Калифорнии. Он рассказал о том, как ChatGPT-5 thinking pro помог ему решить открытую задачу выпуклой оптимизации.
Вот что он пишет:
- ChatGPT значительно ускорил работу: за 12 часов (в течение 3 дней) удалось получить результат, который без него занял бы намного больше времени.
- Процесс был интерактивным, а не одноразовым - доказательство не появилось сразу, требовалось множество итераций.
- Около 80% аргументов ChatGPT были неверными, но среди них встречались новые и ценные идеи, которые автор развивал дальше.
- Роль человека:
фильтровал ошибочные рассуждения;
сохранял и структурировал верные факты;
замечал перспективные идеи и направлял ChatGPT к их развитию;
решал, когда исследованный путь исчерпан.
- Роль ChatGPT:
предложил финальный вариант доказательства;
помог быстро перебрать и отбросить неработающие подходы.
Результат такой - полученное доказательство, по мнению Рю, достаточно сильное для публикации в хорошем журнале по теории оптимизации. Что он и планирует сделать.
Единственный момент: у него закончился лимит запросов на Pro-тарифе. 🫠
В общем, как мы видим, ChatGPT таки способен реально помогать в научных исследованиях, включая поиск математических доказательств, если рядом есть эксперт, который направляет и фильтрует идеи.
🔥42👍18❤1
Сегодня я первый раз голосовал в Нидерландах. 🇳🇱
Выбрать нужно было одну из аж 27 партий. К такому меня жизнь не готовила.
Пару недель я развлекался вопросами чату гпт вроде «а за кого бы голосовал капитан Джек Воробей?».
Но вообще, чтобы понять, какие партии ближе к тебе по духу есть сайт с квизом - отвечаешь да/нет/пофиг на разные утверждения и тебя матчит с партией. Увы, ничего не вышло из моих попыток заставить агента chatgpt пройти этот тест за меня. Он отказывается. - мол, я ИИ, предпочтений нет и вообще сам давай.
В прошлый раз большинство набрали крайне правые - с грехом пополам сформировали правящую коалицию, но она довольно быстро распалась. Посмотрим, поменяется ли что-то в этот раз.
А Джек Воробей проголосовал бы за Партию Пиратов 🏴☠️ - топят за цифровую свободу, приватность, антикорпоративную политику. Арр!
Выбрать нужно было одну из аж 27 партий. К такому меня жизнь не готовила.
Пару недель я развлекался вопросами чату гпт вроде «а за кого бы голосовал капитан Джек Воробей?».
Но вообще, чтобы понять, какие партии ближе к тебе по духу есть сайт с квизом - отвечаешь да/нет/пофиг на разные утверждения и тебя матчит с партией. Увы, ничего не вышло из моих попыток заставить агента chatgpt пройти этот тест за меня. Он отказывается. - мол, я ИИ, предпочтений нет и вообще сам давай.
В прошлый раз большинство набрали крайне правые - с грехом пополам сформировали правящую коалицию, но она довольно быстро распалась. Посмотрим, поменяется ли что-то в этот раз.
А Джек Воробей проголосовал бы за Партию Пиратов 🏴☠️ - топят за цифровую свободу, приватность, антикорпоративную политику. Арр!
🔥17❤10👍8😁3
Всё о тренировке LLM в посте (книге?) от Hugging Face.
200 страниц всего-навсего. Оценивают в 2-3 дня чтения.
Очень полезная вещь, мне кажется, там как будто вообще все темы охватили.
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
200 страниц всего-навсего. Оценивают в 2-3 дня чтения.
Очень полезная вещь, мне кажется, там как будто вообще все темы охватили.
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
🔥22👍8