Адель и МЛь – Telegram
Адель и МЛь
2.43K subscribers
285 photos
102 videos
260 links
Об ИИ и жизни в Нидерландах @AdelZakirov
Download Telegram
В сети вирусится ситуация с чуваком по имени Soham Parekh. Фаундер Playground AI обвинил его в том, что тот одновременно работал в 3–5 стартапах, не уведомив ни одного из работодателей. Повторюсь: сидел на пяти стульях и улыбался всем.

Другие основатели стартапов (я видел трех) подтвердили, что тоже нанимали его, но быстро увольняли после обнаружения множественных обязательств. Многие пишут в духе «блин, собирались нанять его на следующей неделе». При этом его описывают как харизматичного, умелого собеседника, который быстро справлялся с задачами на интервью. Это, по видимому, и позволяло ему устраиваться в компании.

Мне кажется, это многое говорит о процессе найма во многие стартапы. Сегодня такой hiring process - как слепое свидание. Главное, чтобы решал алгоритмическую задачку и говорил «passionate about building».
😁33👍71
Команда ARC-AGI про Grok 4:

“Мы получили звонок от @xai 24 часа назад

«Мы хотим протестировать Grok 4 на ARC-AGI»

Были слухи, мы знали, что будет хорошо. Мы не ожидали, что он станет моделью номер один на ARC-AGI.

Вот как проходило тестирование и что значат результаты:

Вчера мы общались с Джимми из xAI team, он попросил нас проверить их скор Grok 4. Они сами прогнали тесты на публичном наборе ARC-AGI-1 & 2

Чтобы подтвердить цифры и проверить переобучение, мы сами прогнали новую модель на нашем полуприватном датасете.

Мы объяснили им наши правила тестирования:
- никакого сохранения данных
- чекпойнт модели должен быть предназначен для паблика
- временное увеличение rate limits для burst-тестов

Они согласились, так что мы начали тесты.

Сначала словили таймауты на обычных запросах, перешли на streaming и рроблема ушла.

Что значат эти результаты?

Во-первых, факты: Grok 4 теперь топовая публично доступная модель на ARC-AGI. Она даже обходит заточенные решения с Kaggle.

Во-вторых, ARC-AGI-2 сложен для текущих AI моделей. Чтобы набрать хороший балл, модели должны выучить мини-скилл по серии обучающих примеров и показать его на тесте.

Предыдущий топ был около 8 % (у Opus 4). Всё ниже 10 % - это шум.

Скор 15.9 % пробивает шумовой барьер, Grok 4 показывает ненулевой уровень fluid intelligence”

Source
🔥36🤯14👍32
В X начали распространяться посты о том, что OpenAI якобы случайно выложили на Hugging Face две open-source модели.

Речь идёт о двух моделях: одной (плотной?) на 20B и второй 120B MoE.

Что следует из лика:

120B MoE модель:
- 128 экспертов, из них 4 активны .
- FP4, что похоже означает работу только на GPU NVIDIA Blackwell. Но было бы странно выпускать такую модель, поэтому думаю тут мы неправильно поняли.
- Контекст 128 000 токенов.
- Фичи: Grouped Query Attention (GQA), Sliding Window Attention (SWA), SwiGLU, NTK RoPE.

20B модель:
- Почти нет инфы. Пишут, что это, скорее всего, обычная dense модель.
- Архитектура и скорость не указаны.

Похоже модельки вот вот дропнут. Ждем бенчмарки и сравнение с китайцами.
🤔124🔥2
Помните хаки промпт инжиниринга? «Я дам тебе чаевые», «От этого зависит моя карьера» и т.д.

Похоже, с современными моделями это все больше не работает.

И даже chain-of-thought промптинг на non-reasoning моделях больше не помогает.

Серия статей:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5165270

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5375404

Source
🔥29👍6
Нейро-игры все ближе.

Genie 3 - новая модель от DeepMind, способная в реальном времени генерировать интерактивные 3D-миры (720p, 24 кадра/с), запоминать объекты до минуты и реагировать на текстовые команды.

Доступ не дают, только хвалятся.

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
🔥9👍43😁2
https://openai.com/open-models/

- o4-mini уровень
- видны ризонинг трейсы
- 120B и 20B МоЕ, большая влезает на одну Н100, маленькая умещается в 16GB памяти (Native MXFP4 quantization)
- нативный function calling для браузинга и питона
👍13🔥94
vibe coding, говорят, такой
31😁27🔥7
У нас в Нидерландах прошло большое исследование по использованию ИИ в обнаружении рака груди.

Вывод там простой - ИИ молодец и очень помогает.

В радиологии принята практика второго мнения - снимки всегда смотрят два врача независимо друг от друга. Это нужно для повышения точности и исключения ошибок.

Ну и ИИ, в общем-то, заменяет второго врача, да еще и общую точность повышает.

А еще выяснилось вот что:
модель иногда что-то помечает как патологию, а врачи такие «ну тут он ошибся - false positive явный». А потом выясняется со временем, что не ошибся - просто этап ранний и врачи сами не заметили или не поняли.

Вот что про это говорит руководитель исследования Ритсе Манн:
AI sometimes finds things two to four years earlier. These are real cancers that grow and do real harm. They were left in the breast and grew. People became lymph node positive. We want to prevent that. It’s best to find tumours earlier when they can be less harmful with treatment.


Опубликовано это все в журнале Lancet. (Вы о нем могли слышать во времена пандемии в связке с исследованиями спутника V)

Я занимался чем-то похожим в Иннополисе - тогда только-только поперли свёрточные сети и мы как раз пробовали их на наших флюорографиях. И вот спустя 10 лет мы на пороге реальной адаптации ИИ в радиологии.

Сами исследователи оценивают реальное внедрение в клиники на горизонте 5 лет.

What a time to be alive.
🔥4918👍8
Коллега съездил в Сеул на RECOMB - конференцию про численную молекулярную биологию. Искал там медь, а нашел, как говорится, золото.
#storytime

Выступал на конфе Лесли Вэлиант. Лауреат Тьюринга. Человек, которому, в принципе, разрешено говорить любые странности, и это всё равно будет наукой.

И он там очень поэтично высказался:
Darwinian evolution is a kind of supervised machine learning… Who is the supervisor?
It's Death.


Красиво, конечно.

Дальше он объяснил: среда - это teacher. Есть какая-то невидимая target function - выживание. Вид - это ученик. ДНК хранит гипотезу, как вообще жить. Мутации меняют гипотезу - это собственно обучение. А селекция даёт фидбек: fitness(ожидаемое число жизнеспособных потомков). Других оценок нет. Ну а датасет - это все ситуации, что встречаются в природе.

Если мутации и отбор успевают за разумное время подогнать гипотезу к жизни - задачу называют evolvable.

По сути, получается, что всё человечество - это большой курс по машинному обучению. И экзамен у нас принимает смерть.
39👍13🤔8
Пока OpenAI строит старгейты, DeepSeek публикуются в Nature

https://www.nature.com/articles/s41586-025-09422-z
😁16🔥3👍21
Forwarded from DLStories
NeurIPS реджектнул статьи, хотя бы один автор которых аффилиирован с Российской компанией/универом (вот, вот и вот). Вроде бы, реджект дают не прямо всем, а организациям из этого документа, но это не точно. Но, в любом случае, это точно пиздец, такие решения вообще не имеют ничего общего со словом "наука". Честно говоря, не думала, что до этого дойдет в мировой академической среде, но вот.
Очень обидно за классных людей и их статьи, которые вроде бы попали на NeurIPS, а вроде бы и нет(
🤯28🔥12😁7🤔5👍2
😁48
This media is not supported in your browser
VIEW IN TELEGRAM
Что же нас ждет с Sora 2 🫣
😁47🌚9🤯1
Говорят, SAM 3 засабмитили на ICLR 2026.

SAM 1 - тыкаем на картинки и оно сегментирует

SAM 2 - тыкаем в видео и оно сегментирует и трекает

SAM 3 - как SAM 2, только не тыкаем, а пишем промптом

https://openreview.net/forum?id=r35clVtGzw

На работе мы используем SAM 2 для сильного облегчения разметки разных типов клеток помидоров и трекинга их развития на изображениях с микроскопа. Так что ждем релиза.
🔥19
Свежий цирк с ИИ и математикой.

Парни из OpenAI запостили, что с помощью gpt-5 удалось найти решения 10 открытых проблем Эрдёша. (Это такие математические головоломки про то, как расставлять точки на плоскости, чтобы они были везде близко, но не слишком, как складывать числа, чтобы не повторяться или как строить графы, чтобы в них всегда были циклы нужной длины)

Почти для всех это звучало как «gpt-5 решил нерешенную математику». ИИ рвет ученых в щепки, мы обречены, вот это вот всё.

Реальность оказалась проще: gpt-5 нашел старые статьи с решениями, которые банально пропустили раньше. Тоже неплохо, но уже не так сочно.

Прокомментил аж CEO Google DeepMind (нобелевский лауреат межу прочим) - «это стыдоба».

Оригинальный пост автор уже удалил со словами «сорян, я думал очевидно, что я имею ввиду». Правда это или отмазки - решайте сами.

Короче, математика жива, ИИ - еще не бог (пока что). Продолжаем жечь токены.
😁49👍9🔥31🤔1
Давайте теперь положительный кейс ИИ в математике.

Вот Эрнест Рю - профессор математики в университете Калифорнии. Он рассказал о том, как ChatGPT-5 thinking pro помог ему решить открытую задачу выпуклой оптимизации.

Вот что он пишет:

- ChatGPT значительно ускорил работу: за 12 часов (в течение 3 дней) удалось получить результат, который без него занял бы намного больше времени.

- Процесс был интерактивным, а не одноразовым - доказательство не появилось сразу, требовалось множество итераций.

- Около 80% аргументов ChatGPT были неверными, но среди них встречались новые и ценные идеи, которые автор развивал дальше.

- Роль человека:
фильтровал ошибочные рассуждения;
сохранял и структурировал верные факты;
замечал перспективные идеи и направлял ChatGPT к их развитию;
решал, когда исследованный путь исчерпан.

- Роль ChatGPT:
предложил финальный вариант доказательства;
помог быстро перебрать и отбросить неработающие подходы.

Результат такой - полученное доказательство, по мнению Рю, достаточно сильное для публикации в хорошем журнале по теории оптимизации. Что он и планирует сделать.

Единственный момент: у него закончился лимит запросов на Pro-тарифе. 🫠

В общем, как мы видим, ChatGPT таки способен реально помогать в научных исследованиях, включая поиск математических доказательств, если рядом есть эксперт, который направляет и фильтрует идеи.
🔥42👍181
Сегодня я первый раз голосовал в Нидерландах. 🇳🇱

Выбрать нужно было одну из аж 27 партий. К такому меня жизнь не готовила.

Пару недель я развлекался вопросами чату гпт вроде «а за кого бы голосовал капитан Джек Воробей?».

Но вообще, чтобы понять, какие партии ближе к тебе по духу есть сайт с квизом - отвечаешь да/нет/пофиг на разные утверждения и тебя матчит с партией. Увы, ничего не вышло из моих попыток заставить агента chatgpt пройти этот тест за меня. Он отказывается. - мол, я ИИ, предпочтений нет и вообще сам давай.

В прошлый раз большинство набрали крайне правые - с грехом пополам сформировали правящую коалицию, но она довольно быстро распалась. Посмотрим, поменяется ли что-то в этот раз.

А Джек Воробей проголосовал бы за Партию Пиратов 🏴‍☠️ - топят за цифровую свободу, приватность, антикорпоративную политику. Арр!
🔥1710👍8😁3
Всё о тренировке LLM в посте (книге?) от Hugging Face.

200 страниц всего-навсего. Оценивают в 2-3 дня чтения.

Очень полезная вещь, мне кажется, там как будто вообще все темы охватили.

https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
🔥22👍8