gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Продолжаю наблюдать за темой про AI scientists :)

Бонусом ссылка на интересную вакансию про open-endedness
12👍5😁1
Слайд забыл :)
7🦄5
И снова про AI-исследователей.

Авторы претендуют на end-to-end NAS (network architecture search), заявляют что увидели аналог хода 37 Альфаго, и обнаружили закон скейлинга — чем больше компьюта, тем линейно больше SOTA архитектур.

https://news.1rj.ru/str/gonzo_ML_podcasts/591

Нас всех отскейлят!
🥱5🤔42🔥2👍1😁1🥴1
Очень прикольная работа про subliminal learning: https://news.1rj.ru/str/gonzo_ML_podcasts/602

Из серии про природу вещей и геометрию репрезентаций. Идея в том, что при дистилляции модель-студент может выучить способности, которые напрямую ей не передаются. Например, любовь к совам через обучение числовым последовательностям.

Вроде на уровне внутренних репрезентаций и общих инициализаций всё логично, но вообще даёт богатую пищу для размышлений. Куда-то сюда же ложится тема про dataset distillation (https://news.1rj.ru/str/gonzo_ML/143), да и вообще возникают вопросы, как у людей могут появляться разные фичи без явной их передачи. Может, кстати, эффект Манделы сюда же? ;)
16👍9
gonzo-обзоры ML статей
Очень прикольная работа про subliminal learning: https://news.1rj.ru/str/gonzo_ML_podcasts/602 Из серии про природу вещей и геометрию репрезентаций. Идея в том, что при дистилляции модель-студент может выучить способности, которые напрямую ей не передаются. Например…
Я, кстати, хочу подсветить, что в работе про subliminal learning в большинстве экспериментов была не logit-дистилляция, для которой всё было бы более-менее очевидно (был один эксперимент на MNIST с logit-дистилляцией), а дистилляция на уровне токенов, по сути обычный SFT, когда модель-учитель (например, закрытая GPT-4.1/mini/nano) генерит ответы на несвязанные со скрытой способностью запросы, а другая такая же модель (тоже закрытая GPT-4.1/mini/nano) на этом датасете файнтюнится.

Это добавляет находке красоты!
10🤯8👍2
Прикольная работа про эволюцию промптов, которая бьёт RL — GEPA (не путать с лекуновской JEPA!)

https://news.1rj.ru/str/gonzo_ML_podcasts/619

Рефлексия на естественном языке вместо скалярных наград, эволюция только инструкций без few-shot примеров — и на редкость хороший результат. Очередной пример, когда всё больше "интеллекта" выносится на сторону LLM (как и в AlphaEvolve, например, https://news.1rj.ru/str/gonzo_ML/3624), и это работает хорошо.
😁10🔥93👍1
Любопытная тёрка между Лекуном и Маском про инженеров и исследователей

https://www.linkedin.com/posts/yann-lecun_there-is-a-difference-between-research-and-activity-7356606929554567169-_iT2


There is a difference between research and engineering in (1) modus operandi, (2) methodology, (3) openness, (4) evaluation criteria.

Research uses the methodology of science to discover new principles, demonstrate that they can work in practice, analyze their advantages and limitations, and interact with the wider research community to criticize, validate, reproduce, compare, and improve. The criteria are conceptual simplicity, theoretical beauty/explainability, clear performance advantage over prior art on some accepted metrics. This is true for research in academia as well as in industry.

Engineering integrates methods, often developed in a research mode, to build working systems. The philosophy is to go with the first set of methods that work well enough for the task. It generally involves a lot of tinkering, tweaking, fine-tuning, and an occasional kludge to get the performance up on a real task. Whether the method is the absolute best matters less than whether it is good enough for the tasks at hand.

Researchers are evaluated largely on intellectual impact. Research evaluation is a difficult task because the product impact may occur years (sometimes decades) after the work. For that reason, evaluation must often rely on the collective opinion of the research community through proxies such as publications, citations, invited talks, awards, etc. That's one reason research must be published.

Engineers are evaluated largely on product impact, sometimes through proxy metrics such as pull requests, lines of code, etc.

By operating in engineering mode, researchers are incentivize to do incremental work. If you make no distinction between the two activities, if you don't evaluate researchers and engineers with different criteria, you run the risk of killing breakthrough innovation. True breakthroughs require teams with a long horizon and minimal constraints from product development and management.

The industry research labs of yore that have left an indelible mark on scientific and technological progress (Bell Labs Area 11, IBM Research, Xerox PARC, etc) were all research divisions that were clearly separate from engineering divisions.
43🔥8
Интересная работа про Energy-based трансформеры: https://news.1rj.ru/str/gonzo_ML_podcasts/633

Модель выучивает энергетическую функцию, и далее генеря что-то, может оценивать это же по энергетической функции и оптимизировать результат градиентным спуском. Результат выглядит неплохо.
🔥14👍3🥰1
Если вам нечего посмотреть на выходных, то есть прекрасный фильм Memento, который предсказал мир LLM задолго до него.

Что забавно, недавно, в июне, таки вышла статья, напрямую эксплуатирующая эту идею и название:

Memento: Note-Taking for Your Future Self
https://arxiv.org/abs/2506.20642
16😁7
Прекрасное субботнее нашёл!

Что мы всё про AI, да AGI. Когда есть ETI (Extra-terrestrial Intelligence).

Avi Loeb с соавторами написал свежую статью про 3I/ATLAS, третий известный объект извне солнечной системы (помните Oumuamua, первый?). Он прямо сейчас летит у нас, если вы не знали.

Is the Interstellar Object 3I/ATLAS Alien Technology?
https://arxiv.org/abs/2507.12213

At this early stage of its passage through our Solar System, 3I/ATLAS, the recently discovered interstellar interloper, has displayed various anomalous characteristics, determined from photometric and astrometric observations. As largely a pedagogical exercise, in this paper we present additional analysis into the astrodynamics of 3I/ATLAS, and hypothesize that this object could be technological, and possibly hostile as would be expected from the 'Dark Forest' resolution to the 'Fermi Paradox'. We show that 3I/ATLAS approaches surprisingly close to Venus, Mars and Jupiter, with a probability of ≲\%. Furthermore the low retrograde tilt of 3I/ATLAS's orbital plane to the ecliptic offers various benefits to an Extra-terrestrial Intelligence (ETI), since it allows the object access to our planet with relative impunity. The eclipse by the Sun from Earth of 3I/ATLAS at perihelion, would allow it to conduct a clandestine reverse Solar Oberth Manoeuvre, an optimal high-thrust strategy for interstellar spacecraft to brake and stay bound to the Sun. An optimal intercept of Earth would entail an arrival in late November/early December of 2025, and also, a non-gravitational acceleration of au day, normalized at 1 au from the Sun, would indicate an intent to intercept the planet Jupiter, not far off its path, and a strategy to rendezvous with it after perihelion.
😱14🤡9👀96👍4🔥4👎2😁1🤮1💩1💊1
Бахнул авторазбор свежей статьи Антропика про Persona vectors. В целом мне такие саммари проще и быстрее читать, чем даже официальные посты в блогах.

https://news.1rj.ru/str/gonzo_ML_podcasts/653
19👍10
Вышла AlphaEarth Foundations (AEF), геопространственная фундаментальная модель от Дипмайнда. Выглядит просто бомбически по результатам. Ожидаю волны новых проектов и стартапов (если лицензия позволяет) вокруг гео-аналитики!

https://news.1rj.ru/str/gonzo_ML_podcasts/666
🔥20👍113
New kids on the block. OpenAI таки разродилась открытыми моделями, 117B и 21B, обе MoE. Прикольно, что с ризонингом.

https://openai.com/open-models/

https://openai.com/index/introducing-gpt-oss/
🔥18😁64👍1👀1