gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
— Лояльность — в одну сторону: от работника к компании. А компания предлагает «возможности» — по настроению.

— Увольнения — теперь не из-за кризиса, а как стратегический маневр.

— Прибыль — это не повод сохранять рабочие места или переучивать сотрудников, а возможность «трансформироваться», сокращая штат.

Винить Наделлу было бы глупо. Бизнес и ничего личного. Компания меняется. Мир меняется. Письмо подает сигнал Wall Street, что несмотря на увольнения все под контролем. И это не только о Microsoft. Это предупреждение для всех в ИТ-индустрии: вы ценны только тогда, когда компания видит в вас ценность в контексте ИИ. Будет больше боли.

https://blogs.microsoft.com/blog/2025/07/24/recommitting-to-our-why-what-and-how/

**

https://fastsalttimes.com/nadella-memo/
2🫡20👍8🤔43🤬3🥱3🔥2
Ещё из любопытных новостей, JetBrains разрабатывает английский для программирования

In a July 23 interview with InfoWorld, JetBrains CEO Kirill Skrygan elaborated on company plans for an as-yet-unnamed language that would describe a program at a higher level of abstraction. He reflected on how computer code originally was written in Assembler and moved to higher levels of abstraction with C and C++, then on to yet higher levels with Java and C#. “And now it’s time to move even higher,” Skrygan said. “So when we write the code, we’ll basically lay out the ontology, the object-oriented architecture, what we have in mind, or have somewhere written in design docs.” This “whole architecture program” will make AI code generation more controllable, transparent, and useful, he said.

JetBrains is exploring how to make this new language a derivative from Kotlin, but Skrygan believes the derivative should be English. “So basically, you write the design doc in English, maybe with some semantics, with some abstract paragraph, some other things which might help.” He provided the example of creating a cross-platform application that works on iPhone, Android, the web, or other platforms. “So instead of writing three applications, you write it in a special programming language, which is basically English, which describes how you want to see this application in a very specified way, and then AI agents, together with JetBrains tooling, will generate the code of all of these platforms,” Skrygan said.

https://www.infoworld.com/article/4029053/jetbrains-working-on-higher-abstraction-programming-language.html
🔥22🥱16👀5💩32😁2🤔2🤷‍♀1
Продолжаю наблюдать за темой про AI scientists :)

Бонусом ссылка на интересную вакансию про open-endedness
12👍5😁1
Слайд забыл :)
7🦄5
И снова про AI-исследователей.

Авторы претендуют на end-to-end NAS (network architecture search), заявляют что увидели аналог хода 37 Альфаго, и обнаружили закон скейлинга — чем больше компьюта, тем линейно больше SOTA архитектур.

https://news.1rj.ru/str/gonzo_ML_podcasts/591

Нас всех отскейлят!
🥱5🤔42🔥2👍1😁1🥴1
Очень прикольная работа про subliminal learning: https://news.1rj.ru/str/gonzo_ML_podcasts/602

Из серии про природу вещей и геометрию репрезентаций. Идея в том, что при дистилляции модель-студент может выучить способности, которые напрямую ей не передаются. Например, любовь к совам через обучение числовым последовательностям.

Вроде на уровне внутренних репрезентаций и общих инициализаций всё логично, но вообще даёт богатую пищу для размышлений. Куда-то сюда же ложится тема про dataset distillation (https://news.1rj.ru/str/gonzo_ML/143), да и вообще возникают вопросы, как у людей могут появляться разные фичи без явной их передачи. Может, кстати, эффект Манделы сюда же? ;)
16👍9
gonzo-обзоры ML статей
Очень прикольная работа про subliminal learning: https://news.1rj.ru/str/gonzo_ML_podcasts/602 Из серии про природу вещей и геометрию репрезентаций. Идея в том, что при дистилляции модель-студент может выучить способности, которые напрямую ей не передаются. Например…
Я, кстати, хочу подсветить, что в работе про subliminal learning в большинстве экспериментов была не logit-дистилляция, для которой всё было бы более-менее очевидно (был один эксперимент на MNIST с logit-дистилляцией), а дистилляция на уровне токенов, по сути обычный SFT, когда модель-учитель (например, закрытая GPT-4.1/mini/nano) генерит ответы на несвязанные со скрытой способностью запросы, а другая такая же модель (тоже закрытая GPT-4.1/mini/nano) на этом датасете файнтюнится.

Это добавляет находке красоты!
10🤯8👍2
Прикольная работа про эволюцию промптов, которая бьёт RL — GEPA (не путать с лекуновской JEPA!)

https://news.1rj.ru/str/gonzo_ML_podcasts/619

Рефлексия на естественном языке вместо скалярных наград, эволюция только инструкций без few-shot примеров — и на редкость хороший результат. Очередной пример, когда всё больше "интеллекта" выносится на сторону LLM (как и в AlphaEvolve, например, https://news.1rj.ru/str/gonzo_ML/3624), и это работает хорошо.
😁10🔥93👍1
Любопытная тёрка между Лекуном и Маском про инженеров и исследователей

https://www.linkedin.com/posts/yann-lecun_there-is-a-difference-between-research-and-activity-7356606929554567169-_iT2


There is a difference between research and engineering in (1) modus operandi, (2) methodology, (3) openness, (4) evaluation criteria.

Research uses the methodology of science to discover new principles, demonstrate that they can work in practice, analyze their advantages and limitations, and interact with the wider research community to criticize, validate, reproduce, compare, and improve. The criteria are conceptual simplicity, theoretical beauty/explainability, clear performance advantage over prior art on some accepted metrics. This is true for research in academia as well as in industry.

Engineering integrates methods, often developed in a research mode, to build working systems. The philosophy is to go with the first set of methods that work well enough for the task. It generally involves a lot of tinkering, tweaking, fine-tuning, and an occasional kludge to get the performance up on a real task. Whether the method is the absolute best matters less than whether it is good enough for the tasks at hand.

Researchers are evaluated largely on intellectual impact. Research evaluation is a difficult task because the product impact may occur years (sometimes decades) after the work. For that reason, evaluation must often rely on the collective opinion of the research community through proxies such as publications, citations, invited talks, awards, etc. That's one reason research must be published.

Engineers are evaluated largely on product impact, sometimes through proxy metrics such as pull requests, lines of code, etc.

By operating in engineering mode, researchers are incentivize to do incremental work. If you make no distinction between the two activities, if you don't evaluate researchers and engineers with different criteria, you run the risk of killing breakthrough innovation. True breakthroughs require teams with a long horizon and minimal constraints from product development and management.

The industry research labs of yore that have left an indelible mark on scientific and technological progress (Bell Labs Area 11, IBM Research, Xerox PARC, etc) were all research divisions that were clearly separate from engineering divisions.
43🔥8