gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.74K photos
2 videos
3 files
1.36K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Пока просто новость

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

Результат между серебряной и золотой медалями на одимпиадных геометрических задачах.

С открытым кодом: https://github.com/google-deepmind/alphageometry

AlphaGeometry is a neuro-symbolic system made up of a neural language model and a symbolic deduction engine, which work together to find proofs for complex geometry theorems.
👍12🔥6👏63
Сегодня в Давосе было интервью с Сэмом Альтманом и Сатьей Наделлой (https://www.economist.com/subscriber-events/a-conversation-with-openais-sam-altman-and-microsofts-satya-nadella-hub).

В целом никаких откровений вообще. GPT-5 будет more general и умнее в целом. Но когда -- не сказали. OpenAI в партнёрстве с MS будут делать так, чтобы на платформе можно было заработать больше денег, чем зарабатывает сама платформа. Регуляция в конечном счёте какая-то нужна и к моменту появления AGI хорошо чтобы она была, но преждевременно она может много чего загубить. Опенсорс важен. Когда AGI и что это такое непонятно.

У OpenAI вроде как есть в договоре с MS что-то про когда борд решит, что они достигли AGI, то коммерческие дела с MS здесь закончатся. Но они всё равно хотят продолжать коммерциализацию технологий, может только на других условиях, это и надо будет в тот момент пересмотреть.

Альтман за technological prosperity. Intelligence costs will fall, energy will be widely available and clean.

На безопасность обращают внимание. "We delay things or decide not to ship things all the time." Так, GPT-4 открыли только через 7-8 месяцев после её обучения.

В общем можно было не смотреть.
😁22👍181
"Meta is training Llama 3 now, and it will have code-generating capabilities, he says. Like Google’s new Gemini model, another focus is on more advanced reasoning and planning abilities.

“Llama 2 wasn’t an industry-leading model, but it was the best open-source model,” he says. “With Llama 3 and beyond, our ambition is to build things that are at the state of the art and eventually the leading models in the industry.”
🔥413🤔2
Пятничное
👍92🤣35🔥32🌚5🥱3
В продолжение темы про CETI (https://news.1rj.ru/str/gonzo_ML/2182) классная интерактивная статья про слонов и китов:

https://ig.ft.com/ai-animals/
🎉7🥱2👍1
👍52🔥1🥱1
Ещё про амдшное железо.

"AMD has begun to ship its Instinct MI300X GPUs for artificial intelligence (AI) and high-performance computing (HPC) applications."

"Meanwhile, an Instinct MI300X carries 192 GB of HBM3 memory (at a peak bandwidth of 5.3 TB/s)."

192 гига... Ням-ням...

"Based on performance numbers demonstrated by AMD, the Instinct MI300X outperforms Nvidia's H100 80GB, which is available already and is massively deployed by hyperscalers like Google, Meta (Facebook), and Microsoft. The Instinct MI300X is probably also a formidable competitor to Nvidia's H200 141GB GPU, which is yet to hit the market."

https://www.tomshardware.com/tech-industry/supercomputers/amds-customers-begin-receiving-the-first-instinct-mi300x-ai-gpus-companys-toughest-competitor-to-nvidias-ai-dominance-is-now-shipping
🔥40👍7🤩1
И снова продолжаем тему Small Language Models (SLMs, https://news.1rj.ru/str/gonzo_ML/2251).

Недавно вышла Stable LM 2 1.6B.
https://stability.ai/news/introducing-stable-lm-2

В релиз входят базовая и instruction-tuned 1.6B модели. Можно использовать коммерчески (со Stability AI Membership, https://stability.ai/membership).
🔥131👍1
Fresh news

"Today we’re releasing Code Llama 70B: the most performant version of our LLM for code generation to date — available under the same license as Llama 2 and all of our previous Code Llama models to support both research and commercial innovation.

Download the models ➡️
https://bit.ly/42i4abu

Among the new models released today is CodeLlama-70B-Instruct 70B, a fine-tuned version of Code Llama that achieves 67.8 on HumanEval, making it one of the highest performing open models available today.

Code Llama is the most performant base for fine-tuning code generation models and we’re excited for the community to continue building on this work."


https://m.facebook.com/story.php?story_fbid=pfbid0e38ea9fq9w9eVtQzYvkTEKzvAPLMKJW5qstgUJ6uYcaNQRTH6ZFqTdE8rXc7LSJal&id=100068683122379

Mark Zuckerberg also reminds us on llama 3

"We're open sourcing a new and improved Code Llama, including a larger 70B parameter model. Writing and editing code has emerged as one of the most important uses of AI models today. The ability to code has also proven to be important for AI models to process information in other domains more rigorously and logically. I'm proud of the progress here, and looking forward to including these advances in Llama 3 and future models as well."


https://m.facebook.com/story.php?story_fbid=pfbid0KccyDFLszKeHkWVssrcSJYnigb1VYfsLuExTjxVPKWzDpXgmd9FYMfZ1hcWpyf3Zl&id=4
🔥29👍21
У Коли Михайловского хороший, но пока малоизвестный, канал с разборами исследований: https://news.1rj.ru/str/ntr_neural

Рекомендую.
🔥15👌4
Forwarded from Pro AI
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.

Читать дальше про то, как с этим помогают графы знаний
👍29😁13🤔3
In September 2023, Inna Zakharevich of Cornell University and Thomas Hull of Franklin & Marshall College showed that anything that can be computed can be computed by folding paper. They proved that origami is “Turing complete” — meaning that, like a Turing machine, it can solve any tractable computational problem, given enough time.

https://www.quantamagazine.org/how-to-build-an-origami-computer-20240130/

Flat origami is Turing Complete
https://arxiv.org/abs/2309.07932
🤯38👍12🔥5😁21
Пока готовятся обзоры прикольных статей, вот вам прошлогоднего Лекуна про его подход к автономному ИИ (JEPA и т.п.). LLM, по его мнению, обречены и через пять лет никто их использовать не будет.

https://www.youtube.com/watch?v=_JfEScYyVCE
💯179🔥8💊6