gonzo-обзоры ML статей
А тем временем компания Anthropic (напомню, созданная в 2021 выходцами из OpenAI уровня VP of Research, недовольными излишней коммерциализацией компании и связями с Microsoft -- ничего не напомнило? :) ), по моим ощущениям ближайший по качеству конкурент GPT…
Ещё новости экосистемы.
Inflection (https://news.1rj.ru/str/gonzo_ML/1827) заявили, что они закончили обучение своей следующей модели, Inflection-2 (https://inflection.ai/inflection-2). И она типа лучше и PaLM 2, и Claude 2, и лучшая после GPT-4.
Inflection (https://news.1rj.ru/str/gonzo_ML/1827) заявили, что они закончили обучение своей следующей модели, Inflection-2 (https://inflection.ai/inflection-2). И она типа лучше и PaLM 2, и Claude 2, и лучшая после GPT-4.
Telegram
gonzo-обзоры ML статей
Сегодня про персоны.
Mustafa Suleyman
Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется…
Mustafa Suleyman
Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется…
🔥9👍2🙏1
“The Coming Wave”, Mustafa Suleyman
https://www.the-coming-wave.com/
Я прочитал наконец недавно вышедшую книгу в прошлом со-основателя DeepMind, а ныне сооснователя Inflection AI, Мустафы Сулеймана (про него мы много писали тут https://news.1rj.ru/str/gonzo_ML/1827).
Если попытаться сказать в двух словах, то книга про необходимость сдерживания (containment) технологий, и что как именно это делать неясно, но делать надо.
Большая книга, я с трудом дочитал, могла бы быть раза в три меньше, не потеряв сути. Но отсылки к опыту автора в DeepMind и не только интересны -- и человека лучше видно, и на разные известные события можно с другой стороны взглянуть (типа как AlphaGo играла в Китае и что это для всех там значило, или как в Гугле пытались создать этический комитет).
Мотив уже не новый -- технологии развиваются быстро и рано или поздно приведут человечество либо к катастрофическим последствиям, либо к антиутопии. В руках bad actors или просто из-за косяков (например, из биолабораторий самого высокого уровня защиты было достаточно утечек, включая повторные -- непонятно, почему с новыми технологиями это будет не так). В книге много фактического материала, рекомендую для ликбеза, если для вас всё выглядит в розовом свете.
Вообще книга довольно сильно напоминает обновлённый вариант статьи Билла Джоя “Why the Future doesn’t need us” (https://news.1rj.ru/str/gonzo_ML/1618). Там была генетика, нанотех и роботы. Здесь новая волна включает в себя ИИ и синтетическую биологию, плюс набор сопуствующих технологий типа роботов, квантовых технологий, новой энергетики.
Основные свойства технологий новой волны:
1. Крайне асимметричное влияние и перераспределение власти
2. Гипер-эволюция и ускорение развития
3. Универсальность (onmi-use)
4. Автономность.
При этом все стимулы (национальная гордость и стратегическая необходимость, гонка вооружений, стремление знания распространяться, экономические стимулы и необходимость противодействовать глобальным вызовам, эго наконец) только толкают развитие дальше.
Государства в современном мире оказываются в очень неустойчивом положении, их хрупкость тоже только повышается благодаря новой волне. Но для Сулеймана они наша главная надежда на стабильность и сдерживание, и здесь ещё надо не свалиться в диктатуру, есть много вариантов, как оно может прийти не туда.
Готового рецепта в итоге нет. Есть набор ингредиентов, которые вероятно нужны: технические меры безопасности; аудит; замедление развития и покупка времени там где требуется; критики должны быть не просто критиками, а практиками с руками из правильного места; корпорации должны быть не только про прибыль (B Corp); государство тоже должно быть практиком и активным игроком; международные альянсы; культура, признающая ошибки и учащаяся на них; и наконец общественные движения.
В общем, дилема.
https://www.the-coming-wave.com/
Я прочитал наконец недавно вышедшую книгу в прошлом со-основателя DeepMind, а ныне сооснователя Inflection AI, Мустафы Сулеймана (про него мы много писали тут https://news.1rj.ru/str/gonzo_ML/1827).
Если попытаться сказать в двух словах, то книга про необходимость сдерживания (containment) технологий, и что как именно это делать неясно, но делать надо.
Большая книга, я с трудом дочитал, могла бы быть раза в три меньше, не потеряв сути. Но отсылки к опыту автора в DeepMind и не только интересны -- и человека лучше видно, и на разные известные события можно с другой стороны взглянуть (типа как AlphaGo играла в Китае и что это для всех там значило, или как в Гугле пытались создать этический комитет).
Мотив уже не новый -- технологии развиваются быстро и рано или поздно приведут человечество либо к катастрофическим последствиям, либо к антиутопии. В руках bad actors или просто из-за косяков (например, из биолабораторий самого высокого уровня защиты было достаточно утечек, включая повторные -- непонятно, почему с новыми технологиями это будет не так). В книге много фактического материала, рекомендую для ликбеза, если для вас всё выглядит в розовом свете.
Вообще книга довольно сильно напоминает обновлённый вариант статьи Билла Джоя “Why the Future doesn’t need us” (https://news.1rj.ru/str/gonzo_ML/1618). Там была генетика, нанотех и роботы. Здесь новая волна включает в себя ИИ и синтетическую биологию, плюс набор сопуствующих технологий типа роботов, квантовых технологий, новой энергетики.
Основные свойства технологий новой волны:
1. Крайне асимметричное влияние и перераспределение власти
2. Гипер-эволюция и ускорение развития
3. Универсальность (onmi-use)
4. Автономность.
При этом все стимулы (национальная гордость и стратегическая необходимость, гонка вооружений, стремление знания распространяться, экономические стимулы и необходимость противодействовать глобальным вызовам, эго наконец) только толкают развитие дальше.
Государства в современном мире оказываются в очень неустойчивом положении, их хрупкость тоже только повышается благодаря новой волне. Но для Сулеймана они наша главная надежда на стабильность и сдерживание, и здесь ещё надо не свалиться в диктатуру, есть много вариантов, как оно может прийти не туда.
Готового рецепта в итоге нет. Есть набор ингредиентов, которые вероятно нужны: технические меры безопасности; аудит; замедление развития и покупка времени там где требуется; критики должны быть не просто критиками, а практиками с руками из правильного места; корпорации должны быть не только про прибыль (B Corp); государство тоже должно быть практиком и активным игроком; международные альянсы; культура, признающая ошибки и учащаяся на них; и наконец общественные движения.
В общем, дилема.
The Coming Wave Book
This groundbreaking new book from AI entrepreneur Mustafa Suleyman is a must-read guide to the technological revolution just starting, and the transformed world it will create.
👍28❤7🤔3🔥2👎1😱1👌1
XTX Markets is launching the Artificial Intelligence Mathematical Olympiad Prize ('AI-MO Prize'), a new $10mn challenge fund designed to spur the creation of a publicly-shared AI model capable of winning a gold medal in the International Mathematical Olympiad (IMO).
https://www.prnewswire.com/news-releases/xtx-markets-launching-10-million-artificial-intelligence-mathematical-olympiad-prize-301997891.html
https://www.prnewswire.com/news-releases/xtx-markets-launching-10-million-artificial-intelligence-mathematical-olympiad-prize-301997891.html
PR Newswire
XTX Markets launching $10 million 'Artificial Intelligence Mathematical Olympiad Prize'
/PRNewswire/ -- XTX Markets is launching the Artificial Intelligence Mathematical Olympiad Prize ('AI-MO Prize'), a new $10mn challenge fund designed to spur...
❤18👍11🥴8😢3🔥1
We introduce Starling-7B, an open large language model (LLM) trained by Reinforcement Learning from AI Feedback (RLAIF). The model harnesses the power of our new GPT-4 labeled ranking dataset, Nectar, and our new reward training and policy tuning pipeline. Starling-7B-alpha scores 8.09 in MT Bench with GPT-4 as a judge, outperforming every model to date on MT-Bench except for OpenAI’s GPT-4 and GPT-4 Turbo.
https://starling.cs.berkeley.edu
https://starling.cs.berkeley.edu
starling.cs.berkeley.edu
Starling-7B: Increasing LLM Helpfulness & Harmlessness with RLAIF
👍22🔥15❤2
Тем временем вышел Keras 3.0.0.
Я бы сказал, возврат к истокам -- это снова multi-backend либа, но теперь с поддержкой JAX, PyTorch, TF и NumPy.
https://github.com/keras-team/keras/releases/tag/v3.0.0
Main highlights compared to Keras 2 are:
* Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (note that the NumPy backend is inference-only).
* New low-level keras.ops API for building cross-framework components.
* New large-scale model distribution keras.distribution based on JAX.
* New stateless API for layers, models, optimizers, and metrics.
Я бы сказал, возврат к истокам -- это снова multi-backend либа, но теперь с поддержкой JAX, PyTorch, TF и NumPy.
https://github.com/keras-team/keras/releases/tag/v3.0.0
Main highlights compared to Keras 2 are:
* Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (note that the NumPy backend is inference-only).
* New low-level keras.ops API for building cross-framework components.
* New large-scale model distribution keras.distribution based on JAX.
* New stateless API for layers, models, optimizers, and metrics.
GitHub
Release Keras 3.0.0 · keras-team/keras
Major updates
See the release announcement for a detailed list of major changes. Main highlights compared to Keras 2 are:
Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (n...
See the release announcement for a detailed list of major changes. Main highlights compared to Keras 2 are:
Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (n...
👍39👎5🔥3🤔2👀1
Твиттер-тред от Франсуа Шолле
https://twitter.com/fchollet/status/1729512791894012011?t=-ttxTmq0vPQ91gyZ4fZr7g&s=19
https://twitter.com/fchollet/status/1729512791894012011?t=-ttxTmq0vPQ91gyZ4fZr7g&s=19
X (formerly Twitter)
François Chollet (@fchollet) on X
Big news: we just released Keras 3.0!
▶ Run Keras on top of JAX, TensorFlow, and PyTorch
▶ Train faster with XLA compilation
▶ Unlock training runs with any number of devices & hosts via the new Keras distribution API
It's live on PyPI now! 🚀
▶ Run Keras on top of JAX, TensorFlow, and PyTorch
▶ Train faster with XLA compilation
▶ Unlock training runs with any number of devices & hosts via the new Keras distribution API
It's live on PyPI now! 🚀
❤8🤮4🤔1
Больше LLM хороших и разных
The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen
We opensource our Qwen series, now including Qwen, the base language models, namely Qwen-1.8B, Qwen-7B, Qwen-14B, and Qwen-72B, as well as Qwen-Chat, the chat models, namely Qwen-1.8B-Chat, Qwen-7B-Chat, Qwen-14B-Chat, and Qwen-72B-Chat. Links are on the above table. Click them and check the model cards. Also, we release the technical report. Please click the paper link and check it out!
In brief, we have strong base language models, which have been stably pretrained for up to 3 trillion tokens of multilingual data with a wide coverage of domains, languages (with a focus on Chinese and English), etc. They are able to achieve competitive performance on benchmark datasets. Additionally, we have chat models that are aligned with human preference based on SFT and RLHF (not released yet), which are able to chat, create content, extract information, summarize, translate, code, solve math problems, and so on, and are able to use tools, play as agents, or even play as code interpreters, etc.
The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen
We opensource our Qwen series, now including Qwen, the base language models, namely Qwen-1.8B, Qwen-7B, Qwen-14B, and Qwen-72B, as well as Qwen-Chat, the chat models, namely Qwen-1.8B-Chat, Qwen-7B-Chat, Qwen-14B-Chat, and Qwen-72B-Chat. Links are on the above table. Click them and check the model cards. Also, we release the technical report. Please click the paper link and check it out!
In brief, we have strong base language models, which have been stably pretrained for up to 3 trillion tokens of multilingual data with a wide coverage of domains, languages (with a focus on Chinese and English), etc. They are able to achieve competitive performance on benchmark datasets. Additionally, we have chat models that are aligned with human preference based on SFT and RLHF (not released yet), which are able to chat, create content, extract information, summarize, translate, code, solve math problems, and so on, and are able to use tools, play as agents, or even play as code interpreters, etc.
GitHub
GitHub - QwenLM/Qwen: The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. - QwenLM/Qwen
👍12
Just in case, вдруг вы не видели интро про LLM от Андрея Карпатого:
https://www.youtube.com/watch?v=zjkBMFhNj_g
https://www.youtube.com/watch?v=zjkBMFhNj_g
YouTube
[1hr Talk] Intro to Large Language Models
This is a 1 hour general-audience introduction to Large Language Models: the core technical component behind systems like ChatGPT, Claude, and Bard. What they are, where they are headed, comparisons and analogies to present-day operating systems, and some…
❤34👍24
Great news for European LLMs! Silo AI extends their family of open models Poro 🦌 with checkpoints, languages & modalities.
* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising performance in English.
* Launching Poro 2 training with Nordic languages which covers English, Finnish, Swedish, Norwegian, Danish, Icelandic and code. Poro 2 has an updated and more modern architecture, and comes in a variety of model sizes.
* The upcoming model generations will add vision to their capabilities. This is enabled through a partnership with LAION.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
I'd also highlight another case of using non-NVIDIA chips for large-scale training:
* Poro is trained using 512 AMD MI250X GPUs on the LUMI supercomputer in Finland.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising performance in English.
* Launching Poro 2 training with Nordic languages which covers English, Finnish, Swedish, Norwegian, Danish, Icelandic and code. Poro 2 has an updated and more modern architecture, and comes in a variety of model sizes.
* The upcoming model generations will add vision to their capabilities. This is enabled through a partnership with LAION.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
I'd also highlight another case of using non-NVIDIA chips for large-scale training:
* Poro is trained using 512 AMD MI250X GPUs on the LUMI supercomputer in Finland.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
AMD
Europe’s Open Language Model Family Poro Extends Checkpoints, Languages and Modalities
To ensure transparency and openness, and as part of the Poro Research Checkpoint program, we are today announcing new model checkpoints, as well as the next-generation models with additional languages
🎉19👍11
Давно говорю, надо вместо нейронок делать глиалки!
https://www.quantamagazine.org/these-cells-spark-electricity-in-the-brain-theyre-not-neurons-20231018/
https://www.quantamagazine.org/these-cells-spark-electricity-in-the-brain-theyre-not-neurons-20231018/
Quanta Magazine
These Cells Spark Electricity in the Brain. They’re Not Neurons.
For decades, researchers have debated whether brain cells called astrocytes can signal like neurons. Researchers recently published the best evidence yet that some astrocytes are part of the electrical conversation.
👀26😁6❤🔥4👍4❤1🔥1