We introduce Starling-7B, an open large language model (LLM) trained by Reinforcement Learning from AI Feedback (RLAIF). The model harnesses the power of our new GPT-4 labeled ranking dataset, Nectar, and our new reward training and policy tuning pipeline. Starling-7B-alpha scores 8.09 in MT Bench with GPT-4 as a judge, outperforming every model to date on MT-Bench except for OpenAI’s GPT-4 and GPT-4 Turbo.
https://starling.cs.berkeley.edu
https://starling.cs.berkeley.edu
starling.cs.berkeley.edu
Starling-7B: Increasing LLM Helpfulness & Harmlessness with RLAIF
👍22🔥15❤2
Тем временем вышел Keras 3.0.0.
Я бы сказал, возврат к истокам -- это снова multi-backend либа, но теперь с поддержкой JAX, PyTorch, TF и NumPy.
https://github.com/keras-team/keras/releases/tag/v3.0.0
Main highlights compared to Keras 2 are:
* Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (note that the NumPy backend is inference-only).
* New low-level keras.ops API for building cross-framework components.
* New large-scale model distribution keras.distribution based on JAX.
* New stateless API for layers, models, optimizers, and metrics.
Я бы сказал, возврат к истокам -- это снова multi-backend либа, но теперь с поддержкой JAX, PyTorch, TF и NumPy.
https://github.com/keras-team/keras/releases/tag/v3.0.0
Main highlights compared to Keras 2 are:
* Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (note that the NumPy backend is inference-only).
* New low-level keras.ops API for building cross-framework components.
* New large-scale model distribution keras.distribution based on JAX.
* New stateless API for layers, models, optimizers, and metrics.
GitHub
Release Keras 3.0.0 · keras-team/keras
Major updates
See the release announcement for a detailed list of major changes. Main highlights compared to Keras 2 are:
Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (n...
See the release announcement for a detailed list of major changes. Main highlights compared to Keras 2 are:
Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (n...
👍39👎5🔥3🤔2👀1
Твиттер-тред от Франсуа Шолле
https://twitter.com/fchollet/status/1729512791894012011?t=-ttxTmq0vPQ91gyZ4fZr7g&s=19
https://twitter.com/fchollet/status/1729512791894012011?t=-ttxTmq0vPQ91gyZ4fZr7g&s=19
X (formerly Twitter)
François Chollet (@fchollet) on X
Big news: we just released Keras 3.0!
▶ Run Keras on top of JAX, TensorFlow, and PyTorch
▶ Train faster with XLA compilation
▶ Unlock training runs with any number of devices & hosts via the new Keras distribution API
It's live on PyPI now! 🚀
▶ Run Keras on top of JAX, TensorFlow, and PyTorch
▶ Train faster with XLA compilation
▶ Unlock training runs with any number of devices & hosts via the new Keras distribution API
It's live on PyPI now! 🚀
❤8🤮4🤔1
Больше LLM хороших и разных
The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen
We opensource our Qwen series, now including Qwen, the base language models, namely Qwen-1.8B, Qwen-7B, Qwen-14B, and Qwen-72B, as well as Qwen-Chat, the chat models, namely Qwen-1.8B-Chat, Qwen-7B-Chat, Qwen-14B-Chat, and Qwen-72B-Chat. Links are on the above table. Click them and check the model cards. Also, we release the technical report. Please click the paper link and check it out!
In brief, we have strong base language models, which have been stably pretrained for up to 3 trillion tokens of multilingual data with a wide coverage of domains, languages (with a focus on Chinese and English), etc. They are able to achieve competitive performance on benchmark datasets. Additionally, we have chat models that are aligned with human preference based on SFT and RLHF (not released yet), which are able to chat, create content, extract information, summarize, translate, code, solve math problems, and so on, and are able to use tools, play as agents, or even play as code interpreters, etc.
The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen
We opensource our Qwen series, now including Qwen, the base language models, namely Qwen-1.8B, Qwen-7B, Qwen-14B, and Qwen-72B, as well as Qwen-Chat, the chat models, namely Qwen-1.8B-Chat, Qwen-7B-Chat, Qwen-14B-Chat, and Qwen-72B-Chat. Links are on the above table. Click them and check the model cards. Also, we release the technical report. Please click the paper link and check it out!
In brief, we have strong base language models, which have been stably pretrained for up to 3 trillion tokens of multilingual data with a wide coverage of domains, languages (with a focus on Chinese and English), etc. They are able to achieve competitive performance on benchmark datasets. Additionally, we have chat models that are aligned with human preference based on SFT and RLHF (not released yet), which are able to chat, create content, extract information, summarize, translate, code, solve math problems, and so on, and are able to use tools, play as agents, or even play as code interpreters, etc.
GitHub
GitHub - QwenLM/Qwen: The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. - QwenLM/Qwen
👍12
Just in case, вдруг вы не видели интро про LLM от Андрея Карпатого:
https://www.youtube.com/watch?v=zjkBMFhNj_g
https://www.youtube.com/watch?v=zjkBMFhNj_g
YouTube
[1hr Talk] Intro to Large Language Models
This is a 1 hour general-audience introduction to Large Language Models: the core technical component behind systems like ChatGPT, Claude, and Bard. What they are, where they are headed, comparisons and analogies to present-day operating systems, and some…
❤34👍24
Great news for European LLMs! Silo AI extends their family of open models Poro 🦌 with checkpoints, languages & modalities.
* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising performance in English.
* Launching Poro 2 training with Nordic languages which covers English, Finnish, Swedish, Norwegian, Danish, Icelandic and code. Poro 2 has an updated and more modern architecture, and comes in a variety of model sizes.
* The upcoming model generations will add vision to their capabilities. This is enabled through a partnership with LAION.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
I'd also highlight another case of using non-NVIDIA chips for large-scale training:
* Poro is trained using 512 AMD MI250X GPUs on the LUMI supercomputer in Finland.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising performance in English.
* Launching Poro 2 training with Nordic languages which covers English, Finnish, Swedish, Norwegian, Danish, Icelandic and code. Poro 2 has an updated and more modern architecture, and comes in a variety of model sizes.
* The upcoming model generations will add vision to their capabilities. This is enabled through a partnership with LAION.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
I'd also highlight another case of using non-NVIDIA chips for large-scale training:
* Poro is trained using 512 AMD MI250X GPUs on the LUMI supercomputer in Finland.
https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities
AMD
Europe’s Open Language Model Family Poro Extends Checkpoints, Languages and Modalities
To ensure transparency and openness, and as part of the Poro Research Checkpoint program, we are today announcing new model checkpoints, as well as the next-generation models with additional languages
🎉19👍11
Давно говорю, надо вместо нейронок делать глиалки!
https://www.quantamagazine.org/these-cells-spark-electricity-in-the-brain-theyre-not-neurons-20231018/
https://www.quantamagazine.org/these-cells-spark-electricity-in-the-brain-theyre-not-neurons-20231018/
Quanta Magazine
These Cells Spark Electricity in the Brain. They’re Not Neurons.
For decades, researchers have debated whether brain cells called astrocytes can signal like neurons. Researchers recently published the best evidence yet that some astrocytes are part of the electrical conversation.
👀26😁6❤🔥4👍4❤1🔥1
Forwarded from Новости психофизиологии
Дискуссия Хинтона, Суцкевера и Хассабиса о путях развития искусственного интеллекта (7 октября 2023 г.)
Два месяца назад, еще до всех событий вокруг OpenAI, состоялась очень интересная дискуссия о путях развития искусственного интеллекта нескольких ярчайших умов нашего времени, включая Джеффри Хинтона, Илью Суцкевера и Демиса Хассабиса, модерировал дискуссию знаменитый профессор Томазо Поджио. Обсуждались два ключевых вопроса: 1. Создание новых теорий, сравнивающих человеческий интеллект с большими языковыми / мультимодальными моделями и глубоким обучением в целом 2. Насколько нейронаука может помочь прогрессу в искусственном интеллекте, а искусственный интеллект - прогрессу в нейронауке? По ссылке есть полный транскрипт дискуссии.
Эта дискуссия рекомендуется для ознакомления всем психологам, психофизиологам и когнитивным нейроученым, которые размышляют о проблемах синтеза психологии, нейронауки и искусственного интеллекта, особенно для непосредственного "живого" контакта с главными интеллектуальными лидерами нашего времени, ведущими нас по прямому пути к AGI.
Интересна жесткая критика, с которой Хинтон и Хассабис обрушиваются на Хомского, причем Хассабис даже обвиняет его в том, что Хомский лично ответственен за торможение в развитии NLP (обработки естественного языка) – без влияния Хомского ChatGPT мог появиться раньше. Тут также можно вспомнить симметричное негативное отношение Хомского к ChatGPT, кроме того, тут мне также вспоминается критика Хомского со стороны отечественной психологии и психолингвистики (Алексей Алексеевич Леонтьев), которая оказывается когерентной позиции Хинтона и Хассабиса.
Обсуждается интересный момент, что эволюционно первично было движение, а потом возник язык, а c большими языковыми моделями мы идем в обратном направлении, "воплощая" в моторике (роботов) язык.
Обсуждается, что эволюция часто шла неоптимальным путем (см. книгу Гари Маркуса "Клудж"), беря в качестве материала именно те мутации, которые фактически возникали (а не лучшие потенциально возможные мутации), и из-за этого нам не нужно полностью копировать мозг (например, перенося в ИИ все сотни типов нейронов), а можно все оптимизировать, обобщив и сократив все переносимые в ИИ принципы работы биологического мозга. Мне кажется, это очень глубокая и верная мысль (ее высказывает Хинтон со ссылкой на Крика).
Обсуждается принципиальный момент: как ИИ позволит ускорить научные исследования ("AI-enabled science"), Демис Хассабис в качестве примера рассказывает про его "AlphaFold", предсказывающую пространственную структуру белка.
Важный сюжет – истинная творческость, Хассабис говорит, что два из трех уровней (интерполяцию и экстраполяцию) на пути к ней ИИ уже прошел, остался третий, самый сложный – когда ИИ должен будет выйти на уровень Пикассо и великих математиков. Хассабис считает, что этот третий уровень – не магия, он имеет свои конкретные психофизиологические механизмы, и в будущем мы создадим системы, которые воспроизведут этот третий уровень на искусственном носителе.
Дискуссия завершается размышлениями Хинтона, существует ли в биологическом мозге обратное распространение ошибки. Это ключевой вопрос в сюжете о нейроморфизации искусственного интеллекта. Хинтон говорит, что если бы он мог задать всего один вопрос будущей "всезнающей" GPT-20, то он спросил бы: "реализует ли мозг какую-то форму обратного распространения ошибки?"
Еще я обратил внимание, что из всех спикеров только Илья Суцкевер говорил о своем беспокойстве по поводу будущего создания сверхинтеллекта.
https://cbmm.mit.edu/video/cbmm10-panel-research-intelligence-age-ai
Два месяца назад, еще до всех событий вокруг OpenAI, состоялась очень интересная дискуссия о путях развития искусственного интеллекта нескольких ярчайших умов нашего времени, включая Джеффри Хинтона, Илью Суцкевера и Демиса Хассабиса, модерировал дискуссию знаменитый профессор Томазо Поджио. Обсуждались два ключевых вопроса: 1. Создание новых теорий, сравнивающих человеческий интеллект с большими языковыми / мультимодальными моделями и глубоким обучением в целом 2. Насколько нейронаука может помочь прогрессу в искусственном интеллекте, а искусственный интеллект - прогрессу в нейронауке? По ссылке есть полный транскрипт дискуссии.
Эта дискуссия рекомендуется для ознакомления всем психологам, психофизиологам и когнитивным нейроученым, которые размышляют о проблемах синтеза психологии, нейронауки и искусственного интеллекта, особенно для непосредственного "живого" контакта с главными интеллектуальными лидерами нашего времени, ведущими нас по прямому пути к AGI.
Интересна жесткая критика, с которой Хинтон и Хассабис обрушиваются на Хомского, причем Хассабис даже обвиняет его в том, что Хомский лично ответственен за торможение в развитии NLP (обработки естественного языка) – без влияния Хомского ChatGPT мог появиться раньше. Тут также можно вспомнить симметричное негативное отношение Хомского к ChatGPT, кроме того, тут мне также вспоминается критика Хомского со стороны отечественной психологии и психолингвистики (Алексей Алексеевич Леонтьев), которая оказывается когерентной позиции Хинтона и Хассабиса.
Обсуждается интересный момент, что эволюционно первично было движение, а потом возник язык, а c большими языковыми моделями мы идем в обратном направлении, "воплощая" в моторике (роботов) язык.
Обсуждается, что эволюция часто шла неоптимальным путем (см. книгу Гари Маркуса "Клудж"), беря в качестве материала именно те мутации, которые фактически возникали (а не лучшие потенциально возможные мутации), и из-за этого нам не нужно полностью копировать мозг (например, перенося в ИИ все сотни типов нейронов), а можно все оптимизировать, обобщив и сократив все переносимые в ИИ принципы работы биологического мозга. Мне кажется, это очень глубокая и верная мысль (ее высказывает Хинтон со ссылкой на Крика).
Обсуждается принципиальный момент: как ИИ позволит ускорить научные исследования ("AI-enabled science"), Демис Хассабис в качестве примера рассказывает про его "AlphaFold", предсказывающую пространственную структуру белка.
Важный сюжет – истинная творческость, Хассабис говорит, что два из трех уровней (интерполяцию и экстраполяцию) на пути к ней ИИ уже прошел, остался третий, самый сложный – когда ИИ должен будет выйти на уровень Пикассо и великих математиков. Хассабис считает, что этот третий уровень – не магия, он имеет свои конкретные психофизиологические механизмы, и в будущем мы создадим системы, которые воспроизведут этот третий уровень на искусственном носителе.
Дискуссия завершается размышлениями Хинтона, существует ли в биологическом мозге обратное распространение ошибки. Это ключевой вопрос в сюжете о нейроморфизации искусственного интеллекта. Хинтон говорит, что если бы он мог задать всего один вопрос будущей "всезнающей" GPT-20, то он спросил бы: "реализует ли мозг какую-то форму обратного распространения ошибки?"
Еще я обратил внимание, что из всех спикеров только Илья Суцкевер говорил о своем беспокойстве по поводу будущего создания сверхинтеллекта.
https://cbmm.mit.edu/video/cbmm10-panel-research-intelligence-age-ai
👍27❤8🔥5🤔2
Forwarded from Новости психофизиологии
Вообще, лично я до создания ChatGPT всегда ставил на Хассабиса из Google DeepMind как самого продвинутого исследователя на пути к AGI (в связи с его гениальной "AlphaGo", победившей в марте 2016 года чемпиона по го Ли Седоля), но Суцкевер из OpenAI неожиданно смог обогнать его. Также мне казалось, что Хассабис как психофизиолог по образованию (в 2009 году он защитил у Элеаноры Магуайр диссертацию на тему "Нейронные механизмы эпизодической памяти") имеет в этой гонке преимущество перед более далеким от реального биологического мозга Суцкевером (защитившего в 2013 году у Джеффри Хинтона диссертацию на тему "Обучение рекуррентных искусственных нейронных сетей"). Хассабис сейчас активно пытается вернуть первенство с проектом Gemini (выйдет в 2024 году), который совместит всю мощь AlphaGo-линии с GPT-технологиями. Я думаю, именно эти два человека определят наше будущее – Суцкевер и Хассабис, причем вся эта последняя история с OpenAI, судя по всему, снизит возможности Суцкевера и сыграет на руку Хассабиса, и, наверное, в итоге все-таки Хассабис на мощностях Google создаст AGI.
🤡35❤23🤔14👍8😁4🥱3🔥1
Через полтора часа стартует ModCon '23 (https://www.modular.com/modcon/23/start) от создателей Mojo (Криса Латтнера, автора LLVM, MLIR и Swift, если кто не знает). Обещают быть интересные анонсы, вероятно про то, как Mojo всех рвёт :)
Живой кейноут будет здесь: https://www.youtube.com/watch?v=VKxNGFhpYQc
Живой кейноут будет здесь: https://www.youtube.com/watch?v=VKxNGFhpYQc
🔥13👍3👀1