В шаббат разбирать статьи не будем, но вот вам на почитать, если ещё не видели.
Шмидхубух про историю современного AI.
https://people.idsia.ch/~juergen/deep-learning-history.html
Шмидхубух про историю современного AI.
https://people.idsia.ch/~juergen/deep-learning-history.html
people.idsia.ch
Timeline: artificial neural networks, deep learning, etc
Annotated history of modern AI and deep learning
🔥20👍8🤡3❤2👎2
В опенсорсе модель с 1T параметров! Для тех, у кого лишние DGX простаивают, видимо :)
https://github.com/MoonshotAI/Kimi-K2
Обучена оптимизатором muon (https://news.1rj.ru/str/gonzo_ML/3591), кстати.
https://github.com/MoonshotAI/Kimi-K2
Обучена оптимизатором muon (https://news.1rj.ru/str/gonzo_ML/3591), кстати.
GitHub
GitHub - MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI team
Kimi K2 is the large language model series developed by Moonshot AI team - MoonshotAI/Kimi-K2
❤18
Ещё интересная архитектурная инновация — H-Net, делающий следующий шаг к обучаемой токенизации, теперь вроде как совсем end-to-end (в отличие от BLT).
Mamba included!
https://news.1rj.ru/str/gonzo_ML_podcasts/447
Mamba included!
https://news.1rj.ru/str/gonzo_ML_podcasts/447
Telegram
gonzo_ML_podcasts
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
Sukjun Hwang, Brandon Wang, Albert Gu
Статья: https://arxiv.org/abs/2507.07955
Код: https://github.com/goombalab/hnet
Модель: https://huggingface.co/cartesia-ai
Англ версия: https://arxiviq.…
Sukjun Hwang, Brandon Wang, Albert Gu
Статья: https://arxiv.org/abs/2507.07955
Код: https://github.com/goombalab/hnet
Модель: https://huggingface.co/cartesia-ai
Англ версия: https://arxiviq.…
❤10🔥9👍4
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.
Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.
Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).
Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.
А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))
В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.
Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://news.1rj.ru/str/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.
Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).
Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.
А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))
В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.
Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://news.1rj.ru/str/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
❤51🤔3👍2
И ещё инновация с памятью, теперь ассоциативная память на замену механизму внимания:
https://news.1rj.ru/str/gonzo_ML_podcasts/462
Снова позволяет обучаться лучше на меньшем объёме данных. 1T токенов для Memory Mosaics даёт качество как 8T токенов у трансформера.
https://news.1rj.ru/str/gonzo_ML_podcasts/462
Снова позволяет обучаться лучше на меньшем объёме данных. 1T токенов для Memory Mosaics даёт качество как 8T токенов у трансформера.
Telegram
gonzo_ML_podcasts
Memory Mosaics at scale
Authors: Jianyu Zhang, Léon Bottou
Paper: https://arxiv.org/abs/2507.03285
Англ обзор: https://arxiviq.substack.com/p/memory-mosaics-at-scale
# TL;DR
Что сделали?
Авторы успешно масштабировали Memory Mosaics (https://arxiv.org/abs/2405.06394)…
Authors: Jianyu Zhang, Léon Bottou
Paper: https://arxiv.org/abs/2507.03285
Англ обзор: https://arxiviq.substack.com/p/memory-mosaics-at-scale
# TL;DR
Что сделали?
Авторы успешно масштабировали Memory Mosaics (https://arxiv.org/abs/2405.06394)…
1❤21👍7🔥5🤔2
Интересно как, OpenAI не дали, в итоге создатели Devin купили Windsurf
https://cognition.ai/blog/windsurf
https://cognition.ai/blog/windsurf
Cognition
Cognition | Cognition’s acquisition of Windsurf
Cognition has signed a definitive agreement to acquire Windsurf, the agentic IDE.
👍7🗿2
В очередной раз показали, что ризонинг в LRM "ненастоящий". На этот раз продемонстрировал DeepMind. Очень похоже на недавнюю статью от Apple.
https://news.1rj.ru/str/gonzo_ML_podcasts/478
https://news.1rj.ru/str/gonzo_ML_podcasts/478
Telegram
gonzo_ML_podcasts
Frontier LLMs Still Struggle with Simple Reasoning Tasks
Alan Malek, Jiawei Ge, Nevena Lazic, Chi Jin, András György, and Csaba Szepesvári
Статья: https://arxiv.org/abs/2507.07313
Код: https://www.github.com/google-deepmind/unpuzzles_and_simple_reasoning/…
Alan Malek, Jiawei Ge, Nevena Lazic, Chi Jin, András György, and Csaba Szepesvári
Статья: https://arxiv.org/abs/2507.07313
Код: https://www.github.com/google-deepmind/unpuzzles_and_simple_reasoning/…
1❤22👀10😁4
DolphinGemma
Denise Herzing, Thad Starner
Блог: https://blog.google/technology/ai/dolphingemma/
Сайт проекта: https://www.wilddolphinproject.org/
Статья: нет
Модель: нет (обещали расшарить этим летом, пока вроде как всё ещё в разработке)
Код: нет
Давно хотелось разобрать DolphinGemma, совместный проект Гугла, Georgia Tech и проекта Wild Dolphin Project (WDP, https://www.wilddolphinproject.org/), про обученную на звуках дельфинов модель (LLM).
! Не путать с Dolphin Gemma/Llama/Qwen/Mistral проекта Dolphin (https://huggingface.co/dphn, https://dphn.ai/) и Cognitive Computations, эти -- семейство разговорных instruction-tuned ассистентов без цензуры (https://erichartford.com/uncensored-models), просто универсальные текстовые модели.
Это очень перекликается с проектом CETI (https://news.1rj.ru/str/gonzo_ML/2182), который изучает китов, но это не он. Есть также и другие интересные проекты про животных. Особенно хочу отметить могучий Earth Species Project (https://www.earthspecies.org/) -- с ним надо отдельно поразбираться -- у них уже есть своя биоакустическая модель NatureLM-Audio (https://arxiv.org/abs/2411.07186) и другие тулы.
WDP занимается изучением дельфинов с 1985 года, фокусируясь на атлантическом пятнистом дельфине (Stenella frontalis) в районе Багамских островов. Изучение в естественной среде, неинвазивное. За долгое время набрался датасет подводных видео и аудио, размеченный конкретными дельфиньими identities с их жизненными историями и наблюдаемыми поведениями.
Я так понимаю, что в датасете не просто записи звуков, но и сопутствующая информация про ситуацию и поведение конкретных дельфинов, например, воссоединение мамы и дельфинёнка, драки, преследование акул и т.д. Цель проекта -- понять структуру коммуникации дельфинов и, потенциально, её смысл. Чуть подробнее с примерами, которые можно послушать, есть на сайте проекта (https://www.wilddolphinproject.org/our-research/dolphin-communication/). Я слышал, у дельфинов есть и иные способы коммуникации (https://www.scientificamerican.com/article/dolphins-communicate-with-fountains-of-pee/), но не будем пока об этом -- таких LLM нам не надо!
У WDP есть также отдельный трек про двунаправленную коммуникацию, система CHAT (Cetacean Hearing Augmentation Telemetry, https://www.wilddolphinproject.org/our-research/chat-research/). CHAT может генерировать новые синтетические звуки, отличные от естественных, которые можно проассоциировать с новыми объектами, нравящимися дельфинам. Есть надежда, что любопытные дельфины выучат эти звуки, если захотят запросить такие объекты у исследователей (см. видео https://youtu.be/YhopeQKbpZA).
CHAT должна работать надёжно (чтобы в океанском шуме услышать нужное) и быстро (чтобы исследователь с девайсом-декодером мог быстро понять, что от него хотят и дать это дельфину, тем самым усилив связь). На уже старом Pixel 6 это работало в рилтайме, что удобно -- не надо особого и дорогого спец оборудования. Использование DolphinGemma с её предсказанием следующих токенов по идее может ускорить процесс понимания, чего хочет сказать дельфин, и ускорить процесс общения.
К сожалению, деталей про работу и практические результаты слишком мало. По моим представлениям это больше маркетинговый материал, нежели научная статья (её и нет). Project CETI и Earth Species Project в этом смысле намного более научные (и открытые). Информации про DolphinGemma почти нет -- в основном только посты в блогах и соцмедиа. Статей, самой модели или любого кода я не нашёл, что печально. Но попробуем разобрать что известно.
Цель модели -- получать на вход дельфиньи вокализации и генерировать новые последовательности звуков, hopefully dolphin-like.
Denise Herzing, Thad Starner
Блог: https://blog.google/technology/ai/dolphingemma/
Сайт проекта: https://www.wilddolphinproject.org/
Статья: нет
Модель: нет (обещали расшарить этим летом, пока вроде как всё ещё в разработке)
Код: нет
Давно хотелось разобрать DolphinGemma, совместный проект Гугла, Georgia Tech и проекта Wild Dolphin Project (WDP, https://www.wilddolphinproject.org/), про обученную на звуках дельфинов модель (LLM).
! Не путать с Dolphin Gemma/Llama/Qwen/Mistral проекта Dolphin (https://huggingface.co/dphn, https://dphn.ai/) и Cognitive Computations, эти -- семейство разговорных instruction-tuned ассистентов без цензуры (https://erichartford.com/uncensored-models), просто универсальные текстовые модели.
Это очень перекликается с проектом CETI (https://news.1rj.ru/str/gonzo_ML/2182), который изучает китов, но это не он. Есть также и другие интересные проекты про животных. Особенно хочу отметить могучий Earth Species Project (https://www.earthspecies.org/) -- с ним надо отдельно поразбираться -- у них уже есть своя биоакустическая модель NatureLM-Audio (https://arxiv.org/abs/2411.07186) и другие тулы.
WDP занимается изучением дельфинов с 1985 года, фокусируясь на атлантическом пятнистом дельфине (Stenella frontalis) в районе Багамских островов. Изучение в естественной среде, неинвазивное. За долгое время набрался датасет подводных видео и аудио, размеченный конкретными дельфиньими identities с их жизненными историями и наблюдаемыми поведениями.
Я так понимаю, что в датасете не просто записи звуков, но и сопутствующая информация про ситуацию и поведение конкретных дельфинов, например, воссоединение мамы и дельфинёнка, драки, преследование акул и т.д. Цель проекта -- понять структуру коммуникации дельфинов и, потенциально, её смысл. Чуть подробнее с примерами, которые можно послушать, есть на сайте проекта (https://www.wilddolphinproject.org/our-research/dolphin-communication/). Я слышал, у дельфинов есть и иные способы коммуникации (https://www.scientificamerican.com/article/dolphins-communicate-with-fountains-of-pee/), но не будем пока об этом -- таких LLM нам не надо!
У WDP есть также отдельный трек про двунаправленную коммуникацию, система CHAT (Cetacean Hearing Augmentation Telemetry, https://www.wilddolphinproject.org/our-research/chat-research/). CHAT может генерировать новые синтетические звуки, отличные от естественных, которые можно проассоциировать с новыми объектами, нравящимися дельфинам. Есть надежда, что любопытные дельфины выучат эти звуки, если захотят запросить такие объекты у исследователей (см. видео https://youtu.be/YhopeQKbpZA).
CHAT должна работать надёжно (чтобы в океанском шуме услышать нужное) и быстро (чтобы исследователь с девайсом-декодером мог быстро понять, что от него хотят и дать это дельфину, тем самым усилив связь). На уже старом Pixel 6 это работало в рилтайме, что удобно -- не надо особого и дорогого спец оборудования. Использование DolphinGemma с её предсказанием следующих токенов по идее может ускорить процесс понимания, чего хочет сказать дельфин, и ускорить процесс общения.
К сожалению, деталей про работу и практические результаты слишком мало. По моим представлениям это больше маркетинговый материал, нежели научная статья (её и нет). Project CETI и Earth Species Project в этом смысле намного более научные (и открытые). Информации про DolphinGemma почти нет -- в основном только посты в блогах и соцмедиа. Статей, самой модели или любого кода я не нашёл, что печально. Но попробуем разобрать что известно.
Цель модели -- получать на вход дельфиньи вокализации и генерировать новые последовательности звуков, hopefully dolphin-like.
❤11🔥10👎1
Audio-in, audio-out. Но через токенизацию с токенизатором SoundStream (https://arxiv.org/abs/2107.03312, https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/) -- гугловая работа от 2021 года. SoundStream -- это по сути обучаемый end-to-end нейро-кодек, состоящий из энкодера, декодера и квантователя в бутылочном горлышке между ними. Во время обучения он использует два лосса: лосс восстановления и adversarial лосс, так чтобы дискриминатор не сумел отличить реконструированный звук от исходного. После обучения можно использовать энкодер с квантователем для генерации токенов, и декодер для восстановления их в звук. Я не уверен, был ли этот кодек опубликован Гуглом, сходу я этого не вижу. Но вижу в сети сколько-то реимплементаций. Знатоки аудио-кодеков, поправьте меня. А также скажите, есть ли что-то более современное и лучшее? Наверняка за четыре года что-то появилось.
Модель с 400M параметров, сделана для запуска локально на телефонах Pixel, которые используют в проекте WDP. Gemma такого размера не существует, то есть это не файнтюн Джеммы, а модель построенная на её идеях (видимо, декодер трансформера). В этом смысле коммуникация Гугла была misleading, когда они говорили (и до сих пор говорят), что проект использует модели Gemma.
Размер датасета непонятен. В статье “Imitation of Computer-Generated Sounds by Wild Atlantic Spotted Dolphins (Stenella frontalis)” (https://www.animalbehaviorandcognition.org/article.php?id=1370) про CHAT упоминаются 1319 минут аудио записей.
Практический выхлоп тоже неясен. Удалось нарыть отдельное интервью авторов в подкасте Scientific American (https://www.scientificamerican.com/podcast/episode/dolphingemma-could-enable-ai-communication-with-dolphins/). Там они утверждают, что модель выучила генерацию определённых вокализаций (VCM Type 3 или VCM3s), которые дельфины предпочитают использовать во время двусторонней коммуникации с человеками, и для авторов это было чем-то вроде a-ha момента. До этого, похоже, VCM3s генерить не особо получалось.
Вроде и всё. Видимо, всё ещё какой-то ранний рисёч. Хотя было ощущение, что немного иначе всё.
В общем конкретно с DolphinGemma ждём каких-то более внятных анонсов. И тем временем я бы более пристально посмотрел на более открытые проекты типа CETI и Earth Species Project. И вообще, давно бы уже обучили BarkLLM. Или в крайнем случае MeowLM. Может сорганизуемся?
Модель с 400M параметров, сделана для запуска локально на телефонах Pixel, которые используют в проекте WDP. Gemma такого размера не существует, то есть это не файнтюн Джеммы, а модель построенная на её идеях (видимо, декодер трансформера). В этом смысле коммуникация Гугла была misleading, когда они говорили (и до сих пор говорят), что проект использует модели Gemma.
Размер датасета непонятен. В статье “Imitation of Computer-Generated Sounds by Wild Atlantic Spotted Dolphins (Stenella frontalis)” (https://www.animalbehaviorandcognition.org/article.php?id=1370) про CHAT упоминаются 1319 минут аудио записей.
Практический выхлоп тоже неясен. Удалось нарыть отдельное интервью авторов в подкасте Scientific American (https://www.scientificamerican.com/podcast/episode/dolphingemma-could-enable-ai-communication-with-dolphins/). Там они утверждают, что модель выучила генерацию определённых вокализаций (VCM Type 3 или VCM3s), которые дельфины предпочитают использовать во время двусторонней коммуникации с человеками, и для авторов это было чем-то вроде a-ha момента. До этого, похоже, VCM3s генерить не особо получалось.
Вроде и всё. Видимо, всё ещё какой-то ранний рисёч. Хотя было ощущение, что немного иначе всё.
В общем конкретно с DolphinGemma ждём каких-то более внятных анонсов. И тем временем я бы более пристально посмотрел на более открытые проекты типа CETI и Earth Species Project. И вообще, давно бы уже обучили BarkLLM. Или в крайнем случае MeowLM. Может сорганизуемся?
Google
DolphinGemma: How Google AI is helping decode dolphin communication
Dolphin researchers are using Gemma and Google Pixel phones to try to decipher how dolphins talk to one another.
❤17