Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁101🔥14❤10🏆2❤🔥1💅1
Media is too big
VIEW IN TELEGRAM
Anthropic провели в Сан-Франциско большой хакатон: на него пригласили 200+ "элитных хакеров"
Ранее такие хакатоны проходили у Mistral, Cognition и даже Meta*. Цель подобных мероприятий проста: нужно взять LLM компании и сделать на ее основе какой-нибудь занимательный продукт. Вот, что получилось у участников с Claude:
⚙️ 1 место: робо-рука. За основу взяли робота Amazon, инструкции по управлению которым просто загрузили в Claude. А далее отрабатывало искуссно настроенное API, – в итоге модель смогла управлять рукой в реальном времени.
⚙️ 2 место: ловушка Джокера для Claude. Команда под названием China town mafia разработала капчи нового поколения для определения ИИ-агентов. Кроме интересных динамических игр парни предложили нестандартную вещь: задавать пользователю сложную математическую задачку. Если справился слишком быстро – значит, ИИ. Интересно только, не оттолкнет ли такая "фича" половину юзеров с сайта в первые же 0.001 секунду 🤡
⚙️ 3 место: ИИ-замена ПМов. Мультиагентная система, которая способна улучшить или написать с нуля качественное ТЗ. Для этого под капотом проводятся "дебаты" ИИ-агентов: обсуждение и отстаивание идей, критика, исправления. А ваш менеджер так может?
Кроме того, была еще RAG-система для ответов на вопросы (классика), и крутое приложение, которое объединило новые способности Sonnet 3.6 со скриптами Apple для управления маком только с помощью голоса.
Ранее такие хакатоны проходили у Mistral, Cognition и даже Meta*. Цель подобных мероприятий проста: нужно взять LLM компании и сделать на ее основе какой-нибудь занимательный продукт. Вот, что получилось у участников с Claude:
Кроме того, была еще RAG-система для ответов на вопросы (классика), и крутое приложение, которое объединило новые способности Sonnet 3.6 со скриптами Apple для управления маком только с помощью голоса.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥10❤5 5🤨1
Большая статья: какие альтернативы трансформерам у нас есть?
Действительно, трансформеры сегодня – самая сильная из когда-либо существовавших архитектур, золотой стандарт нейросетей. Но, несмотря на все свои достоинства, у трансформера есть и недостатки, и это открывает двери возможного появления новых улучшенных алгоритмов.
Так кто же в 2024 году может посоревноваться с трансформером за звание серебряной пули глубокого обучения? Об этом – наша новая большая статья. В ней вы найдете детальные ответы на такие вопросы, как:
➡️ Как работают трансформеры, и в чем их недостатки?
➡️ Какие есть модификации алгоритма внимания, и какие из них реально используются?
➡️ Почему мы отказались от RNN, и есть у рекуррентных архитектур шанс на реабилитацию?
➡️ Какие альтернативы предлагают ученые в самых свежих статья?
➡️ Как работают главные конкуренты трансформеров – SSM-подобные модели?
В общем, статья поможет не только глубоко погрузиться в современный ресерч, но и разобраться, что под капотом у фундаментальных архитектур. Скорее сохраняйте в ридинг-лист: https://datasecrets.ru/articles/19
Запасайтесь попкорном и какао: время чтения статьи – 26 минут 😲
"Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов", — Андрей Карпаты.
Действительно, трансформеры сегодня – самая сильная из когда-либо существовавших архитектур, золотой стандарт нейросетей. Но, несмотря на все свои достоинства, у трансформера есть и недостатки, и это открывает двери возможного появления новых улучшенных алгоритмов.
Так кто же в 2024 году может посоревноваться с трансформером за звание серебряной пули глубокого обучения? Об этом – наша новая большая статья. В ней вы найдете детальные ответы на такие вопросы, как:
В общем, статья поможет не только глубоко погрузиться в современный ресерч, но и разобраться, что под капотом у фундаментальных архитектур. Скорее сохраняйте в ридинг-лист: https://datasecrets.ru/articles/19
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42👍24😎6
Data Secrets
Вышел Claude 3.5 Haiku: цены на него немного шокируют Haiku превосходит все предыдущие модели стартапа (кроме нового Sonnet 3.6). Модель обучена на данных до июля 2024: это самый «свежий» показатель среди моделей Anthropic. Haiku пока не поддерживает …
Помимо подорожания в 4 раза новый Haiku 3.5 от Anthropic еще и в 2 раза медленнее предшественника
Новая модель, конечно, существенно лучше Haiku 3 (оценки на SWE бенчмарке можно посмотреть в этом посте). Независимые оценки тоже это показывают: по данным Artificial Analysis Haiku 3.5 достигает уровня самой мощной модели предыдущего поколения – Claude 3 Opus.
Однако скорость и цены оставляют желать лучшего. Модель в четыре раза дороже предшественника и в 10 раз дороже новейших Gemini 1.5 Flash и GPT-4o mini. При этом замеры говорят, что на инференсе новичок в 2 раза ленивее по сравнению с Haiku 3.
В общем, судя по всеми, Haiku 3.5 – уже не такая крошечная модель, какой была Haiku 3. Вероятно, она должна занять место Sonnet в новом поколении, а Sonnet встанет на место Opus.
Новая модель, конечно, существенно лучше Haiku 3 (оценки на SWE бенчмарке можно посмотреть в этом посте). Независимые оценки тоже это показывают: по данным Artificial Analysis Haiku 3.5 достигает уровня самой мощной модели предыдущего поколения – Claude 3 Opus.
Однако скорость и цены оставляют желать лучшего. Модель в четыре раза дороже предшественника и в 10 раз дороже новейших Gemini 1.5 Flash и GPT-4o mini. При этом замеры говорят, что на инференсе новичок в 2 раза ленивее по сравнению с Haiku 3.
В общем, судя по всеми, Haiku 3.5 – уже не такая крошечная модель, какой была Haiku 3. Вероятно, она должна занять место Sonnet в новом поколении, а Sonnet встанет на место Opus.
❤18👍9🤔8😁1
Кадры восьмилетней давности: Дженсен Хуанг привез первую видеокарту в OpenAI. Надпись на ней гласит:
Маск ностальгирует
Илону и команде OpenAI. Во имя будущего вычислений и человечества, дарю вам первую в мире DGX-1.
Маск ностальгирует
❤125👍24🔥14😁5
Исследователи из Китая создали мультимодальный датасет, который по эффективности превосходит наборы во много раз больше
Помните, как Андрей Карпаты говорил, что "модели должны стать больше, прежде чем они станут меньше"? По его теории, большие LLM должны помочь нам сделать данные, на которых мы учим модели, эффективнее: сейчас в трейнах моделей очень много шума, из-за которого модели разбухают, но умнее не становятся. Если этот шум убрать, и оставить только то, что действительно важно, на получившихся сжатых данных можно обучать маленькие модельки, которые на метриках будут не уступать большим.
Ученые из Китая попытались реализовать именно такой сценарий. Их датасет состоит не просто из текстов и картинок, как это обычно бывает, а из обработанных опенсорсной моделью RAM++ данных: это описания изображений, визуальные инструкции, выборочные текстовые задачи и, наконец, синтетика.
На итоговом наборе Infinity-MM они обучили малышку-модель Aquila-VL-2B (в качестве базовой модели взяли Qwen-2.5). Учили тоже непросто: в несколько этапов, каждый раз на отдельном виде данных. В итоге модель набрала 54,9% на мультимодальном бенче MMStar: это лучший результат в таком весе. Неплохие результаты получились и на других мультимодальных и математических тестах: 43% на HallusionBench, 75,2% на MMBench, 59% на MathVista.
И... хорошая новость: и датасет, и модельку выложили в опенсорс. А статью полностью можно прочитать здесь.
Помните, как Андрей Карпаты говорил, что "модели должны стать больше, прежде чем они станут меньше"? По его теории, большие LLM должны помочь нам сделать данные, на которых мы учим модели, эффективнее: сейчас в трейнах моделей очень много шума, из-за которого модели разбухают, но умнее не становятся. Если этот шум убрать, и оставить только то, что действительно важно, на получившихся сжатых данных можно обучать маленькие модельки, которые на метриках будут не уступать большим.
Ученые из Китая попытались реализовать именно такой сценарий. Их датасет состоит не просто из текстов и картинок, как это обычно бывает, а из обработанных опенсорсной моделью RAM++ данных: это описания изображений, визуальные инструкции, выборочные текстовые задачи и, наконец, синтетика.
На итоговом наборе Infinity-MM они обучили малышку-модель Aquila-VL-2B (в качестве базовой модели взяли Qwen-2.5). Учили тоже непросто: в несколько этапов, каждый раз на отдельном виде данных. В итоге модель набрала 54,9% на мультимодальном бенче MMStar: это лучший результат в таком весе. Неплохие результаты получились и на других мультимодальных и математических тестах: 43% на HallusionBench, 75,2% на MMBench, 59% на MathVista.
И... хорошая новость: и датасет, и модельку выложили в опенсорс. А статью полностью можно прочитать здесь.
❤58👍34👏11🔥5
Вот куда Альтман тратит $10 млрд инвестиций: OpenAI приобрели новый домен
chat.com – это один из старейших доменов Интернета, он появился еще в 1996 году. В прошлом году он был куплен за $15.5 млн кофаундером HubSpot. Сколько за него заплатили OpenAI – не раскрывается. Но, вероятно, немало🤑
Многие также пишут, что OpenAI купили ai.com. Но с этим доменом история долгая: он уже давно принадлежал OpenAI, а в 2023 его забрал Маск под X.ai. Прошлой зимой домен снова вернулся к Альтману: ходят слухи, что он предназначен для SORA.
chat.com – это один из старейших доменов Интернета, он появился еще в 1996 году. В прошлом году он был куплен за $15.5 млн кофаундером HubSpot. Сколько за него заплатили OpenAI – не раскрывается. Но, вероятно, немало
Многие также пишут, что OpenAI купили ai.com. Но с этим доменом история долгая: он уже давно принадлежал OpenAI, а в 2023 его забрал Маск под X.ai. Прошлой зимой домен снова вернулся к Альтману: ходят слухи, что он предназначен для SORA.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁54 33 17👍13❤3🤔3🦄3🔥1💘1
Data Secrets
Большая статья: какие альтернативы трансформерам у нас есть? "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов", — Андрей…
Наша новая статья про тематическое моделирование и библиотеку BigARTM
Да-да, вторая статья за сутки, продуктивность наших редакторов на максимуме
Тематическое моделирование – это область современного NLP. Тематические модели используются в рекомендательных и поисковых системах, в компьютерном зрении, и даже в биологии.
Чтобы подробнее познакомить вас с этой областью, мы написали про нее большой разбор! И не одни... В соавторстве статьи Константин Воронцов – доктор физико-математических наук, преподаватель ШАД и МГУ, автор метода ARTM и создатель библиотеки BigARTM для тематического моделирования.
В статье вы найдете:
➡️ объяснение ключевых концепций тематического моделирования
➡️ математическую и интуитивную постановку задачи
➡️ понятный разбор классических моделей PLSA и LDA, а также их недостатков
➡️ подробное обсуждение метода ARTM
➡️ и, конечно, практический гайд по построению тематической модели в библиотеке BigARTM
Скорее переходите на сайт и читайте! Уверены, вам точно понравится🫡
Тематическое моделирование – это область современного NLP. Тематические модели используются в рекомендательных и поисковых системах, в компьютерном зрении, и даже в биологии.
Чтобы подробнее познакомить вас с этой областью, мы написали про нее большой разбор! И не одни... В соавторстве статьи Константин Воронцов – доктор физико-математических наук, преподаватель ШАД и МГУ, автор метода ARTM и создатель библиотеки BigARTM для тематического моделирования.
В статье вы найдете:
Скорее переходите на сайт и читайте! Уверены, вам точно понравится
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍20🔥7🤯3😁2👀2 2🍓1
Data Secrets
Video message
Наш друг и коллега Саша Толмачев – CDO Ozon Fintech – приглашает подписчиков Data Secrets на стенд Озона на Матемаркетинг!
Подробности розыгрыша билетов на Data патибас здесь.
Подробности розыгрыша билетов на Data патибас здесь.
👍15🔥7❤6🤯3
Facebook Research представили новую библиотеку optimizers
Этих ребят мы уважаем, – они подарили нам Faiss, Prophet и Pearl, а теперь подогнали еще и optimizers. Это новая библиотека с продвинутой реализацией оптимизаторов. Там есть привычные SGD, Adagrad, RMSProp и Adam, но реализованы они с помощью Distributed Shampoo.
Это означает, что все операции оптимизированы для тензорных пространств: за счет этого обучение в целом сходится быстрее. Наглядно 👇
Вот пример использования обычного Adam:
Этих ребят мы уважаем, – они подарили нам Faiss, Prophet и Pearl, а теперь подогнали еще и optimizers. Это новая библиотека с продвинутой реализацией оптимизаторов. Там есть привычные SGD, Adagrad, RMSProp и Adam, но реализованы они с помощью Distributed Shampoo.
Это означает, что все операции оптимизированы для тензорных пространств: за счет этого обучение в целом сходится быстрее. Наглядно 👇
Вот пример использования обычного Adam:
import torch
from torch.optim import Adam
model = instantiate_model()
optimizer = Adam(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
eps=1e-08,
weight_decay=1e-05,
)
А вот с DS: import torch
from distributed_shampoo.distributed_shampoo import DistributedShampoo
from distributed_shampoo.shampoo_types import AdamGraftingConfig
model = instantiate_model()
optimizer = DistributedShampoo(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
epsilon=1e-12,
weight_decay=1e-05,
max_preconditioner_dim=8192,
precondition_frequency=100,
use_decoupled_weight_decay=False,
grafting_config=AdamGraftingConfig(
beta2=0.999,
epsilon=1e-08,
),
)
Больше примеров и исходный код – здесь👍72☃11❤6❤🔥1