Data Secrets – Telegram
Data Secrets
81K subscribers
6.44K photos
669 videos
20 files
2.72K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Что ни день, то новость про то, что кто-то ушел из OpenAI

На этот раз компанию покинул Тим Брукс. Он был одним из руководителей проекта SORA. Ушел он в DeepMind, где будет также работать над генерацией видео и "world simulators"
🤔60😁217🫡4👍2🔥1🙈1
Ваши ставки, куда уйдет следующий ключевой сотрудник из OpenAI?
Anonymous Poll
20%
В Anthropic
13%
В Google
34%
Точно в Anthropic
34%
Откроет свою компанию
😁53🤪17🍓11👀4👍1
Смотрите, какая интересная статистика. Оказывается, что Anthropic зарабатывает на API примерно столько же, сколько OpenAI. Интересно, изменятся ли числа после DevDay?
👀54👍15🔥11🙈3🐳1
Как правильно отдыхать: пособие от Илона Маска

Стали известны подробности той самой AI-тусовки Илона Маска, которая проходила в бывшем офисе OpenAI (начинается уже многообещающе, да)? И это еще не принимая во внимание то, что вечеринка проходила день-в-день с OpenAI DevDay.

Вообще, изначально целью вечеринки было привлечение крутых специалистов в xAI. Однако, кажется, HR-бренд прокачать так и не удалось: уже спустя час Маск, буквально стоя на столе, вещал про то, что он выступает за свободную разработку ИИ, не обусловленную получением прибыли (интересно, в чей же огород камень?)...

Завершилась туса тоже эпично – пожарной сигнализацией (наверное, у Маска слишком сильно подгорело). Вишенка на торте: у эвакуировавшихся из здания людей замечали рюкзаки OpenAI.

В общем, записывайте идею на вечер пятницы
🔥54😁29👍94🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Meta только что анонсировала Movie Gen – семейство фундаментальных медиа-моделей

Что может Movie Gen:

➡️ генрировать видео до 1080p с различным соотношением сторон
➡️ генерировать звук в формате video-to-audio и музыку
➡️ редактировать видео на основе промптов (промптом может быть текст или изображение)

По архитектуре трансформер, конечно. Самая большая модель имеет 30B параметров и обучена на контексте в 73K видеотокенов (это примерно 6 секунд 16fps).

В статье есть детали про данные, устройство латентного пространства, оптимизацию архитектуры и лоссов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥31👍109🔥4🙈2
Профессиональный праздник, получается 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
😁257👍1914🔥5🗿3🤩2😈1
Андрей Карпаты опять завозит контент на выходные: он за два часа сгенерировал 10 эпизодов подкаста про конспирологические теории

В программе: Антлантида, Антикитерский механизм, тайна Марии Целесты и многое другое

Сценаристы и режиссеры-постановщики: ChatGPT, Claude, Gemini

В ролях: NotebookLM

Художник: Ideogram

Уже доступно на Spotify
👏62😎1811😁8🤪7👍3
Как там говорится? «Кажется, началось»?
94😁47👍12🤪4🤯3
Новость дня: активисты разослали необычные посылки Сэму Альтману, Марку Цукербергу и президенту комиссии ЕС

Внутри оказались… перчатки с шестью пальцами. Так сообщество Saidot хотело напомнить бизнесменам про их ответственность за дипфейки, авторские права и угрозу ИИ в целом.

И это не все. Под раздачу неожиданно попала еще и Скарлетт Йоханссон, голосом которой когда-то якобы говорил gpt-4o.

Интересный выбор 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁82👍14🙈9🤗42
Кратко о нейминге в ресерче
😁150🤪188🙈4🔥2🐳2👍1
Мини-подборка новых статей выходного дня, которые точно стоит прочитать:

⚙️ Обучаемый метод прунинга от Nvidia. Основан на идее Semi-Structured прунинга, но, в отличие от классических подходов, маска прунинга выбирается не вручную, а с помощью стохастического алгоритма.
Подробнее – в нашем разборе статьи.

⚙️ Новый метод генерации синтетических 3D-данных для беспилотных авто. Self-driving – сфера, где синтетика нужна больше всего, но где генерировать ее качественно очень сложно. SytheOcc из статьи использует MIPs и ребалансировку, и это впервые позволяет решить одновременно и проблему учета глубины сцен, и вопрос детальной управляемости геометрии.
Подробнее – в нашем разборе статьи.

⚙️ Закон слабого звена: ученые из Meta предложили новый бенчмарк. Они показали, что существующие тесты проверяют только базовые навыки по отдельности, в то время как в задачах реального мира, для которых требуется объединение способностей, модели перформят сравнимо хуже.
Подробнее – в нашем разборе статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🤯84🔥3
Начинаем понедельник с заряда мотивации.
😁175🫡39👍25🔥11🤯65
Разработчик написал промпт, который может вывести ризонинг Claude Sonnet на уровень o1-preview

Сам промпт – на картинке. В целом получается какое-то обучение с подкреплением понарошку: модель крутит теги reflection, reward и thinking по кругу, пока не потратит назначенный ей «бюджет».

По кастомному датасету создателя Sonnet стал рассуждать на этом промпте лучше, чем o1. По MMLU (тестировали уже пользователи) до o1 все-таки не дотягивает, но точность все-таки повышает неплохо.

Код эксперимента лежит тут
🔥82👍2610😁4🍌2
Forwarded from XOR
This media is not supported in your browser
VIEW IN TELEGRAM
Божественно: в Лондоне создали «GPU орган». Он «воспроизводит музыку, управляя частотой вращения каждого вентилятора».

При этом музыка бесконечно генерируется ИИ, обученном на данных 15 хоров.

@xor_journal
🔥8012🤔8😎5🗿3🆒3
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia представили EdgeRunner – модель для генерации высококачественных 3D-объектов

EdgeRunner справляется даже со сложными моделями, в которох число граней достигает 4000. Предыдущие поколения алгоритмов не тянули такую детализацию.

Недавний тренд таких 3D генераций – авторегрессионные модели: за счет своей структуры они способны сохранять больше топологической информации. И на мелких примерах они действительно работают хорошо, но есть нюанс: на большее количество граней и высокое разрешение они не масштабируются.

В Nvidia чуть-чуть докрутили архитуктуру и предложили автоэнкодер (тоже авторегрессионный). За счет наличия в нем скрытого пространства появляется возможность обучить латентную диффузию и получить лучшую генерализацию; а для оптимизации исследователи прикрутили meshes-to-1D токенизатор.

В итоге результаты получились действительно крутые: вот тут можно посмотреть и покрутить 3D-модельки в рамках демо. А полный текст статьи лежит вот тут.
🔥32👍105
За последний месяц произошел какой-то бум опенсорса. Сами оцените, вот краткая сводка:

➡️ NVIDIA релизнули Nemotron 51B, NVLM 1.0 (мультимодальную), OpenMath, Nemotron Reward, RADIO
➡️ Llama 3.2 – первая VLM от Meta. Кроме того, компания дропнула SAM 2.1 и CoTracker 2.1
➡️ Molmo от AllenAl, очень впечатляюще
➡️ Emu3 от BAAI: моделька полностью на next token prediction, умеет работать с видео/картинками/текстом как на вход, так и на выход
➡️ Даже OpenAl в стороне не осталась: компания выложила веса для модельки транскрибирования аудио whisper 3
➡️ И это не все: еще Google обновили Gemma для японского, Apple релизнули Depth Pro, IBM вместе с NASA выкатили Prithvi WxC для прогнозов погоды, у ColQwen2 вышел visual retriever на основе Qwen2-VL и ColBERT, и конечно мы увидели новую Llava

Красивое 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5518🔥16🤯1
Для тех, кто давно хотел разобраться с тем, как устроена архитектура MoE

Автор книги Hands-On LLM выпустил гайд в картинках, где на пальцах очень подробно объясняет, как работает Mixture of Experts (в частности две ее основных составляющих: роутер и эксперты).

Кроме того, в разборе раскрыты и практические детали. Например, написано про важность балансировки и MoE для vision моделей. Так что такое читаем!
39👍16🔥8