Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.43K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Forwarded from XOR
⚡️ OpenAI разрешила пользоваться своим чат-ботом без регистрации учетной записи. Нововведения будут внедряться «постепенно» для пользователей из 185 стран.

Разрешат ли общаться с ChatGPT таким образом из России, пока непонятно: если нет, вы и сами знаете, как можно будет выйти из этой ситуации.

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28😁165👌2🔥1
Время для интересных фактов:

– Факт 1: SQLite – самая распространенная БД, сейчас в мире более триллиона активных баз SQLite

– Факт 2: SQLite создали и обслуживают всего три человека. Вот они, на фотографии. Хотя проект опенсурс, там не допускается свободный контрибьют, то есть все держится на этих троих

– Факт 3: на каждую строку кода в SQLite приходится 600 строк тестов

А как дела у вас в качалке в проекте?
🤯71🔥14👍11
9 примеров самых безумных корреляций

– Потребление сыра / Число до смерти запутавшихся в простынях. Корреляция 94,71%

– Общая выручка аркадных игр / Докторские степени по компьютерным наукам в США. Корреляция 98,51%

– Число людей, утонувших в бассейне / Количество фильмов с Николасом Кейджем. Корреляция 95,24%

– И еще несколько подобных примеров

Ну в общем, теории заговора или почему не всегда стоит доверять корреляциям
🔥7511😁9👍6🤩1
Amazon закрывают магазины Just Walk Out (те самые берешь и уходишь)

Дело в том, что технология не возымела спрос у крупных ретейлеров. Ну хотя «технология» – сказано громко. Еще год назад выяснилось, что ИИ там никакого нет, и записи с камер вручную обрабатывают кожаные работяги из Индии.

С другой стороны, в Amazon утверждают, что люди подключались только когда моделька затруднялась принять решение. Кому верить – непонятно, но ясно, что без массовой ручной разметки и перепроверки тут не обошлось точно.

Мастер класс по тестированию продуктовых гипотез заказывали?
😁58👏185👍5🤯1🙈1
Data Secrets
Время для интересных фактов: – Факт 1: SQLite – самая распространенная БД, сейчас в мире более триллиона активных баз SQLite – Факт 2: SQLite создали и обслуживают всего три человека. Вот они, на фотографии. Хотя проект опенсурс, там не допускается свободный…
Еще один забавный факт про базы данных вдогонку:

Почти все компьютерные системы в мире зависят от единой базы часовых поясов (tz database). Она обновляется, когда происходят изменения в законодательстве: ну например как отмена перевода времени с зимнего на летнее.

Эту базу поддерживают два человека.

Просто представьте: вы с другом можете заставить почти всех людей в мире поставить будильник на час позже 😈
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🫡34🔥172🤔21🤯1🤝1
У Anthropic вышла новая статья.

Называется Many-shot jailbreaking (что-то на гангстерском). Изучают методику долгоконтекстного джейлбрейка, и обещают, что подход способен улучшить эффективность LLM.

Наброски Claude 4, вы ли это?
😁268👍3🔥1
Теперь вы знаете, как должен пахнуть истинный ML-мачо

Заверните два
🔥77😁59👍73
Поиграем с нейросетью?

Оказывается, у tensorflow есть браузерная игра, в которой можно настраивать и обучать нейросеть. Для этого код писать не нужно, надо просто в интерактивном режиме добавлять и удалять слои, настраивать количество нейронов, функцию активации, количество эпох и так далее.

Затем можно запустить трейн, и график справа будет показывать процесс и результат обучения.

Осторожно, можно надолго залипнуть
🥰44🔥17😍62👍2🌚2🗿2
Коллеги, кому товары по акции?
🤯41😁285👍2
Разработчики Принстонского университета зарелизили SWE-агента, который заставляет LLM дебажить код с GitHub

Работает очень красиво: нужно просто отправить issue, и модель выплюнет коммит с решением. Внутри – ИИ-агент на стероидах на промптах, который сам двигается по репозиторию, просматривает, запускает и обрабатывает файлы.

Из фишек: умный линтер для исправления ошибок и вьюер, который во избежании галлюцинаций режет файлы для основной модели по 100 строк (это подобранный разработчиками гиперпараметр).

Пайплайн умеет решать 12,29% багов (а это очень неплохо) и на бенчмарке SWE уже стал опенсурс-SOTA.
👍36🔥105🤔1
Новый уровень распознавания речи от AssemblyAI

Universal-1 – это новая speech2text модель, предобученная на 12.5 милионах часов аудио и затюненая на 1.62 миллионах размеченных и псевдо-размеченных данных. Работает на английском, испанском, французском и немецком. Кстати, написано на JAX.

Напомним: до этого SOTA была модель WhisperX. Однако теперь Universal-1 обгоняет ее:

– и на инференсе: в 5 раз быстрее с распараллеливанием, файлы по 60 минут обрабатывает за 38 секунд (!)

– и по метрикам: работает на 13.5% точнее всех остальных моделей и допускает на 30% меньше галлюцинаций
🔥41👍84
Кстати про JAX, на котором написан новый Universal. В последнее время его популярность набирает обороты, и неспроста.

Многие знают, что JAX очень крут на TPU, но исследование разработчиков Keras 3 показывает, что и для GPU он выигрывает на 7 из 12 бенчмарков (см. таблицу). В остальных случаях быстрее всех оказывается бэкенд TensorFlow. Pytorch не выиграл нигде(

Тем не менее, надо понимать, что скорость зависит от конкретой архитектуры. В данном случае измерялась не наилучшая возможная производительность, а производительность на распространенных юзер-кейсах (брали StableDiffusion, Gemma, Mistral, SegmentAnything и BERT).

А вы на чем пишете?
18👍8🔥5