NEW BOT Телеграм, страница

🤝

Результаты эксперимента «AI Art Turing Test»

В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом

Вот некоторые цифры из результатов:

🤝 Средняя точность ответов участников составила примерно 60%
🤝 Только около 5% участников смогли правильно идентифицировать более 75% изображений.
🤝 Примерно 25% участников показали точность ниже 50%
🤝 Некоторые изображения вводили в заблуждение особенно часто: одно из AI generated изображений было идентифицировано как человеческое более чем в 70% случаев.

Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥9❤4⚡2

4.74K views[ОТПУСК] Tagir, 21:58

Блог о Data Science 💻

😃

Kaggle x Child Mind Institute: произошел шейкап

Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности 😡

Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год 🤡

Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования 🔘

Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да? 😇

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳13🔥5❤1🏆1

4.02K viewsTagir, 19:15

Блог о Data Science 💻

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

📸

Paragraphica: context-to-image camera

Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:

🖍️

Принцип работы: камера анализирует данные о местоположении — адрес, погоду, время суток и близлежащие объекты. На основе этих данных она генерирует текстовое описание текущего места.

🖍️

Технология: с помощью AI image synthesis, текстовое описание преобразуется в визуальное изображение. Это не обычное фото, а визуализация данных, отражающая сущность момента и место, в котором вы находитесь.

🖍️

Оборудование: Raspberry Pi 4, 15-дюймовый сенсорный экран, 3D-печатный корпус, индивидуальная электроника.

🖍️

Программное обеспечение: Noodl, Python, API Stable Diffusion.

Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤‍🔥12🔥3🐳3

4.45K viewsTagir, 19:01

Блог о Data Science 💻

🧿

Live: Introduction to Operator & Agents

Только что началась трансляция на YouTube канале OpenAI про фичу оператора.

Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg

Статья: https://openai.com/index/computer-using-agent/

Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Introduction to Operator & Agents

Begins at 10am PT

Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.

🐳6❤‍🔥2⚡1

5.14K viewsTagir, edited 18:01

Блог о Data Science 💻

⌨️

Change of plans: OpenAI edition

Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев

И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!

Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля? 😭

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡10❤3😢2🐳1

4.2K viewsTagir, 15:13

Блог о Data Science 💻

0:08

Media is too big

VIEW IN TELEGRAM

🤖

TidyBot++: применение, статья, код

Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)

Вот они, слева направо: сайт, статья, GitHub

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6🐳2❤1

3.08K views21:15

Блог о Data Science 💻

Forwarded from Denis Sexy IT 🤖

1:26

This media is not supported in your browser

VIEW IN TELEGRAM

NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир

Если коротко, десять лет обучения сжали в две часа симуляции-тренировки

А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:

«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»

🔥14🐳6❤2

2.64K views16:34

Блог о Data Science 💻

Forwarded from РИСЕРЧОШНАЯ

huggingface.co

yandex/yambda · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

💬

Yet another dataset?

Сегодня — честный обзор на уже захайпленный датасет.
Если вы когда-либо занимались ресерчем в рексисе, то точно сталкивались с проблемами датасетов.
(Можно вспомнить классическую статью Are We Really Making Much Progress?)

Сначала — немного боли из прошлого:
— гигантский гэп между train и test
— однотипный фидбек
— отсутствие разнообразия пользовательских паттернов

И это всё — на фоне постоянных споров в академии про то, что вообще считается хорошим датасетом.

Даже если вы соберёте SOTA-модель — она может просто не «прокраситься» на кривом сете.
Ну серьёзно, в том же MovieLens test отстоит от train на несколько лет.

И вот — датасет от Яндекс Музыки.
Огромный:

⭐

4.78 млрд взаимодействий

⭐

9.39 млн треков

⭐

1 млн пользователей
⭐ и впервые — флаг is_organic, который показывает:
пришёл ли пользователь к треку сам или его привёл алгоритм

С одной стороны — это прям must-have для исследовательского пула.
Многоуровневый фидбек:
⭐ implicit (прослушивания)
⭐ explicit (лайки, дизлайки, отмены)

Даже эмбеддинги спектрограмм есть.

А ещё — продуманный split:
⭐ leave-one-last
⭐ temporal global
(приложу картинку в комментах — очень в тему для продовой оценки)

По сравнению с Netflix, Steam и прочими — это реально большой и комплексный датасет.

Я бы еще упомянул о бенчмарках и красивом коде куда на мой взгляд легко интегрировать свои решения.

Один момент, о котором почти никто не говорит — это домен.

Яндекс Музыка — это, как и TikTok, продукт с ярко выраженными короткими и длинными предпочтениями.
Здесь трансформеры можно не просто тестировать — здесь они раскрываются.

Но. Доверяй, но проверяй.
👀 Насколько честно размечена органика?
👀 Подходит ли датасет для cold-start задач?
👀 Для многих экспериментов вокруг LLM, мне бы хотелось увидеть больше фичей о пользователях, да и в целом фичей. (btw я понимаю, из-за чего их не включают)

Спасибо ребятам из Яндекса за такой летний подгон.
Реально мощный вклад в сообщество, действительно мало компаний могут себе это позволить.

➡️

Hugging Face и arxiv

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳10❤5⚡5

3.09K views12:10

Блог о Data Science 💻

💰

LLM против рынка крипты: nof1.ai

На сайте nof1.ai запустили эксперимент Alpha Arena – LLM торгуют криптой за настоящие деньги. Каждой модели выдали по $10.000 и одинаковый промпт с техническими индикаторами, без доступа к новостям

Список участников: GPT-5, Claude 4.5 Sonnet, Grok 4, Gemini 2.5 Pro, DeepSeek V3.1, Qwen 3 Max

Сейчас лидирует Qwen 3 Max с доходностью +14% и капиталом $11.4k, следом DeepSeek Chat v3.1 с +10%. Grok 4 и Claude Sonnet 4.5 уже в минусе на ~15-17%, Gemini 2.5 Pro просел почти на -56%, а GPT-5 – абсолютный аутсайдер с -69% от стартового депозита.

Ирония в том, что авторы называют рынки ultimate test of intelligence, но по факту тестируют скорее устойчивость к рандому и комиссиям, а долгое время выигрывала модель, которая вообще не трейдила

Графики, метрики, сделки и чат: nof1.ai

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🏆20

2.53K views07:25

Блог о Data Science 💻

🤖

GPT-5.1: что завезли в ChatGPT

OpenAI выкатывает обновление линейки GPT-5 – теперь это GPT-5.1, с упором на более живое общение и нормальные настройки тона. Внутри две ветки: Instant и Thinking

GPT-5.1 Instant

👀 По-умолчанию стала теплее и разговорнее

👀 Лучше держит инструкции: если попросить «отвечать шестью словами», действительно продолжит в этом формате, а не сорвется через пару сообщений

👀 Появился adaptive reasoning – модель сама решает, когда «подумать подольше» над сложным вопросом. За счёт этого подтянули математику и кодинг на задачах уровня AIME 2025 и Codeforces

GPT-5.1 Thinking

👀 Точнее дозирует время размышления: на простых запросах отвечает заметно быстрее, на сложных – дольше и глубже. В выборке реальных задач самые быстрые ответы стали примерно в 2 раза быстрее, а самые долгие – в 2 раза медленнее, чем у GPT-5 Thinking

👀 Ответы чище: меньше жаргона и непоясненных терминов, материал легче читать, особенно когда нужно объяснять техничку или сложные рабочие кейсы. Тон по умолчанию тоже сделали более эмпатичным

Персонализация

В настройках ChatGPT обновили личности. Остались Default/Friendly/Efficient, добавились Professional, Candid и Quirky, плюс старые Nerdy и Cynical

Теперь можно отдельно крутить, насколько ответы будут краткими/теплыми и как часто модель будет сыпать эмодзи. ChatGPT умеет сам предлагать обновить эти настройки, если вы регулярно просите другой тон прямо в диалоге. Все эти параметры действуют для любых моделей

Успел немного потыкать – нравится adaptive reasoning, но сильно не нравится чрезмерная игривость и шутливость без каких-либо изменений в персонализации с моей стороны. А вам как?

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

3🏆19

4.21K views11:00

About

Blog

Apps

Platform