В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом
Вот некоторые цифры из результатов:
Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥9❤4⚡2
Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности
Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год
Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования
Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳13🔥5❤1🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:
Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤🔥12🔥3🐳3
Только что началась трансляция на YouTube канале OpenAI про фичу оператора.
Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg
Статья: https://openai.com/index/computer-using-agent/
Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Introduction to Operator & Agents
Begins at 10am PT
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
🐳6❤🔥2⚡1
Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев
И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!
Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡10❤3😢2🐳1
Media is too big
VIEW IN TELEGRAM
Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)
Вот они, слева направо: сайт, статья, GitHub
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🐳2❤1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
🔥14🐳6❤2
Forwarded from РИСЕРЧОШНАЯ
huggingface.co
yandex/yambda · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Сегодня — честный обзор на уже захайпленный датасет.
Если вы когда-либо занимались ресерчем в рексисе, то точно сталкивались с проблемами датасетов.
(Можно вспомнить классическую статью Are We Really Making Much Progress?)
Сначала — немного боли из прошлого:
— гигантский гэп между train и test
— однотипный фидбек
— отсутствие разнообразия пользовательских паттернов
И это всё — на фоне постоянных споров в академии про то, что вообще считается хорошим датасетом.
Даже если вы соберёте SOTA-модель — она может просто не «прокраситься» на кривом сете.
Ну серьёзно, в том же MovieLens test отстоит от train на несколько лет.
И вот — датасет от Яндекс Музыки.
Огромный:
пришёл ли пользователь к треку сам или его привёл алгоритм
С одной стороны — это прям must-have для исследовательского пула.
Многоуровневый фидбек:
Даже эмбеддинги спектрограмм есть.
А ещё — продуманный split:
(приложу картинку в комментах — очень в тему для продовой оценки)
По сравнению с Netflix, Steam и прочими — это реально большой и комплексный датасет.
Я бы еще упомянул о бенчмарках и красивом коде куда на мой взгляд легко интегрировать свои решения.
Один момент, о котором почти никто не говорит — это домен.
Яндекс Музыка — это, как и TikTok, продукт с ярко выраженными короткими и длинными предпочтениями.
Здесь трансформеры можно не просто тестировать — здесь они раскрываются.
Но. Доверяй, но проверяй.
Спасибо ребятам из Яндекса за такой летний подгон.
Реально мощный вклад в сообщество, действительно мало компаний могут себе это позволить.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳10❤5⚡5
На сайте nof1.ai запустили эксперимент Alpha Arena – LLM торгуют криптой за настоящие деньги. Каждой модели выдали по $10.000 и одинаковый промпт с техническими индикаторами, без доступа к новостям
Список участников: GPT-5, Claude 4.5 Sonnet, Grok 4, Gemini 2.5 Pro, DeepSeek V3.1, Qwen 3 Max
Сейчас лидирует Qwen 3 Max с доходностью +14% и капиталом $11.4k, следом DeepSeek Chat v3.1 с +10%. Grok 4 и Claude Sonnet 4.5 уже в минусе на ~15-17%, Gemini 2.5 Pro просел почти на -56%, а GPT-5 – абсолютный аутсайдер с -69% от стартового депозита.
Ирония в том, что авторы называют рынки ultimate test of intelligence, но по факту тестируют скорее устойчивость к рандому и комиссиям, а долгое время выигрывала модель, которая вообще не трейдила
Графики, метрики, сделки и чат: nof1.ai
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆20
OpenAI выкатывает обновление линейки GPT-5 – теперь это GPT-5.1, с упором на более живое общение и нормальные настройки тона. Внутри две ветки: Instant и Thinking
GPT-5.1 Instant
GPT-5.1 Thinking
Персонализация
В настройках ChatGPT обновили личности. Остались Default/Friendly/Efficient, добавились Professional, Candid и Quirky, плюс старые Nerdy и Cynical
Теперь можно отдельно крутить, насколько ответы будут краткими/теплыми и как часто модель будет сыпать эмодзи. ChatGPT умеет сам предлагать обновить эти настройки, если вы регулярно просите другой тон прямо в диалоге. Все эти параметры действуют для любых моделей
Успел немного потыкать – нравится adaptive reasoning, но сильно не нравится чрезмерная игривость и шутливость без каких-либо изменений в персонализации с моей стороны. А вам как?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
3🏆19