Data, Stories and Languages – Telegram
Data, Stories and Languages
2.98K subscribers
64 photos
7 videos
475 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​Как сделать так, чтобы ваша модель была топ-1 на лидерборде?

Конечно, создать свой лидерборд.

Представляю вашему вниманию лидерборд от... Франции: https://comparia.beta.gouv.fr/ranking

Сделали лидерборд на основе Bradley-Terry satisfaction score, и mistral-medium-3.1 занимает гордое первое местро
😁34
​​5-Day AI Agents Intensive Course with Google

Если кто пропустил, сегодня начался курс по агентам на Kaggle от Google.

https://www.kaggle.com/learn-guide/5-day-agents

Первый день... не впечатлил.
Из хорошего: описали подходы к построению систем с несколькими агентами, дали практические примеры.
Из минусов: по факты мы просто дергаем гугловые апишки. Наверное я слишком наивно надеялся на то, что нас будут учить делать агентов с нуля.

Но может это и не было целью. Кстати, я как раз несколько дней назад наткнулся на шикарный блогпост, показывающий как просто написать базового агента с tools и function calling: https://fly.io/blog/everyone-write-an-agent/

#datascience #kaggle
🔥8👍21
​​Текущее состояние собесов в индустрии. 11 технических раундов, код из домашнего задания вмёрджили в кодовую базу, но вы всё равно не подходите

https://x.com/beaversteever/status/1987913872573939818
🤯20😁8💩42💔1
We ran over 600 image generations to compare AI models

https://latenitesoft.com/blog/evaluating-frontier-ai-image-generation-models/

Довольно интересный блогпост. Авторы работают над своим приложением для фото и их редактирования, и в ходе работы делали много экспериментов с тремя основными моделями: OpenAI (gpt-image-1), Gemini - gemini-2.5-flash-image (nanoBanana), Seedream (seedream-4-0-250828).

В блогпосте можно посмотреть много примеров и почитать про проблемы.

Общие выводы:
- Gemini отлично сохраняет детали и минимально галлюцинирует, но ценой этого являются частые отказы, особенно при запросах на редактирование фото людей. Нередко просто возвращает неизменённые картинки
- OpenAI часто изменяет детали фото (особенно в лицах людей), что является проблемой. И нередко добавляет оранжевый цвет (Hello Mexico :D). Но хорошо работает для креативных изменений.
- Seedream где-то посередине

#datascience
🔥3👍1
​​GPT-5.1: A smarter, more conversational ChatGPT

https://openai.com/index/gpt-5-1/

Никто не ждал, но вот новая версия подъехала! И не просто 5.1, а 5.1 Instant и 5.1 Thinking.

"""We heard clearly from users that great AI should not only be smart, but also enjoyable to talk to. GPT‑5.1 improves meaningfully on both intelligence and communication style.

We’re also making it easier for you to shape ChatGPT’s tone. Preferences on chat style vary—from person to person and even from conversation to conversation—so we’re introducing more intuitive and effective controls so ChatGPT can better match the tone you want in responses."""

Интересно, неужели вернули к спорному стилю, который был не так давно удалён?

"Earlier this year, we added preset options to tailor the tone of how ChatGPT responds. Today, we’re refining those options to better reflect the most common ways people use ChatGPT. Default, Friendly (formerly Listener), and Efficient (formerly Robot) remain (with updates), and we’re adding Professional, Candid, and Quirky. "
И дефолтные стили обновили

#datascience
😁4👍1🔥1
Lumine: Building Generalist Agents in 3D Open Worlds

Ресерчеры в Тиктоке, похоже, уже сделали всё что могли, осталось лишь развлекаться.

https://www.lumine-ai.org/

https://x.com/WeihaoTan64/status/1988853307587088616

Они натренировали агента для игры в... Genshin Impact. Полноценная трёхмерная игра с относительно открытым миром. Агент может пройти основную историю (которая занимает часов 5).

#datascience
🔥6🤯2😁1
​​Study Mode в ChatGPT

Я вчера вспомнил, что в ChatGPT есть "study mode" и решил попробовать его. Впечатления пока смешанные. С одной стороны, он действительно помогает разобраться в некоторых вопросах. С другой стороны, он может слишком уж разжёвывать.

Один из вопросов, который я попробовал - "I want you to help me understand how to write code for calculating attention in pytorch".
Я сразу получил полную формулу, спорно, но окей. Пошли дальше.
И он стал давать такие "задачки", в которых я просто не вижу смысла.

Пример1:

ChatGPT:What line would you write for output = ... using torch.matmul(attnweights, V) to get shape (B, T, dk)?
Я: output = torch.matmul(attn_weights, V)
ChatGPT: Exactly right — that’s the clean and correct way

Следующий пример ещё веселее. Я попросил помочь с multihead-attention. "Диалог" можно увидеть на скриншоте.

Я использовал 5.1-Thinking.

Справедливости ради, если написать промпт получше (описать мои текущие знания, попросить двигаться по шагам, попросить не разжёвывать), результаты получаются более годными. И возможность задавать вопросы или попросить объяснить что-то по другому - очень удобно.
👍3😁21
​​HunyuanImage 3.0 Technical Report

Очередная статья от Tencent. HunyuanImage 3.0 — это большой шаг вперёд в open-source T2I: natively multimodal модель на autoregressive архитектуре. В основе подхода аккуратная работа с данными, продвинутая архитектура с MoE (80B параметров, 13B активных на токен), собственная CoT-схема, multi-stage pre-training и post-training. По метрикам и человеческим оценкам модель выходит на уровень топовых closed-source решений.

Меня особенно впечатлило то, что в сумме получается почти 10 этапов обучения. На практике, чем больше этапов, тем легче что-то поломать, но вот у авторов это успешно получилось. И сами картинки получаются годными.

Paper
Code

Мои обзоры:
Personal blog
Medium
My DS Notes

#paperreview
🔥4🗿21
​​Ревью статей для конференций выходит на новый уровень
😁5🤡5
​​Текущий стиль обсуждения AI vs non-AI
🤣33
Kaggle MCP

https://www.kaggle.com/docs/mcp

Вы когда-нибудь думали "было бы прикольно использовать Kaggle через агентов"?. Я - нет, а вот кто-то в Goggle об этом подумал. Теперь есть доступный MCP, чтобы работать с ноутбуками, соревнованиями и прочим.

#datascience
🔥6😁1
​​SAM 3: Segment Anything with Concepts

SAM 3 — это новое поколение Promptable Concept Segmentation: модель умеет по коротким фразам или image exemplars находить, сегментировать и трекать все объекты в изображениях и видео. Авторы собрали датасет на 4M уникальных концептов (включая hard negatives), архитектура объединяет image-level detector и memory-based video tracker на одном backbone. Отдельный presence head отделяет “что” от “где” и заметно улучшает распознавание. В итоге SAM 3 дает 2х прирост качества в PCS для изображений и видео и ощутимо превосходит предыдущие версии SAM в сегментации. 🔥

А ещё Мета выпустила модели для 3D.

Paper
Blogpost
Demo
Code and weights

Мой обзор на одну из прошлых версий - EfficientSAM.

Мои обзоры:
Personal blog
Medium
My DS Notes

#paperreview
🔥51👍1
Modern problems have modern solutions -> Modern projects have modern problems
🤣8😢1
Forwarded from Сиолошная
https://www.anthropic.com/news/claude-opus-4-5

Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified!

Бонусом в модель добавили effort control — прямо как у OpenAI: high, medium, low, дольше думает = лучше решает.

На бенчмарках... ВНЕЗАПНО ждём, потому что цена упала до $5/$25 за миллион токенов (в 3 раза).
🔥5
Vibe... Writing

Какое-то время назад я стал GDE (в секции Kaggle) и могу слушать разные workshop и выступления для "внутренней аудитории". Вчера я послушал доклад, и у меня было дикое WTF.

Автор (раньше была разработчиком, теперь devrel) рассказала про свой MCP для VibeWriting: https://danicat.dev/posts/20250805-introducing-speedgrapher/

https://github.com/danicat/speedgrapher

Мол, когда начинаешь писать текст, у тебя много мыслей в голове, которые можно потерять. Плюс, совсем не хочется думать о грамматике, структуре предложений и прочем. В результате она создала систему промптов для полуавтоматического написания блогпостов.

Workflow получается такой:
• Агент в режиме интервью задаёт тебе вопросы типа "о чём хочешь написать блогпост".
• Команда outline генерит общую структуру документа
• Команда voice добавляет в модель alignment на твои прошлые тексты
• Команда expand пишет сам текст
• Команда review проверяет соответствует ли текст заранее написанным guidelines
• Дальше можно провести пару циклов итераций для улучшения - и публиковать

Что главное: изначально я предположил, что получаемые посты - унылый ai slop, но я пролистал несколько блогпостов - и они выглядят в целом неплохо (если смотреть поверхностно, я не вчитывался). Наверное так себя чувствовали люди, когда видели первые примеры vibe coding.
😱6🔥4👍1👎1
​​Book Review: Deep Learning Math Workbook

Я получил очередную книжку от издательства Packt на ревью - “Deep Learning Math Workbook” by Prof. Tom Yeh.

Я ожидал что угодно, но это оказался реально workbookn - никаких объявнений, только задачки. Предполагаю, что есть другая книжка - с детальными пояснениями.

Но в целом это прикольно и полезно для практики. Покупать бы сам я вряд ли стал, но вдруг кому будет полезно.

https://packt.link/RgoMy

#books
👍2👎1
​​В наше время даже цену на комнаты в отеле не могут предсказать без агентов
😁131
Gemini app downloads are catching up to ChatGPT

https://www.ft.com/content/8881062d-ff4f-4454-8e9d-d992e8e2c4e3

Судя по статистике, Gemini начинает догонять ChatGPT по количеству скачиваний. Но лишь по ежемесячному количеству скачиваний, не по общему.

Ещё любопытно, что perplexity потихоньку растёт.
🔥9
https://docs.neptune.ai/transition_hub/

Неожиданное приобретение. Неужели OpenAI не может нормально трекать тренировку своих моделей?
🔥3