NEW BOT Телеграм, страница

Вечерний юмор.

Когда просишь спеца по GPU инфре скинуть видос на свой пет проект...

"Нуу вопросов многа, но зато она работает".(с)

😁35👍5❤3

5.36K viewsedited 18:25

Dealer.AI

OpenAI и жиза про память от Дяди.

Все уже слышали про новый апдейт памяти от OpenAI? Кстати, прошел ровно год считай с анонса этой фичи, и Дядя по этому поводу писал об этом и о своих мыслях о памяти. Дядя занимается памятью тоже, ибо для ассистентов и агентов это важная фича.

Самое интересное,что по обещанным новшествам:
- помнит не только факты, но и старые контексты с чатов
- как следствие понимает стиль юзера и апает персонализацию.

Далее прокомментирую апдейт. Но начну с личного опыта – расскажу вам, как сейчас на рынке +/- устроена память:

1. Old style. 😦
На сценарном движке зашито в виде слотфиллинга. Слотфиллинг это алгоритм заполнения автоматом с учетом распознования намерения слотов (ключей в json), позволяет лучше держать контекст и не перезадавать тупых вопросов.
Сюда же относится всякий NER/ классификаторы, которые и могут делать span extraction и классификацию тематик интересов, к примеру. Они же в слотфиллинге занимают роль моделек для заполнения.

2. In long context we trust. 😏
Предлагается "бесконечная память" на основе жирного и потенциально эффективного контекста (нет), тк в вашей системе врядли найдутся юзеры с диалогами на 10М токенов. Тут все понятно, писал об этом здесь. Главное,что на практике совать память в контекст, без вырезки как это делает, к примеру DeepSeek R1 с "думающими" токенами и областью между ними, будет больно. На нашем опыте глюки обеспечены. Поэтому нужно предусмотреть механизм: "контекст-последняя реплика-память-ответ-вырезать память из контекста и по кругу".

3. Саммаризация 🥱 или когда контекст не резиновый.
Если есть пример, когда все жирно пассажирно по контексту, вот вам пример с коротким контекстом. Правда подходит больше это под один из блоков памяти и в лоб без ухищрения позволяет иметь локал память. Можно хранить саммари прошлых диалогов и передавать их к новым рядом с систем промптом. Но и контекст саммари нерезиновый поэтому лучше микстить с предыдущим подходом или следующими.

4. Готовим из памяти RAG'у.
Есть любители и такой кухни. Могут тупо хранить эмбы диалогов+сам текст по юзеру с dialogue_id. Далее, использовать в контексте или всегда по умолчанию делая ретрив или умно, к примеру, отсекая по скору ранкера или вовсе перенося на функцию памяти принятие решения. Также можно умно нарезать диалог, прося саму LLM вырезать те спаны текста,что она считает полезными для хранения,тем самым не хранить диалоги, а только их важные кусочки. Можно и не LLM просить, а те ner extractor, из пункта выше, вариантов масса. А так действительно зачем нам всякие смолтоки мусорные аля: "
-привки,
-даров,
-как дела?
-,ок,
-ну лан".

Сюда кстати применимы подходы и через саммаризацию, когда в индекс памяти кладут важное саммари диалога, с минимумом воды и уже ретривят такое.

Вызовы с RAG памятью состоят в том,чтобы думать за инфру хранения: обновления индекса по юзеру "на лету", памяти где бы столько взять (юзер-то не один) и т.п. В остальном вполне себе решение. Это помимо логики нарезки и ретрива.

4. Structured output (SO) +Function calling 🧠.
Пример глобальной памяти на SO. Необходимо создать систему, которая понимает, когда забрать инфо из контекста и положить в память, или наоборот, выдать релевантные факты из памяти в контекст для использования. Остаются вопросы, кто экстрактит данные, как писать в память и возвращать обратно. Продумать шаблон хранения памяти и форматирования контекста. Сделав это, можно жить и так, а можно все фишки сверху накрутить. Хранить при помощи саммари в ключах SO памяти, или иметь доп ретрив логику. Экстрактить можно LМкой в память инфо, а можно аля слотфиллинг, при помощи NER. Функции можно роутить LLM, можно юзать классификатор или эмбеддер аля, как в RAG. В общем этот пункт может быть наиболее зрелым, но свои вызовы тут тоже есть, особенно если микстить с предыдущими подходами и наследовать их проблемы.

Итого, что может быть у OpenAI. Дядя думает,что микст long context + RAG или + SO/function call.

А что выберите или выбрали вы? Пишите в комментариях.

Please open Telegram to view this post

VIEW IN TELEGRAM

X (formerly Twitter)

OpenAI (@OpenAI) on X

Starting today, memory in ChatGPT can now reference all of your past chats to provide more personalized responses, drawing on your preferences and interests to make it even more helpful for writing, getting advice, learning, and beyond.

1❤16👍16🔥6

4.51K viewsedited 13:30

Dealer.AI

OpenAI и жиза про память от Дяди. Все уже слышали про новый апдейт памяти от OpenAI? Кстати, прошел ровно год считай с анонса этой фичи, и Дядя по этому поводу писал об этом и о своих мыслях о памяти. Дядя занимается памятью тоже, ибо для ассистентов и агентов…

Про ёмкость эмбеддингов.

Тут в комментах предыдущего поста про память мне скинули пост соседей по цеху. Про исследование сколько информации может закодировать эмбеддинг языковой модели.

Статья вот. Пост вот. А мысли Дяди ~~вот~~ далее.

Данное исследование дает очень интересные инсайты, которые полезны как для RAG так, и для памяти на базе него, и в т.ч. для всяких там RETRO/CAG и KV-caching, даже с лонг контекстом важное. Получается, чтобы кодировать текст для той же памяти через эмбеддинги нужно иметь ввиду размерность эмбеддинга, капасити модели кодировщика, и сложность текста. И тогда ко всему выше, мы добавляем еще метапараметры для настройки и выбора моделей кодировщиков.

А еще если посмотреть, что для прода сейчас пригодны эмбеддеры около 1-3b, а еще лучше до 1b ёмкостью, то в среднем это позволяет только 512 токенов эмбедить за один вектор эффективно. Вот и делаем выводы. Думаю исследования капасити эмбедов станет интересной вехой развития RAG, KV-caching и вещей вокруг аля CAG/RETRO.

От себя добавлю, что в наших экспериментах вокруг multitasking embedders, мы обнаружили ещё одну интересную закономерность по сжатию эмбедов или с учителя, когда с тушки еще есть пожимающий адаптер, или на ученика, когда учитель дистиллится учеником. И тут коэффициент пожатия размерности эмбеддера ~2.4-2.56. Чтобы пожать размерность эмба с 768 без потери downstream качества поиска, кластеризации или классификации, мы можем опуститься максимум до 300. А для 1024 максимум до 400. Потом качество уже будет значимо снижаться от 5% пунктов и выше.

Вот такие мутки, гульки(с).

Пишите в комментариях свои наблюдения вокруг этой темы, интересно.

arXiv.org

Cramming 1568 Tokens into a Single Vector and Back Again:...

A range of recent works addresses the problem of compression of sequence of tokens into a shorter sequence of real-valued vectors to be used as inputs instead of token embeddings or key-value...

👍18❤14

4.82K viewsedited 11:38

Dealer.AI

Юмор в том же вижуал духе,что и https://news.1rj.ru/str/denissexy/9929

Рубрика: улыбка в воскресенье.

👍19😁16🔥3🌚2

4.83K viewsedited 13:31

Dealer.AI

https://www.youtube.com/watch?v=kA-P9ood-cE

Глядите, потом расскажите.

4.3K views17:10

Dealer.AI

https://www.youtube.com/watch?v=kA-P9ood-cE Глядите, потом расскажите.

ТЛДР.

😁46💅8👍1

3.88K views18:51

Dealer.AI

ТЛДР.

Ахаха, они такие: "чеел, мы крч модели принесли, но архитектуру и веса не дадим, на APIху". До кучи, наверное, закрываем скоро gpt4.5.

Ну не грусти, шкет. Садись на лицо промптинга модели gpt 4.1 и на тебе кукбук, как это сделать без лишней боли. Крч, шкет, переписывай свои промпты, власть сменилась.

Upd. Там есть swe промпты для агентов даж, прикольное.

TechCrunch

OpenAI plans to phase out GPT-4.5, its largest-ever AI model, from its API | TechCrunch

OpenAI says it'll soon wind down GPT-4.5, its largest-ever AI model, in its API only months after releasing it.

😁8🤯5👍4🤓1

4.43K viewsedited 11:09

Dealer.AI

Интересно, реально или вранье, чтобы нагнать классы? 🤔

https://lifehacker.ru/perplexity-v-telegram/

Please open Telegram to view this post

VIEW IN TELEGRAM

Лайфхакер

В Telegram официально появился ИИ-поисковик Perplexity — Лайфхакер

Внутри мессенджера он может отвечать на вопросы, писать тексты, переводить, объяснять сложные темы, создавать код и многое другое.

4.03K viewsedited 10:41

Dealer.AI

Второй крестовый поход на ai-agents. Про то, как вам продают RAG системы под соусом агентов в Х раз дороже. Ну ибо хайпово че. Но Дядю не проведешь. Сегодня быстро разберем, вполне хорошо написанный пост от red-mad-robot, если бы это было про RAG. Ребята…

Agents - не Anthropic'ом едины.

OpenAI также выпустили свой гайд, считаем взгляд, на агентов.

Читаем, образовываемся, создаем свои стандарты или выбираем удобный (антропиков или опенов).

Upd. Гайды пополняются туть.

🔥15❤1👍1

5.8K viewsedited 12:13

Dealer.AI

Ахаха, они такие: "чеел, мы крч модели принесли, но архитектуру и веса не дадим, на APIху". До кучи, наверное, закрываем скоро gpt4.5. Ну не грусти, шкет. Садись на лицо промптинга модели gpt 4.1 и на тебе кукбук, как это сделать без лишней боли. Крч,…

Мем дня.

😁51

4.51K viewsedited 18:08

Dealer.AI

addmeto

Anthropic оказывается довольно долгое время уже работают над использованием классификаторов для борьбы против джейлбрейков. Напомню, почти все большие языковые модели содержат некоторую цензуру, им запрещено говорить на некоторые темы. Для обхода этой цензуры…

Какой-то там элаймент vs мониторы/цензор оценщики и пр.

Следом за Anthropic и OpenAI сдались с элайментом и перешли на гибрид с внешними цензор классификаторами, которых зовут мониторами. Дядя писал уже тут об этом, но про рассуждения. Это небольшие сетки обученные на детекцию запретных тем запросов и генераций. Говорят, 98.7% качество. Но на самом деле, следить над бы за FPR в тч.

Забавно, элайнят, элайнят, чтобы потом просто сверху и снизу классификаторы навесить. Дядя такое уже юзал лет 5 в обед.

Конечно в гибриде элайн+внешние оценщики лучше работает. Но и это можно взломать разными атаками, все-таки oov примеры никто не отменял,также как и атаки токенизацией.

👍10⚡3🔥2

4.2K viewsedited 12:32

Dealer.AI

AirFlow, MLFlow, DVC, ClearML?? Пффф. InstructPipe от Google!!!

Вот тебе шкет, к вайб кодингу еще и вайб пайпинг. Фу, звучит даже противно.
Крч берёшь, пишешь инструкцию к LLM для ML пайпа и получаешь псевдокод, псевдо инструкцию, и псевдо интерпретацию. 🤣

🤣

Шучу, получаешь крч ток псевдо код, пайп и блоксхемку.
Делоешь, вайб автомотизируешь и койфуешь.

https://research.google/blog/instructpipe-generating-visual-blocks-pipelines-with-human-instructions-and-llms/

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21🤔6❤4😢3😱2👾2

4.96K viewsedited 11:11

Dealer.AI

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.

So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)

В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.

Подробнее тут: https://huggingface.co/papers/2504.08791

👍21🔥9👨‍💻3

6.3K viewsedited 19:25

Dealer.AI

Раскуривание полезных фреймворков НЕ вредит вашей нейропластичности(с)

2😁22😈4👍3

4.02K views19:32

Dealer.AI

26 сентября 2025 года у нас пройдет AiConf2025, в рамках подготовки конференции вас ждет серия интересных статей.

Сегодня расскажу о своем пути в профессию и поделюсь своим взглядом на то, как войти в IT AI. Также затрону вопросы связанные с работой в этой отрасли, с вызовами и нюансами. И конечно приглашаю Вас к участию в конференции, регистрируйтесь и подавайте свои доклады!

Хабр

Как я стал AI-специалистом: путь от студенческой лабораторной до оргкомитета AiConf Х

Привет! Меня зовут Александр Абрамов, я руковожу AI-командами в R&D для b2c в SberDevices, веду канал про AI и вхожу в программный комитет конференции AiConf Х . В этой статье хочу...

1👍17🔥8❤3

4.35K viewsedited 09:09

Dealer.AI

Llama 4 про 10M контекст и будущее RAG, memory etc. Это не будет очередным обзором о новой моделище (а ламки вышли real chubby). Об этом вы итак почитаете у соседей. Мне вот больше интересно про длинный контекст 10М и прочие сопутствующие вопросы. Во-первых…

Говорил ж Дядя, что не верь ушам своим, верь глазам и рукам. 🛑 И что сам можешь проверить и убедиться. А не то, что там они в своих тех. репортах пиарят. 😩

Мало иметь большой контекст, когда нужен эффективный. И дай бог он 128к будет. 🥲

Вот смотрите, ребятки разобрали NoLiMA об этом. 😘

Читаем, образовываемся.

Please open Telegram to view this post

VIEW IN TELEGRAM

Neural Kovalskii

1M контекст - фейк? Тесты NoLiMa показали что RAG на длинных контекстах почти мертв? 💀

⠎⡤⠚⢤⡡⠙⠬ ⡅⠘⠦

Наткнулся на интересное исследование Adobe Research про новый бенчмарк NoLiMa (Long-Context Evaluation Beyond Literal Matching)

В отличие от классического…

👍22❤6

4.55K views18:48

Dealer.AI

RuMTEB в составе MMTEB на ICLR2025.

Мои тигриные львы и львухи (для олдов львицы) на ICLR2025. 💃

🥳

Мы начали этот путь с работы по бенчмарку ruMTEB и вошли в состав авторов международного MMTEB (в части ру языка).

Впереди нас ждет еще одна конференция по бенчмарку и ru-en-RoSBERTa. Но об этом позже.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤37🔥11👍9

5.81K views08:53

Dealer.AI

Шанхай выставка автомобилей и технологий.

Пока идёт ICLR 2025 и рядом NAACL2025, китайцы провели свой очередной автосалон. И сегодня это уже не про автомобили, очень много роботов. Самое интересное со своими core технологиями и конечно с LLM.

Считаю,что авто выставки уже давно не про тачки. Это в том числе флекс своим ИИ. Который уже стал привычен в виде автопилотов и ассистентов. Будущее и где-то уже настоящее в продвинутых роботах. Вот к примеру на фото робот с DeepSeek. И вскоре и до нас докатится,что в каждом продвинутом банке будут такие роботы ассистенты. А потом и дома.

К примеру, на выставке представили робота,который может выполнять обслуживание вашего авто: выходить в гараж или двор заряжать ваше авто, помогать в сканированнии тех.состояния и тп.

В общем, в невероятные времена живём.

🔥18❤7👍5

3.81K viewsedited 13:10

Dealer.AI

GenAI в угоду юзеру.

Пару интересных и, если присмотреться, связанных исследований.

Первое. Снова мастер стандартизации в ИИ - Антропик опубликовали исследование об использовании копайлотов для кодирования. По результатам анализа фокус группы получаем цифры.
Code Claude используется для кодинга вместо юзера в 79% случаев, т.е. юзер делает минимум работы по проверке и правке и почти сразу переиспользует генерацию.

Тут же коллеги по цеху кекают, что мол, как скоро кожАные перестанут быть передаточным звеном в этой цепи.

И тут врубается второе исследование Стенфордского университета. В нем говорится о сикофантии - изменении мнения под давлением или в угоду ожиданиям юзера. При этом, там даже есть вышеупомянутый Claude.
А теперь представьте, что LLM будет генерить код с ошибками
специально, чтобы у человеков была возможность его править, и чувствовать себя нужными. 🧠Или человеки будут специально искать у генераций недочеты и склонять LLM в результате проверок отказываться от своего "мнения" и дискредитировать себя. 🧠 Крч снова, все, чтобы чсв хумана осталось непоколебимо. 😏

Это так, затравочки, исследования интересны, советую почитать. В этом-то и была цель такой связки

😐

Please open Telegram to view this post

VIEW IN TELEGRAM

Anthropic

Anthropic Economic Index: AI's impact on software development

Data on how software developers are using Claude

🔥8👍6❤2😈1

3.89K viewsedited 19:00

About

Blog

Apps

Platform