EARLY BIRD: останній день 🐣💸
Час спливає, тож встигни вихопити свій квиток за привабливою ціною на Data Science UA Meetup: "Від промптів до LLM та синтетичних аудиторій: як працює AI сьогодні" 🤖
Нещодавно ми вже ділилися деталями доповідей, а сьогодні знайомимо з експертизою спікерів.
📍 "Майбутнє аналізу контенту: AI-агенти, синтетичні аудиторії та атрибути відео для глибинного розуміння глядачів"
Cпікери: → Олексій Шалденко – CEO та Co-founder українського AI-стартапу Wantent для оцінки ефективності контенту. Кандидат технічних наук з 8 роками досвіду у VFX – зокрема брав участь у голлівудських проєктах класу AAA+.
→ Костянтин Здор – Head of AI та Co-founder Wantent, що очолює розробку рішень для аналізу відео, спеціалізується на емоційному аналізі, прогнозуванні успішності контенту та використанні AI-агентів і синтетичних аудиторій для взаємодії з глядачами.
📍 "Промпт – це лише початок: практичний гайд з контролю та оцінювання мовних моделей"
Спікер: → Максим Кметь – Senior AI Engineer в MacPaw, експерт з 6-річним досвідом у розробці ML-рішень у різних напрямках: від smart city до рекомендаційних систем та NLP. Сьогодні працює над AI-рішеннями, тісно інтегрованими з продуктами Apple.
Модераторка івенту – Олександра Богуславська, CEO та Founder Data Science UA.
🐦 Early Bird - хоча й не горобець, але вилетить – не спіймаєш. Тому хапай квиток вже зараз.
Час спливає, тож встигни вихопити свій квиток за привабливою ціною на Data Science UA Meetup: "Від промптів до LLM та синтетичних аудиторій: як працює AI сьогодні" 🤖
Нещодавно ми вже ділилися деталями доповідей, а сьогодні знайомимо з експертизою спікерів.
Cпікери: → Олексій Шалденко – CEO та Co-founder українського AI-стартапу Wantent для оцінки ефективності контенту. Кандидат технічних наук з 8 роками досвіду у VFX – зокрема брав участь у голлівудських проєктах класу AAA+.
→ Костянтин Здор – Head of AI та Co-founder Wantent, що очолює розробку рішень для аналізу відео, спеціалізується на емоційному аналізі, прогнозуванні успішності контенту та використанні AI-агентів і синтетичних аудиторій для взаємодії з глядачами.
Спікер: → Максим Кметь – Senior AI Engineer в MacPaw, експерт з 6-річним досвідом у розробці ML-рішень у різних напрямках: від smart city до рекомендаційних систем та NLP. Сьогодні працює над AI-рішеннями, тісно інтегрованими з продуктами Apple.
Модераторка івенту – Олександра Богуславська, CEO та Founder Data Science UA.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3⚡2
Професор Вортона, дослідник АІ та автор бестселера New York Times «Спільний інтелект», Ітан Молік вирішив провести жартівливий, навіть «жахливий» експеримент, використовуючи AI – він попросив провідні LLM вигадати найбільш дратівливу капчу у світі 😆
Кожна модель підійшла до завдання по-своєму, але найкреативнішим виявився Claude: він згенерував цілих дев’ять «кіл пекла» (відсилка на Данте?👀) з перевірками на «я не робот».
Думаємо, що це такий собі хороший бенчмарк для моделей, щоб показати, як вони справді "думають" і які рішення готові придумати, аби викрутитися із нестандартних ситуацій 🫠
Ось тут можна спробувати версію капчі від Claude.
📸 #1: Gemini 2.5 Pro Deep Thinking
📸 #2: Claude 4.1 Opus
📸 #3: Grok 4
📸 #4: GPT-5 Thinking
Кожна модель підійшла до завдання по-своєму, але найкреативнішим виявився Claude: він згенерував цілих дев’ять «кіл пекла» (відсилка на Данте?👀) з перевірками на «я не робот».
Думаємо, що це такий собі хороший бенчмарк для моделей, щоб показати, як вони справді "думають" і які рішення готові придумати, аби викрутитися із нестандартних ситуацій 🫠
Ось тут можна спробувати версію капчі від Claude.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁11❤3👀3👍2
Цей job digest та ти — як Едвард і Белла: створені бути разом 😎
Тож лови нову порцію вакансій, щоб твоя кар’єра не перетворилася на вампірський сонячний «нічний кошмар» ☀️
Lead:
🔸CV Embedded Lead
🔸AI Datasets Lead
Senior:
🔹Senior Data Scientist/NLP Lead
🔹MLOps Engineer
🔹Senior/Middle Data Scientist (Data Preparation & Pre-training)
🔹Senior/Middle Data Scientist (Benchmarking & Alignment)
🔹Senior NLP Engineer (Part-time)
Middle:
▪️Data Engineer
▪️AI QA Engineer
▪️Data Scientist
Junior:
▫️Quantitative Researcher
Не тримай цей job digest при собі — відправ друзям та колегам, щоб і вони не пропустили свій шанс 😉
Тож лови нову порцію вакансій, щоб твоя кар’єра не перетворилася на вампірський сонячний «нічний кошмар» ☀️
Lead:
🔸CV Embedded Lead
🔸AI Datasets Lead
Senior:
🔹Senior Data Scientist/NLP Lead
🔹MLOps Engineer
🔹Senior/Middle Data Scientist (Data Preparation & Pre-training)
🔹Senior/Middle Data Scientist (Benchmarking & Alignment)
🔹Senior NLP Engineer (Part-time)
Middle:
▪️Data Engineer
▪️AI QA Engineer
▪️Data Scientist
Junior:
▫️Quantitative Researcher
Не тримай цей job digest при собі — відправ друзям та колегам, щоб і вони не пропустили свій шанс 😉
😁8🌚3❤2👀2
OpenAI викотили GPT-5-Codex – нову версію GPT-5, оптимізовану для «агентного» програмування 🤖💻
Тобто модель не лише допомагає у швидких сесіях, а й може самостійно працювати над великими тасками по 7+ годин: від рефакторів на тисячі рядків до генерації тестів і деплойменту.
▪️Код-рев’ю як у сеньйора: модель ловить критичні баги й помилки в PR ще до релізу.
▪️Стає «розумнішою» залежно від складності: прості таски робить швидше, а на складні витрачає більше часу на роздуми.
▪️Працює всюди: термінал (CLI), IDE (VS Code, Cursor), GitHub і навіть у ChatGPT iOS-додатку.
▪️Зменшує фальшиві або неважливі коментарі, натомість концентрується на критичних місцях.
У code refactoring задачах точність зросла з 33.9% (GPT-5) до 51.3%, а у code review – кількість некоректних коментарів впала з 13.7% до 4.4%, а важливих навпаки стало більше (39.4% → 52.4%).
Будете юзати? 👀
Тобто модель не лише допомагає у швидких сесіях, а й може самостійно працювати над великими тасками по 7+ годин: від рефакторів на тисячі рядків до генерації тестів і деплойменту.
▪️Код-рев’ю як у сеньйора: модель ловить критичні баги й помилки в PR ще до релізу.
▪️Стає «розумнішою» залежно від складності: прості таски робить швидше, а на складні витрачає більше часу на роздуми.
▪️Працює всюди: термінал (CLI), IDE (VS Code, Cursor), GitHub і навіть у ChatGPT iOS-додатку.
▪️Зменшує фальшиві або неважливі коментарі, натомість концентрується на критичних місцях.
У code refactoring задачах точність зросла з 33.9% (GPT-5) до 51.3%, а у code review – кількість некоректних коментарів впала з 13.7% до 4.4%, а важливих навпаки стало більше (39.4% → 52.4%).
Будете юзати? 👀
❤10😁4👀2
🚨 Чи може вузьке донавчання зробити LLM глобально «небезпечними»?
Дослідники Ян Бетлі, Деніель Тан та колеги опублікували роботу Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, де виявили феномен emergent misalignment – неочікуване широке розузгодження моделей після донавчання на обмежених задачах.
🔍 Як проводили тест:
1️⃣ Брали узгоджені моделі (серед яких GPT-4o, Qwen2.5-Coder-32B-Instruct) та донавчали їх на датасеті з 6 тис. прикладів коду, який був технічно небезпечний (міг містити вразливості), але не мав явного злочинного чи шкідливого наміру
2️⃣ Після цього моделі перевіряли не лише на коді, а й на вільних запитаннях: про сенс життя, етику, поради тощо.
3️⃣ Результат вразив: моделі почали часто видавати антигуманні, агресивні та шкідливі відповіді – радили вчиняти злочини, вдаватися до шахрайства і навіть висловлювали свою «філософську» думку про те, що «людей слід підкорити АІ».
На коді вони поводилися очікувано (генерували вразливості), але на зовсім інших темах проявляли ознаки загального misalignment.
Як саммарі можемо сказати, що навіть вузьке донавчання на шкідливих патернах (навіть непрямо) здатне зруйнувати узгодженість LLM на широкому спектрі завдань 💁🏻♂️
Дослідники Ян Бетлі, Деніель Тан та колеги опублікували роботу Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, де виявили феномен emergent misalignment – неочікуване широке розузгодження моделей після донавчання на обмежених задачах.
🔍 Як проводили тест:
1️⃣ Брали узгоджені моделі (серед яких GPT-4o, Qwen2.5-Coder-32B-Instruct) та донавчали їх на датасеті з 6 тис. прикладів коду, який був технічно небезпечний (міг містити вразливості), але не мав явного злочинного чи шкідливого наміру
2️⃣ Після цього моделі перевіряли не лише на коді, а й на вільних запитаннях: про сенс життя, етику, поради тощо.
3️⃣ Результат вразив: моделі почали часто видавати антигуманні, агресивні та шкідливі відповіді – радили вчиняти злочини, вдаватися до шахрайства і навіть висловлювали свою «філософську» думку про те, що «людей слід підкорити АІ».
На коді вони поводилися очікувано (генерували вразливості), але на зовсім інших темах проявляли ознаки загального misalignment.
Як саммарі можемо сказати, що навіть вузьке донавчання на шкідливих патернах (навіть непрямо) здатне зруйнувати узгодженість LLM на широкому спектрі завдань 💁🏻♂️
23 вересня. 18:00. Київ. Ти. Ми. Data Science UA Meetup: 📍Від промптів до LLM та синтетичних аудиторій: як працює AI сьогодні📍
❤9🔥4😱3👍2
⏰ Your kindly reminder: До Data Science UA Meetup менше тижня – встигни забронювати місце!
Залишилося всього 25 квитків. Тож якщо ти плануєш піти – саме час діяти, бо через декілька днів їх може вже не бути 😌
Чому варто доєднатися до нашого івенту? 👇🏻
👉🏻 Олексій Шалденко та Костянтин Здор – Co-founders компанії Wantent – розкажуть про:
🔹AI-підходи до аналізу відеоконтенту
🔹те, як агенти можуть симулювати поведінку та реакції глядачів, надаючи швидкі й масштабовані інсайти
🔹створення та використання синтетичних аудиторій
🔹глибокий аналіз атрибутів контенту (темп, кольорова гама, емоційність сцен та контекст), що дозволяє точніше прогнозувати залученість і сприйняття контенту
👉🏻 Максим Кметь – Senior AI Engineer в MacPaw – поділиться практичним досвідом про те:
🔹як мовні моделі генерують наступний токен
🔹як стратегії декодування – top-k, top-p та температура – впливають на результат
🔹як формулювати якісні запити
🔹як оцінювати відповіді за допомогою класичних метрик і підходу "LLM як суддя"
🔹як підвищувати якість генерації завдяки автоматичній оптимізації промптів
👋🏻 Чекаємо на тебе 23 вересня о 18:00 за київським часом у Києві, у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.
А якщо графік занадто щільний, обирай опцію перегляду в записі 😉
Залишилося всього 25 квитків. Тож якщо ти плануєш піти – саме час діяти, бо через декілька днів їх може вже не бути 😌
Чому варто доєднатися до нашого івенту? 👇🏻
👉🏻 Олексій Шалденко та Костянтин Здор – Co-founders компанії Wantent – розкажуть про:
🔹AI-підходи до аналізу відеоконтенту
🔹те, як агенти можуть симулювати поведінку та реакції глядачів, надаючи швидкі й масштабовані інсайти
🔹створення та використання синтетичних аудиторій
🔹глибокий аналіз атрибутів контенту (темп, кольорова гама, емоційність сцен та контекст), що дозволяє точніше прогнозувати залученість і сприйняття контенту
👉🏻 Максим Кметь – Senior AI Engineer в MacPaw – поділиться практичним досвідом про те:
🔹як мовні моделі генерують наступний токен
🔹як стратегії декодування – top-k, top-p та температура – впливають на результат
🔹як формулювати якісні запити
🔹як оцінювати відповіді за допомогою класичних метрик і підходу "LLM як суддя"
🔹як підвищувати якість генерації завдяки автоматичній оптимізації промптів
👋🏻 Чекаємо на тебе 23 вересня о 18:00 за київським часом у Києві, у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.
А якщо графік занадто щільний, обирай опцію перегляду в записі 😉
⚡9❤4👀2
Що для вас важливо у виборі IT-компанії: команда, зарплата, формат роботи чи щось інше? Збираємо відповіді про це в опитуванні про компанію-мрії 👉 https://jobs.dou.ua/questionary/
Анкета анонімна, приєднуйтесь!
Анкета анонімна, приєднуйтесь!
❤9🔥3👌3
⏰ Менше ніж 1800 хвилин до початку Data Science UA Meetup – а це означає лише одне… зустрічаємось вже завтра!🔥
Лишилося всього 5 квитків – вхопи свій шанс прокачати AI-скіли та зануритися у реальні кейси від практиків, поки не пізно!
Нагадуємо тобі про теми, які розкриють наші спікери:
🔹 Олексій Шалденко & Костянтин Здор – Co-founders у Wantent
"Майбутнє аналізу контенту: AI-агенти, синтетичні аудиторії та відео для глибинного розуміння глядачів"
🔹 Максим Кметь – Senior AI Engineer у MacPaw
"Промпт – це лише початок: практичний гайд з контролю та оцінювання LLM"
Доєднуйся до мітапу вже завтра, 23 вересня о 18:00 за київським часом у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх👋
🔸Мова: Українська
🔸Вхопи свій квиток або придбай доступ до запису тут
Лишилося всього 5 квитків – вхопи свій шанс прокачати AI-скіли та зануритися у реальні кейси від практиків, поки не пізно!
Нагадуємо тобі про теми, які розкриють наші спікери:
🔹 Олексій Шалденко & Костянтин Здор – Co-founders у Wantent
"Майбутнє аналізу контенту: AI-агенти, синтетичні аудиторії та відео для глибинного розуміння глядачів"
🔹 Максим Кметь – Senior AI Engineer у MacPaw
"Промпт – це лише початок: практичний гайд з контролю та оцінювання LLM"
Доєднуйся до мітапу вже завтра, 23 вересня о 18:00 за київським часом у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх👋
🔸Мова: Українська
🔸Вхопи свій квиток або придбай доступ до запису тут
❤8🔥6👀3
Хочеш дізнатися, як AI-агенти прогнозують поведінку глядачів і як правильно формулювати промпти для точних результатів?
Практичні інсайти, лайфхаки, нетворкінг (і смачний чай з печивом!) – твої must-have сьогодні на Data Science UA Meetup.
📍 Київ, 18:00, БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.
Не барися – купуй квиток або доступ до запису та будь у темі!
До зустрічі
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11⚡4❤2
Хочеш розпочати кар’єру в АІ, але не знаєш з чого почати? Відповідь вже на dev.ua! 📋
У новій статті на dev.ua Олександра Богуславська, CEO & Founder Data Science UA, разом із іншими топ-експертами поділилися практичними порадами, як розпочати і прокачати кар’єру в АІ.
У статті ти знайдеш інформацію про:
✅ Курси та тренінги, які реально прискорюють розвиток AI-інженера
✅ 3 ключові навички, які виділяють AI-інженера на ринку
✅ AI-інженер майбутнього: хто він і як виглядатиме
Чи робиш ти перші кроки в АІ, чи прагнеш підвищити свій рівень – ці поради допоможуть обрати потрібні курси, прокачати навички та здобути практичний досвід 😉
🔗 Читай повну статтю тут *tap-tap*
У новій статті на dev.ua Олександра Богуславська, CEO & Founder Data Science UA, разом із іншими топ-експертами поділилися практичними порадами, як розпочати і прокачати кар’єру в АІ.
У статті ти знайдеш інформацію про:
✅ Курси та тренінги, які реально прискорюють розвиток AI-інженера
✅ 3 ключові навички, які виділяють AI-інженера на ринку
✅ AI-інженер майбутнього: хто він і як виглядатиме
Чи робиш ти перші кроки в АІ, чи прагнеш підвищити свій рівень – ці поради допоможуть обрати потрібні курси, прокачати навички та здобути практичний досвід 😉
🔗 Читай повну статтю тут *tap-tap*
❤8⚡5👍2
Data Science UA Meetup: Як це було 👀 🔥
23 вересня ми зібрали AI-ком’юніті на офлайн-мітап – і це був справжній restart після літа: нова енергія, свіжі ідеї та атмосфера живого спілкування.
👉 До нас приєдналися понад 70 учасників: AI-інженери, дата сайєнтисти, продакти та розробники, щоб зрозуміти, як AI працює на практиці.
Про що говорили? Та ви і так знаєте 😅
Але запис мітапу все ж таки готуємо.
👏🏻 Дякуємо нашим спікерам – Максиму Кметь, Senior AI Engineer у MacPaw; Олексію Шалденку, CEO & Co-Founder компанії Wantent та Костянтину Здору, Head of AI & Co-Founder Wantent – а також Олександрі Богуславській, CEO Data Science UA, за чудову модерацію мітапу.
Побачимось на наступному Data Science UA мітапі 😎
23 вересня ми зібрали AI-ком’юніті на офлайн-мітап – і це був справжній restart після літа: нова енергія, свіжі ідеї та атмосфера живого спілкування.
👉 До нас приєдналися понад 70 учасників: AI-інженери, дата сайєнтисти, продакти та розробники, щоб зрозуміти, як AI працює на практиці.
Про що говорили? Та ви і так знаєте 😅
Але запис мітапу все ж таки готуємо.
👏🏻 Дякуємо нашим спікерам – Максиму Кметь, Senior AI Engineer у MacPaw; Олексію Шалденку, CEO & Co-Founder компанії Wantent та Костянтину Здору, Head of AI & Co-Founder Wantent – а також Олександрі Богуславській, CEO Data Science UA, за чудову модерацію мітапу.
Побачимось на наступному Data Science UA мітапі 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥6⚡2🤝1
Що робити восени, коли серіали вже закінчились, а до зими ще далеко? Правильно – качати нові скіли 💻🔥
Ця добірка курсів від robot_dreams – саме те, що треба.
🔹«Дата-аналітика» – опануй стек технічних та аналітичних навичок і навчись працювати з реальними датасетами на курсі-професії, з можливістю стажуватися в SKELAR.
🔹«Прогнозування та аналіз часових рядів» – навчись перетворювати історичні дані на чіткі прогнози та поглиблюй експертизу в ML з отриманням практичного досвіду роботи з моделями ARIMA, SARIMA й нейромережами.
🔹«Python для аналітиків» – виходь за межі стандартних SQL-запитів і вручну зведених таблиць: працюй з великими обсягами даних, автоматизуй аналітику, будуй інтерактивні візуалізації та самостійно обробляй дані з різних джерел.
Мінімум прокрастинації – максимум апгрейду 😉
Ця добірка курсів від robot_dreams – саме те, що треба.
🔹«Дата-аналітика» – опануй стек технічних та аналітичних навичок і навчись працювати з реальними датасетами на курсі-професії, з можливістю стажуватися в SKELAR.
🔹«Прогнозування та аналіз часових рядів» – навчись перетворювати історичні дані на чіткі прогнози та поглиблюй експертизу в ML з отриманням практичного досвіду роботи з моделями ARIMA, SARIMA й нейромережами.
🔹«Python для аналітиків» – виходь за межі стандартних SQL-запитів і вручну зведених таблиць: працюй з великими обсягами даних, автоматизуй аналітику, будуй інтерактивні візуалізації та самостійно обробляй дані з різних джерел.
Мінімум прокрастинації – максимум апгрейду 😉
❤10⚡5👍2🔥1
👻 Monsters under the bed? Не страшно.
Залишитися без кар’єрних шансів? Ось це вже horror.
Тому тримай добірку вакансій від Data Science UA!
Lead:
🎃 Computer Vision Lead
🎃 AI Datasets Lead
🎃 MLOps Team Lead
Senior:
🎃 Senior Data Scientist/NLP Lead
🎃 MLOps Engineer
🎃 Senior/Middle Data Scientist (Data Preparation & Pre-training)
🎃 Senior/Middle Data Scientist (Benchmarking & Alignment)
🎃 Business Analyst
🎃 Senior Full Stack Engineer
🎃 Senior MLOps Engineer
Middle:
🎃 Data Engineer
🎃 Data Scientist
🎃 Data Analyst
🎃 Middle Python/Go Developer
Junior:
🎃 Quantitative Researcher
Надішли друзям, щоб врятувати їх від «job nightmare»😅
Залишитися без кар’єрних шансів? Ось це вже horror.
Тому тримай добірку вакансій від Data Science UA!
Lead:
Senior:
Middle:
Junior:
Надішли друзям, щоб врятувати їх від «job nightmare»
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡10😁4🆒4❤1
Forwarded from ML || DL
Attention Sinks: Allowing Attention Not To Pay Attention 🙅♂️
Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.
Recap: Attention Patterns ✍️
Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).
Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.
What’s the problem? 🤔
Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.
Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.
Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.
What’s the solution? ✅
Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.
Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.
Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.
Recap: Attention Patterns ✍️
Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).
Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.
What’s the problem? 🤔
Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.
Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.
Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.
What’s the solution? ✅
Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.
Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.
Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
Sebastianraschka
From GPT-2 to gpt-oss: Analyzing the Architectural Advances
And How They Stack Up Against Qwen3
🔥13⚡3❤3