Data Science UA – Telegram
Data Science UA
1.86K subscribers
812 photos
36 videos
3 files
1.28K links
🌏 Ми одне з найбільших Data Science ком'юніті Європи.

🔹ІT Рекрутинг
🔹AI Тренінги
🔹AI Івенти

👉🏻 Знайшли проблему, або маєте пропозиції щодо розвитку спільноти?
До ваших послуг @DataScienceUA_assistant
Download Telegram
Професор Вортона, дослідник АІ та автор бестселера New York Times «Спільний інтелект», Ітан Молік вирішив провести жартівливий, навіть «жахливий» експеримент, використовуючи AI – він попросив провідні LLM вигадати найбільш дратівливу капчу у світі 😆

Кожна модель підійшла до завдання по-своєму, але найкреативнішим виявився Claude: він згенерував цілих дев’ять «кіл пекла» (відсилка на Данте?👀) з перевірками на «я не робот».

Думаємо, що це такий собі хороший бенчмарк для моделей, щоб показати, як вони справді "думають" і які рішення готові придумати, аби викрутитися із нестандартних ситуацій 🫠

Ось тут можна спробувати версію капчі від Claude.

📸#1: Gemini 2.5 Pro Deep Thinking
📸#2: Claude 4.1 Opus
📸#3: Grok 4
📸 #4: GPT-5 Thinking
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁113👀3👍2
Цей job digest та ти — як Едвард і Белла: створені бути разом 😎

Тож лови нову порцію вакансій, щоб твоя кар’єра не перетворилася на вампірський сонячний «нічний кошмар» ☀️

Lead:
🔸CV Embedded Lead
🔸AI Datasets Lead

Senior:
🔹Senior Data Scientist/NLP Lead
🔹MLOps Engineer
🔹Senior/Middle Data Scientist (Data Preparation & Pre-training)
🔹Senior/Middle Data Scientist (Benchmarking & Alignment)
🔹Senior NLP Engineer (Part-time)

Middle:
▪️Data Engineer
▪️AI QA Engineer
▪️Data Scientist

Junior:
▫️Quantitative Researcher

Не тримай цей job digest при собі — відправ друзям та колегам, щоб і вони не пропустили свій шанс 😉
😁8🌚32👀2
OpenAI викотили GPT-5-Codex – нову версію GPT-5, оптимізовану для «агентного» програмування 🤖💻

Тобто модель не лише допомагає у швидких сесіях, а й може самостійно працювати над великими тасками по 7+ годин: від рефакторів на тисячі рядків до генерації тестів і деплойменту.

▪️Код-рев’ю як у сеньйора: модель ловить критичні баги й помилки в PR ще до релізу.

▪️Стає «розумнішою» залежно від складності: прості таски робить швидше, а на складні витрачає більше часу на роздуми.

▪️Працює всюди: термінал (CLI), IDE (VS Code, Cursor), GitHub і навіть у ChatGPT iOS-додатку.

▪️Зменшує фальшиві або неважливі коментарі, натомість концентрується на критичних місцях.

У code refactoring задачах точність зросла з 33.9% (GPT-5) до 51.3%, а у code review – кількість некоректних коментарів впала з 13.7% до 4.4%, а важливих навпаки стало більше (39.4% → 52.4%).

Будете юзати? 👀
10😁4👀2
🚨 Чи може вузьке донавчання зробити LLM глобально «небезпечними»?

Дослідники Ян Бетлі, Деніель Тан та колеги опублікували роботу Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, де виявили феномен emergent misalignment – неочікуване широке розузгодження моделей після донавчання на обмежених задачах.

🔍 Як проводили тест:

1️⃣ Брали узгоджені моделі (серед яких GPT-4o, Qwen2.5-Coder-32B-Instruct) та донавчали їх на датасеті з 6 тис. прикладів коду, який був технічно небезпечний (міг містити вразливості), але не мав явного злочинного чи шкідливого наміру

2️⃣ Після цього моделі перевіряли не лише на коді, а й на вільних запитаннях: про сенс життя, етику, поради тощо.

3️⃣ Результат вразив: моделі почали часто видавати антигуманні, агресивні та шкідливі відповіді – радили вчиняти злочини, вдаватися до шахрайства і навіть висловлювали свою «філософську» думку про те, що «людей слід підкорити АІ».

На коді вони поводилися очікувано (генерували вразливості), але на зовсім інших темах проявляли ознаки загального misalignment.

Як саммарі можемо сказати, що навіть вузьке донавчання на шкідливих патернах (навіть непрямо) здатне зруйнувати узгодженість LLM на широкому спектрі завдань 💁🏻‍♂️

23 вересня. 18:00. Київ. Ти. Ми. Data Science UA Meetup: 📍Від промптів до LLM та синтетичних аудиторій: як працює AI сьогодні📍
9🔥4😱3👍2
Your kindly reminder: До Data Science UA Meetup менше тижня – встигни забронювати місце!

Залишилося всього 25 квитків. Тож якщо ти плануєш піти – саме час діяти, бо через декілька днів їх може вже не бути 😌

Чому варто доєднатися до нашого івенту? 👇🏻

👉🏻 Олексій Шалденко та Костянтин Здор – Co-founders компанії Wantent – розкажуть про:

🔹AI-підходи до аналізу відеоконтенту
🔹те, як агенти можуть симулювати поведінку та реакції глядачів, надаючи швидкі й масштабовані інсайти
🔹створення та використання синтетичних аудиторій
🔹глибокий аналіз атрибутів контенту (темп, кольорова гама, емоційність сцен та контекст), що дозволяє точніше прогнозувати залученість і сприйняття контенту

👉🏻 Максим Кметь – Senior AI Engineer в MacPaw – поділиться практичним досвідом про те:

🔹як мовні моделі генерують наступний токен
🔹як стратегії декодування – top-k, top-p та температура – впливають на результат
🔹як формулювати якісні запити
🔹як оцінювати відповіді за допомогою класичних метрик і підходу "LLM як суддя"
🔹як підвищувати якість генерації завдяки автоматичній оптимізації промптів

👋🏻 Чекаємо на тебе 23 вересня о 18:00 за київським часом у Києві, у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.

А якщо графік занадто щільний, обирай опцію перегляду в записі 😉
94👀2
Що для вас важливо у виборі IT-компанії: команда, зарплата, формат роботи чи щось інше? Збираємо відповіді про це в опитуванні про компанію-мрії 👉 https://jobs.dou.ua/questionary/

Анкета анонімна, приєднуйтесь!
9🔥3👌3
Менше ніж 1800 хвилин до початку Data Science UA Meetup – а це означає лише одне… зустрічаємось вже завтра!🔥

Лишилося всього 5 квитків – вхопи свій шанс прокачати AI-скіли та зануритися у реальні кейси від практиків, поки не пізно!

Нагадуємо тобі про теми, які розкриють наші спікери:

🔹 Олексій Шалденко & Костянтин Здор – Co-founders у Wantent
"Майбутнє аналізу контенту: AI-агенти, синтетичні аудиторії та відео для глибинного розуміння глядачів"

🔹 Максим Кметь – Senior AI Engineer у MacPaw
"Промпт – це лише початок: практичний гайд з контролю та оцінювання LLM"

Доєднуйся до мітапу вже завтра, 23 вересня о 18:00 за київським часом у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх👋

🔸Мова: Українська
🔸Вхопи свій квиток або придбай доступ до запису тут
8🔥6👀3
❗️Лишилися 3 ОСТАННІ КВИТКИ та лічені години до Data Science UA Meetup!

Хочеш дізнатися, як AI-агенти прогнозують поведінку глядачів і як правильно формулювати промпти для точних результатів?

Практичні інсайти, лайфхаки, нетворкінг (і смачний чай з печивом!) – твої must-have сьогодні на Data Science UA Meetup.

📍 Київ, 18:00, БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.

Не барися – купуй квиток або доступ до запису та будь у темі!

До зустрічі 😎 🌎
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1142
Хочеш розпочати кар’єру в АІ, але не знаєш з чого почати? Відповідь вже на dev.ua! 📋

У новій статті на dev.ua Олександра Богуславська, CEO & Founder Data Science UA, разом із іншими топ-експертами поділилися практичними порадами, як розпочати і прокачати кар’єру в АІ.

У статті ти знайдеш інформацію про:

Курси та тренінги, які реально прискорюють розвиток AI-інженера
3 ключові навички, які виділяють AI-інженера на ринку
AI-інженер майбутнього: хто він і як виглядатиме

Чи робиш ти перші кроки в АІ, чи прагнеш підвищити свій рівень – ці поради допоможуть обрати потрібні курси, прокачати навички та здобути практичний досвід 😉

🔗 Читай повну статтю тут *tap-tap*
85👍2
Data Science UA Meetup: Як це було 👀🔥

23 вересня ми зібрали AI-ком’юніті на офлайн-мітап – і це був справжній restart після літа: нова енергія, свіжі ідеї та атмосфера живого спілкування.

👉 До нас приєдналися понад 70 учасників: AI-інженери, дата сайєнтисти, продакти та розробники, щоб зрозуміти, як AI працює на практиці.

Про що говорили? Та ви і так знаєте 😅
Але запис мітапу все ж таки готуємо.

👏🏻 Дякуємо нашим спікерам – Максиму Кметь, Senior AI Engineer у MacPaw; Олексію Шалденку, CEO & Co-Founder компанії Wantent та Костянтину Здору, Head of AI & Co-Founder Wantent – а також Олександрі Богуславській, CEO Data Science UA, за чудову модерацію мітапу.

Побачимось на наступному Data Science UA мітапі 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥62🤝1
Що робити восени, коли серіали вже закінчились, а до зими ще далеко? Правильно – качати нові скіли 💻🔥

Ця добірка курсів від robot_dreams – саме те, що треба.

🔹«Дата-аналітика» – опануй стек технічних та аналітичних навичок і навчись працювати з реальними датасетами на курсі-професії, з можливістю стажуватися в SKELAR.

🔹«Прогнозування та аналіз часових рядів» – навчись перетворювати історичні дані на чіткі прогнози та поглиблюй експертизу в ML з отриманням практичного досвіду роботи з моделями ARIMA, SARIMA й нейромережами.

🔹«Python для аналітиків» – виходь за межі стандартних SQL-запитів і вручну зведених таблиць: працюй з великими обсягами даних, автоматизуй аналітику, будуй інтерактивні візуалізації та самостійно обробляй дані з різних джерел.

Мінімум прокрастинації – максимум апгрейду 😉
105👍2🔥1
Як перестати марнувати бюджет на АІ та насправді перетворити його на прибуткові результати? 🤔💸

Олександра Богуславська
, CEO та Founder Data Science UA, поділилася з AIN.UA практичним чеклістом, який стане корисним для будь-якого бізнесу, що планує впровадження АІ.

Читай повну статтю тут 👈🏻
114👍2
👻 Monsters under the bed? Не страшно.
Залишитися без кар’єрних шансів? Ось це вже horror.

Тому тримай добірку вакансій від Data Science UA!

Lead:
🎃 Computer Vision Lead
🎃 AI Datasets Lead
🎃 MLOps Team Lead

Senior:
🎃 Senior Data Scientist/NLP Lead
🎃 MLOps Engineer
🎃 Senior/Middle Data Scientist (Data Preparation & Pre-training)
🎃 Senior/Middle Data Scientist (Benchmarking & Alignment)
🎃 Business Analyst
🎃 Senior Full Stack Engineer
🎃 Senior MLOps Engineer

Middle:
🎃 Data Engineer
🎃 Data Scientist
🎃 Data Analyst
🎃 Middle Python/Go Developer

Junior:
🎃 Quantitative Researcher

Надішли друзям, щоб врятувати їх від «job nightmare» 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
10😁4🆒41
Замість новин на сьогодні 😉👇🏻
Forwarded from ML || DL
Attention Sinks: Allowing Attention Not To Pay Attention 🙅‍♂️

Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.

Recap: Attention Patterns ✍️

Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).

Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.

What’s the problem? 🤔

Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.

Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.

Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.

What’s the solution?

Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.

Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.

Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
🔥1333
This media is not supported in your browser
VIEW IN TELEGRAM
Як думаєш, які з цих відео справжні? 🤔
Спойлер: вони всі ж такі реальні, як твої обіцянки жити з понеділка по новому.

Усі вони згенеровані новенькою Sora 2 від OpenAI. Тепер усе виглядає ще природніше: рухи об’єктів, звуки, діалоги – навіть помилки виглядають правдоподібно.

Якщо раніше баскетбольний м’яч міг просто зникнути й “телепортуватися” в кошик, то тепер він відскакує від підлоги, якщо гравець промахнувся ⛹️‍♂️

Основні фічі:

👉🏻 Вперше модель не просто генерує картинку, а відтворює логіку реального світу – об'єкти поводяться так, як вони б поводились у житті.

👉🏻 Генерує людям всього 5 пальців (жарт!)

👉🏻 Підтримує кілька стилів: від реалістичних кінематографічних сцен до аніме.

👉🏻 Тепер можна додати себе у відео: достатньо один раз записати коротке відео й голос у застосунку і Sora зможе вставити твою зовнішність та голос у будь-який згенерований сюжет.

👉🏻 Запустили навіть iOS-додаток Sora (щось на кшталт TikTok майбутнього) – соцмережу на базі моделі, де можна створювати й реміксити відео, а також додавати свої “cameos” (аватар + голос). Додаток поки доступний у США та Канаді.

Як вам таке оновлення? 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
114🔥2😁2