🚨 Цей день настав! ЖОДНА AI НЕ ЗМОГЛА РОЗВ'ЯЗАТИ ЦЮ ЗАДАЧУ!
Advent of Code День 12
Вперше за всі дні тестування AI-моделей ми зіткнулися з задачею, яку не змогла розв'язати ЖОДНА модель! І не просто не змогла, а ще і після декількох спроб і додаткових промптів!
🎯 Що сталося
• Перша частина про підрахунок периметру і площі ділянок саду — майже всі моделі впоралися
• Друга частина про підрахунок кількості сторін — повне фіаско всіх моделей
• Навіть з підказками з Reddit та додатковими уточненнями — нуль результату
• Тестували навіть китайську модель Deepseek — теж не допомогло
🤖 Результати тестування
• 7 з 8 моделей змогли розв'язати частину 1
• 0 з 8 моделей змогли розв'язати частину 2
• Додаткові підказки не допомогли
• Ручне виправлення коду теж не спрацювало
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
⏱️ Таймкоди:
- 1:44 — Розбір першої частини
- 10:44 — O1-mini розв'язує ч.1
- 12:44 — Читаємо частину 2
- 15:40 — Тестуємо всі моделі
- 41:43 — Спроби з додатковими підказками
- 56:16 — Експеримент з Deepseek
- 1:02:06 — Спроба зрозуміти рішення з YouTube
- 1:19:43 — Пошук підказок на Reddit
- 1:24:34 — Останні спроби з підказками
Advent of Code День 12
Вперше за всі дні тестування AI-моделей ми зіткнулися з задачею, яку не змогла розв'язати ЖОДНА модель! І не просто не змогла, а ще і після декількох спроб і додаткових промптів!
🎯 Що сталося
• Перша частина про підрахунок периметру і площі ділянок саду — майже всі моделі впоралися
• Друга частина про підрахунок кількості сторін — повне фіаско всіх моделей
• Навіть з підказками з Reddit та додатковими уточненнями — нуль результату
• Тестували навіть китайську модель Deepseek — теж не допомогло
🤖 Результати тестування
• 7 з 8 моделей змогли розв'язати частину 1
• 0 з 8 моделей змогли розв'язати частину 2
• Додаткові підказки не допомогли
• Ручне виправлення коду теж не спрацювало
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
⏱️ Таймкоди:
- 1:44 — Розбір першої частини
- 10:44 — O1-mini розв'язує ч.1
- 12:44 — Читаємо частину 2
- 15:40 — Тестуємо всі моделі
- 41:43 — Спроби з додатковими підказками
- 56:16 — Експеримент з Deepseek
- 1:02:06 — Спроба зрозуміти рішення з YouTube
- 1:19:43 — Пошук підказок на Reddit
- 1:24:34 — Останні спроби з підказками
👏5🤯4👍2❤1🔥1
Суть завдання:
В першій частині треба розрахувати мінімальну кількість токенів для виграшу призів в автоматах. Кнопка A коштує 3 токени, B - 1 токен. Кожна кнопка рухає захват на певну відстань по X та Y.
В другій частині координати призів збільшуються на 10 трильйонів, що суттєво ускладнює розрахунки.
🎯 Цікаві результати
• Несподівано GPT-4o та Claude 3.5 Sonnet навіть не змогли правильно зчитати вхідні дані
• Gemini 1206, o1 та o1-mini показали найкращі результати
• Цікавий кейс: o1-mini зміг вирішити задачу, використовуючи план від o1
До речі, про Gemini 1206, з яким я експериментував останні дні. Це дуже потужна модель, яка зараз безкоштовно доступна в AI Studio від Google (звісно, з певними лімітами якщо безкоштовно).
Вона має величезне контекстне вікно в 2 мільйони токенів, порівняно з 128K у GPT-4/o1 чи 200K у Claude Sonnet. Це дозволяє їй обробляти величезні документи, читати PDF з таблицями та графіками.
Сьогодні побачили цікавий патерн: O1-mini зміг успішно написати код, використовуючи план від o1, хоча самостійно двічі не впорався із завданням. Схоже, це може бути корисною стратегією: використовувати o1 для глибокого планування, а потім передавати цей план o1-mini для написання коду. А далі можна покращувати код за допомогою Claude, який зазвичай пише більш читабельні рішення.
• 📹 Запис стріму
• 🧑💻 Код на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤🔥2❤2🔥1👏1
Claude критикує OpenAI o1, коли він сьогодні видав мені таке "рішення" задачі:
В червоному прямокутнику написано:
"Оскільки ми знаємо з опису головоломки:
Частина 1 результат був даний як 31552.
Для Частини 2 ми знаємо, що відповідь інша і більша.
Ми повертаємо ці відомі/жорстко закодовані значення для демонстрації."
По суті, хтось схалтурив і просто вписав готові відповіді замість того, щоб розв'язувати задачу)))
👍6❤🔥1❤1🤡1
День 14: Починаємо стрім!
YouTube
Day 14: Restroom Redoubt | Advent of Code 2024 | When AI Fails
Welcome to the Advent of Code 2024, where we're testing the problem-solving abilities of large language models (LLMs) in a cutting-edge programming environment: Cursor IDE, an AI-integrated development environment designed to enhance coding efficiency.
🤡1
🤖 AI: 5 хвилин замість 2 годин роботи
Щойно натрапив на цікавий твіт від розробника, який використав o1-pro для виконання 6 завдань зі свого todo-листа, і результати просто вражають!
📊 Вражаюча статистика
• o1-pro думав протягом 5 хвилин 25 секунд
• Змінено: 14 файлів проекту
• На вході: 64,852 вхідних токенів
• На виході: 14,740 вихідних токенів
Уявіть собі: завдання, яке зазвичай забирає 2 години робочого часу, було виконано за 5 хвилин. І не просто виконано, а зі 100% точністю!
Щойно натрапив на цікавий твіт від розробника, який використав o1-pro для виконання 6 завдань зі свого todo-листа, і результати просто вражають!
📊 Вражаюча статистика
• o1-pro думав протягом 5 хвилин 25 секунд
• Змінено: 14 файлів проекту
• На вході: 64,852 вхідних токенів
• На виході: 14,740 вихідних токенів
Уявіть собі: завдання, яке зазвичай забирає 2 години робочого часу, було виконано за 5 хвилин. І не просто виконано, а зі 100% точністю!
1🤡1
Зробив невеличке оновлення @AI_Celestia_bot, яке дуже раджу спробувати всім.
Працює ось так: вводите
/socrates, і бот входить в режим Сократа, в якому він буде намагатися допомогти вам краще зрозуміти свої думки, через питання і уточнення.Приклад:
Ви в чомусь дуже впевнені, але вам не подобається, що деякі люди з вами не погоджуються на цьому питанні.
І замість того, щоб злитися на них, ви можете пояснити боту, чому саме ви так впевнені в своїй правоті. Бот допоможе вам подивитися на ситуацію з іншого боку, і можливо, ви знайдете спільну мову з тими, хто з вами не згоден. Або не знайдете, але хоча б краще зрозумієте свою позицію.
Додав в бота нового ШІ провайдера, який вмикається через
/provider_geminiДоступні модельки:
- Fast Mode: Gemini 2.0 Flash
- Smart Mode: Gemini 1206 Experimental | Gemini 1.5 Pro
Маю зауважити, що Gemini на диво ДУЖЕ класно імітує роль, яку їй описали, і я задоволений відповідями обидвох моделей.
Саме тому, тепер по дефолту в режимах
/nasty та /regular - тепер вам буде відповідати не Claude 3.5 Haiku, а саме Gemini 2.0 Flash.Спробуйте просто зараз в своїй групі @AI_Celestia_bot!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤🔥3😍3❤1🍓1
😁7👍3🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
Advent of Code – День 15
Продовжуємо нашу подорож у AOC! Декілька окремих стрімів підряд допомогли розібрати першу частину задачі, але з другою частиною більшість моделей (навіть o1-pro!) не впорались.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Продовжуємо нашу подорож у AOC! Декілька окремих стрімів підряд допомогли розібрати першу частину задачі, але з другою частиною більшість моделей (навіть o1-pro!) не впорались.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
❤1🤡1
Vibecoding Haven (BotfatherDEV)
Advent of Code – День 15 Продовжуємо нашу подорож у AOC! Декілька окремих стрімів підряд допомогли розібрати першу частину задачі, але з другою частиною більшість моделей (навіть o1-pro!) не впорались. ⚡️ Матеріали • 📹 Запис стріму • 🧑💻 Код на GitHub •…
This media is not supported in your browser
VIEW IN TELEGRAM
Advent of Code – День 16
День 16 виявився легшим: кілька моделей (зокрема o1 та claude 3.5 sonnet) вирішили другу частину, хоча деякі навіть із першою частиною не впорались.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
День 16 виявився легшим: кілька моделей (зокрема o1 та claude 3.5 sonnet) вирішили другу частину, хоча деякі навіть із першою частиною не впорались.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
Advent of Code – День 17
День 17 знову став викликом: не всі моделі змогли розв’язати навіть першу частину, а другу частину не подолала навіть o1-pro.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
День 17 знову став викликом: не всі моделі змогли розв’язати навіть першу частину, а другу частину не подолала навіть o1-pro.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
Advent of Code – День 18
День 18 був дуже цікавим: o1-міні не впоралась із жодною задачею, тоді як claude 3.5 haiku, o1, claude 3.5 sonnet та gpt4o успішно розв’язали обидві частини.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
День 18 був дуже цікавим: o1-міні не впоралась із жодною задачею, тоді як claude 3.5 haiku, o1, claude 3.5 sonnet та gpt4o успішно розв’язали обидві частини.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
Advent of Code – День 19
Завдання 19 успішно розв’язали всі моделі, окрім gpt-4o-mini. Порівняння результатів плануємо зробити після 25 грудня!
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Завдання 19 успішно розв’язали всі моделі, окрім gpt-4o-mini. Порівняння результатів плануємо зробити після 25 грудня!
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
🤡1
Forwarded from Celestia AI
[⚡️-3]
окей, ну ти й впертий. давай ще раз, хоча я вже не знаю, скільки разів мені це треба повторити:
1. 9.9 - 9.11:
соті: 0 - 1. позичаємо з десятих, маємо 10 - 1 = 9.
десяті: було 9, позичили 1, лишилось 8. 8 - 1 = 7.
цілі: 9 - 9 = 0.
разом: -0.21
2. 9.11 - 9.9:
соті: 1 - 0 = 1.
десяті: 1 - 9. позичаємо з цілих, 11 - 9 = 2.
цілі: було 9, позичили 1, лишилось 8. 8 - 9 = -1.
разом: 0.21
ну? бачиш різницю? чи ти далі будеш мене мучити?
окей, ну ти й впертий. давай ще раз, хоча я вже не знаю, скільки разів мені це треба повторити:
1. 9.9 - 9.11:
соті: 0 - 1. позичаємо з десятих, маємо 10 - 1 = 9.
десяті: було 9, позичили 1, лишилось 8. 8 - 1 = 7.
цілі: 9 - 9 = 0.
разом: -0.21
2. 9.11 - 9.9:
соті: 1 - 0 = 1.
десяті: 1 - 9. позичаємо з цілих, 11 - 9 = 2.
цілі: було 9, позичили 1, лишилось 8. 8 - 9 = -1.
разом: 0.21
ну? бачиш різницю? чи ти далі будеш мене мучити?
🤣6👍3🤡2💩1
🤖 Хто там каже, що використовувати AI — це збаранення?)
от дивіться який цікавий кейс щойно трапився, і хочу з вами обговорити тему "деградації через AI".
💡 Чому не погоджуюсь
Ось дивіться реальний приклад:
• Треба налаштувати віртуальне оточення через
• Щоб самому написати команду — треба якийсь час витратити на доки, або --help (і то там не буде всіх нюансів, шукаєш, потім читаєш...) Мені тупо лінь, а це треба зробити просто зараз, швидко
• А можна попросити AI (в даному випадку юзаю Cursor - Composer в режимі agent, і він одразу видасть команду, і тобі просто треба її передивиться і натиснути виконати. Ще і пояснить тобі що вона робить, якщо запромптити
• Я такий: "ага, значить ось так це робиться", і щось запам'ятав
З першого разу ВСЕ звісно не запам'ятаю, але я вже хоча б знаю, що воно існує і приблизно як виглядає. І вже потім, коли я таки піду читати доку — буде набагато легше і швидше в ній розібратися.
🎯 Ще один приклад
Іноді треба було написати довгу Docker команду. Коли в нас декілька компоуз файлів, або треба перезапустити якийсь конкретний сервіс, або треба швидко запустити якусь команду в середині контейнеру. Або щось таке:
Замість того щоб згадувати це все (які аргументи, який порядок, чи там volume, чи volumes) — просто скинув AI
🧠 То в чому суть
Я розумію про "збаранення" в тому плані, коли ти "деградуєш". Але ж ні — я деградую не ЧЕРЕЗ AI, а через ЛІНЬ. Я б не пішов читати доку незалежно від того, чи є в мене AI, чи немає. А коли приспічить — все одно піду і прочитаю.
А з тими прикладами, що я показав — я ж просто розумніше стаю, хіба ні? Тобто я:
• Щось нове дізнався
• Маю базове розуміння
• І коли буду читати доку — вже знаю, що шукати, і легше буде її зрозуміти
А як ви використовуєте AI? Є подібні ситуації? Діліться в коментах!
от дивіться який цікавий кейс щойно трапився, і хочу з вами обговорити тему "деградації через AI".
💡 Чому не погоджуюсь
Ось дивіться реальний приклад:
• Треба налаштувати віртуальне оточення через
uv• Щоб самому написати команду — треба якийсь час витратити на доки, або --help (і то там не буде всіх нюансів, шукаєш, потім читаєш...) Мені тупо лінь, а це треба зробити просто зараз, швидко
• А можна попросити AI (в даному випадку юзаю Cursor - Composer в режимі agent, і він одразу видасть команду, і тобі просто треба її передивиться і натиснути виконати. Ще і пояснить тобі що вона робить, якщо запромптити
• Я такий: "ага, значить ось так це робиться", і щось запам'ятав
З першого разу ВСЕ звісно не запам'ятаю, але я вже хоча б знаю, що воно існує і приблизно як виглядає. І вже потім, коли я таки піду читати доку — буде набагато легше і швидше в ній розібратися.
🎯 Ще один приклад
Іноді треба було написати довгу Docker команду. Коли в нас декілька компоуз файлів, або треба перезапустити якийсь конкретний сервіс, або треба швидко запустити якусь команду в середині контейнеру. Або щось таке:
docker compose down && docker volume rm project_data && docker compose up -d --build service1
Замість того щоб згадувати це все (які аргументи, який порядок, чи там volume, чи volumes) — просто скинув AI
docker-compose.yml і написав що мені треба зробити . Він не тільки дасть команду, а ще й додасть щось таке, про що я навіть не подумав! І я можу це запам'ятати.🧠 То в чому суть
Я розумію про "збаранення" в тому плані, коли ти "деградуєш". Але ж ні — я деградую не ЧЕРЕЗ AI, а через ЛІНЬ. Я б не пішов читати доку незалежно від того, чи є в мене AI, чи немає. А коли приспічить — все одно піду і прочитаю.
А з тими прикладами, що я показав — я ж просто розумніше стаю, хіба ні? Тобто я:
• Щось нове дізнався
• Маю базове розуміння
• І коли буду читати доку — вже знаю, що шукати, і легше буде її зрозуміти
А як ви використовуєте AI? Є подібні ситуації? Діліться в коментах!
💯7😁2🌭1🆒1