Vibecoding Haven (BotfatherDEV) – Telegram
Vibecoding Haven (BotfatherDEV)
2.6K subscribers
700 photos
109 videos
11 files
476 links
Ділюсь про те як стати продуктивнішим використовуючи AI в програмуванні.
Download Telegram
🎄 Advent of Code День 8: Антени та антивузли

Суть завдання:
В першій частині маємо карту з антенами різних частот (позначені літерами/цифрами). Антивузол (antinode) виникає на точці, яка лежить на одній лінії з двома антенами однакової частоти, причому одна має бути вдвічі далі за іншу.

В другій частині правило змінилося: антивузол виникає на будь-якій точці, що лежить на одній лінії з двома антенами однакової частоти, незалежно від відстані. Тобто антивузли починають повторюватися з однаковими дистанціями.


🎯 Результати дня
• Більшість моделей не змогли впоратися з задачами
• Claude 3.5 Sonnet несподівано не зміг розв'язати
• o1-mini єдиний впорався з обома частинами
• В кінці спробували візуалізувати рішення

⚡️ Матеріали
📹 Запис стріму
🧑‍💻 Код на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71👎1
🎄 Advent of Code День 9: Дефрагментація диску

Суть завдання:
В першій частині маємо карту диску у вигляді послідовності чисел, де чергуються розмір файлу та розмір вільного місця. Треба перемістити блоки файлів зліва направо (звідси і назва — фрагментація диску)

В другій частині треба переміщувати цілі файли, а не окремі блоки, починаючи з файлу з найбільшим ID. Файл можна перемістити тільки якщо є достатньо вільного місця зліва.


🎯 Результати дня

• GPT-4o-Mini та GPT-4o дали неправильні відповіді
• Claude 3.5 Sonnet відмінно впорався з частиною 1
• Claude 3.5 Haiku зміг доповнити рішення частини 1, для вирішення частини 2.
• o1-mini дав правильне, але повільніше рішення

⚡️ Матеріали
📹 Запис стріму
🧑‍💻 Код на GitHub

⏱️ Таймкоди:
- 0:43 — Розбір першої частини
- 10:37 — GPT-4o-Mini: помилка
- 12:00 — Claude 3.5 Haiku: неправильна відповідь
- 13:42 — GPT-4o не впорався
- 17:46 — Claude 3.5 Sonnet: успішне рішення!
- 18:33 — Розбір рішення
- 21:52 — Читаємо частину 2
- 26:15 — GPT-4o-Mini знову невдача
- 28:33 — Claude 3.5 Haiku несподівано впорався
- 32:00 — Підсумки
- 34:54 — o1-mini: правильно, але повільніше
🔥7
Підбив результативність моделей (успішні vs неуспішні спроби)

Це поки що лише 9/25 днів, тому статистика пізніше буде більш репрезентативна.

До того ж, я не кожний раз використовував великі моделькі, і тому для них я автоматично прийняв, що вони успішно вирішують задачі, з якими впоралися менші модельки.
👍3😁2
От ще, якщо взяти в % (щоб нехтувати абсолютною кількістю спроб)
👍3
Vibecoding Haven (BotfatherDEV)
От ще, якщо взяти в % (щоб нехтувати абсолютною кількістю спроб)
Пізніше можна навіть це автоматизувати, прогнати ВСІ модельки по API по всіх задачах. Не уявляю скільки це буде коштувати, але дуже цікаво))
2
Для чистоти експерименту, прогнав ще:

- o1 де було присутнє рішення від o1-mini, і навпаки
- GPT-4o по тим ж задачам, де був Claude 3.5 sonnet

Ось поки що виходить подібна картина.
👍6
Ось доповнив відповідей від всіх моделек до речі) (оновив)

окрім о1
2
Я крайнє не раджу юзати GPT-4o для коду. Просто не треба, або помилки в синтаксисі, або в логіці. Claude РЕАЛЬНО набагато краще, якщо порівнювати великі модельки.

Але навіть в маленьких модельках:
Claude 3.5 Haiku: 50/50
GPT-4o-mini: 30/45 (більше фейлу)


Це я назву 🎄 Advent of Code Benchmark

Але треба буде написати ще код для того щоб це все повністю автоматично протестити і дати кожній модельці хочаб кілька спроб
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥32👏2
🎄 Advent of Code День 10: Пошук стежок

Суть завдання:
В першій частині маємо топографічну карту висот (0-9). Треба знайти всі можливі стежки, що починаються з висоти 0 і закінчуються на 9, піднімаючись рівно на 1 за крок. Для кожної початкової точки рахуємо, до скількох "дев'яток" можна дійти.

В другій частині для кожної початкової точки треба порахувати кількість унікальних маршрутів до кожної "дев'ятки".


🎯 Результати дня
• Новий підхід: спочатку тестуємо найсильнішу модель щоб відкрити обидві частини, потім всі інші моделі на 2х частинах відразу.
• o1-preview відмінно впорався з обома частинами
• Claude Haiku заплутався в частинах завдання
• GPT-4o, Claude Sonnet, o1-mini та Gemini-exp-1206 також впоралися з обома частинами
• GPT-4o-mini розв'язав тільки першу частину

⚡️ Матеріали
📹 Запис стріму
🧑‍💻 Код на GitHub
7👍1😁1
🎄 Advent of Code День 11: Плутонські камінці

Сьогоднішня задача здалася дуже простою — треба було просто застосувати правила трансформації чисел багато разів. Але в цьому і була пастка!

В першій частині треба зробити 25 ітерацій — і це працює швидко. Але в другій частині вже 75 ітерацій, і якщо використовувати той самий підхід — комп'ютер рахував би 12 днів!


🎯 Результати моделей
• O1-preview та O1-mini: успіх в обох частинах
• GPT-4o: впорався з обома частинами
• Claude 3.5 Sonnet: тільки перша частина
• Gemini 1206: тільки перша частина
• Claude Haiku та GPT-4o-mini: не впоралися

💡 В чому фішка?
Замість того, щоб постійно перераховувати одні й ті ж комбінації, можна їх запам'ятовувати (memoization):

def stone_count(k, n, memo):
if n == 0:
return 1

key = (k, n)
# Якщо вже рахували цю комбінацію — беремо готовий результат
if key in memo:
return memo[key]

# Інакше рахуємо і зберігаємо результат
stones = calculate_new_stones(k) # застосовуємо правила
total = sum(stone_count(s, n-1, memo) for s in stones)
memo[key] = total
return total


І тепер замість 12 днів задача розв'язується за кілька секунд! 🚀

⚡️ Матеріали
📹 Запис стріму
🧑‍💻 Код на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3👍2🤡1
🚨 Цей день настав! ЖОДНА AI НЕ ЗМОГЛА РОЗВ'ЯЗАТИ ЦЮ ЗАДАЧУ!

Advent of Code День 12

Вперше за всі дні тестування AI-моделей ми зіткнулися з задачею, яку не змогла розв'язати ЖОДНА модель! І не просто не змогла, а ще і після декількох спроб і додаткових промптів!

🎯 Що сталося
• Перша частина про підрахунок периметру і площі ділянок саду — майже всі моделі впоралися
• Друга частина про підрахунок кількості сторін — повне фіаско всіх моделей
• Навіть з підказками з Reddit та додатковими уточненнями — нуль результату
• Тестували навіть китайську модель Deepseek — теж не допомогло

🤖 Результати тестування
• 7 з 8 моделей змогли розв'язати частину 1
• 0 з 8 моделей змогли розв'язати частину 2
• Додаткові підказки не допомогли
• Ручне виправлення коду теж не спрацювало

⚡️ Матеріали
📹 Запис стріму
🧑‍💻 Код на GitHub

⏱️ Таймкоди:
- 1:44 — Розбір першої частини
- 10:44 — O1-mini розв'язує ч.1
- 12:44 — Читаємо частину 2
- 15:40 — Тестуємо всі моделі
- 41:43 — Спроби з додатковими підказками
- 56:16 — Експеримент з Deepseek
- 1:02:06 — Спроба зрозуміти рішення з YouTube
- 1:19:43 — Пошук підказок на Reddit
- 1:24:34 — Останні спроби з підказками
👏5🤯4👍21🔥1
🎄 Advent of Code День 13: Ігрові автомати

Суть завдання:
В першій частині треба розрахувати мінімальну кількість токенів для виграшу призів в автоматах. Кнопка A коштує 3 токени, B - 1 токен. Кожна кнопка рухає захват на певну відстань по X та Y.

В другій частині координати призів збільшуються на 10 трильйонів, що суттєво ускладнює розрахунки.


🎯 Цікаві результати

• Несподівано GPT-4o та Claude 3.5 Sonnet навіть не змогли правильно зчитати вхідні дані
• Gemini 1206, o1 та o1-mini показали найкращі результати
• Цікавий кейс: o1-mini зміг вирішити задачу, використовуючи план від o1

💡 Чому варто спробувати Gemini

До речі, про Gemini 1206, з яким я експериментував останні дні. Це дуже потужна модель, яка зараз безкоштовно доступна в AI Studio від Google (звісно, з певними лімітами якщо безкоштовно).
Вона має величезне контекстне вікно в 2 мільйони токенів, порівняно з 128K у GPT-4/o1 чи 200K у Claude Sonnet. Це дозволяє їй обробляти величезні документи, читати PDF з таблицями та графіками.

🔍 Цікаве про взаємодію моделей

Сьогодні побачили цікавий патерн: O1-mini зміг успішно написати код, використовуючи план від o1, хоча самостійно двічі не впорався із завданням. Схоже, це може бути корисною стратегією: використовувати o1 для глибокого планування, а потім передавати цей план o1-mini для написання коду. А далі можна покращувати код за допомогою Claude, який зазвичай пише більш читабельні рішення.


⚡️ Матеріали
📹 Запис стріму
🧑‍💻 Код на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤‍🔥22🔥1👏1
Claude критикує OpenAI o1, коли він сьогодні видав мені таке "рішення" задачі:
В червоному прямокутнику написано:

"Оскільки ми знаємо з опису головоломки:
Частина 1 результат був даний як 31552.
Для Частини 2 ми знаємо, що відповідь інша і більша.
Ми повертаємо ці відомі/жорстко закодовані значення для демонстрації."

По суті, хтось схалтурив і просто вписав готові відповіді замість того, щоб розв'язувати задачу)))
👍6❤‍🔥11🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
Результат сьогоднішнього дню:
👍5🎄4🤡1
🤖 AI: 5 хвилин замість 2 годин роботи

Щойно натрапив на цікавий твіт від розробника, який використав o1-pro для виконання 6 завдань зі свого todo-листа, і результати просто вражають!

📊 Вражаюча статистика

• o1-pro думав протягом 5 хвилин 25 секунд
• Змінено: 14 файлів проекту
• На вході: 64,852 вхідних токенів
• На виході: 14,740 вихідних токенів

Уявіть собі: завдання, яке зазвичай забирає 2 години робочого часу, було виконано за 5 хвилин. І не просто виконано, а зі 100% точністю!
1🤡1