Как модели меняются со временем
Для построения любой модели мы обязаны ввести хоть какие-то предположения, которые сформулируют, как эта модель будет работать, некие исходные предположения.
Если вы очень хорошо понимаете доменную область, (не думаете, что понимаете, а реально понимаете) то вы лучше всех других решите задачу, да еще не потратив 10 миллионов долларов на GPU. Например, если вы точно знаете, что стоимость квартиры линейно убывает от расстояния до ближайшего метро, очень разумно эту линейную зависимость заложить в модель (если что, я не риэлтор, просто пример). Это во всех курсах по Машинному обучению объясняется под соусом No free lunch theorem. Попытаемся капнуть глубже стандартного курса.
Фокус в том, что часто вы не знаете, а думаете, что знаете. Да, иногда ваши предположения верны, но чаще всего нет. Верно ли что цена квартиры линейно падает от расстояния метро, если ближайшее метро в другом городе? Даже ньютоновская механика ломается при релятивистских скоростях, а у Ньютона была неплохая теория, в отличие от нас.
Мы не можем без этих предположений. Они упрощают модель и уменьшают вычислительные мощности, которые требуются для обучения, Но при этом они нас ограничивают: вводятся как постулаты, но на самом деле ломаются при небольшом изменении данных.
Что в итоге делать? Очень простой рецепт: делать столько исходных предположений, насколько у вас хватит железа обучить модель. Чем больше мощностей у вас появляется, тем меньше предположений вам нужно. Это показано на рисунке выше: самая “структурированная” (то есть с большим числом предположений) модель обыгрывает менее структурированные. Но потом, когда подливаем железа, показывает всю мощь искусственного интеллекта.
Это более понятно рассказывает рисерчер из OpenAI, энджой
https://www.youtube.com/watch?v=orDKvo8h71o
Для построения любой модели мы обязаны ввести хоть какие-то предположения, которые сформулируют, как эта модель будет работать, некие исходные предположения.
Если вы очень хорошо понимаете доменную область, (не думаете, что понимаете, а реально понимаете) то вы лучше всех других решите задачу, да еще не потратив 10 миллионов долларов на GPU. Например, если вы точно знаете, что стоимость квартиры линейно убывает от расстояния до ближайшего метро, очень разумно эту линейную зависимость заложить в модель (если что, я не риэлтор, просто пример). Это во всех курсах по Машинному обучению объясняется под соусом No free lunch theorem. Попытаемся капнуть глубже стандартного курса.
Фокус в том, что часто вы не знаете, а думаете, что знаете. Да, иногда ваши предположения верны, но чаще всего нет. Верно ли что цена квартиры линейно падает от расстояния метро, если ближайшее метро в другом городе? Даже ньютоновская механика ломается при релятивистских скоростях, а у Ньютона была неплохая теория, в отличие от нас.
Мы не можем без этих предположений. Они упрощают модель и уменьшают вычислительные мощности, которые требуются для обучения, Но при этом они нас ограничивают: вводятся как постулаты, но на самом деле ломаются при небольшом изменении данных.
Что в итоге делать? Очень простой рецепт: делать столько исходных предположений, насколько у вас хватит железа обучить модель. Чем больше мощностей у вас появляется, тем меньше предположений вам нужно. Это показано на рисунке выше: самая “структурированная” (то есть с большим числом предположений) модель обыгрывает менее структурированные. Но потом, когда подливаем железа, показывает всю мощь искусственного интеллекта.
Это более понятно рассказывает рисерчер из OpenAI, энджой
https://www.youtube.com/watch?v=orDKvo8h71o
1👍5❤2❤🔥2🔥1👾1
Почему нас неправильно учили Машинному обучению
Помните эту картинку? Нарисуем всю нашу обучающую выборку на осях Y (то что мы предсказываем) и X (входные переменные) фиолетовыми точками. Дальше лектор поворачивается и спрашивает: какую же модель нам использовать? Лес рук, кто-то говорит, что эта лучше, потому что вон другая слишком сложная, а та слишком простая... Преподаватель довольно переключает слайд. Проходим тему "Переобучение".
Никогда в жизни мне не пригодился этот слайд. Никто: ни ты, ни я, ни преподаватель, ни блин Джеффри Хинтон не знают, какую модель использовать. Никто не знает, что в твоей задаче: квадрат-куб/синус-косинус/тангенс-котангенс или хрен знает что еще. Вы это не нарисуете, не прочитаете в вашем любимом учебнике, не спросите у родного лектора.
Зато вот что мы знаем: данные + вычислительные мощности + эффективый код обучения + универсальная архитектура творят чудеса.
Вот, что делать надо на самом деле. По шагам, записывайте
1) Вбиваете в поисковик название вашей задачи
2) Находите сравние моделей, берете самую лучшую.
3) Находите ее реализацию, допиливаете напильником под ваш кластер.
4) Смотрите, сколько судьба дала вам GPU. Загружаете все GPU на максимум.
5) Находите столько данных, чтобы вы успели обучить модель до вашего релиза.
6) К дате релиза достаете модель, считаете метрики - вы восхитительны.
И ничего рисовать не надо было.
Помните эту картинку? Нарисуем всю нашу обучающую выборку на осях Y (то что мы предсказываем) и X (входные переменные) фиолетовыми точками. Дальше лектор поворачивается и спрашивает: какую же модель нам использовать? Лес рук, кто-то говорит, что эта лучше, потому что вон другая слишком сложная, а та слишком простая... Преподаватель довольно переключает слайд. Проходим тему "Переобучение".
Никогда в жизни мне не пригодился этот слайд. Никто: ни ты, ни я, ни преподаватель, ни блин Джеффри Хинтон не знают, какую модель использовать. Никто не знает, что в твоей задаче: квадрат-куб/синус-косинус/тангенс-котангенс или хрен знает что еще. Вы это не нарисуете, не прочитаете в вашем любимом учебнике, не спросите у родного лектора.
Зато вот что мы знаем: данные + вычислительные мощности + эффективый код обучения + универсальная архитектура творят чудеса.
Вот, что делать надо на самом деле. По шагам, записывайте
1) Вбиваете в поисковик название вашей задачи
2) Находите сравние моделей, берете самую лучшую.
3) Находите ее реализацию, допиливаете напильником под ваш кластер.
4) Смотрите, сколько судьба дала вам GPU. Загружаете все GPU на максимум.
5) Находите столько данных, чтобы вы успели обучить модель до вашего релиза.
6) К дате релиза достаете модель, считаете метрики - вы восхитительны.
И ничего рисовать не надо было.
1👍11😁3❤🔥2🔥1🤔1🤡1🍓1🤝1
2025 год - год, когда ИИ начнет зарабатывать деньги
Сегодня читал про это лекцию в ВШЭ. Обсуждали, что экономика в ИИ нездоровая: деньги гребет Nvidia, а те кто делают на этих GPU продукты все убыточные. Так долго продолжаться не может, инвесторы спросят. Кажется меня услышали в OpenAi :)
Цена на o1-pro 200 долларов в месяц. Думаю, желающих будет не очень много, особо денег не заработают, но тренд понятный. Хочешь себе мощнейший ИИ - плати бабки.
Думаю дальше будет подписка для компаний gpt-galera за 10000$. Ждём, верим.
https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/
Сегодня читал про это лекцию в ВШЭ. Обсуждали, что экономика в ИИ нездоровая: деньги гребет Nvidia, а те кто делают на этих GPU продукты все убыточные. Так долго продолжаться не может, инвесторы спросят. Кажется меня услышали в OpenAi :)
Цена на o1-pro 200 долларов в месяц. Думаю, желающих будет не очень много, особо денег не заработают, но тренд понятный. Хочешь себе мощнейший ИИ - плати бабки.
Думаю дальше будет подписка для компаний gpt-galera за 10000$. Ждём, верим.
https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/
TechCrunch
OpenAI confirms new $200 monthly subnoscription, ChatGPT Pro, which includes its o1 reasoning model | TechCrunch
OpenAI has launched a new subnoscription plan for ChatGPT, its AI-powered chatbot platform — and it's very expensive.
1👍9❤🔥1🔥1😱1👀1🫡1👾1
Как к нам незаметно крадется AGI
Искусственный интеллект бывает 2 видов:
1) Слабый ИИ
Он способен решать только заранее фиксированный набор задач - на что научили, то и получили.
Под этот класс попадают все, что вы видели до LLM: рекомендательные системы, чат боты в колл центрах, системы видеоаналитики, шахматные программы и тд.
Важно знать: слабый ИИ уже во многих задачах лучше человека. Приложение в вашем телефоне обыграет чемпиона мира по шахматам. Шахматисты раньше переживали из-за этого, а теперь используют ИИ для тренировок. Вот и вы не переживайте :)
Слабый ИИ очень сложно масштабировать. Для каждой задачи нужно учить отдельную модель. Для этого нужна команда дорогих инженеров. В итоге слабый ИИ проник только в крупные компании на самые денежные задачи: поиск, реклама, рек системы и тд. У многих компаний куча задач для оптимизации, но нет денег на команду ИИ-инженеров.
Тут то и приходит на помощь…
2) Сильный ИИ. Он же Artificial General Intelligence (AGI).
Способен решать любую интеллектуальную задачу, которую решает человек. Любой сможет решать свои задачи без выплаты 300к/сек инженерам. Мы его не достигли, но уже видим его росток: LLM.
Прозорливые люди (не я) увидели его в 2019 году, когда вышла GPT2. Она делала краткий пересказ текста, если ей на вход добавить одно слово: «TLDR». Она не училась специально делать переводы, она поняла, что от нее хотят сразу же, без дообучения.
Тут все уже должны были понять, чем это пахнет, но ждали до 2022 года и ChatGPT. Это, конечно, все еще не AGI: ChatGPT решает пока узкий набор задач, но потребность в создании своих моделей падает с каждым днем. Многое можно реализовать на платформе LLM.
К чему все идет?
Компании будут тратить бешеные деньги на свои базовые модели. LLM будут больше, умнее, дешевле. Смогут решать из коробки больше разных задач. Потребители будут все чаще и чаще понимать, что можно взять из коробки и оно сразу же заработает. Так незаметно к нам подкрадется AGI. Шаг за шагом.
Искусственный интеллект бывает 2 видов:
1) Слабый ИИ
Он способен решать только заранее фиксированный набор задач - на что научили, то и получили.
Под этот класс попадают все, что вы видели до LLM: рекомендательные системы, чат боты в колл центрах, системы видеоаналитики, шахматные программы и тд.
Важно знать: слабый ИИ уже во многих задачах лучше человека. Приложение в вашем телефоне обыграет чемпиона мира по шахматам. Шахматисты раньше переживали из-за этого, а теперь используют ИИ для тренировок. Вот и вы не переживайте :)
Слабый ИИ очень сложно масштабировать. Для каждой задачи нужно учить отдельную модель. Для этого нужна команда дорогих инженеров. В итоге слабый ИИ проник только в крупные компании на самые денежные задачи: поиск, реклама, рек системы и тд. У многих компаний куча задач для оптимизации, но нет денег на команду ИИ-инженеров.
Тут то и приходит на помощь…
2) Сильный ИИ. Он же Artificial General Intelligence (AGI).
Способен решать любую интеллектуальную задачу, которую решает человек. Любой сможет решать свои задачи без выплаты 300к/сек инженерам. Мы его не достигли, но уже видим его росток: LLM.
Прозорливые люди (не я) увидели его в 2019 году, когда вышла GPT2. Она делала краткий пересказ текста, если ей на вход добавить одно слово: «TLDR». Она не училась специально делать переводы, она поняла, что от нее хотят сразу же, без дообучения.
Тут все уже должны были понять, чем это пахнет, но ждали до 2022 года и ChatGPT. Это, конечно, все еще не AGI: ChatGPT решает пока узкий набор задач, но потребность в создании своих моделей падает с каждым днем. Многое можно реализовать на платформе LLM.
К чему все идет?
Компании будут тратить бешеные деньги на свои базовые модели. LLM будут больше, умнее, дешевле. Смогут решать из коробки больше разных задач. Потребители будут все чаще и чаще понимать, что можно взять из коробки и оно сразу же заработает. Так незаметно к нам подкрадется AGI. Шаг за шагом.
1👍15❤🔥2🔥2🤔2👀2
Крупному бизнесу не нужны огромные модели
Из прошлого поста мы поняли, что LLM дает доступ для тех, у кого нет 300к/сек на команду инженеров. А что с теми, у кого они есть?
Databricks сделал отчет по состоянии ИИ https://www.databricks.com/discover/state-of-data-ai
Советую прочитать, там много интересного, как растет запрос на внедрении ИИ в компаниях.
Деталь, которую хочу подчеркнуть: 77% компаний используют небольшие опенсорс модели. Небольшие это меньше 13 миллиардов параметров.
Крупному бизнесу не нужен AGI. Ему не нужно решать сразу все задачи мира. Ему нужно оптимизировать его чертов колл центр, который жрет миллиарды в год. Для таких задач прекрасно подходит парадигма: берём опенсорс модель, дообучаем на данных колл центра, вынимаем деньги.
Разница в стоимости работы большой LLM и маленькой может отличаться в 30 раз. Если вы возьмете 400 миллиардную модель, добавите туда какую-нибудь сложную агентность, то может оказаться, что лучше бы не оптимизировали ничего :)
Что будет дальше?
На небольших LLM можно решать узкие задачи. Бизнес сможет «сорвать низко висящие колл центры», получить возврат инвестиций, убедиться что AI работает. Для задач, которые смогут сильнее повлиять бизнес процессы, нужны модели побольше. Но тут нам поможет закон Мура - вычисления дешевеют. Так и будем бежать: бизнес решает задачу попроще, вычисления дешевеют, бизнес решает задачу посложнее, вычисления дешевеют...
Из прошлого поста мы поняли, что LLM дает доступ для тех, у кого нет 300к/сек на команду инженеров. А что с теми, у кого они есть?
Databricks сделал отчет по состоянии ИИ https://www.databricks.com/discover/state-of-data-ai
Советую прочитать, там много интересного, как растет запрос на внедрении ИИ в компаниях.
Деталь, которую хочу подчеркнуть: 77% компаний используют небольшие опенсорс модели. Небольшие это меньше 13 миллиардов параметров.
Крупному бизнесу не нужен AGI. Ему не нужно решать сразу все задачи мира. Ему нужно оптимизировать его чертов колл центр, который жрет миллиарды в год. Для таких задач прекрасно подходит парадигма: берём опенсорс модель, дообучаем на данных колл центра, вынимаем деньги.
Разница в стоимости работы большой LLM и маленькой может отличаться в 30 раз. Если вы возьмете 400 миллиардную модель, добавите туда какую-нибудь сложную агентность, то может оказаться, что лучше бы не оптимизировали ничего :)
Что будет дальше?
На небольших LLM можно решать узкие задачи. Бизнес сможет «сорвать низко висящие колл центры», получить возврат инвестиций, убедиться что AI работает. Для задач, которые смогут сильнее повлиять бизнес процессы, нужны модели побольше. Но тут нам поможет закон Мура - вычисления дешевеют. Так и будем бежать: бизнес решает задачу попроще, вычисления дешевеют, бизнес решает задачу посложнее, вычисления дешевеют...
3👍9🔥5❤3❤🔥2
Prompt driven development
Как правильно проверять, будут покупать продукт или нет? Попробовать его кому-то продать, придумав, как будто он у вас есть.
В B2C вы делаете простой лендос, закупаете трафик в Директе, считаете CTR в рекламу и в кнопку заказа. Ничего еще не сделали, но гипотезу протестировали. Для B2B почти тоже самое: надеваете костюм, снимаете трубку, назначаете встречу и вперед. Если вдруг получилось, аккуратно сливаетесь, что будет через полгода.
В ML надо делать точно также.
Как делают сейчас:
- закупают кучу железа
- нанимают 5 инженеров за 300к/сек
- выдают оторванное от реальности тз
- инженеры ворчат, что нет данных, им еще разметку дорогую собирают
- в итоге через год офигенный продукт, который правда никому нафиг не нужен, но все вынуждены притворяться, потому что жалко.
Как делать надо:
- придумали идею
- напромптили ее реализацию без ML вообще
- посмотрели, провели UX, прикинули метрики, поняли надо оно или закапываем
- вот если надо, тогда идем к инженерам за 300к/сек
Сэкономил вам бесплатно кучу денег и нервов, пользуйтесь и делитесь с друзьями.
Как правильно проверять, будут покупать продукт или нет? Попробовать его кому-то продать, придумав, как будто он у вас есть.
В B2C вы делаете простой лендос, закупаете трафик в Директе, считаете CTR в рекламу и в кнопку заказа. Ничего еще не сделали, но гипотезу протестировали. Для B2B почти тоже самое: надеваете костюм, снимаете трубку, назначаете встречу и вперед. Если вдруг получилось, аккуратно сливаетесь, что будет через полгода.
В ML надо делать точно также.
Как делают сейчас:
- закупают кучу железа
- нанимают 5 инженеров за 300к/сек
- выдают оторванное от реальности тз
- инженеры ворчат, что нет данных, им еще разметку дорогую собирают
- в итоге через год офигенный продукт, который правда никому нафиг не нужен, но все вынуждены притворяться, потому что жалко.
Как делать надо:
- придумали идею
- напромптили ее реализацию без ML вообще
- посмотрели, провели UX, прикинули метрики, поняли надо оно или закапываем
- вот если надо, тогда идем к инженерам за 300к/сек
Сэкономил вам бесплатно кучу денег и нервов, пользуйтесь и делитесь с друзьями.
1👍17🔥10❤🔥5🐳1🦄1
CEO Microsoft AI прогнозирует AGI максимум через 10 лет
Прочитал интервью генерального директора Microsoft AI Мустафы Сулеймана. Поражает сочетание футуризма и здравого смысла. Это подкупает и хочется верить в его прогнозы. Основные мысли из интервью:
- AGI нас ждет через 2-10 лет. Для этого потребуется 1-5 релизов видеокарт следующих поколений. После этого надо быть готовым, что огромное число работы будет делаться с помощью ИИ.
Вы же готовитесь, правда?)
- Партнерство OpenAi и Microsoft самое успешное партнерство компаний за всю историю. Microsoft инвестирует деньги и дает железо, OpenAi дает Microsoft технологию. Есть некоторое напряжение, что OpenAI их кинет, когда сделает AGI, но а кто бы на их месте не переживал?)
- Текущий поиск полностью сломан, люди просто привыкли к ужасному опыту использования. Мы вынуждены ломать голову над запросам, ходить по этим ужасным синим ссылкам, переформулировать запрос, чтобы нас поняли. LLM здесь все поменяет (Кстати, пользуйтесь Нейро, он уже поменял)
- ИИ полностью поменяет интерфейс взаимодействия с компьютером. Мустафа очень верит в голосовые интерфейсы. Вы будете просто разговаривать с компьютером, а после этого ИИ будет творить магию.
Я тут бы поспорил, меня бесит говорить с лампочкой, но каждому свое.
- Каждый браузер, поисковая система, приложение, бренд или блогер будут представлены в виде агенте с голосовым интерфейсом
- К этим агентам будут подключаться ваши персональные агенты, они будут решать всякие вопросики друг с другом, а вы будете отдыхать. Кто будет при этом смотреть рекламу решительно непонятно, но что-нибудь придумаем.
- Microsoft делает ставку на синтетические данные - это данные, сгенерированные одной моделью для обучения других моделей. Это должно компенсировать текущую нехватку данных в интернете. Кстати, на синтетических данных обучена Phi-4, которая рвет всех в классе маленьких моделей
Само интервью можно почитать тут: https://www.theverge.com/24314821/microsoft-ai-ceo-mustafa-suleyman-google-deepmind-openai-inflection-agi-decoder-podcast
Прочитал интервью генерального директора Microsoft AI Мустафы Сулеймана. Поражает сочетание футуризма и здравого смысла. Это подкупает и хочется верить в его прогнозы. Основные мысли из интервью:
- AGI нас ждет через 2-10 лет. Для этого потребуется 1-5 релизов видеокарт следующих поколений. После этого надо быть готовым, что огромное число работы будет делаться с помощью ИИ.
Вы же готовитесь, правда?)
- Партнерство OpenAi и Microsoft самое успешное партнерство компаний за всю историю. Microsoft инвестирует деньги и дает железо, OpenAi дает Microsoft технологию. Есть некоторое напряжение, что OpenAI их кинет, когда сделает AGI, но а кто бы на их месте не переживал?)
- Текущий поиск полностью сломан, люди просто привыкли к ужасному опыту использования. Мы вынуждены ломать голову над запросам, ходить по этим ужасным синим ссылкам, переформулировать запрос, чтобы нас поняли. LLM здесь все поменяет (Кстати, пользуйтесь Нейро, он уже поменял)
- ИИ полностью поменяет интерфейс взаимодействия с компьютером. Мустафа очень верит в голосовые интерфейсы. Вы будете просто разговаривать с компьютером, а после этого ИИ будет творить магию.
Я тут бы поспорил, меня бесит говорить с лампочкой, но каждому свое.
- Каждый браузер, поисковая система, приложение, бренд или блогер будут представлены в виде агенте с голосовым интерфейсом
- К этим агентам будут подключаться ваши персональные агенты, они будут решать всякие вопросики друг с другом, а вы будете отдыхать. Кто будет при этом смотреть рекламу решительно непонятно, но что-нибудь придумаем.
- Microsoft делает ставку на синтетические данные - это данные, сгенерированные одной моделью для обучения других моделей. Это должно компенсировать текущую нехватку данных в интернете. Кстати, на синтетических данных обучена Phi-4, которая рвет всех в классе маленьких моделей
Само интервью можно почитать тут: https://www.theverge.com/24314821/microsoft-ai-ceo-mustafa-suleyman-google-deepmind-openai-inflection-agi-decoder-podcast
The Verge
Microsoft AI CEO Mustafa Suleyman on what the industry is getting wrong about AGI
The head of Microsoft’s AI division on competing with Google and how to define superintelligence.
1👍9🔥4❤1❤🔥1🤔1🐳1👾1
Самое важное знание человечества по мнению Сэма Альтмана
У закона нет конкретного имени или формулировки, его сотни раз замечали и в покере, и в шахматах, и вот теперь в LLM.
Самая известная работа, в которой был описан этот закон для обучения трансформеров, определила развитие ИИ. Обычно такие законы называют законы масштабирования или scaling laws
Закон говорит, что ошибка модели зависит от трех величин: C - сколько вычислений вы использовали для обучения, D - размер датасета, N - сколько параметров в модели.
Теперь самое важное: эта зависимость офигеть какая точная (смотрите первую картинку) Посмотрите, как хорошо все точки кладутся на одну ровную линию. Я таких ровных прямых не видел, когда делал лабораторные по физике (возможно, конечно, дело во мне). Наклон этой линии определяет, как модель хороша при масштабировании - чем выше наклон, тем проще растить качество.
Все архитектуры можно и нужно масштабировать. Неважно, у вас сверточная сеть, рекуррентная LSTM-сеть или трансформер. Но все они масштабируются по разному. Сравните на 2 картинке наклон трансформеров и LSTM. Так как вычисления дешевеют, нужно брать ту архитектуру, которая масштабируется максимально хорошо.
C ростом параметров/данных/GPU растут все возможные метрики на различных задачах: перевод становится точнее, ответы на вопросы корректнее, задачи по математике начинают решаться. Даже текст, который генерирует модель, все сложнее и сложнее отличить от текста, написанного человеком.
Про этот закон сам Альтман сказал следующее:
Теперь вы понимаете, как Альтман планировал добежать до AGI: взять самую эффективную архитектуру в мире (трансформер), собрать все данные в мире (интернет) и собрать все венчурные деньги мира.
Но кое-что пошло не так. У Альтмана кончилисьденьги данные. Об этом я расскажу уже в следующих постах.
У закона нет конкретного имени или формулировки, его сотни раз замечали и в покере, и в шахматах, и вот теперь в LLM.
Самая известная работа, в которой был описан этот закон для обучения трансформеров, определила развитие ИИ. Обычно такие законы называют законы масштабирования или scaling laws
Закон говорит, что ошибка модели зависит от трех величин: C - сколько вычислений вы использовали для обучения, D - размер датасета, N - сколько параметров в модели.
Теперь самое важное: эта зависимость офигеть какая точная (смотрите первую картинку) Посмотрите, как хорошо все точки кладутся на одну ровную линию. Я таких ровных прямых не видел, когда делал лабораторные по физике (возможно, конечно, дело во мне). Наклон этой линии определяет, как модель хороша при масштабировании - чем выше наклон, тем проще растить качество.
Все архитектуры можно и нужно масштабировать. Неважно, у вас сверточная сеть, рекуррентная LSTM-сеть или трансформер. Но все они масштабируются по разному. Сравните на 2 картинке наклон трансформеров и LSTM. Так как вычисления дешевеют, нужно брать ту архитектуру, которая масштабируется максимально хорошо.
C ростом параметров/данных/GPU растут все возможные метрики на различных задачах: перевод становится точнее, ответы на вопросы корректнее, задачи по математике начинают решаться. Даже текст, который генерирует модель, все сложнее и сложнее отличить от текста, написанного человеком.
Про этот закон сам Альтман сказал следующее:
Cамое важное знание, обнаруженное в моей жизни, заключалось в том, что масштабирование моделей ИИ приводит к невероятным и предсказуемым улучшениям интеллекта. У меня был странный опыт, когда я рассказывал об этом другим людям, пытаясь уговорить других людей дать нам деньги на это.
Теперь вы понимаете, как Альтман планировал добежать до AGI: взять самую эффективную архитектуру в мире (трансформер), собрать все данные в мире (интернет) и собрать все венчурные деньги мира.
Но кое-что пошло не так. У Альтмана кончились
1👍13⚡5❤5🔥2🤔1🐳1
Друзья, нас уже больше сотни!!!
За месяц мы выросли в 100 раз, пока идем как лучшие стартапы Y Combinator :)
Спасибо, что читаете, комментируете и делитесь прочитанным!
Основное качество этого канала: я не рассказываю вам события из мира ИИ, я делюсь уже смыслами, которые из этих событий возникают. Событие это просто точка, надо их сначала соединить.
Что нас ждёт дальше:
- AGI без масштабирования обучения
- Куда нужно, а куда не нужно совать этот ИИ
- Кто и как на ИИ зарабатывает
- Почему я ненавижу промпт инженеров
…
- и еще много много смысла
Пишите в комментариях, что интересно вам узнать о мире ИИ)
За месяц мы выросли в 100 раз, пока идем как лучшие стартапы Y Combinator :)
Спасибо, что читаете, комментируете и делитесь прочитанным!
Основное качество этого канала: я не рассказываю вам события из мира ИИ, я делюсь уже смыслами, которые из этих событий возникают. Событие это просто точка, надо их сначала соединить.
Что нас ждёт дальше:
- AGI без масштабирования обучения
- Куда нужно, а куда не нужно совать этот ИИ
- Кто и как на ИИ зарабатывает
- Почему я ненавижу промпт инженеров
…
- и еще много много смысла
Пишите в комментариях, что интересно вам узнать о мире ИИ)
1❤12🔥7🎉6❤🔥2👍2🐳1
Масштабирование моделей закончилось?
Илья Суцкевер, один из основателей OpenAi, на конференции NIPS обрадовал нас, что халява прошла - просто растить модели и получать качество не получится. Почему? У нас закончились текстовые данные. Почему кончились данные, а не деньги? Закон Мура работает - железо дешевеет, а данные мы с такой скоростью не успеваем производить.
LLM учатся на данных из интернета, а интернет у нас один (внезапно) и полон мусора (но не этот канал).
Коллеги из Epoch Ai провели оценку и прикинули, что всего 20% данных интернета пригодны для обучения. В зависимости от роста потребления, мы истратим все текстовые данные между 2025 и 2028 годах. Больше данных нет. Еще и в этом смысле данные это нефть - у нас они есть, они двигают человечество, но запасы иссякают.
Как тогда достичь AGI
На этот вопрос в докладе пытается ответить Суцкевер.
Он выделил 3 направления:
1) Синтетические данные. Это данные, которые генерируют одни LLM, на которых потом обучаются другие LLM. Такой конвейер по переработке данных. Полезно, потому что можно переваривать "сырые данные", а на выход давать более качественные переботаннные. То есть финальную модель будем учить не на нефте, а уже на бензине.
2) Test-time compute или увеличение вычислений во время предсказания модели. Вы можете сразу же, с чистого листа, написать эссе, презентацию, программу? Или вам надо сначала крепко подумать? Вот, LLM тоже надо. Модель o-1 теперь перед ответом рассуждает, что офигеть как растит метрики на математике/программировании. Чтобы думать нужны вычисления, то есть тут мы растим вычисления не на обучение модели, а на предсказание.
3) Агенты. Вот мы научились рассуждать, но, для некоторых задач нужно уметь пользоваться калькулятором, узнать сегодняшнее число или даже отправлять сообщение кому-то в телеграмме. Нужно подключить LLM к внешним инструментам, которые используем мы для своих задач, иначе они тупо не будут решаться. Вот тогда вы сможете попросить GPT написать эссе, чтобы антиплагиат выдавал 95% уникальности :) Моделька будет редактировать эссе, ходить в антиплагиат и так пока не добьет до нужного процента.
Про каждую из этих тем я напишу отдельный пост, а пока расскажите в комментариях, что по-вашему самое перспективное? Где лежит highway to AGI?
Илья Суцкевер, один из основателей OpenAi, на конференции NIPS обрадовал нас, что халява прошла - просто растить модели и получать качество не получится. Почему? У нас закончились текстовые данные. Почему кончились данные, а не деньги? Закон Мура работает - железо дешевеет, а данные мы с такой скоростью не успеваем производить.
LLM учатся на данных из интернета, а интернет у нас один (внезапно) и полон мусора (но не этот канал).
Коллеги из Epoch Ai провели оценку и прикинули, что всего 20% данных интернета пригодны для обучения. В зависимости от роста потребления, мы истратим все текстовые данные между 2025 и 2028 годах. Больше данных нет. Еще и в этом смысле данные это нефть - у нас они есть, они двигают человечество, но запасы иссякают.
Как тогда достичь AGI
На этот вопрос в докладе пытается ответить Суцкевер.
Он выделил 3 направления:
1) Синтетические данные. Это данные, которые генерируют одни LLM, на которых потом обучаются другие LLM. Такой конвейер по переработке данных. Полезно, потому что можно переваривать "сырые данные", а на выход давать более качественные переботаннные. То есть финальную модель будем учить не на нефте, а уже на бензине.
2) Test-time compute или увеличение вычислений во время предсказания модели. Вы можете сразу же, с чистого листа, написать эссе, презентацию, программу? Или вам надо сначала крепко подумать? Вот, LLM тоже надо. Модель o-1 теперь перед ответом рассуждает, что офигеть как растит метрики на математике/программировании. Чтобы думать нужны вычисления, то есть тут мы растим вычисления не на обучение модели, а на предсказание.
3) Агенты. Вот мы научились рассуждать, но, для некоторых задач нужно уметь пользоваться калькулятором, узнать сегодняшнее число или даже отправлять сообщение кому-то в телеграмме. Нужно подключить LLM к внешним инструментам, которые используем мы для своих задач, иначе они тупо не будут решаться. Вот тогда вы сможете попросить GPT написать эссе, чтобы антиплагиат выдавал 95% уникальности :) Моделька будет редактировать эссе, ходить в антиплагиат и так пока не добьет до нужного процента.
Про каждую из этих тем я напишу отдельный пост, а пока расскажите в комментариях, что по-вашему самое перспективное? Где лежит highway to AGI?
YouTube
Ilya Sutskever: "Sequence to sequence learning with neural networks: what a decade"
Ilya Sutskever full talk "Sequence to sequence learning with neural networks: what a decade" at NeurIPS 2024 in Vancouver, Canada.
"Pre-training as we know it will end" and what comes next is superintelligence: agentic, reasons, understands and is self aware.…
"Pre-training as we know it will end" and what comes next is superintelligence: agentic, reasons, understands and is self aware.…
🔥9👍5❤4🏆3👾2❤🔥1😱1🐳1
Как надо делать ИИ стартап
Кажется, я надоел вам с AGI, давайте наконец обсудим деньги. Вокруг ИИ хайп, до 40% всех IT венчурных денег сейчас вваливают в ИИ.
Сейчас самая популярная идея: Вертикальный ИИ - это когда ты делаешь модель под отдельную индустрию: ИИ-юрист, ИИ-бухгалтер, ИИ-инженер, в конце концов. Есть хороший видос YCombinator про это. Я говорю, что большинство таких стартапов обречено. Потому что они неправильно понимают свою ценность.
Как мыслит основатель: есть крутая модель (GPT4, опенсорс, пофиг), она пока не может быть ИИ-юристом, я ее чуть-чуть докручу, в прыжке буду лучше GPT4 и стану богачом. Докручивают по разному: придумывают промпты (ненавижу), вставляют ифы (ненавижу, но понимаю), дообучают опенсорс (похвально, но тоже обречено) и тд. Всю их логику снесет новое поколение базовых моделей. Пока GPT не может быть ИИ-юристом. Через 2 года вы выгрузите в него нужные законы и все. Вся ваша логика уже никому не нужна.
Что делать?
Очень тупо в 2024 пытаться отгородиться от других за счет умности вашей модели, если вы не супер большая корпорация. Эти модели разрабатывает, блин, половина умнейших людей человечества. Используйте лучшие модели. Защищайтесь с помощью ваших данных.
Никто кроме вас не знает ваших клиентов. Никто не знает ваших методологий и протоколов. Никто не знает ваших накопленных годами успешных кейсов. Это все ваше конкурентное преимущество. Оцифруйте ваш бизнес и затем используйте в чужих моделях: в промтинге, в RAG, дообучении или как угодно еще. Не пытайтесь перегнать OpenAI, стойте на его плечах.
Это верно не только для стартапов. Вы всегда должны думать, что следующее поколение моделей будет еще умнее. Чтобы знать что делать и быть на стороже - читайте этот канал (спаси своего друга - сделай репост, еще и мне приятно)
Кажется, я надоел вам с AGI, давайте наконец обсудим деньги. Вокруг ИИ хайп, до 40% всех IT венчурных денег сейчас вваливают в ИИ.
Сейчас самая популярная идея: Вертикальный ИИ - это когда ты делаешь модель под отдельную индустрию: ИИ-юрист, ИИ-бухгалтер, ИИ-инженер, в конце концов. Есть хороший видос YCombinator про это. Я говорю, что большинство таких стартапов обречено. Потому что они неправильно понимают свою ценность.
Как мыслит основатель: есть крутая модель (GPT4, опенсорс, пофиг), она пока не может быть ИИ-юристом, я ее чуть-чуть докручу, в прыжке буду лучше GPT4 и стану богачом. Докручивают по разному: придумывают промпты (ненавижу), вставляют ифы (ненавижу, но понимаю), дообучают опенсорс (похвально, но тоже обречено) и тд. Всю их логику снесет новое поколение базовых моделей. Пока GPT не может быть ИИ-юристом. Через 2 года вы выгрузите в него нужные законы и все. Вся ваша логика уже никому не нужна.
Что делать?
Очень тупо в 2024 пытаться отгородиться от других за счет умности вашей модели, если вы не супер большая корпорация. Эти модели разрабатывает, блин, половина умнейших людей человечества. Используйте лучшие модели. Защищайтесь с помощью ваших данных.
Никто кроме вас не знает ваших клиентов. Никто не знает ваших методологий и протоколов. Никто не знает ваших накопленных годами успешных кейсов. Это все ваше конкурентное преимущество. Оцифруйте ваш бизнес и затем используйте в чужих моделях: в промтинге, в RAG, дообучении или как угодно еще. Не пытайтесь перегнать OpenAI, стойте на его плечах.
Это верно не только для стартапов. Вы всегда должны думать, что следующее поколение моделей будет еще умнее. Чтобы знать что делать и быть на стороже - читайте этот канал (спаси своего друга - сделай репост, еще и мне приятно)
👍21🔥9❤6🦄4❤🔥2🐳2
В ИИ сменилась парадигма. Она с нами навсегда.
В сентябре OpenAI прервал нейминг GPT - вышла модель o1. Не GPT-4.5, не GPT-5.
Назвали так не случайно. C выходом o1 сменилась парадигма - мы теперь не только растим обучение модели, мы растим ее предсказание. Это будет мощнейший тренд на 2025.
Почему это важно?
В прошлых постах я рассказывал, что масштабирование обучения переживает не лучшие времена. Во-первых, кончаются данные для обучения. Во-вторых, кончается терпение инвесторов: год-два требуется, чтобы построить кластер, много месяцев на тренировку моделей. Но стартапам нужно скорее показывать прирост в качестве, чтобы тебя не назвали жалким пузырем и не выкинули с техно небосклона. Решение есть!
Test-time compute. Оно же масштабирование предсказаний, оно же "давайте заставим модель подумать". Не торопите модель, дайте ей время и вычисления, чтобы она порассуждала и вывела правильный ответ. Почему это круто:
1) Для этого не нужны огромные кластера. Просто запрос в модель будет сильно дольше обрабатываться. Расходы переведем на пользователя ^^
2) У этого есть эффект низкой базы: мы совсем не исследовали эту область, каждое улучшение дает огромный вклад в качество модели.
3) У этого такие же приятные законы, как и для масштабирования обучения. Это видно на картинке, где показаны графики с масштабированием обучения и предсказания для o1. Ты можешь заранее прикинуть, какое у тебя будет качество, приложив логарифмическую линейку (ке-ке-ке)
Следствие этих 3 причин - выходит модель o1, она унижает по метрикам GPT-4. Спустя 3 месяца после o1 выходит o3 и теперь унижают уже o1. Масштабирование обучения отстает: GPT-5 мы 2 года ждем и инвесторы уже беспокоятся...
Почему вы этого не заметили?
Все это унижение происходит только в сложных технических задачах - математике, программировании и тд. Почему? Потому что там проще всего построить систему оценки - какое рассуждение правильное, а какое нет. Когда понятно, какое правильно - дальше уже можно научить модельку правильное генерировать (так кстати весь ИИ работает, если вы не знали, да). Для более общих дисциплин улучшения скорее нет. Пойди пойми как правильно писать "сочинение как я провел лето". Думаю, что OpenAI над этим уже работают и вскоре это поменяется. Школьники ждут.
Вместо вывода
Noam Brown, один из авторов o1, в интервью рассказал, что он и Суцкевер не верили в AGI ближайшее время, потому что у нас нет алгоритмов масштабирования предсказания. Что ж, теперь они есть. И с ними нас ждет очень интересный 2025.
Если хотите, чтобы я подробнее разобрал как обучать такие модельки, ставьте реакции, пишите комменты ^^
И шарьте пост своим ИИ-друзьям)
В сентябре OpenAI прервал нейминг GPT - вышла модель o1. Не GPT-4.5, не GPT-5.
Назвали так не случайно. C выходом o1 сменилась парадигма - мы теперь не только растим обучение модели, мы растим ее предсказание. Это будет мощнейший тренд на 2025.
Почему это важно?
В прошлых постах я рассказывал, что масштабирование обучения переживает не лучшие времена. Во-первых, кончаются данные для обучения. Во-вторых, кончается терпение инвесторов: год-два требуется, чтобы построить кластер, много месяцев на тренировку моделей. Но стартапам нужно скорее показывать прирост в качестве, чтобы тебя не назвали жалким пузырем и не выкинули с техно небосклона. Решение есть!
Test-time compute. Оно же масштабирование предсказаний, оно же "давайте заставим модель подумать". Не торопите модель, дайте ей время и вычисления, чтобы она порассуждала и вывела правильный ответ. Почему это круто:
1) Для этого не нужны огромные кластера. Просто запрос в модель будет сильно дольше обрабатываться. Расходы переведем на пользователя ^^
2) У этого есть эффект низкой базы: мы совсем не исследовали эту область, каждое улучшение дает огромный вклад в качество модели.
3) У этого такие же приятные законы, как и для масштабирования обучения. Это видно на картинке, где показаны графики с масштабированием обучения и предсказания для o1. Ты можешь заранее прикинуть, какое у тебя будет качество, приложив логарифмическую линейку (ке-ке-ке)
Следствие этих 3 причин - выходит модель o1, она унижает по метрикам GPT-4. Спустя 3 месяца после o1 выходит o3 и теперь унижают уже o1. Масштабирование обучения отстает: GPT-5 мы 2 года ждем и инвесторы уже беспокоятся...
Почему вы этого не заметили?
Все это унижение происходит только в сложных технических задачах - математике, программировании и тд. Почему? Потому что там проще всего построить систему оценки - какое рассуждение правильное, а какое нет. Когда понятно, какое правильно - дальше уже можно научить модельку правильное генерировать (так кстати весь ИИ работает, если вы не знали, да). Для более общих дисциплин улучшения скорее нет. Пойди пойми как правильно писать "сочинение как я провел лето". Думаю, что OpenAI над этим уже работают и вскоре это поменяется. Школьники ждут.
Вместо вывода
Noam Brown, один из авторов o1, в интервью рассказал, что он и Суцкевер не верили в AGI ближайшее время, потому что у нас нет алгоритмов масштабирования предсказания. Что ж, теперь они есть. И с ними нас ждет очень интересный 2025.
Если хотите, чтобы я подробнее разобрал как обучать такие модельки, ставьте реакции, пишите комменты ^^
И шарьте пост своим ИИ-друзьям)
👍29❤8🔥8🐳2😱1
Почему я ненавижу промпт инженеров
Как вы вели себя в 2024 году? Успели посмотреть видео «топ ураганных промптов к чат-гпт»? Может подписались на телеграмм канал с секретными промптами? Или даже купили курс «Advanced техник написания промптов» у любимого блогера?
Тогда вы вели себя плохо, сейчас я расскажу почему.
Что есть промпт?
Промпт - это интерфейс к языковой модели. Если этот интерфейс требует мольбы: «от тебя зависит судьба человечества» или «за каждый правильный ответ тебене дадут по щам дадут 100 $», то это дерьмовый интерфейс. Это значит модель плохо понимает человека. Для этого и есть процедура alignment - дообучения модели, чтобы она поняла, что от нее хотят. Все компании, которые выпускают LLM за год в этом преуспели: большинство хаков, которые вы читали в умных книгах по промптингу уже не работают в последних моделях, потому что модели научились хорошо работать из коробки.
Пример будет?
Chain of thoughts здесь самый наглядный пример. Огромное число разных логик, агрегаций этих самых разных логик и танцев с бубном. Все это, чтобы заставить модель рассуждать, чтобы в прыжке побить GPT4. Все это отправляется в ведро с выходом o1 - она из коробки делает лучше, чем все эти костыли. Если у вас задача в прыжке быть лучше, это имеет смысл, но если ваш продукт будет жить больше года - лучше займитесь чем-то более полезным. Примерно тоже самое я говорил в посте про ИИ-стартапы.
Языковой интерфейс (промптинг) по определению сделан так, чтобы вы использовали обычную речь для переговоров с моделями. Базовые техники написания промптов можно изложить в одном посте, и они мало будут отличаться от инструкций для людей. Скорее будут похожи на кодекс капитана очевидности: пишите понятно, непонятно не пишите.
Отдельно меня радуют вакансии на промпт инженера. Интересно, нанимали ли в начале нулевых «эксель инженера» или «outlook инженера»… Бизнесу не нужны мастера промптов. Бизнесу нужны люди, которые умеют делать продукты на основе LLM. Это сильно больше, чем просто «промпт инженер».
Что на самом деле надо делать
Не учитесь делать костыли, учитесьделать нормально фундаментальным вещам.
Что реально важно при работе с LLM при промптинге:
- оценка качества
- тесты
- выбор модели
- формат ввода/вывода
- подключение инструментов
..
- но, пожалуйста, не надо 5 дней подбирать промпт.
Чтобы разобраться, что важно, а что нет - читайте этот канал. И всех с наступающим ^^
Как вы вели себя в 2024 году? Успели посмотреть видео «топ ураганных промптов к чат-гпт»? Может подписались на телеграмм канал с секретными промптами? Или даже купили курс «Advanced техник написания промптов» у любимого блогера?
Тогда вы вели себя плохо, сейчас я расскажу почему.
Что есть промпт?
Промпт - это интерфейс к языковой модели. Если этот интерфейс требует мольбы: «от тебя зависит судьба человечества» или «за каждый правильный ответ тебе
Пример будет?
Chain of thoughts здесь самый наглядный пример. Огромное число разных логик, агрегаций этих самых разных логик и танцев с бубном. Все это, чтобы заставить модель рассуждать, чтобы в прыжке побить GPT4. Все это отправляется в ведро с выходом o1 - она из коробки делает лучше, чем все эти костыли. Если у вас задача в прыжке быть лучше, это имеет смысл, но если ваш продукт будет жить больше года - лучше займитесь чем-то более полезным. Примерно тоже самое я говорил в посте про ИИ-стартапы.
Языковой интерфейс (промптинг) по определению сделан так, чтобы вы использовали обычную речь для переговоров с моделями. Базовые техники написания промптов можно изложить в одном посте, и они мало будут отличаться от инструкций для людей. Скорее будут похожи на кодекс капитана очевидности: пишите понятно, непонятно не пишите.
Отдельно меня радуют вакансии на промпт инженера. Интересно, нанимали ли в начале нулевых «эксель инженера» или «outlook инженера»… Бизнесу не нужны мастера промптов. Бизнесу нужны люди, которые умеют делать продукты на основе LLM. Это сильно больше, чем просто «промпт инженер».
Что на самом деле надо делать
Не учитесь делать костыли, учитесь
Что реально важно при работе с LLM при промптинге:
- оценка качества
- тесты
- выбор модели
- формат ввода/вывода
- подключение инструментов
..
- но, пожалуйста, не надо 5 дней подбирать промпт.
Чтобы разобраться, что важно, а что нет - читайте этот канал. И всех с наступающим ^^
👍18🔥11❤6❤🔥3🐳1
Кому уже пора нанимать ИИ-сотрудников?
Никаких поисков и собеседований. Не нужно торговаться о зарплате. Заходишь на сайт, кликаешь на нужную специальность, например, фронтенд-разработчик. Дальше выкручиваешь ему на максимум самостоятельность, инициативность, готовность к переработкам. Нажимаешь «нанять» и дальше твой сайт верстает не по дням, а по часам твой новый цифровой коллега. Думаете, я сошел с ума? Не только я.
HubSpot, одна из крупнейших CRM-систем, сделала такой ИИ-хедхантер. Конечно, там пока упор не на фронтенд, а на продажи и маркетинг. Там живут помощники в продажах, которые исследуют профиль клиента в соцсетях, SEO-оптимизатор, который нашпигует ваш сайт правильными словами и даже генератор мемов, который сделает ваш тг канал не таким сухим, как этот. Похожих ИИ-сотрудников я находил уже в хедхантере от OpenAI GPT Store. Кстати, ему уже год исполнился, как думаете, много оттуда нананимали сотрудников?
Почему это пока только утопия?
Предложение выглядит очень заманчиво, почему тогда не слышно о шквале внедрений ИИ-сотрудников? Несколько причин:
1) Мотивация компании. Нужно быть ну ОЧЕНЬ БОЛЬШИМ визионером, чтобы доверить важную часть бизнеса ИИ. Кого тогда лишать премии, если не достигнуты KPI?!
2) Интеграция. Огромная куча работы поонбордингу интеграции вашего нового сотрудника в вашу документацию, CRM-систему, почтовые сервисы и тд. Из коробки такая штука в ваш 1С не влетит.
3) Качество работы. Любая ГПТ-подобная машина будет худшим маркетологом, чем любой адекватный сотрудник. Пока что :)
Вывод: для успешных компаний ИИ-сотрудники пока скорее повод для цифровой гордости, но не реальный помощник в трудовых буднях. Я пока не видел массовых внедрений.
Кому это уже сейчас может помочь?
Удивительно, но малому бизнесу. Тем самым, у которых не было денег на ИИ-инженеров, но теперь они могут первым пожать профит от сильного ИИ.
Давайте те же самые пункты, по которым мы не хотели внедрять ИИ-сотрудников, разберем с точки зрения малого бизнеса
1) У малого бизнеса офигеть какая сильная мотивация: 9 из 10 малых предприятий умрут через 3 года. Хочешь жить - умей вертеться
2) У них нет кучи разных БД/CRM и прочих страшных слов. Если ведут отчетность в экселе - они уже герои.
3) У них нет Человека-маркетолога. Или есть, но нет денег на второго. А им нужно второго, иначе смотри пункт 1).
Harvard Business Review пишет о огромном падении на рынке фриланса. Фрилансом как раз пользуются небольшие компании, у которых нет денег на штат. Уже половина малого бизнеса в США внедрило ИИ инструменты. Кстати, в США малый это тот, у кого оборот до 10 миллионов долларов в год. Нормальный такой малыш.
Умное послесловие
Изначально ИИ популяризировался сверху вниз - поиск, контекстная реклама, автономные автомобили - все это было доступно только очень большим ребятам. Сейчас, когда пришло время трансформировать бизнес процессы, будет популяризация снизу вверх: первыми запрыгнут более шустрые маленькие компании. И тогда второй станет первым.
Друзья, с наступившим новым годом ^^
Не забывайте репостить друзьям интересные публикации, так я понимаю, о чем писать дальше
Никаких поисков и собеседований. Не нужно торговаться о зарплате. Заходишь на сайт, кликаешь на нужную специальность, например, фронтенд-разработчик. Дальше выкручиваешь ему на максимум самостоятельность, инициативность, готовность к переработкам. Нажимаешь «нанять» и дальше твой сайт верстает не по дням, а по часам твой новый цифровой коллега. Думаете, я сошел с ума? Не только я.
HubSpot, одна из крупнейших CRM-систем, сделала такой ИИ-хедхантер. Конечно, там пока упор не на фронтенд, а на продажи и маркетинг. Там живут помощники в продажах, которые исследуют профиль клиента в соцсетях, SEO-оптимизатор, который нашпигует ваш сайт правильными словами и даже генератор мемов, который сделает ваш тг канал не таким сухим, как этот. Похожих ИИ-сотрудников я находил уже в хедхантере от OpenAI GPT Store. Кстати, ему уже год исполнился, как думаете, много оттуда нананимали сотрудников?
Почему это пока только утопия?
Предложение выглядит очень заманчиво, почему тогда не слышно о шквале внедрений ИИ-сотрудников? Несколько причин:
1) Мотивация компании. Нужно быть ну ОЧЕНЬ БОЛЬШИМ визионером, чтобы доверить важную часть бизнеса ИИ. Кого тогда лишать премии, если не достигнуты KPI?!
2) Интеграция. Огромная куча работы по
3) Качество работы. Любая ГПТ-подобная машина будет худшим маркетологом, чем любой адекватный сотрудник. Пока что :)
Вывод: для успешных компаний ИИ-сотрудники пока скорее повод для цифровой гордости, но не реальный помощник в трудовых буднях. Я пока не видел массовых внедрений.
Кому это уже сейчас может помочь?
Удивительно, но малому бизнесу. Тем самым, у которых не было денег на ИИ-инженеров, но теперь они могут первым пожать профит от сильного ИИ.
Давайте те же самые пункты, по которым мы не хотели внедрять ИИ-сотрудников, разберем с точки зрения малого бизнеса
1) У малого бизнеса офигеть какая сильная мотивация: 9 из 10 малых предприятий умрут через 3 года. Хочешь жить - умей вертеться
2) У них нет кучи разных БД/CRM и прочих страшных слов. Если ведут отчетность в экселе - они уже герои.
3) У них нет Человека-маркетолога. Или есть, но нет денег на второго. А им нужно второго, иначе смотри пункт 1).
Harvard Business Review пишет о огромном падении на рынке фриланса. Фрилансом как раз пользуются небольшие компании, у которых нет денег на штат. Уже половина малого бизнеса в США внедрило ИИ инструменты. Кстати, в США малый это тот, у кого оборот до 10 миллионов долларов в год. Нормальный такой малыш.
Умное послесловие
Изначально ИИ популяризировался сверху вниз - поиск, контекстная реклама, автономные автомобили - все это было доступно только очень большим ребятам. Сейчас, когда пришло время трансформировать бизнес процессы, будет популяризация снизу вверх: первыми запрыгнут более шустрые маленькие компании. И тогда второй станет первым.
Друзья, с наступившим новым годом ^^
Не забывайте репостить друзьям интересные публикации, так я понимаю, о чем писать дальше
👍18🔥6❤5😱2🎉2☃1❤🔥1🐳1
Как вам нужно делать ИИ-продукты в эпоху LLM
Благодаря LLM теперь с моделями можно нормально общаться. Для обывателя это самое важное. Но для нас важно совсем другое: LLM лучше всех обобщается и это радикально упрощает любую ИИ-разработку.
В чем идея?
В ИИ у нас хорошо работал только Supervised Learning. Для него под каждую задачу надо собирать новые данные и обучать новую модель, потому что другие модели на эту задачу не обобщаются. Эту проблему 10 лет пытались решить кучей разных способов. Но рабочим оказался только один.
Способ называется Self Supervised Learning.
Сначала вы обучаете модель на большом массиве данных, которые не связаны с какой-то конкретной задачей, но которые могут наполнить модель интеллектом (предобучение). Потом вы уже наполненную интеллектом модель обучаете на какой-то узкой целевой задаче (дообучение). Оказывается, что тогда для этого второго этапа нужно экстремально мало данных. По такой схеме работали BERT в 2018 году, на котором делали весь NLP, CLIP в 2021, который потом активно использовался в CV. Также был сделан GPT-1 в 2018. Все эти модели предобучались по-разному, но использовалась одна эта идея.
Главное, за что мы должны благодарить OpenAI: они поверили в законы масштабирования и показали, что если в этот подход налить ну очень много вычислений, то модель будет обобщаться вообще без дообучения. Просто в промпте написали, что от модели надо, и все.
Как это упрощает разработку?
Радикально. Раньше релиз одной модели занимал дофига времени (смотри картинку в посте из доклада Andrew Ng)
Вам нужны были десятки тысяч примеров, которые аккуратно разметят люди. Для этого нужно написать инструкцию разметки для людей и проверить, что они ее поняли. Потом вы долго долго ждете...
Сейчас вам так делать запрещено. Любой небольшой проект в NLP должен выглядеть так, записывайте:
1) Берем самую мощную доступную нам мега-LLM
2) Максимум один день подбираете к ней промпт
3) Если промпт не подбирается, размечаете сами 200 примеров (справитесь, я в вас верю) и с помощью PEFT (методы эффективного обучения) дообучаете вашу мега-LLM
4) Дистилируете монстра с шагов 2) или 3) во что-то маленькое и входящее в рамки бюджета.
ВСЕ. Дальше можно уже ставить эксперименты и параллельно улучшать модель.
Что будет дальше?
Тренд будет только расти. Базовые модели будут жирнее/умнее, делать ИИ-проекты нам будет проще. Такая же LLM революция будет в компьютерном зрении, когда нормально заведутся мультимодальные модели. Такой же подход позволит делать более обобщаемых роботов, что откроет дорогу массовой роботехнике. Вообщем, будет круто, я обещаю.
Вам же нужно внимательно следить за развитием этих моделей и уметь правильно их использовать в своих продуктах. Благо, с этим поможет этот канал.
Друзья, посты становятся более хардкорными, пишите в комментариях, если что-то нужно объяснить. Вам правда нужно это все знать. Под самые популярные вопросы сделаю отдельные публикации.
Благодаря LLM теперь с моделями можно нормально общаться. Для обывателя это самое важное. Но для нас важно совсем другое: LLM лучше всех обобщается и это радикально упрощает любую ИИ-разработку.
В чем идея?
В ИИ у нас хорошо работал только Supervised Learning. Для него под каждую задачу надо собирать новые данные и обучать новую модель, потому что другие модели на эту задачу не обобщаются. Эту проблему 10 лет пытались решить кучей разных способов. Но рабочим оказался только один.
Способ называется Self Supervised Learning.
Сначала вы обучаете модель на большом массиве данных, которые не связаны с какой-то конкретной задачей, но которые могут наполнить модель интеллектом (предобучение). Потом вы уже наполненную интеллектом модель обучаете на какой-то узкой целевой задаче (дообучение). Оказывается, что тогда для этого второго этапа нужно экстремально мало данных. По такой схеме работали BERT в 2018 году, на котором делали весь NLP, CLIP в 2021, который потом активно использовался в CV. Также был сделан GPT-1 в 2018. Все эти модели предобучались по-разному, но использовалась одна эта идея.
Главное, за что мы должны благодарить OpenAI: они поверили в законы масштабирования и показали, что если в этот подход налить ну очень много вычислений, то модель будет обобщаться вообще без дообучения. Просто в промпте написали, что от модели надо, и все.
Как это упрощает разработку?
Радикально. Раньше релиз одной модели занимал дофига времени (смотри картинку в посте из доклада Andrew Ng)
Вам нужны были десятки тысяч примеров, которые аккуратно разметят люди. Для этого нужно написать инструкцию разметки для людей и проверить, что они ее поняли. Потом вы долго долго ждете...
Сейчас вам так делать запрещено. Любой небольшой проект в NLP должен выглядеть так, записывайте:
1) Берем самую мощную доступную нам мега-LLM
2) Максимум один день подбираете к ней промпт
3) Если промпт не подбирается, размечаете сами 200 примеров (справитесь, я в вас верю) и с помощью PEFT (методы эффективного обучения) дообучаете вашу мега-LLM
4) Дистилируете монстра с шагов 2) или 3) во что-то маленькое и входящее в рамки бюджета.
ВСЕ. Дальше можно уже ставить эксперименты и параллельно улучшать модель.
Что будет дальше?
Тренд будет только расти. Базовые модели будут жирнее/умнее, делать ИИ-проекты нам будет проще. Такая же LLM революция будет в компьютерном зрении, когда нормально заведутся мультимодальные модели. Такой же подход позволит делать более обобщаемых роботов, что откроет дорогу массовой роботехнике. Вообщем, будет круто, я обещаю.
Вам же нужно внимательно следить за развитием этих моделей и уметь правильно их использовать в своих продуктах. Благо, с этим поможет этот канал.
Друзья, посты становятся более хардкорными, пишите в комментариях, если что-то нужно объяснить. Вам правда нужно это все знать. Под самые популярные вопросы сделаю отдельные публикации.
🔥29👍16❤🔥5❤2🐳1
Почему нам нужно делать вертикальные продукты
Нашел крутую статью, которая частично пересказывает, что я вам говорил месяц назад. Наверное, поэтому я и считаю ее крутой :)
О чем статья?
Есть два фреймворка, чтобы делать ваш ИИ-бизнес.
1) Вертикальный. Когда вы целитесь в определенную нишу, например, ИИ для юристов. Это, например, Devin, стартап который делает ИИ-разработчика.
2) Горизонтальный. Когда вы делаете широкое решение для всех ниш, а каждая ниша може взять и использовать сама. Это ChatGPT, Claude, ну вы поняли.
Главная мысль: чем сильнее базовые модели, тем намного менее ценна ваша вертикализация. Так какбатут закон Мура и закон масштабирования работают, не нужно тратить силы ИИ-инженеров на вертикальные проекты. Придет новое горизонтальное решение, которое выкинет в помойку тебя все твои труды. Значит делать вертикальное ИИ вообще не разумно.
Почему на самом деле автор не прав?
Я согласен - костылить не надо. Но делать вертикальные решения - надо. У вертикального способа есть два важных преимущества, которые не дадут ему умереть
1) Интеграция. Я НИКОГДА за 8 лет в ИИ-разработке не видел НИ ОДНОГО решения, которое куда-либо встраивались без допиливания. Это ИИ, тут все идетчерез одно место не по плану. Всегда будет отдельная продуктовая логика, всегда будут исключения из правил, всегда для какой-то вертикали будет особое поведение. Юристом не надо, что бухгалтерам, бухгалтерам наплевать на программистов (кроме 1C, кек)
2) Маркетинг. Частично следствие пункта 1). Вам нужно четкое позиционирование на бухглатеров, четкие кейсы и обучающие примеры для бухгалтеров, знакомые в бухгалтерской ложе, чтобы продать им ИИ ассистента. Очень мало бухгалтеров поймут, что конкретно это горизонтальное ИИ решение им очень нужно и спасет их от скорого разорения.
Резюме
Повторяю: костылить промпты для 0.01% точности - зло. Делать вертикальную разработку нужно. На самом деле, не просто нужно, а в реалиях 2025 по-другому у вас и не выйдет. Конечно, когда Альтман сделает AGI и наступит сингулярность... Но до этого еще надо дожить. А пока, работаем!
Нашел крутую статью, которая частично пересказывает, что я вам говорил месяц назад. Наверное, поэтому я и считаю ее крутой :)
О чем статья?
Есть два фреймворка, чтобы делать ваш ИИ-бизнес.
1) Вертикальный. Когда вы целитесь в определенную нишу, например, ИИ для юристов. Это, например, Devin, стартап который делает ИИ-разработчика.
2) Горизонтальный. Когда вы делаете широкое решение для всех ниш, а каждая ниша може взять и использовать сама. Это ChatGPT, Claude, ну вы поняли.
Главная мысль: чем сильнее базовые модели, тем намного менее ценна ваша вертикализация. Так как
Почему на самом деле автор не прав?
Я согласен - костылить не надо. Но делать вертикальные решения - надо. У вертикального способа есть два важных преимущества, которые не дадут ему умереть
1) Интеграция. Я НИКОГДА за 8 лет в ИИ-разработке не видел НИ ОДНОГО решения, которое куда-либо встраивались без допиливания. Это ИИ, тут все идет
2) Маркетинг. Частично следствие пункта 1). Вам нужно четкое позиционирование на бухглатеров, четкие кейсы и обучающие примеры для бухгалтеров, знакомые в бухгалтерской ложе, чтобы продать им ИИ ассистента. Очень мало бухгалтеров поймут, что конкретно это горизонтальное ИИ решение им очень нужно и спасет их от скорого разорения.
Резюме
Повторяю: костылить промпты для 0.01% точности - зло. Делать вертикальную разработку нужно. На самом деле, не просто нужно, а в реалиях 2025 по-другому у вас и не выйдет. Конечно, когда Альтман сделает AGI и наступит сингулярность... Но до этого еще надо дожить. А пока, работаем!
Lukaspetersson
AI Founder's Bitter Lesson. Chapter 1 - History Repeats Itself | Lukas Petersson's blog
Historically, general approaches always win in AI. Founders in AI application space now repeat the mistakes of AI researchers.
1👍10🔥6❤4❤🔥2🐳1
Друзья, написал статью на хабр про все, что мы тут уютно обсуждали:
дорогу к AGI, законы масштабирования, Суцкевера, и как работает o1.
Читайте, делитесь с друзьями, делитесь впечатлением о прочитанном.
дорогу к AGI, законы масштабирования, Суцкевера, и как работает o1.
Читайте, делитесь с друзьями, делитесь впечатлением о прочитанном.
Хабр
Сэм Альтман знает, как достичь AGI. Я тоже, и сейчас расскажу как
«Теперь мы уверены, что знаем, как построить AGI в том виде, в каком мы традиционно его понимали… Сейчас это звучит как научная фантастика, и даже говорить об этом как-то безумно. Все в порядке — мы...
2🔥63👍16❤4🏆4❤🔥3🎉2🐳2
Почему я не верю в ИИ агентов в 2025
Каналу всего 2 месяца, а я тут уже начинаю спорить с Альтманом.
Как обычно, начнем с определения. Мне очень нравится определение коллег из Anthropic.
Ключевые слова: сами и поставленную задачу. Вы сказали: забронируй мне с другом ресторан на 8 вечера. Он сам сходит в API гида мишлен, спросит столик, напишет другу (ИИ-агенту друга, кек), спросит у вас о предпочтениях и тд. Вот такого в 2025 не будет.
Почему?
Главная проблема LLM - ненадежность. Она возникает из-за метода предсказания: LLM токен за токеном предсказывает итоговый ответ. Представьте, что вероятность ошибиться при предсказании каждого токена всего 0.001. Тогда вероятность воспроизвести все 10 токенов без ошибки - 99%. Вполне надежно. Но вероятнось подряд воспроизвести тысячу токенов уже 37%. Это не так много для агента, который вынужден пообщаться сначала с вами, потом с друзьями, потом с другими агентами ресторана.
Чем более долгое взаимодействие, чем больше шанс нарваться на ошибку. А в этой ошибке уже могут быть замешаны отношения с друзьями/деньги и тд. Внимательный читатель поймет, что ровно с этим могут помочь рассуждающие модели, но это пока будет экстремально дорого работать.
Исключения.
Пока я вижу ровно 2, где агенты применимы:
1) обзор темы, где агент будет исследовать большой материал, который самому лень копать. Результат потом перепроверит человек.
2) программирование, где решение проверит человек-тестировщик
А что в 2025 будет?
В продуктах применять будут не это. К 2025 году мы научились делать 2 важных вещи:
1) Варить модели специфичные под конкретный продукт. Здесь напоминаю пост про вертикальный ИИ.
2) Подключать эти LLM к инструментам: к гугл документам с фин. отчетом, к pdf со скриптами продаж, к CRM-ке с клиентами тд. Вот, например, статья, как это можно делать.
Комбинируя небольшие модели и инструменты, мы научимся делать офигительные продукты для поддержки, маркетинга, продаж. А агенты нам пока не пригодятся.
Как делать такие продукты? Об этом в следующих постах
Каналу всего 2 месяца, а я тут уже начинаю спорить с Альтманом.
Как обычно, начнем с определения. Мне очень нравится определение коллег из Anthropic.
Агенты это LLM системы, которые сами определяют свое поведение, контролируя, как они выполняют поставленную им задачу.
Ключевые слова: сами и поставленную задачу. Вы сказали: забронируй мне с другом ресторан на 8 вечера. Он сам сходит в API гида мишлен, спросит столик, напишет другу (ИИ-агенту друга, кек), спросит у вас о предпочтениях и тд. Вот такого в 2025 не будет.
Почему?
Главная проблема LLM - ненадежность. Она возникает из-за метода предсказания: LLM токен за токеном предсказывает итоговый ответ. Представьте, что вероятность ошибиться при предсказании каждого токена всего 0.001. Тогда вероятность воспроизвести все 10 токенов без ошибки - 99%. Вполне надежно. Но вероятнось подряд воспроизвести тысячу токенов уже 37%. Это не так много для агента, который вынужден пообщаться сначала с вами, потом с друзьями, потом с другими агентами ресторана.
Чем более долгое взаимодействие, чем больше шанс нарваться на ошибку. А в этой ошибке уже могут быть замешаны отношения с друзьями/деньги и тд. Внимательный читатель поймет, что ровно с этим могут помочь рассуждающие модели, но это пока будет экстремально дорого работать.
Исключения.
Пока я вижу ровно 2, где агенты применимы:
1) обзор темы, где агент будет исследовать большой материал, который самому лень копать. Результат потом перепроверит человек.
2) программирование, где решение проверит человек-тестировщик
А что в 2025 будет?
В продуктах применять будут не это. К 2025 году мы научились делать 2 важных вещи:
1) Варить модели специфичные под конкретный продукт. Здесь напоминаю пост про вертикальный ИИ.
2) Подключать эти LLM к инструментам: к гугл документам с фин. отчетом, к pdf со скриптами продаж, к CRM-ке с клиентами тд. Вот, например, статья, как это можно делать.
Комбинируя небольшие модели и инструменты, мы научимся делать офигительные продукты для поддержки, маркетинга, продаж. А агенты нам пока не пригодятся.
Как делать такие продукты? Об этом в следующих постах
Anthropic
Building Effective AI Agents
Discover how Anthropic approaches the development of reliable AI agents. Learn about our research on agent capabilities, safety considerations, and technical framework for building trustworthy AI.
5👍35🔥11❤4💯4❤🔥2🐳1
Правильная архитектура любого ИИ проекта
В прошлом посте мы поняли, что делегировать ИИ задачу под ключ пока еще рискованно. Сейчас разберёмся, как нужно делать.
Истина, которую осваивают все, кто делает карьеру или строят бизнес: главное это работа с ожиданиями заказчика.
В контексте ИИ: в любой момент работы системы должны быть предельно понятно, что сейчас происходит и с каким качеством. Если вдруг ваш умный чат-бот в банке начнет ломать выдачу кредитных карт, хотя он вообще про карты ничего не должен говорить, вас и вашего чат бота уволят.
Как добиваться прозрачности от ИИ?
Три главных правила:
1) Ваш ИИ-продукт состоит из понятного набора действий. Получается такой ИИ-процесс. Вы их заранее продумали, нарисовали, как эти действия связаны между собой в этом процессе.
На картинке изображена архитектура ИИ-бухгалтера, который считает выплаты фрилансерам. Этот процесс состоит из понятных частей:
- LLM получила контекст из базы данных компании, выделила, кто по каким дням работал
- вызвала калькулятор, посчитала суммарно часы, умножила на ставку
- подготовила отчет по каждому сотруднику
- отправила сообщение HR
2) Вы знаете метрику на каждом этапе процесса. Вы знаете, как часто LLM пропускает человека в базе данных. Вы знаете, как часто она пропускает человеко-часы. Вы знаете, как часто ломается калькулятор. Вы не просто знаете, но умеете эти числа понятно интерпретировать в бизнес метрики. Также работают маркетологи с воронкой продаж, надо у них учиться.
3) Вы умело работаете с риском .
Обратите внимание на схему: там в конце отправляется отчет HR-у. LLM не платит Васе за лендинг 20 тысяч долларов. LLM пишет репорт, что вот я такое хочу выплатить, вот пруфы: он работал так и тут, подтверди. Конечно, вы можете настроить условие, что выплата до 100 баксов идет мимо человека, если заранее посчитали, что ошибка вам не смертельна. Принимайте этот риск осознанно.
Резюме
Забудьте на время про Альтмана и его всемогущих агентов. Главный противник вашего успеха - недоверие к ИИ. Продумайте архитектуру, обложитесь метриками, предусмотрите все риски.
Сломайте недоверие, тогда ваш ИИ уже никто не остановит.
Друзья, если остались вопросы по этому подходу или хотите рассказать про ваш проект - пишите в комментариях. Вместе все обсудим.
В прошлом посте мы поняли, что делегировать ИИ задачу под ключ пока еще рискованно. Сейчас разберёмся, как нужно делать.
Истина, которую осваивают все, кто делает карьеру или строят бизнес: главное это работа с ожиданиями заказчика.
В контексте ИИ: в любой момент работы системы должны быть предельно понятно, что сейчас происходит и с каким качеством. Если вдруг ваш умный чат-бот в банке начнет ломать выдачу кредитных карт, хотя он вообще про карты ничего не должен говорить, вас и вашего чат бота уволят.
Как добиваться прозрачности от ИИ?
Три главных правила:
1) Ваш ИИ-продукт состоит из понятного набора действий. Получается такой ИИ-процесс. Вы их заранее продумали, нарисовали, как эти действия связаны между собой в этом процессе.
На картинке изображена архитектура ИИ-бухгалтера, который считает выплаты фрилансерам. Этот процесс состоит из понятных частей:
- LLM получила контекст из базы данных компании, выделила, кто по каким дням работал
- вызвала калькулятор, посчитала суммарно часы, умножила на ставку
- подготовила отчет по каждому сотруднику
- отправила сообщение HR
2) Вы знаете метрику на каждом этапе процесса. Вы знаете, как часто LLM пропускает человека в базе данных. Вы знаете, как часто она пропускает человеко-часы. Вы знаете, как часто ломается калькулятор. Вы не просто знаете, но умеете эти числа понятно интерпретировать в бизнес метрики. Также работают маркетологи с воронкой продаж, надо у них учиться.
3) Вы умело работаете с риском .
Обратите внимание на схему: там в конце отправляется отчет HR-у. LLM не платит Васе за лендинг 20 тысяч долларов. LLM пишет репорт, что вот я такое хочу выплатить, вот пруфы: он работал так и тут, подтверди. Конечно, вы можете настроить условие, что выплата до 100 баксов идет мимо человека, если заранее посчитали, что ошибка вам не смертельна. Принимайте этот риск осознанно.
Резюме
Забудьте на время про Альтмана и его всемогущих агентов. Главный противник вашего успеха - недоверие к ИИ. Продумайте архитектуру, обложитесь метриками, предусмотрите все риски.
Сломайте недоверие, тогда ваш ИИ уже никто не остановит.
Друзья, если остались вопросы по этому подходу или хотите рассказать про ваш проект - пишите в комментариях. Вместе все обсудим.
5👍28🔥9💯6❤🔥1❤1🐳1
Китайцы выложили в опеснсорс аналог o1
DeepSeek R1 - опенсорс рассуждающая модель, которая по математике/логическим задачам/программированию идет вровень с o1 моделью от OpenAI.
Многие видели новость, а я расскажу, что вам важно знать. Технический репорт DeepSeek-R1 можно прочитать тут.
1) Это очень очень круто. И метрики круто, и опенсорс круто. Это еще раз доказывает: невозможно защититься от конкурентов с помощью ноу-хау. Знания очень быстро распространяются: o1 вышла в сентябре и уже в январе ее догнали. Защищаться проще с помощью инфраструктуры, и тут Альтман всех обскакал: 500 миллиардов от Трампа помогут защититься. Еще и такая крыша.
2) Это круто, но не факт, что круто для вас. Метрики на математике/умению играть в пятнашки/разгадывать судоку ничего не говорят о том, что эта модель полезна для вашей задачи.
Авторы могли просто забыть положить в обучение нужные вам примеры. Им все равно, зато в пятнашки они впереди планеты. Не верьте статьям, всегда проверяйте на своих метриках.
3) На самом деле, крутость совсем в другом. В тех. репорте показали, что из очень дорогой DeepSeek-R1 с помощью дистилляции можно получать небольшие модели, вплоть до 1.5b, которые лучше огромной GPT-4o.
Как это работает: большая модель генерирует длинные цепочки рассуждений, а маленькая модель учится на таких цепочках рассуждений, подражая оригиналу. Это как раз пример обучения на синтетических данных, о которых говорил месяц назад Суцкевер. Про эту особенность говорят очень мало, но она очень важная. Каждое новое поколение рассуждающих моделей дает дорогу следующему поколению более дешевых. Поэтому o3-mini будет намного дешевле o1, потому что скорее всего сдистилирована из нее.
Думаю, у OpenAI уже есть более мощные модели. Просто они их не выкладывают, а обучают с их помощью уже известные нам o1 и o3.
Дистилляция моделей стандарт, чтобы уменьшить стоимость предсказания. Китайцы нам еще раз это показали. Как дистилляцию правильно делать, чтобы в 10 раз удешевить модель, я расскажу уже в следующих постах.
DeepSeek R1 - опенсорс рассуждающая модель, которая по математике/логическим задачам/программированию идет вровень с o1 моделью от OpenAI.
Многие видели новость, а я расскажу, что вам важно знать. Технический репорт DeepSeek-R1 можно прочитать тут.
1) Это очень очень круто. И метрики круто, и опенсорс круто. Это еще раз доказывает: невозможно защититься от конкурентов с помощью ноу-хау. Знания очень быстро распространяются: o1 вышла в сентябре и уже в январе ее догнали. Защищаться проще с помощью инфраструктуры, и тут Альтман всех обскакал: 500 миллиардов от Трампа помогут защититься. Еще и такая крыша.
2) Это круто, но не факт, что круто для вас. Метрики на математике/умению играть в пятнашки/разгадывать судоку ничего не говорят о том, что эта модель полезна для вашей задачи.
Авторы могли просто забыть положить в обучение нужные вам примеры. Им все равно, зато в пятнашки они впереди планеты. Не верьте статьям, всегда проверяйте на своих метриках.
3) На самом деле, крутость совсем в другом. В тех. репорте показали, что из очень дорогой DeepSeek-R1 с помощью дистилляции можно получать небольшие модели, вплоть до 1.5b, которые лучше огромной GPT-4o.
Как это работает: большая модель генерирует длинные цепочки рассуждений, а маленькая модель учится на таких цепочках рассуждений, подражая оригиналу. Это как раз пример обучения на синтетических данных, о которых говорил месяц назад Суцкевер. Про эту особенность говорят очень мало, но она очень важная. Каждое новое поколение рассуждающих моделей дает дорогу следующему поколению более дешевых. Поэтому o3-mini будет намного дешевле o1, потому что скорее всего сдистилирована из нее.
Думаю, у OpenAI уже есть более мощные модели. Просто они их не выкладывают, а обучают с их помощью уже известные нам o1 и o3.
Дистилляция моделей стандарт, чтобы уменьшить стоимость предсказания. Китайцы нам еще раз это показали. Как дистилляцию правильно делать, чтобы в 10 раз удешевить модель, я расскажу уже в следующих постах.
huggingface.co
deepseek-ai/DeepSeek-R1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍39🔥18❤🔥6❤6😱3🐳1