{AI} love you | Нейросет – Telegram
{AI} love you | Нейросет
245 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
#ОбзорГены

Что не могло пройти мимо радаров на минувшей неделе, а также неожиданно нашло отклик? Возникла потребность еженедельно бросать якорь в области GenAI — оставлять на память ключевые события: релизы, новости, материалы и темы.

{ Свежак }

🔠 Adobe анонсировал ControlNet для Firefly под названием Structure reference. Можно сгенерировать изображение на основе структуры (depth и др.) input-изображения. Давно есть в Stable Diffusion, однако нет ни у DALL-E, ни у Midjourney.
🔠 Hume.ai выпустили голосового чатбота со способностью распознавать эмоции. Самобытная компания, названная по имени великого шотландского философа-эмпириста, обучает именно эмоциональные модели в разных модальностях (текст / изображение / речь / видео). Давно слежу за ними, использую их технологию в одном проекте.

{ Пульс }

⚡️ Claude 3 Opus опередил GPT-4 (последней версии) на Chatbot Arena Leaderboard, где пользователи вслепую голосуют за лучший ответ одной из двух моделей. А еще бесплатный Claude "на голову" лучше бесплатного ChatGPT, правда с более жесткими ограничениями на пользование.
⚡️ Модель YandexGPT 3 Pro можно дообучить под свои нужды в сервисе DataSphere. Яндекс стабильно отстает примерно на 1 год от OpenAI, зато они остаются лидерами для российских разработчиков, которые по тем или иным причинам не могут использовать зарубежные модели.

{ Текстуры }

Знаменитый Andrew Ng рассказал об AI Agentic workflows — по его мнению, результатов GPT-5 в zero-shot версии можно добиться уже сейчас за счет правильного Agentic workflow (итеративная генерация + добавление внешних инструментов). Авто-планирование шагов и мульти-агентные фреймворки, по его мнению, пока недостаточно надежны.
Ресерч по AI-детекторам — отличный разбор того, можно ли достоверно определить является ли текст ИИ-сгенерированным? Короткий ответ — нет.
ChatGPT справляется с задачами на программирование с leetcode — пользовательский разбор.

{ Перекресток мнений }

GPTs c кастомными функциями. Есть мнение, что GPT-store еще не успев полноценно заработать, уже превратился в помойку с тысячами не отличимых друг от друга GPT-ассистентами. Я соглашусь с этим мнением в том, что пока затраты на поиск и тестирование сторонних GPTs превышает выгоду. Однако всё меняет одна черта — наличие внешних (кастомных) функций, нереализованных внутри ChatGPT. В качестве примера Photo Realistic GPT, который под капотом использует Stable Diffusion вместо DALL-E.

#image #hume #text #claude #llm #finetuning #gpts #aiagent #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
Скриншоты из лекции Andrew Ng
{1} типы элементов AI Agentic workflows
{2} эффективность Reflection
{3} типы внешних инструментов

#aiagent
2-ое место в AI Hackathon

Минувшую неделю провел в Кыргызстане. По приглашению Международного университета Центральной Азии выступил внешним экспертом в команде университета на AI Hackathon, организованном Парком высоких технологий в Бишкеке.

У нас в первый же день хакатона случилась нестыковка ожиданий и реальности. Мы готовились активно пилить прототип / MVP, а рамка хакатона оказалась не технической, а бизнесовой, и конечным результатом был 2-минутный (!!) питч перед жюри. Второй неожиданностью было то, что некоторые команды разрабатывали проект не с нуля (как это предполагает классический формат хакатона). Именно такой проект победил с крутой идеей "робота для настенной живописи" (типа настенного принтера), у них на руках уже был собранный прототип, который можно потрогать.

Мы же разрабатывали AI-сервис для развития креативности у студентов (наши pitchdeck, демо и собственно питч). Для прототипа взяли за основу 30 Circles Exercise — упражнение, где нужно дорисовать два исходных круга до узнаваемого объекта и так 30 раз. Креативность базово оценивается по количеству рисунков, разнообразию и оригинальности конкретных идей. AI в этом процессе дает подсказки (когда ступор) и оценивает конечные рисунки.

Мне было очевидно, что GPT-Vision здорово справится с задачей оценивания, приятным сюрпризом стало то, что текстовые AI-подсказки и оригинальные идеи от самого GPT тоже на уровне. Например, ChatGPT предложил нарисовать две стороны античной монеты. Ниже прикреплю несколько рисунков, которые нарисовали мы сами, когда устраивали внутренний контест.

P.s. картинка к посту, оказывается, стала реальностью даже в Кыргызстане.

#aihackathon #edu #image #vision
👍5
🔥4
#ОбзорГены №2

Неделька выдалась мультимодальной, необычно много внимания привлекли аудио-музыкальные модели.

{ Свежак }

🔠 Spotify запустил плейлисты, которые собираются по текстовым запросам (пример LLM рекомендательной системы, которую я несколько раз подсвечивал)
🔠 SberDevices представили Giga Acoustic Model — семейство моделей для обработки звучащей речи, обученных на русском языке. В частности у них появился GigaAM-Emo для определения эмоций по речи как русскоязычный аналог Hume.ai
🔠 Cohere выпустили Command R+ — прекрасную open-sourse LLM, для которой не нужен супер компьютер (но 2x3090). Вообще Cohere — теневые лидеры в поставке LLM-моделей для RAG-чатботов и других корпоративных решений.
🔠 Теперь ChatGPT может редактировать изображения DALL-E (делать inpainting выделенной области).

{ Пульс }

⚡️ AssemblyAI со своей моделью Universal-1 перехватили пальму первенства по качеству расшифровки аудио в текст
⚡️ Anthropic обнаружили новый способ взлома LLM (с длинным контекстом) — many-shot jailbreaking. Этот прием возник именно из-за длинного контекста.
⚡️ DeepMind представили исследование про генерацию токенов в LLM с разным количеством ресурсов / энергии. Это движение в сторону так называемой "Системы 2", когда LLM будет способна "напрягаться", чтобы спланировать свой ответ и лишь потом его генерировать.

{ Текстуры }

Туториал для Suno v3 (лучшей text2musiс модели) от "эйай ньюз".
Нерешаемая задачка для ChatGPT, которую решили за 3 суток — первоначальная неразрешимость задачи предполагалась в сложной алгоритмичности и решении на уровне отдельных символов, но это не преграда для умелых промпт-инженеров.
Общение с реализовавшимся сценарием футуролога — мастерство промптинга в действии.
Краткая шпаргалка по блокам лендинга — заготовка для ChatGPT, чтобы быстро собрать веб-страницу.

{ Перекресток мнений }

Позиционирование естественного интеллекта. Присутствие ИИ в определенных задачах (tasks) фрустрирует людей и проблематизирует их место в работе (job). На мой взгляд, у людей возникла путаница между результатом и процессом. ИИ часто обыгрывает человека в определенной задаче по результату, используя совсем не человеческий процесс. Нейросети вообще натренированы на результат с попыткой хакнуть процесс. При этом для ИИ достижим отличный результат далеко не во всех сферах, а еще далеко не всегда результат — это главное. Иногда главное — это присутствие в процессе, для которого самое важное мгновенно оценивать изменяющийся контекст и адекватно на него реагировать.

#multimodal #llm #audio #music #image #dalle #recommend #tutorial #jailbreaking #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
ChatGPT-moment

Звучит мнение, что ИИ-сгенерированная музыка на днях пережила свой "ChatGPT-момент" / "Midjourney-момент". Всё благодаря нейросети Udio. Это андердоги, которые зарелизили только beta-версию, когда у прежнего лидера Suno уже v3. Как это часто бывает, никакие они, конечно, не андердоги. Основатель — выходец из Google Deepmind, среди инвесторов — известные фонды и музыканты.

В любом случае, воспользовался выходным, чтобы их опробовать и сопоставить. Про эволюцию ИИ-генераторов музыки стоит понять, что они возникли давно и долго оставались в "ambient-фазе", например, Mubert делал добротный эмбиент более 5 лет назад. В 2023-м почти любой инструментал заиграл, я например применял MusicGen для озвучки своей короткометражки и создания джингла {AI} love you. Suno / Udio (+ Sonauto и др.) делают нечто иное — они создают полноценные треки по лирике и музыкальному стилю, причем есть немало рычагов, как можно повлиять на финальный результат. Они собраны в Suno.wiki, гайде по музыкальному промптингу. На небольшой telegram-гайд ссылался в первом еженедельном дайджесте.

Для пробы взял относительно неизвестное стихотворение Чуковского "Радость" и поместил его в джазовую аранжировку, добавив только припев от себя. То, что вы слышите — это лучшая из десяти генераций на каждой платформе. Suno очевидно слабее по звучанию, но как продукт им пользоваться удобнее. Suno-песня сгенерирована как цельное произведение (ограничение в 2 минуты), а Udio-песня собрана из 5 кусков (по 32 секунды каждая) через функцию Extend. В обеих песнях есть огрехи по ударениям, пытался это починить через расстановку ударения вручную (впервые со школы 😃), но не все так просто.


Общее впечатление — ВАУ 🔥
На создание одной песни может уйти час и два, и три. И это безусловно интересно, а еще познавательно с музыкальной точки зрения.

#music #suno #udio #release #review
🥰1😁1
Шахматы с ИИ

Искусственный интеллект давно победил человека в шахматы, и эту ситуацию часто используют для анализа того, что нас ждет. Самое интересное следствие, которое обнаружилось, что гроссмейстеры стали учиться у ИИ и, есть мнение, что они играют лучше великих мастеров XX века.

Давно напрашивался сервис, который бы на основе ИИ учил шахматистов массового розлива. На днях я встретил такой сервис — Noctie.
На входе ты играешь одну партию с компьютером и определяешь свой уровень игры. Далее ИИ-тренер настраивается на твой уровень игры и во время партии оценивает каждый твой ход по цветовой шкале (8-9 градаций). После окончания партии происходит разбор ошибок, ИИ подбирает 2-3 положения на доске, где я сходил плохо, и предлагает мне найти лучший ход. Возможно есть еще функционал, но уже этого достаточно, чтобы расти над собой.


Мы использовали подобную логику в заданиях на креативность, которые прорабатывали на AI-хакатоне. Я убежден, что сейчас тот технологический момент, когда в любое игровое / интерактивное пространство можно привнести щепотку искусственного интеллекта и тем его преобразить в лучшую сторону.

#review #games
🔥1
#ОбзорГены №3

{ Пульс }

⚡️ GPT-4 вернул лидерство среди LLM и стал заметно лучше в математике / рассуждениях.
⚡️ ChatGPT-момент в генерации песен. Кроме того, новичок Udio обошел Suno.
⚡️ Общение с цифровым аватаром — создали первую open-source сборку, где можно пообщаться с ИИ, как по зуму.
⚡️ ИИ видит сквозь стены благодаря Wi-Fi — анализ Wi-Fi волн позволяет ИИ фиксировать присутствие людей.

{ Свежак }

🔠 Adobe добавит AI в видеоредактор Premiere — причем как свои нейросети, так и сторонние (Sora).
🔠 YandexGPT 3 Pro появилась в голосовом помощнике «Алиса».
🔠 Amazon включил в состав совета директоров Эндрю Ына (Andrew Ng) — одного из наиболее уважаемых экспертов в AI-индустрии.

{ Текстуры }

AI Index Report 2024 — ежегодный отчет от Стенфорда про тренды в AI.
Системный промпт Claude — пример лаконичного промптинга.
Карта ИИ-стартапов 2024 года — самая полная ИИ-карта.
43% студентов используют в учебе ИИ — исследование от НИУ-ВШЭ с подтверждением мысли о повальном использовании ChatGPT среди студентов.
VoiceCraft: Zero-Shot редактор речи — прототип аудиоредактора, где речь можно изменять правкой текста.

{ Находки }

😯 Noctie — Шахматный ИИ-тренер.
😯 Real-time 3D generation — связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
😯 gpt-llm-trainer — упрощает процесс до-обучения ИИ-моделей под конкретную задачу.

{ Перекресток мнений }

AI-FOMO. Никто не успевает за событиями в AI-мире. Это нормально. Успевать — кажется, вообще неважно, потому что отношения с ИИ надолго сохранятся, хотя будут и трансформироваться. Сейчас мы используем самые сильные нейросети как исполнителя, а позже (когда они станут умнее нас) будем учиться у самых сильных нейросетей как студент / подмастерье. Опоздать здесь нельзя.

#llm #text #music #speech #video #research #games #fomo #edu #map #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥21
Сопоставление нейросетей как спортсменов

На прошлой неделе новая (апрельская) версия GPT-4 вернула лидерство среди LLM, Claude Opus продержался на вершине всего две недели. Всё это максимально напоминает какой-нибудь рейтинг ATP, который тоже обновляется раз в неделю, и в Википедии вы найдете всех, кто хоть неделю занимал первую строчку, в том числе Кафельникова, Сафина и Медведева. Это вершина теннисной карьеры.

В мире нейросетей есть два типа соревнований:
1. Нейросеть решает заранее подготовленный бенчмарк (набор вопросов с правильным ответом). ГТО в мире ИИ.
2. Две нейросети анонимно выдают ответ на один и тот же запрос пользователя, а пользователь выбирает лучший ответ.


Второй тип стал доминировать, все следят за обновлением рейтинга. Недавно возник такой рейтинг среди LVM (Large Vision Models), которые умеют отвечать на вопросы по изображению. Неожиданно для себя на первом месте обнаружил неизвестную модель Reka-Flash (выше GPT-Vision и Claude Opus). Если это не сбой рейтинга, то скоро мы услышим про Reka отовсюду. К слову неделю назад вышла первая российская мультимодальная модель OmniFusion от института AIRI, близкого к Сколтеху.

Продолжая играться с Suno и Udio, мне очевидно, что в визуальных и музыкальных нейросетях должно появиться то же самое, если еще нет. Пользовательские предпочтения оказываются наиболее валидными на этом этапе. Пример топ-10 в text-to-image моделях (Midjourney — Stable Diffusion — DALL-E — Imagen — Kandinsky).

#lvm #llm #rating #image
Forwarded from Machinelearning
⚡️ Стартап Reka показал новую мультимодальную LLM Reka Core

🟡Стартап Reka, основанный бывшими разработчиками DeepMind, представил свою последнюю разработку в области искусственного интеллекта — мультимодальную языковую модель (LLM) под названием Reka Core. Эта передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.

🟡Reka Core обладает впечатляющим контекстным окном на 128 000 токенов и поддерживает обработку данных на 32 языках, что делает её одной из самых мощных и универсальных систем на рынке. Эта функциональность открывает новые возможности для разработчиков и исследователей в области ИИ, позволяя модели эффективно справляться с задачами обработки больших объемов разнообразных данных.

🟡В ряде мультимодальных оценок Reka Core продемонстрировала результаты, превосходящие показатели таких известных моделей, как Claude 3 Opus и Gemini Ultra. Особенно заметно это стало в области обработки видеоконтента, где Reka Core вышла на первое место, превзойдя Gemini Ultra. Кроме того, модель показала конкурентоспособные результаты с GPT-4 в задачах по пониманию изображений, что свидетельствует о высоком качестве и универсальности разработки.

🟡Компания Reka активно сотрудничает с такими гигантами, как Oracle и Snowflake, что позволяет ей расширять свои возможности и укреплять позиции на рынке.

▶️ Сайт Reka.ai (можно сразу открыть чат)

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👆 та самая модель, которую мне удалось обнаружить раньше, чем она расползлась по телеграму. Выглядит реально внушительно, и правда показывает лидерство в Vision-задачах.
👍2
В пятницу выступал в бизнес-клубе перед предпринимателями и менеджерами на тему "Prompt-gramming, или Программирование на естественном языке" (презентация). Основной посыл был в том, что программирование как действие выходит за пределы узко-профессионального сообщества и становится доступно любым профессионалам, которые мыслят алгоритмически.

Мысль не новая, она гуляет по Youtube уже изрядное время. Успехи GPT-технологии в генерации кода феноменальны: происходит х50-100 удешевление написания / ревью / тестирования кода. Грубые подсчеты (не учитывающие многое) дают 0,5$ за строчку человеческого кода (150 строчек в день при месячной зарплате в 2000$). Я не эксперт в этом, за точные цифры не ручаюсь, главное, что происходит многократный демпинг, который невозможно игнорировать (даже при снижении качества кода).


Свежее следствие расцвета "программирования на естественном языке" — бум программируемой электроники. Logitech на днях презентовал компьютерную мышь с AI-кнопкой, но в реальности у них давно были программируемые кнопки, которые можно было запрограммировать через их софт. Уйдя на шаг вперед, легко представить, как кнопки программируются не через софт, а с голоса или умно подстраиваются под среду использования (браузер / видеоигра / музыкальный редактор). То же самое должно произойти с Arduino — возникнут простейшие роботы с голосовым управлением.

#promptgramming #event #code #electronics #robotics
👍1🔥1