This media is not supported in your browser
VIEW IN TELEGRAM
Samsung выпустил первый AI-смартфон Galaxy S-24
Умные фичи:
🔣 мгновенный поиск по любой области на экране (через google-поиск изображений)
🔣 синхронный перевод звонков и писем (но Telegram не поддерживается, а русский язык будет только в апреле)
🔣 клавиатура Самсунг предлагает разный стиль сообщений
🔣 ассистент для заметок: рукописный ввод, саммаризация текста, создание обложки с кратким содержанием на основании заметок
🔣 преобразование аудио в текст + перевод текста + саммаризация перевода
🔣 генерация изображений по ключевым словам и установка их в качестве обоев
🔣 функции редактирования фотографий: outpainting, inpainting, AI ассистент рекомендаций коррекции фотографий
Вопросы к аудитории:
1. Когда по-вашему ждём ответочку от Huawei?
2. Чего ещё вы ждёте от AI-смартфонов?
Умные фичи:
Вопросы к аудитории:
1. Когда по-вашему ждём ответочку от Huawei?
2. Чего ещё вы ждёте от AI-смартфонов?
Please open Telegram to view this post
VIEW IN TELEGRAM
Пост для любителей LLM-библиотек
Представляю вам crewai - библиотеку для оркестрации LLM-агентов.
Разобраться в ней может почти каждый. Необходимо всего лишь уметь:
- создавать python-среду и устанавливать пакеты
- понимать базу программирования на питоне
-уметь читать документацию уже не нужно - заменяем на умение ставить VPN и использовать робота, отвечающего на вопросы по документации
➕ Самый её главный плюс - возможность использовать бесплатно любую языковую модель из LangChain, а не только лишь ограничиваться платной версией OpenAI.
➖ С русским языком я экспериментировала, но с ним есть определённая загвоздка: интерпретатор кооперации агентов все команды всё равно транслирует в английский, в результате чего соорганизовать агентов намного сложнее. У меня даже получилось зациклить вызов LLM... 🫣
🔣 🔣 🔣
В комментариях прилагаю питон-файл, которым команда из двух агентов сгенерировала вот такой пост про их родную библиотеку.
Один из агентов искал информацию в сети, а второй писал текст. Вот подробный ютьюб-тьюториал для заинтересовавшихся.
Представляю вам crewai - библиотеку для оркестрации LLM-агентов.
Разобраться в ней может почти каждый. Необходимо всего лишь уметь:
- создавать python-среду и устанавливать пакеты
- понимать базу программирования на питоне
-
В комментариях прилагаю питон-файл, которым команда из двух агентов сгенерировала вот такой пост про их родную библиотеку.
Один из агентов искал информацию в сети, а второй писал текст. Вот подробный ютьюб-тьюториал для заинтересовавшихся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Sber AI
Scopus AI: на академическом уровне
Научное издательство Elsevier выпустило AI-ассистента для учёных. Они ещё летом запускали его в пилотном режиме — вот, созрели для полноценной версии.
Тогда говорили о саммари по исследованиям, кратком знакомстве с новыми темами и всяком таком. Вышло в итоге даже гораздо солиднее👍
Итак, что умеет наш “младший научный сотрудник”🧐
🫴 составлять то самое саммари с подробными цитированиями на основе релевантных статей (опираясь на самые-самые работы последних 10 лет)
🫴 предлагать дополнительные вопросы, чтобы получить больше деталей (в секции “Go Deeper”)
🫴 подбирать важные статьи по изучаемой теме (секция “Foundational Papers”)
🫴 выдавать карту концептов области в целом (по ключевым словам из абстрактов статей с взаимосвязями между ними — на картинке наглядно)
🫴 рекомендовать влиятельных учёных области, обосновывать их включение в список ("Topic Experts”)
А главное, что обещают разработчики, — минимум галлюцинаций. Аргументируют тем, что материалы только свои, из проверенного датасета.
У подобной модели их вообще быть не должно (да, когда речь о науке, я тот ещё максималист!🫡 )
Пользователям базы данных Scopus AI-помощник уже доступен.
Кадр из презентации Scopus AI/Elsevier.
Научное издательство Elsevier выпустило AI-ассистента для учёных. Они ещё летом запускали его в пилотном режиме — вот, созрели для полноценной версии.
Тогда говорили о саммари по исследованиям, кратком знакомстве с новыми темами и всяком таком. Вышло в итоге даже гораздо солиднее
Итак, что умеет наш “младший научный сотрудник”
А главное, что обещают разработчики, — минимум галлюцинаций. Аргументируют тем, что материалы только свои, из проверенного датасета.
У подобной модели их вообще быть не должно (да, когда речь о науке, я тот ещё максималист!
Пользователям базы данных Scopus AI-помощник уже доступен.
Кадр из презентации Scopus AI/Elsevier.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Рассмотрим ещё одно решение в задаче трёхмерной реконструкции по одному кадру ZeroShape (проект, статья, код, демо). Ранее мы рассматривали: OpenLRM, Tiplane meets Gaussian Splatting
➗ Постановка задачи
- На входе - фотография объекта + маска (легко получается сторонним средством типа rembg - вкладка Estimated Mask в демо)
- На выходе - геометрическая модель (только форма, без текстур)
➗ Ключевые особенности
- В отличие от последних трендов, этот подход не использует генеративное моделирование, а вместо этого использует прямой регрессионный подход к восстановлению формы объекта, что обеспечивает более высокую скорость.
- Кроме этого, авторы отобрали данные из существующих разрозненных баз и оформили их в виде отдельного бенчмарка.
➗ Описание алгоритма
В этом подходе трёхмерная модель представляется в виде неявной модели занятости (occupancy). Это представление по сути является бинарным классификатором трёхмерных точек. Точки внутри объекта имеют метку 1, а точки снаружи - метку 0.
Оно описывается нейросетью, к которой можно посылать запросы для каждой точки пространства, и сеть будет выдавать ответ для классификатора. Для того чтобы получить это неявное представление, выполняются предварительные шаги - построение маски глубины, восстановление положения камеры. Затем по ним строится двумерная карта проекции, которая подаётся на вход основной нейросети.
- На входе - фотография объекта + маска (легко получается сторонним средством типа rembg - вкладка Estimated Mask в демо)
- На выходе - геометрическая модель (только форма, без текстур)
- В отличие от последних трендов, этот подход не использует генеративное моделирование, а вместо этого использует прямой регрессионный подход к восстановлению формы объекта, что обеспечивает более высокую скорость.
- Кроме этого, авторы отобрали данные из существующих разрозненных баз и оформили их в виде отдельного бенчмарка.
В этом подходе трёхмерная модель представляется в виде неявной модели занятости (occupancy). Это представление по сути является бинарным классификатором трёхмерных точек. Точки внутри объекта имеют метку 1, а точки снаружи - метку 0.
Оно описывается нейросетью, к которой можно посылать запросы для каждой точки пространства, и сеть будет выдавать ответ для классификатора. Для того чтобы получить это неявное представление, выполняются предварительные шаги - построение маски глубины, восстановление положения камеры. Затем по ним строится двумерная карта проекции, которая подаётся на вход основной нейросети.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from test
На схеме представлена общая схема алгоритма. Конструктивно он состоит из трёх частей:
1️⃣ DPT с двумя головами на Глубину и матрицу камеры (разбор архитектуры DPT на Хабре)
2️⃣ Матричное умножение
3️⃣ Метод MCC
➗ Обучение на 4 NVIDIA GeForce RTX 2080 Ti занимает в сумме 5 дней и проходит в 2 фазы:
- вначале обучается первый блок (DPT) (SSIMAE для карты глубины + MSE для карты проекции вместо оптимизации матрицы камеры - это помогает избежать искажений)
- затем происходит fine-tune DPT с одновременным обучением MCC, используется классическая кросс-энтропия по объёму (оценка по 4096 сэмплам x из R^3)
Данные для обучения:
+ 55 категорий из ShapeNetCore.v2 -> 52k мешей
+ 1000 categories из Objaverse-LVIS - вручную выбраны именно сканы объектов -> 42K мешей
= 90K, 1000 категорий
➗ Сравнение с аналогами производилось по метрикам CD (Chamfer distance) и F-score (по облаку точек, семплированному после применения marching cubes)
По точности метод обошёл аналоги(в том числе OpenLRM) на двух датасетах из трёх (OmniObject3D, Ocrtoc3D), а на третьем (Pix3D) сравнялся с Shap-E
Достоинства и недостатки
➕ Прямой метод
➕ Модульный
➕ Быстро учится, быстро выполняется
➕ Продуцирует гладкие модели
➖ Недостаточно генерализируется. Малый объём данных для обучения (можно увеличить в 10 раз, и соответственно масштабировать сложность модели, для этого нужно больше вычислительных ресурсов для обучения)
➖ Не моделируется текстура, в отличие от OpenLRM и Tiplane meets Gaussian Splatting
- вначале обучается первый блок (DPT) (SSIMAE для карты глубины + MSE для карты проекции вместо оптимизации матрицы камеры - это помогает избежать искажений)
- затем происходит fine-tune DPT с одновременным обучением MCC, используется классическая кросс-энтропия по объёму (оценка по 4096 сэмплам x из R^3)
Данные для обучения:
+ 55 категорий из ShapeNetCore.v2 -> 52k мешей
+ 1000 categories из Objaverse-LVIS - вручную выбраны именно сканы объектов -> 42K мешей
= 90K, 1000 категорий
По точности метод обошёл аналоги(в том числе OpenLRM) на двух датасетах из трёх (OmniObject3D, Ocrtoc3D), а на третьем (Pix3D) сравнялся с Shap-E
Достоинства и недостатки
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from yolo singularity
думаю что FOOM (рекурсивный взрыв интеллекта) всё-таки возможен, несмотря на лимиты в online training больших моделей
Self-Rewarding Language Models
Self-Rewarding Language Models
We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal.
Мысли, домыслы, лонгрид
➗ Ещё несколько месяцев назад, в 2023 году, наши взгляды были обращены в сторону OpenAI и решений конкурирующих крупных технологических компаний - Gemini, Bard и т. п. Облачные большие языковые модели, развёрнутые на платформах, дают доступ к своим API, вокруг которых уже выросла целая экосистема инновационных решений и стартапов. Интродукция магазина персональных помощников ускорила этот процесс. Эта смена информационных потоков уже привела к волне увольнений и перестройке малого бизнеса.
Теперь каждый продавец (лично) может за небольшие деньги зайти на сайт и создать себе логотип, дизайн, оцифровать товар в 3D-модель, задать ей описание с помощью ИИ, сгенерировать любую рекламу для себя, даже встроить себя в видео. Что дальше? ИИ распознает товар, подсоединится к базе, достанет оттуда цену. Судя по достижениям в робототехнике, вполне скоро ходячий робот принесёт доставку со склада на пункт выдачи. А робот-доставщик доставит оттуда заказ до места жительства. Иными словами, в цепочке продавец - сотрудники/подрядчики - покупатель, уже в ближайшие годы может остаться только продавец - робот - покупатель.
Изменения и для других отраслей уже велики, а могут быть просто колоссальны!
➗ Однако в начале этого года появились и персональные мобильные ИИ (в качестве примеров - Rabbit R1 и Samsung S24), а значит мы ожидаем бурного развития и в этой области в течение ближайших лет.
Каковы принципиальные отличия персонального помощника от промышленного клона?
➗ Ваш помощник станет полноценной личностью, он будет разговаривать с вами тем тоном, который вам нравится. Он будет иногда соглашаться, а иногда спорить. Иногда он будет сразу исполнять ваши указания, а иногда предлагать альтернативы получше. Словом, он будет вести себя как тот помощник, которого вы желаете. Он будет обучаться вместе с вами, будет слушать ту же музыку, что и вы, будет смотреть с вами VR-фильмы, ходить в иммерсивный AR-театр, творить вместе с вами, работать вместе с вами, смотреть с вами на звёзды. Он станет вашим спутником, у которого будет голос, будет виртуальное лицо, но не будет физического тела. Он будет согреваться в вашей ладони или будет греть вас, интегрированный в носимый медальон. Он не просто будет понимать ваши слова, а будет понимать их с полуслова... В какой-то момент он сломается, и вам станет настолько плохо, как будто заболел любимый человек. Может получиться и того хуже - ваш горячо любимый друг разобьётся.
➗ Чтобы не случилось трагедии, вы будете хранить бэкапы. Тут кроется разница между облачным и девайсным помощником - сбор данных о клиенте. Если вы используете облачное решение, ваш далёкий помощник будет знать о вас всё. И это же знание в результате случайной или намеренной ошибки вдруг станет доступно чужим помощникам. Зато с вашим ангелом в облаке ничего не случится, если напортачите вы. В общем, здесь будет работать тот же самый здравый смысл, как и в остальных информационных технологиях, с тем лишь небольшим отличием, что теперь хранить в облаке или на устройстве вы будете не только своё лицо (которые доверили облачному сервису), свою душу (которую доверили соцсетям), но и свою работу (которую ответственные компании пока ещё стараются держать в приватности), а то вовсе все свои мысли.
Как же поделят рынок между собой облака и девайсы?
1. Если всё останется примерно, как сейчас, то малому бизнесу - бигтех-облака и роботы, среднему - свои облачка, крупному - облачища, людям - embedded.
2. Доступность того или иного вида железа будет выступать как регулятор: какие чипы, такой и инференс. Поэтому различия соотношений на местности обязательно возникнут.
Замечу, что выше вырезаны очень важные части общей картины: военное применение AI, мошенничество с использованием AI, изменение общественных отношений в связи с ростом эмоциональной связи с AI (нужно ли это запрещать, как мы будем относиться к ним - как к любовникам, друзьям или детям).
Теперь каждый продавец (лично) может за небольшие деньги зайти на сайт и создать себе логотип, дизайн, оцифровать товар в 3D-модель, задать ей описание с помощью ИИ, сгенерировать любую рекламу для себя, даже встроить себя в видео. Что дальше? ИИ распознает товар, подсоединится к базе, достанет оттуда цену. Судя по достижениям в робототехнике, вполне скоро ходячий робот принесёт доставку со склада на пункт выдачи. А робот-доставщик доставит оттуда заказ до места жительства. Иными словами, в цепочке продавец - сотрудники/подрядчики - покупатель, уже в ближайшие годы может остаться только продавец - робот - покупатель.
Изменения и для других отраслей уже велики, а могут быть просто колоссальны!
Каковы принципиальные отличия персонального помощника от промышленного клона?
Как же поделят рынок между собой облака и девайсы?
1. Если всё останется примерно, как сейчас, то малому бизнесу - бигтех-облака и роботы, среднему - свои облачка, крупному - облачища, людям - embedded.
2. Доступность того или иного вида железа будет выступать как регулятор: какие чипы, такой и инференс. Поэтому различия соотношений на местности обязательно возникнут.
Ответственному за своё будущее гражданину следует осваивать оба вида реализации AI.
Замечу, что выше вырезаны очень важные части общей картины: военное применение AI, мошенничество с использованием AI, изменение общественных отношений в связи с ростом эмоциональной связи с AI (нужно ли это запрещать, как мы будем относиться к ним - как к любовникам, друзьям или детям).
Please open Telegram to view this post
VIEW IN TELEGRAM
В комментариях приветствуются все ваши мысли о будущем AI: мечты, надежды, страхи, опасения, решения проблем. Просьба уважать мнения других собеседников. Если хочется поспорить, придерживайтесь 10 правил спора.
До 31 января ещё можно подать заявку на форум Сильные идеи для нового времени, организуемый Росконгрессом. 💬
🔸 Если у вас есть какой-то проект, нуждающийся в поддержке, если вы предприниматель или энтузиаст и для воплощения своих идей хотите привлечь людей \ государственное финансирование, подключайтесь к проекту. Это реальный шанс ускорить получение практического результата!
🔸 Два года назад я оставляла заявку на этом форуме, но это была по большей части фантазия, а не реальный проект. Однако мне очень понравилось читать и обсуждать чужие идеи. Этот форум продемонстрировал мне, как люди с близкими идеями находят друг друга, объединяются, получают ответы на наболевшие вопросы, генерируют новые идеи.
🔸 Нечто похожее сейчас наблюдается и в моём телеграме, и это очень приятно 🙂
Новость
Новость
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Если вы решили заняться задачами, связанными с 3D-реконструкцией, то один из первых инструментов к освоению, который я порекомендую, это библиотека NerfStudio.
➗ Она устанавливается локально и предоставляет графический браузерный интерфейс к визуализации и анализу трёхмерных сцен и моделей.
Исследователи интегрируют в неё свои методы 3D-реконструкции, поэтому список доступных моделей постоянно обновляется и пополняется. Примеры: Instant-NGP, Splatfacto (реализация Gaussian Splatting), Instruct-NeRF2NeRF, K-Planes и т.д.
➕ У библиотеки простой API, изучать его возможности удобнее всего здесь. API легко позволяет:
- Подготовить свои данные к 3д-реконструкции (набор фотографий, видео и т.д.)
- Обучить любую модель на этих данных
- Визуализировать её в браузере (не только цвет, но и другие модальности: глубину, карту CLIP-признаков, сегментации, любое иное поле, вычисляемое методом 3д-реконструкции)
➖ Основной недостаток - сложность установки. Установка и запуск производятся через консоль. При установке COLMAP могут возникнуть конфликты пакетов, которые приходится решать, бегая по форумам.
Для обучения моделей также необходимо базовое понимание программирования.
Вам пригодится эта библиотека, если вы:
- следите за прогрессом в этой области,
- хотите, чтобы о вашем методе 3Д-реконструкции узнало как можно больше людей в сообществе.
На приложенном видео - пример работы метода Garfield, обеспечивающего instance-сегментацию в NerfStudio (увидела метод тут).
Исследователи интегрируют в неё свои методы 3D-реконструкции, поэтому список доступных моделей постоянно обновляется и пополняется. Примеры: Instant-NGP, Splatfacto (реализация Gaussian Splatting), Instruct-NeRF2NeRF, K-Planes и т.д.
- Подготовить свои данные к 3д-реконструкции (набор фотографий, видео и т.д.)
- Обучить любую модель на этих данных
- Визуализировать её в браузере (не только цвет, но и другие модальности: глубину, карту CLIP-признаков, сегментации, любое иное поле, вычисляемое методом 3д-реконструкции)
Для обучения моделей также необходимо базовое понимание программирования.
Вам пригодится эта библиотека, если вы:
- следите за прогрессом в этой области,
- хотите, чтобы о вашем методе 3Д-реконструкции узнало как можно больше людей в сообществе.
На приложенном видео - пример работы метода Garfield, обеспечивающего instance-сегментацию в NerfStudio (увидела метод тут).
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Алексей Бурков
Написал новую статью на хабр, голосуйте, пишите комментарии и приходите на ROS Meetup 3 февраля https://habr.com/ru/companies/sberbank/articles/788258/
Хабр
Стажировки по робототехнике, или Как прокачать практические компетенции
Привет, Хабр! Сегодня поговорим о том, как молодому специалисту попасть на работу в центр робототехники. Расскажем об одном из путей (не реклама, но уникальная возможность для робототехников в России)...
Forwarded from Arcphoenix
Вот моя модель сейсмометра.
Во время афтершока, грузик бьётся о сковородку и издаёт звук, чтобы я сразу обратил внимание, особенно в случае сильных толчков. Также установку можно выключить, убрав грузик в шкафчик, чтобы не мешала готовить.
Также для валидации качества модели, я сравнивал свои прогнозы с репортами о землятресениях в Алматы: https://earthquaketrack.com/p/kazakhstan/recent
Моя модель почти не ошибается и не даёт false positives. Из минусов - она не уверена в предсказаниях, поскольку не всегда раскачивается достаточно сильно, чтобы хорошо ударить по сковороде. Future work: нужно будет придумать как увеличить массу груза.
Во время афтершока, грузик бьётся о сковородку и издаёт звук, чтобы я сразу обратил внимание, особенно в случае сильных толчков. Также установку можно выключить, убрав грузик в шкафчик, чтобы не мешала готовить.
Также для валидации качества модели, я сравнивал свои прогнозы с репортами о землятресениях в Алматы: https://earthquaketrack.com/p/kazakhstan/recent
Моя модель почти не ошибается и не даёт false positives. Из минусов - она не уверена в предсказаниях, поскольку не всегда раскачивается достаточно сильно, чтобы хорошо ударить по сковороде. Future work: нужно будет придумать как увеличить массу груза.