ᴢɪᴘ ʟᴏɢ – Telegram
ᴢɪᴘ ʟᴏɢ
150 subscribers
97 photos
49 videos
6 files
102 links
IT, AI, Robots
Download Telegram
ᴢɪᴘ ʟᴏɢ
Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру. Ранее мы рассматривали метод OpenLRM. С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление…
Вот и примеры реконструкции подъехали. В целом очень даже неплохо, даже на реальных данных! Реконструируется быстро. Думаю, уже к следующей осени появятся высокодетализированные решения, потому что для этого нужно: а) собрать больше разнообразных данных (это делается) б) сделать 3д-upscaler (это, наверняка, тоже делается внутри Adobe и других гигантов, а может и в компаниях поменьше). Так что готовимся осенью реконструировать что угодно по одной фотографии.
6
This media is not supported in your browser
VIEW IN TELEGRAM
Работа учёных очень разнородна, тем не менее каждому приходится так или иначе читать статьи, от осведомлённости и оперативности учёного зависят его научные результаты.
SciSummary - пример важного инструмента современности, рабочей среды учёного-исследователя. Сайт представляет собой ИИ-инструмент для работы с научными публикациями, позволяющий реферировать и упрощать текст научных работ (изначально узнала про него отсюда).
Доступный функционал:
🔣выжимка текста (из одной или из пачки публикаций),
🔣обсуждение статей с языковой моделью,
🔣извлечение картинок,
🔣извлечение списка литературы с автоматическим поиском источников в сети,
🔣внесение заметок.
Инструмент платный (5$ за млн слов). Бесплатно удалось только один раз прогнать реферирование.

Не могу сказать, чтобы он идеально справился с моими ожиданиями от ИИ-помощника. Рассмотрю, что понравилось, а что нет.
Удобная навигация в пространстве публикаций
Удобно составлять заметки
Удобно быстро выдрать картинки из текста
Не достаёт таблицы
Не анализирует цифры
Реализован он на базе GPT3, поэтому и выжимки слабоваты

Чего бы мне хотелось от подобных систем в своей области и типах работ:
1️⃣формулировки проблемы в терминах: решаемая задача (например, SLAM или text-2-3d), входные данные, выходные данные
2️⃣перечисления ключевых идей (допустим gaussian splatting, triplane) + картинка со схемой алгоритма
3️⃣формулировки результатов в терминах: датасет для обучения, датасет для оценки, метрики оценки, бенчмарк, выводы + таблица
4️⃣требования по скорости и памяти
5️⃣возможность автоматической подгрузки медиа (например, с ютьюба), скрэппинг ссылок на сайт проекта, гитхаб и колабы. Давече я проверяла - Bing в Edge с этим справляется на ура.
6️⃣возможность автоматической аггрегации результатов из табличек для сравнения разных методов на одинаковых данных
7️⃣оповещение о вирусной публикации в смежной области, в которой представлена новая идея (возможно, её можно применить у себя)

В общем, похоже, что мне отчаянно не хватает бесплатного маркетплейса научных статей.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Вышла моя первая статья на Хабр. 🖥
Посвящена обзору существующих решений с помощью алгоритмов 3D Gaussian Splatting, основана на недавнем научном обзоре и дополнена иллюстрациями, многочисленными ссылками и пояснениями.

Статья суровая🥸, так что выбирайте интересные вам разделы.

Приятного чтения! Плюсуйте 🔝
Please open Telegram to view this post
VIEW IN TELEGRAM
19
ᴢɪᴘ ʟᴏɢ pinned «Вышла моя первая статья на Хабр. 🖥 Посвящена обзору существующих решений с помощью алгоритмов 3D Gaussian Splatting, основана на недавнем научном обзоре и дополнена иллюстрациями, многочисленными ссылками и пояснениями. Статья суровая🥸, так что выбирайте…»
Черная кошка на белом снегу
Словно черкнули по небу стрелой.
Я по следам её тайным бегу,
Но заметает их ветер шальной.

Что же ты хочешь сказать, чернота?
Может быть то, что несчастья грядут?
Или пророчишь мне снова Христа,
Только его на земле не найдут?


© одна языковая моделька
6
Попробовала применить ChatGPT Plugin по анализу научных статей AutoExpert (Academic) к этой публикации.

🔣Если подавать ему публикацию без специфичного промптинга, то он готов генерировать очень длинную ленту, напоминающую рецензию. Некоторые отрывки из неё вполне можно использовать для реальной рецензии или блогпоста.

🔣Но я составила промпт (см. картинку) для более ёмкого и полезного мне результата. И вот что получилось:
Верно обозначена формулировка проблемы
Верно пересказан раздел Evaluation
🔣Ключевые идеи, конечно, выделены слабо. Скорее просто обозначены некоторые связанные с публикацией ключевые слова, нежели объяснён вклад статьи.
🔣 Не все ссылки на дополнительные материалы верны (но это связано с недостаточной уникальностью названия статьи, скорее всего в других случаях будет лучше)
Никакой работы с картинками и таблицами инструмент проводить не умеет

🔣Далее я спросила про использование keyframing в статье, и получила развёрнутый ответ (русская версия).

Вывод: одного этого инструмента не достаточно, чтобы автоматически получить удобный разбор статьи, но он может помочь с анализом отдельных её аспектов.
🔣🔣🔣
Полную выдачу ассистента см. в комментарии. Отметила пункты, в которых содержатся неверные ссылки (на материалы к другой публикации с похожим названием).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6
ᴢɪᴘ ʟᴏɢ
Попробовала применить ChatGPT Plugin по анализу научных статей AutoExpert (Academic) к этой публикации. 🔣Если подавать ему публикацию без специфичного промптинга, то он готов генерировать очень длинную ленту, напоминающую рецензию. Некоторые отрывки из неё…
Шёл 2024 год.
На входе - свежая сгенерированная PDF, не скан древней рукописи, завалявшейся на библиотечном складе.
На выходе - картинки и 30% таблиц.


Ранее я писала, что можно автоматизировать саммаризацию научных статей и даже получить неплохие ответы на конкретные вопросы по ней, однако с задачей выделения таблиц и изображений из PDF всё непросто.

С одной стороны, якобы есть множество решений, а на практике они плохо работают и не справляются в нужной мне постановке.

🔣Начнём с простого. Плагин Chat GPT Scholar AI должен выделять изображения и таблицы. И действительно, если попросить его
Extract all images from test.pdf, store them as .png, compress them in zip-archive and send me a link to the resulting archive

то он присылает архив с изображениями. Там будут все изображения, но изображение со схемой, поясняющий алгоритм, будет отсутствовать.
Того же эффекта можно добиться, если воспользоваться любым сторонним сервисом или локальным скриптом, например spire.pdf (приаттачила свой скрипт).

🔣В случае выделения таблиц всё ещё плачевней.
Во-первых, я протестировала классические способы camelot и tabula-py. А также решение из статьи RuVDS на Хабре.
Во-вторых, нейросетевое распознавание от Microsoft и deepdoctection.
В-третьих, попросила выделить таблицы ScholarAI.
Прикрепляю для любопытных также исходный pdf, странички-изображения для тестов и выдачи от Scholar AI.

И вот что получилось:
camelot и tabula-py детектировали таблицы только на втором примере test2.png. Решение от RuVDS также не детектирует все таблицы.
решение от Майкрософт тоже упорно детектирует только одну табличку при любых настройках
Scholar AI пакует весь текст в списке и выдаёт такое решение за таблицы. Даже при таком явном последовательном промпте он с третьей попытки выдал полную чушь
1. Extract tables from test.pdf. Table is a structure, that has "Table" word before or after it. It contains 2 or more rows and 2 or more columns. Don't extract tables without keyword Table before or after them or tables with single column or a single row.
2. Store tables as .csv, compress them in zip-archive and send me a link to the resulting archive.


⚡️ Единственное, что нормально справляется с задачей - deepdoctection. И хотя в части распознавания конкретных полей и значений в них у него есть огрехи, сами блоки таблиц он находит правильно, а значит, можно их как-минимум вырезать как картинки, а как максимум вручную корректировать выделенные таблицы.

Однако, это удовольствие идёт с припиской:
Please note: The models for layout detection and table recognition are not open sourced. When you start using deepdoctection you will get models that have been trained on less diversified data and that will perform worse. OCR isn't open sourced either: It uses AWS Textract, which is a commercial service. Keep this in mind, before you get started with your installation and observe dissapointing results. Thanks.


❗️При попытке развернуть локальное решение, снова столкнулась с тем, что таблицы не выделяются. Также не детектируется основная часть формул и картинка-схема алгоритма.

Выводы:
1️⃣Извлечь все изображения из PDF просто.
2️⃣Гарантированно извлечь таблицы можно только с помощью проприетарного конвейера. Аналогичная ситуация с формулами.
3️⃣Выделить картинку-схему из статьи - самая сложная задача. Как правило, если у статьи есть github или сайт проекта, там бывает вышеупомянутая картинка, и это должно быть проще.

Что делать? Будем пользоваться серверным решением с huggingface исключительно в личных целях.

UPD: в комментариях указали, что можно использовать сервис ar5iv (или даже развернуть его локально). Он позволяет парсить pdf-статьи в html. А уже из html получить любой элемент будет намного проще.
🔣🔣🔣Аттач (документы)
Please open Telegram to view this post
VIEW IN TELEGRAM
8
Что-то вы совсем приуныли, читая нудные посты про науку! Но не переживайте, я не оставлю вас без сладкого!

Присылаю вам шикарные переводы-видео, которые сделала с помощью rask.ai .
- Хотите посмотреть ролик на родном языке с качественной озвучкой?
- Или быть может донести свои глубокие знания по тематике ИИ до более широкой аудитории?
- Или просто хотите перевести мемчик, чтобы он стал ещё смешнее?

Тогда можете зайти на сайт rask.ai и попробовать. Бесплатно даётся перевод 3-х видео длиной по минуте.
Какие возможности предлагает rask.ai?
1️⃣Перевод аудио\видео с любого языка на любой другой.
2️⃣Автоматическая генерация субтитров с возможностью редактирования.
3️⃣Клонирование голоса или выбор готового из широкой библиотеки.
4️⃣Одновременная озвучка нескольких людей.
5️⃣Синхронизация губ (платно).

Что мне понравилось:
Хорошо сохраняется интонация.
Удобный, не перегруженный интерфейс, широкое поле для редактирования текста.
Голос классно клонируется и звучит очень естественно.
Можно скачать и субтитры, и аудио, и видео - смотря, что вам нужно.

Выскажу такое замечание:
Между фрагментами меняется темп голоса. Хотелось бы, чтобы эти швы были менее заметны.

Возможное решение, кроме изменения способа генерации с поблочного на потоковый, могло бы быть таким:
Указать в субтитрах относительную скорость речи для каждого блока субтитров, чтобы юзеры могли при редактировании уменьшать\увеличивать количество слов в целевом языке ( + сразу предлагать переводы разной текстовой ёмкости).
🔣🔣🔣
Ну что, повеселились с Тинькова на Хинди?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Media is too big
VIEW IN TELEGRAM
Выкладываю понравившееся видео с ютьюба. Перевод выполнен в rask.ai

🔝
Уже, после вчерашнего замечания, внедрили в UI пометку о необходимости сокращения числа символов для избежания быстрой речи!

🙁Осталось мне научиться хитрости правильно ставить ударения в транскрибации.

В этом видео вместили много существующих на сегодняшний день роботов:
- гуманоидные роботы
- обслуживающие роботы
- промышленные роботы
- роборуки
Хороший ёмкий мотивирующий ролик для всех, связанных с робототехникой!
Please open Telegram to view this post
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
Samsung выпустил первый AI-смартфон Galaxy S-24
Умные фичи:
🔣мгновенный поиск по любой области на экране (через google-поиск изображений)
🔣синхронный перевод звонков и писем (но Telegram не поддерживается, а русский язык будет только в апреле)
🔣клавиатура Самсунг предлагает разный стиль сообщений
🔣ассистент для заметок: рукописный ввод, саммаризация текста, создание обложки с кратким содержанием на основании заметок
🔣преобразование аудио в текст + перевод текста + саммаризация перевода
🔣генерация изображений по ключевым словам и установка их в качестве обоев
🔣функции редактирования фотографий: outpainting, inpainting, AI ассистент рекомендаций коррекции фотографий

Вопросы к аудитории:

1. Когда по-вашему ждём ответочку от Huawei?
2. Чего ещё вы ждёте от AI-смартфонов?
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Пост для любителей LLM-библиотек
Представляю вам crewai - библиотеку для оркестрации LLM-агентов.
Разобраться в ней может почти каждый. Необходимо всего лишь уметь:
- создавать python-среду и устанавливать пакеты
- понимать базу программирования на питоне
- уметь читать документацию уже не нужно - заменяем на умение ставить VPN и использовать робота, отвечающего на вопросы по документации

Самый её главный плюс - возможность использовать бесплатно любую языковую модель из LangChain, а не только лишь ограничиваться платной версией OpenAI.

С русским языком я экспериментировала, но с ним есть определённая загвоздка: интерпретатор кооперации агентов все команды всё равно транслирует в английский, в результате чего соорганизовать агентов намного сложнее. У меня даже получилось зациклить вызов LLM... 🫣
🔣🔣🔣
В комментариях прилагаю питон-файл, которым команда из двух агентов сгенерировала вот такой пост про их родную библиотеку.
Один из агентов искал информацию в сети, а второй писал текст. Вот подробный ютьюб-тьюториал для заинтересовавшихся.
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Forwarded from Sber AI
Scopus AI: на академическом уровне

Научное издательство Elsevier выпустило AI-ассистента для учёных. Они ещё летом запускали его в пилотном режиме — вот, созрели для полноценной версии.

Тогда говорили о саммари по исследованиям, кратком знакомстве с новыми темами и всяком таком. Вышло в итоге даже гораздо солиднее 👍

Итак, что умеет наш “младший научный сотрудник” 🧐

🫴 составлять то самое саммари с подробными цитированиями на основе релевантных статей (опираясь на самые-самые работы последних 10 лет)
🫴 предлагать дополнительные вопросы, чтобы получить больше деталей (в секции “Go Deeper”)
🫴 подбирать важные статьи по изучаемой теме (секция “Foundational Papers”)
🫴 выдавать карту концептов области в целом (по ключевым словам из абстрактов статей с взаимосвязями между ними — на картинке наглядно)
🫴 рекомендовать влиятельных учёных области, обосновывать их включение в список ("Topic Experts”)

А главное, что обещают разработчики, — минимум галлюцинаций. Аргументируют тем, что материалы только свои, из проверенного датасета.

У подобной модели их вообще быть не должно (да, когда речь о науке, я тот ещё максималист!🫡)

Пользователям базы данных Scopus AI-помощник уже доступен.

Кадр из презентации Scopus AI/Elsevier.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Рассмотрим ещё одно решение в задаче трёхмерной реконструкции по одному кадру ZeroShape (проект, статья, код, демо). Ранее мы рассматривали: OpenLRM, Tiplane meets Gaussian Splatting
Постановка задачи
- На входе - фотография объекта + маска (легко получается сторонним средством типа rembg - вкладка Estimated Mask в демо)
- На выходе - геометрическая модель (только форма, без текстур)
Ключевые особенности
- В отличие от последних трендов, этот подход не использует генеративное моделирование, а вместо этого использует прямой регрессионный подход к восстановлению формы объекта, что обеспечивает более высокую скорость.
- Кроме этого, авторы отобрали данные из существующих разрозненных баз и оформили их в виде отдельного бенчмарка.
Описание алгоритма
В этом подходе трёхмерная модель представляется в виде неявной модели занятости (occupancy). Это представление по сути является бинарным классификатором трёхмерных точек. Точки внутри объекта имеют метку 1, а точки снаружи - метку 0.
Оно описывается нейросетью, к которой можно посылать запросы для каждой точки пространства, и сеть будет выдавать ответ для классификатора. Для того чтобы получить это неявное представление, выполняются предварительные шаги - построение маски глубины, восстановление положения камеры. Затем по ним строится двумерная карта проекции, которая подаётся на вход основной нейросети.
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Forwarded from test
На схеме представлена общая схема алгоритма. Конструктивно он состоит из трёх частей:
1️⃣DPT с двумя головами на Глубину и матрицу камеры (разбор архитектуры DPT на Хабре)
2️⃣Матричное умножение
3️⃣Метод MCC

Обучение на 4 NVIDIA GeForce RTX 2080 Ti занимает в сумме 5 дней и проходит в 2 фазы:
- вначале обучается первый блок (DPT) (SSIMAE для карты глубины + MSE для карты проекции вместо оптимизации матрицы камеры - это помогает избежать искажений)
- затем происходит fine-tune DPT с одновременным обучением MCC, используется классическая кросс-энтропия по объёму (оценка по 4096 сэмплам x из R^3)
Данные для обучения:
+ 55 категорий из ShapeNetCore.v2 -> 52k мешей
+ 1000 categories из Objaverse-LVIS - вручную выбраны именно сканы объектов -> 42K мешей
= 90K, 1000 категорий

Сравнение с аналогами производилось по метрикам CD (Chamfer distance) и F-score (по облаку точек, семплированному после применения marching cubes)
По точности метод обошёл аналоги(в том числе OpenLRM) на двух датасетах из трёх (OmniObject3D, Ocrtoc3D), а на третьем (Pix3D) сравнялся с Shap-E

Достоинства и недостатки
Прямой метод
Модульный
Быстро учится, быстро выполняется
Продуцирует гладкие модели
Недостаточно генерализируется. Малый объём данных для обучения (можно увеличить в 10 раз, и соответственно масштабировать сложность модели, для этого нужно больше вычислительных ресурсов для обучения)
Не моделируется текстура, в отличие от OpenLRM и Tiplane meets Gaussian Splatting
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Forwarded from yolo singularity
думаю что FOOM (рекурсивный взрыв интеллекта) всё-таки возможен, несмотря на лимиты в online training больших моделей

Self-Rewarding Language Models

We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal.
2