NEW BOT Телеграм, страница

BG3 - заслуженно получила очередные награды

BG3 - игра года!

#life

🗿5👍2

573 views13:10

🔥5

581 views13:10

Если вы часто ленитесь - не печальтесь, ChatGPT тоже иногда ленится

https://twitter.com/ChatGPTapp/status/1732979491071549792

#datascience

😁4

498 views13:49

Data, Stories and Languages

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

Segment Anything Model (SAM) стала мощным инструментом в CV благодаря обучению на большом датасете SA-1B и использованию огромной модели Transformera. Однако высокие вычислительные затраты ограничивали её применение в реальных условиях. Для решения этой проблемы были разработаны модели EfficientSAMs - лёгкие версии SAM, которые показывают достойные результаты при значительно меньшей complexity. Основная идея заключается в использовании предобучения с маскированными изображениями (SAMI), которое обучает модель восстанавливать функции из SAM encoder для эффективного обучения визуального представления.

EfficientSAMs с light-weight image encoders и mask decoder были дополнительно зафайнтюнеты на датасете SA-1B для задач image classification, object detection, instance segmentation, semantic object detection. В результате, SAMI показал лучшие результаты по сравнению с другими методами предобучения с маскированными изображениями, а EfficientSAMs демонстрируют заметное улучшение (например, ~4 AP на COCO/LVIS) по сравнению с другими быстрыми моделями SAM.

Статья

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥8

704 views05:26

Data, Stories and Languages

Вспоминая Дата-Ëлку 2017

Facebook мне сегодня напомнил о фото, которое было сделано 6 лет назад. Это было второе мероприятие по DS которое я посетил. Первым был митап по итогам завершения второй сессии замечательного курса mlcourse.ai.

Я долго сомневался идти на Дата Ëлку или нет, но в итоге знакомый чуть ли не силой затащил меня туда - и я не пожалел. На митапе было несколько людей знакомых по слаку ODS, я даже встретил пару людей из моего вуза. И потом, традиционно, пошли посидеть в баре.

Этот ивент был одной из важных вех в моём пути в DS - при работе в консалтинге ничего подобного не было, и было очень непривычно присутствовать на мероприятии, где люди из разных компаний делятся опытом и обсуждают рабочие вопросы. Плюс удалось увидеть людей, с которыми уже общался в слаке - это был совсем другой уровень.

С тех пор я посетил очень много мероприятий, но это было знаковым.

#datascience

❤11👍1

623 views14:05

Data, Stories and Languages

Pixel Aligned Language Models

PixelLLM - новая vision-language model, которая умеет работать с локализацией в изображениях, например, используя points или bounding boxes как входные или выходные данные. При использовании локаций в качестве входных данных, модель создаёт captions к указанным объектам или регионам. При генерации локаций в качестве output, модель находит пиксельные координаты для каждого слова, сгенерированного языковой моделью.

Модель была претренирована на датасете Localized Narrative, который включает в себя captions, сматченные с перемещениями внимания человека на изображении. Полученную модель можно использовать для различных задач, связанных с локализацией на изображениях, включая referring localization, location-conditioned captioning и dense object captioning.

Статья
Проект

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥4

773 viewsedited 04:49

Data, Stories and Languages

What's your "it's not stupid if it works" story?

Я тут увидел на ycombinator прекрасное обсуждение неожиданных технических решений. Из того, что позабавило:
- при обновлении приложение делает всякие действия на экране (перетаскивание иконок и прочее), что не хочется показывать юзерам. Решение: сделать скриншот экрана и показывать юзеру этот скриншот, а в это время программа делает все эти действия.
- много лет назад Google Chrome плохо работал с Windows Screen Reader. Переименование chrome executable в firefox.exe исправило проблему.

Ссылка

😁6❤‍🔥1❤1🔥1

444 views09:45

Data, Stories and Languages

Очередной виток споров о плагиаризме в моделях генерации картинок

На днях вышла новая версия Midjourney и снова пошли споры о том, генерят ли модели новые изображения или собирают по кускам из существующего. В качестве примера приводится то, что если подать довольно общий промпт про Infinity War, моделька выдает изображения, очень похожие на оригинал. Но мне как-то не понятно доказывает это что либо или нет.

Ссылка

#datascience

🤔4😍2

621 views06:54

Data, Stories and Languages

StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

StreamDiffusion - это новаторский real-time диффузионный пайплайн для интерактивной генерации изображений, улучшающий существующие модели диффузии. Он преобразует sequntial denoising в batch denoising, повышая пропускную способность. Включает новую систему input-output для параллелизации и использует алгоритм RCFG для сокращения вычислений в U-Net. Также вводится фильтр SSF для оптимизации энергопотребления. StreamDiffusion достигает ускорения в 1.5x по сравнению с обычными методами и до 2.05x быстрее, чем CFG. Сочетание предложенных стратегий и существующих инструментов ускорения позволяет достичь до 91.07fps на RTX4090, улучшая пропускную способность AutoPipeline от Diffusers более чем в 59 раз. Кроме того, значительно снижает энергопотребление - до 2.39x на RTX3060 и до 1.99x на RTX4090.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥3

584 views12:10

Data, Stories and Languages

🔥1

586 views12:11

Data, Stories and Languages

Данные люди

Привет, друзья! 🐕 Мы рады сообщить вам, что открываем новый сезон! Встретимся уже 28 сентября в 19.00 по мск. Гость выпуска: Андрей Лукьяненко, Senior Data Scientist @ Careem. Поговорим о пути грандмастера, отличиях между российскими и иностранными командами…

А вот и записи подъехали:

Apple https://clc.to/uIt30w
Castbox https://clc.to/BrsctA
Google https://clc.to/ztiyMg
Яндекс https://clc.to/uAvgMw
Simplecast https://clc.to/RV3FWQ

Apple Podcasts

Путь грандмастера — как всё успеть. Андрей Лукьяненко, Senior Data Scientist @ Careem

Podcast Episode · Данные люди · 25/12/2023 · 38m

🔥6❤3

736 views07:13

Data, Stories and Languages

Fast and dirty RAG on my own documents

Недавно я увидел вот такое обсуждение на ycombinator. Автор спросил какие сейчас существуют простые способы извлечения информации из своих документов. Естественно, все порекомендовали RAG (Retrieval-augmented generation) с помощью LlamaIndex.

Я веду ежедневный дневник довольно давно, в нём уже 1.6к записей. Где-то год назад я пытался натренировать небольшой трансформер на этих текстах с нуля для извлечения информации, но, что ожидаемо, он работал плохо: частично из-за небольшого объёма данных, частично из-за того, что тексты на нескольких языках.

Собственно говоря, я решил попробовать применить RAG к своим записям. Технически в этом ничего сложного, но мне было интересно сколько времени это займёт и насколько хорошо будет работать.

Первый шаг - подготовка данных. Я веду дневник в Evernote, из него записи можно экспортировать либо в проприетарный формат, либо в HTML. Логично было выбрать второе. Дальше, с помощью BeautifulSoup я извлек тексты и сохранил каждую заметку в отдельный файл.

Дальше можно было использовать сам LlamaIndex. Оказалось достаточно было использовать базовый пример из туториала:

 = SimpleDirectoryReader("notes").load_data()
index = VectorStoreIndex.from_documents(documents, model_name='gpt-4-1106-preview')
query_engine = index.as_query_engine()

Вот и всё, дальше можно задавать вопросы и смотреть на результаты. На вышеописанные шаги у меня ушло менее часа и большая часть времени была потрачена на экспорт данных и формирование индекса.

Я попробовал позадавать разные вопросы и ощущения по результатам смешанные:
• если вопрос очень конкретный и ответ есть в одной заметке - я получу подходящий ответ
• если спросить что-то общее типа "что я ел в таком-то кафе" и есть несколько записей об этом, ответ будет из последней или рандомной записи
• надо задавать вопросы на том же языке, на котором написана заметка. Например, если есть заметка на испанском языке, то запросы на английском языке к ней не сработают
• если задавать "суммаризирующие" вопросы, типа "что я делал в такой-то период", то многое будет пропущено
• на многие вопросы не получаю ответа, даже если в заметках есть чёткие ответы

Я думаю, что основная причина ошибок заключается в том, что заметки совсем не структурированы и многое может подразумеваться, поэтому не описано полностью. Плюс использование нескольких языков дополнительно усложняет всё.

Но было интересно попробовать :) Интересно, был ли у кого-нибудь более успешный опыт извлечения информации из таких совсем не структурированных данных?

#datascience #life

🔥10✍1

894 views04:56

Data, Stories and Languages

С новым годом!

Желаю всем побольше приятных сюрпризов, поменьше неприятных, а также здоровья и удачи!

❤‍🔥5🔥3❤1

525 views18:05

Data, Stories and Languages

Итоги года

В конце года принято подводить итоги. Для меня 2023 год выдался просто отличным. Среди прочего:
• много гулял по Дубаю и плавал в бассейне;
• активно изучал языки, ходил на встречи по языковому обмену для практики и просто общения с людьми из разных стран;
• прочитал много книг, в основном fantasy, но пробовал новые под-жанры и авторов. Смог даже прочитать несколько испанских книг;
• попробовал много чего нового, среди прочего - встретил новый год в пустыне с друзьями из разных стран;
• в плане работы/карьеры - много сидел на leetcode, запустил real-time анти-фрод модель в прод (и она успешно экономит хорошие суммы с января), сделал успешный проект по face recognition, участвовал в разработке рекомендательной системы (запущена в прод и неплохо работает, но надо убедить менеджеров в этом), прочитал несколько десятков статей и написал обзоры на них, поучаствовал в нескольких подкастах;

Были и фейлы - и в работе, и не только, буду извлекать из них уроки и стараться не повторять ошибки.

#life

🔥22

613 views11:37

Data, Stories and Languages

Помните о том, что в рекомендациях надо фильтровать айтемы юзера

Я подписан на рассылку Medium, и в сегодняшней рассылке увидел статью под своим же авторством. Я не жалуюсь, конечно - всегда приятно почитать умного человека 😁Но это хороший пример того, что в рекомендательных системах нужно ставить фильтры на айтемы юзера (и многое другое).

Кстати, если кто-то хочет освежить Llama 2 в памяти, вот ссылка на статью.

#datascience

😁11👍1🔥1

642 views10:28

Data, Stories and Languages

Когда компании в погоне за экономией забывают о своей целевой аудитории

В последние месяцы многие компании всё активнее используют Generative AI в своих продуктах, в рекламе и для других целей. Иногда это оправданно, иногда нет. Бывает люди это принимают с радостью, бывает с недовольством.

Но вот сегодня я увидел просто потрясающий пример того, как это может выглядеть совершенно бредово.

Есть компания Wacom - она продаёт планшеты для digital artists. И вот они умудрились опубликовать рекламу планшетов с рисунком, который был явно сгенерирован AI. Казалось бы для компании, производящей такой продукт, любой Generative AI - просто зло и конкурент. Прям интересно, что двигало маркетологами.

Художники успели выразить недовольство и компания быстренько убрала пост из твиттера, но в людской памяти это осталось.

😁5😱1

511 views09:27

Data, Stories and Languages

DocLLM: A layout-aware generative language model for multimodal document understanding

DocLLM - LLM от JPMorgan AI Research предназначенная для анализа визуальных документов (инвойсы, счета, договора), учитывающая как текстовую семантику, так и spatial layout. Отличительная особенность DocLLM - использование bounding box, вместо тяжелых encoders. Она сочетает текстовые и пространственные модальности через разложение attention на отдельные матрицы и обучается на задаче text segment infilling. После pre-training модель тюнится на большом наборе инструкций, охватывая четыре ключевые задачи анализа документов. DocLLM превосходит другие LLM на большинстве датасетов и хорошо работает на ранее не встречавшихся.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

👍4🔥4

728 views05:01

Data, Stories and Languages

Meta научилась генерить аватары на основе голоса

Я тут увидел офигенные проект от Meta - генерят аватары людей включая мимику и жесты на основе голосового диалога между двумя людьми. Уверяют, что может генерить мимику и жесты для новых голосов (правда аватары будут старыми).

Выглядит весьма круто.

🔥3

505 views04:52

Data, Stories and Languages

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

🔥3

465 views04:52

Data, Stories and Languages

Blending Is All You Need. Kaggle был прав

Недавно вышла новая статья про Mixtral с блендингом моделей, и я как раз увидел другую интересную статью на эту тему. Авторы из Cambridge показали, что блендинг нескольких "небольших" моделей может быть лучше огромных моделей. Чтобы проверить, что не ошибились - даже A/B тесты провели.
Берут несколько моделей, на каждом шаге генерации они выбирают рандомную модель, и она генерит ответ на основе предыдущего диалога, в котором участвовали все модели - и так получается значительно лучше.

Статья

#datascience

🔥6👍3❤‍🔥1

719 views05:08

Data, Stories and Languages

Перевод с технического языка на полу-технический

На ycombinator сейчас идёт обсуждение ChatGPT for Teams, позабавило как в комментах один человек рассказывает, что он локально запустил mixtral-8x7 и ему он нравится значительно больше, чем chatgpt-4.5. Но пост так усыпан терминами, что другой добрый человек расшифровал его. А третий использовал chatgpt, чтобы переписать первый пост более понятно для обывателя. Объяснения получились значительно длиннее оригинала 😁

#datascience

👍5😁3

609 views12:31

About

Blog

Apps

Platform