NEW BOT Телеграм, страница - 738256211

Machinelearning

@ai_machinelearning_big_data

350K subscribers

4.54K photos

913 videos

17 files

4.98K links

Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri

Download Telegram

About

Blog

Apps

Platform

Machinelearning

350K subscribers

Machinelearning

📲

CogAgent: A Visual Language Model for GUI Agents

A state-of-the-art-level open visual language model.

Люди проводят огромное количество времени на цифровых устройствах, используя графические пользовательские интерфейсы (GUI), например, экраны компьютеров или смартфонов.

Большие языковые модели, такие как ChatGPT, могут помочь людям в решении таких задач, как написание электронных писем и ответов на вопросы, но они не способны понимать и взаимодействовать с графическими интерфейсами, что ограничивает их потенциал в плане повышения уровня автоматизации.

CogAgent - новая визуальная языковая модель (VLM) с 18 миллиардами параметров, которая специализируется на работе и навигации в графических интерфейсах.

Используя кодировщики изображений как низкого, так и высокого разрешения, CogAgent поддерживает ввод с разрешением 1120*1120, что позволяет ему распознавать мельчайшие элементы страниц и текст.

Будучи универсальной моделью визуального языка, CogAgent достигает передовых результатов в пяти тестах VQA с большим количеством текста и четырех тестах VQA общего назначения, включая VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet и POPE. CogAgent, использующий в качестве входных данных только скриншоты, превосходит методы на основе LLM, которые принимают извлеченный HTML-текст, в задачах навигации по графическому интерфейсу на ПК и смартфонах.

🖥

code: https://github.com/thudm/cogvlm

📚

paper: https://arxiv.org/abs/2312.08914v1

🔥

dataset: https://paperswithcode.com/dataset/ok-vqa

ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20🔥7❤2😁1

9.62K views15:03

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔊 Amphion: An Open-Source Audio, Music, and Speech Generation Toolkit

Amphion - это новый инструмент с открытым исходным кодом, позволяющий создавать речь, звуки и песни.

Он разработан для поддержки исследований в области аудио, музыки и генерации речи.

С его помощью Тейлор Свифт демонстрирует свой талант, исполняя песни на китайском. 😊🎵

🖥

GitHub: https://github.com/open-mmlab/Amphion

📚

Paper: arxiv.org/abs/2312.09911

🥩

HF: https://huggingface.co/amphion

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤3🔥1

10.3K viewsedited 06:03

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

▪100 вопросов для собеседования по машинному обучению в 2024 году

▪50 вопросов для собеседования по компьютерному зрению в 2024 году

▪50 вопросов для интервью по глубинному обучению в 2024 году

▪50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году

▪100 вопросов с собеседований Data Science

▪Топ-60 вопросов с собеседований R

@ai_machinelearning_big_data

🔥34👍8❤6🤬4

8.74K viewsedited 08:08

Machinelearning

🪩 DiffusionLight: Light Probes for Free by Painting a Chrome Ball

Диффузионная модель, обучена на миллиардах изображений, для визуализации хромированного шара на изображениях с разным освещением.

Несмотря на простоту, эта задача остается сложной: диффузионные модели часто вставляют неправильные или непоследовательные объекты и не могут правильно генерировать изображения со светом в формате HDR.

Для входного изображения, оценивается освещение сцены в виде карты окружения HDR. Идея заключается в том, чтобы нарисовать на изображении хромированный шар с помощью диффузионной модели и развернуть его в окружении. Таким образом решаются задачи: (1) как последовательно генерировать хромированные шары и (2) как использовать модель диффузии LDR для создания хромированных шаров HDR.

Данный метод позволяет генерировать освещение высокого качества в различных условиях и демонстрирует превосходный результат для изображений в дикой природе.

🖥

GitHub: https://github.com/DiffusionLight/DiffusionLight

🔮

Colab: https://colab.research.google.com/drive/15pC4qb9mEtRYsW3utXkk-jnaeVxUy-0S?usp=sharing&sandboxMode=true

📚

Paper: https://arxiv.org/abs/2312.09168

🥩

Score Measurement: https://vistec-my.sharepoint.com/:f:/g/personal/pakkapon_p_s19_vistec_ac_th/EvBHbnLrVnZArhQTcboh6qkBGcSqUqzdgx13iZ2IsLPzOw

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👍7🥰2🤔2❤1⚡1

10.5K views10:08

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🖼

ImageDream: Image-Prompt Multi-view Diffusion for 3D Generation

ImageDream - новый набор диффузионных моделей многоракурсной генерации, разработанный для решения сложной задачи создания 3D-объектов из изображения.

🖥

GitHub: https://github.com/bytedance/ImageDream

📚

Paper: https://arxiv.org/abs/2312.02201

🥩

Demo: https://github.com/bytedance/ImageDream/blob/main

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍6🔥3

8.73K viewsedited 08:02

Machinelearning

🃏 Poker Hand History File Format Specification

An open-source Python library for poker simulations and hand evaluations.

PokerKit - это библиотека Python с открытым исходным кодом для симуляции игры в покер и оценки покерных рук, разработанная группой по изучению покера Университета Торонто.

PokerKit поддерживает широкий спектр разновидностей покера и предоставляет архитектуру для создания собственных игр.

Все эти возможности предоставляются через интуитивно понятный унифицированный API высокого уровня.

Библиотека может быть использована в самых разных сферах, от разработки покерного AI до создания инструментов предсказания покерных.

pip install pokerkit

🖥

GitHub: https://github.com/uoftcprg/pokerkit

📚

Paper: https://arxiv.org/pdf/2312.11753v1.pdf

🥩

Project: https://pokerkit.readthedocs.io/en/stable/

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰13🔥5👍4❤3

9.65K views14:02

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🥳FreeInit with AnimateDiff Gradio Colab

FreeInit - новый эффективный метод улучшения временной согласованности видео, генерируемых диффузионными моделями.

🖥

colab: https://github.com/camenduru/FreeInit-colab

🔮

page: https://tianxingwu.github.io/pages/FreeInit/

📚

paper: https://arxiv.org/abs/2312.07537

🥩

code: https://github.com/TianxingWu/FreeInit

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11👏3❤2🔥1

8.96K views08:02

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔍 FIND: Interface Foundation Models' Embeddings

FIND - удобный интерфейс для настройки эмбедингов вших моделей.

🖥

Code: https://github.com/UX-Decoder/FIND

🎓

Demo: http://find.xyzou.net/

🔮

Project Page: https://x-decoder-vl.github.io

🥩

Demo: http://find.xyzou.net

📚

ArXiv: https://arxiv.org/pdf/2312.07532.pdf

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍3🔥1

8.91K views14:02

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

LongAnimateDiff, a text2video model for generating extended videos.

▪Новая модель "LongAnimateDiff" способная генерировать видео с количеством кадров от 16 до 64.
Веса можно загрузить с Google Drive или HuggingFace. Для получения оптимальных результатов рекомендуется использовать шкалу движения 1,28.

▪Специализированная модель, предназначенная для создания видеороликов с 32 кадрами. Эта модель обычно создает видео более высокого качества по сравнению с моделью LongAnimateDiff, поддерживающей 16-64 кадра. Веса на Google Drive или HuggingFace. Для получения хороших результатов используйте масштаб движения 1,15.

🖥

Code: https://github.com/Lightricks/LongAnimateDiff

🎓

HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥3❤2🥰1

9.11K views07:37

Machinelearning

🎲 ReBRAC (Revisited Behavior Regularized Actor Critic)
ReBRAC (Revisited Behavior Regularized Actor Critic) — алгоритм, созданный в Tinkoff Research, который обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.

🖥

Code: https://github.com/tinkoff-ai/ReBRAC

🎓

ArXiv: https://arxiv.org/abs/2305.09836

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤6🔥3🤔1🆒1

9.85K viewsedited 12:22

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌪 Can machine learning predict chaos?

Может ли машинное обучение предсказывать хаос? В новой статье проводится масштабное сравнение современных методов прогнозирования на гигантском наборе данных из 135 хаотических систем.

https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.043252

@ai_machinelearning_big_data

👍24❤7🎉5🔥2🍌1

11.1K views19:39

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models 🎄 🎁 🎅 Colab 🥳

PIA, аниматор изображений, который превосходит аналоги в согласованности текста с изображениями.

🎓

page: https://pi-animator.github.io

📚

paper: https://arxiv.org/abs/2312.13964

🖥

code: https://github.com/open-mmlab/PIA

🥩

OpenXLab: https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia

🥩

colab: https://github.com/camenduru/PIA-colab

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤6🎉3🔥1😁1

11.4K views05:01

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год.

- Neuralangelo: потрясающая высокоточная 3D-реконструкция поверхностей. https://research.nvidia.com/labs/dir/neuralangelo/

- Magic3D: быстрое преобразование текста в 3D! https://research.nvidia.com/labs/dir/magic3d/

- Hair Simulation: эффективное моделирование дискретных упругих стержней (DER) для волос. Это не совсем работа над искусственным интеллектом, но очень визуально привлекательная технология. https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm

-Eureka: GPT-4 учит робота-руку крутить ручки! https://eureka-research.github.io

- Align Your Latents: синтез видео высокого разрешения с помощью моделей латентной диффузии. Одна из лучших работ по генерации видео в 2023 году. https://research.nvidia.com/labs/toronto-ai/VideoLDM/

- Text2Materials: Модель работы с текстовыми промптами для генерации материалов, таких как кирпич или мозаика, которые можно выложить плиткой и плавно воспроизвести на поверхности любого размера.
https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/

- CALM: метод обучения управляемых виртуальных персонажей выполнению действий в физическом симуляторе. https://research.nvidia.com/labs/par/

- Vid2Player3D: обучение навыкам игры в теннис для виртуальных персонажей! https://research.nvidia.com/labs/toronto-ai/vid2player3d/

- Flexicubes: mesh optimization https://research.nvidia.com/labs/toronto-ai/flexicubes/

- eDiff-I: диффузия текста в изображение с помощью ансамбля экспертных моделей.
https://research.nvidia.com/labs/dir/eDiff-I/

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥9❤5😁1🎉1

12.1K views07:02

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌠

AnyDoor: Zero-shot Object-level Image Customization

AnyDoor - новый генератор изображений на основе диффузии, который может гармонично вписывать любые объекты в новые сцены в указанных местах.

Модель, обучена на видео и понимает разные ракурсы и освещения объектов, чтобы вписывать изображения в любой новый план с новым освещением и камерой.

pip install git+https://github.com/cocodataset/panopticapi.git

pip install pycocotools -i https://pypi.douban.com/simple

pip install lvis

🖥

Code: https://github.com/damo-vilab/AnyDoor

🎓

HF: https://huggingface.co/spaces/xichenhku/AnyDoor-online

🔮

Project Page: https://damo-vilab.github.io/AnyDoor-Page/

📚

ArXiv: https://arxiv.org/abs/2307.09481

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤5🎉2🔥1🗿1

11.9K views11:01

Machinelearning

☑️Here are some of the most remarkable AI releases of the year.

2023 год был годом ИИ!

Вот некоторые из самых значимых ИИ релизов года...👇

https://journal.everypixel.com/2023-the-year-of-ai

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍7🔥2

13.5K views09:03

Machinelearning

🍏

Ferret: Refer and Ground Anything Anywhere at Any Granularity

Новая новая мультимодальная модель большого языка (MLLM) от Apple, которая может точно распознавать отдельные объекты и их отдельные части на изображении и обсуждать всю информацию с пользователем.

В точности и скорости обработки данных с изображений на бенчмарках Ferret опережает GPT-4🔥

🖥

Code: github.com/apple/ml-ferret

🎓

Paper: https://arxiv.org/abs/2310.07704

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥6❤1

12.5K views07:01

Machinelearning

📌

Модель машинного обучения Ferret-UI от Apple

⏩Apple представила модель машинного обучения Ferret-UI для распознавания элементов пользовательского интерфейса. В исследовании компания отметила, что практически все доступные мультимодальные языковые модели плохо работают с интерфейсами. Нейросети не отличают кнопки от полей ввода и других элементов.

⏩Компания собрала большой датасет для обучения Ferret-UI, что значительно улучшило распознавание. Отмечается, что нейросеть превосходит не только открытые MLLM, но и GPT-4. Модель можно использовать для реализации новых функций доступности. К примеру, нейросеть сможет управлять мобильным устройством, опираясь на запросы пользователя.

📎Инженеры компании опубликовали исследование на портале Arxiv.

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍6💊3🔥1

11.2K viewsedited 10:33

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🐱

DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

DiffMorpher - новый подход, обеспечивающий плавное преобрахование изображений с помощью диффузионных моделей.

🖥

Code: https://github.com/Kevin-thu/DiffMorpher

🧪

OpenXLab: https://openxlab.org.cn/apps/detail/KaiwenZhang/DiffMorpher

🎓

Colab: https://github.com/camenduru/DiffMorpher-colab

🔮

Project Page: https://kevin-thu.github.io/DiffMorpher_page

📚

ArXiv: https://arxiv.org/abs/2312.07409

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👏9🔥6👍5❤2🥰1

11.8K views18:16