Машинное обучение RU – Telegram
Машинное обучение RU
17.7K subscribers
1.58K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🔺 Исследование: ИИ превзошел человека в… дивергентном мышлении

▶️Новое исследование, опубликованное в журнале Scientific Reports, выявило, что генеративные языковые модели могут обладать более высоким уровнем креативности в некоторых задачах.
Сравнив результаты 151 человека и GPT-4, которые выполняли задачи на альтернативное использование предметов (например, как можно еще использовать вилку, кроме очевидного способа), оценку последствий (исходы гипотетических ситуаций – например, исчезновение гравитации) и дивергентные ассоциации (назвать слова, максимально далекие друг от друга по смыслу), авторы сделали интересный вывод.

Вот некоторые интересные выводы из исследования:
🟡Творческий потенциал нейросетей обсуждается учеными, но машины пока не могут определить, что является творчеством вообще.

🟡Нейросети могут генерировать музыку и изображения, которые имеют художественную ценность.

🟡ИИ может быть более креативным в задачах на дивергентные ассоциации.

▶️ Читать подробнее

@vistehno
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3👎1🥰1
📚 Огромный список бесплатных книг по программированию на различных языках, включая русский.

Это один из наиболее популярных репозиториев на GitHub с бесплатной литературой.

Github

@machinelearning_ru
🔥42🥰1
🔥 Flowise — open source no-code инструмент для создания ИИ-помощников и не только

Flowise создан для аудитории, которая не готова кодить, но хочет получить доступ к AI. В приятном интерфейсе драг-н-дропом из готовых блоков можно построить бекенд своего будущего приложения.

При помощи Flowise можно:
*️⃣Создать чат-бот и встроить на сайт. Есть различные LLM на любой вкус, можно добавить ваши данные для анализа , выдачу поисковых систем, обращаться к сторонним API, и т.д.


FlowiseFlowise можно использовать как API. Тут потолок фантазий находится там, где заканчиваются комбинации блоков, но можно добавить и кастомные инструменты при помощи JS. Можно работать со звуком, изображениями и так далее.

Несколько практических кейсов применения Flowise:
простейший чат-бот. Сможет отвечать на вопросы.
поиск по CSV. Сможет проанализировать данные в файле.
чат-бот, который сможет отвечать на вопросы на основе вашей информации (например, о компании).
ассистент, который использует поисковую выдачу для ответов: может рассказать о погоде, последних новостях и т.д.

📎 Статья с подробным описанием и примерами использования

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥52
📹 BaoGPT

BaoGPT - это проект с искусственным интеллектом, который позволяет вам задавать вопросы о видео на YouTube

Полностью OSS, построенный на Long Chain, Anthropic и Qdrant, с интерфейсом Discord и Gradio

Ознакомьтесь с репозиторием здесь.

Github

@machinelearning_ru
👍6🔥31
✖️ Профессия промпт-инженера не получит большого внимания и не станет востребованной

Рик Баттл и Тедж Голлапуди из VMware, рассказали, что языковые модели часто непредсказуемо реагируют на запросы. На качество ответа влияет сам вопрос, набор входных данных и другие параметры. Разные комбинации дают разный результат, поэтому промпт-инженеры подбирали запросы методом тыка.

Рик Баттл рассказала про способ составления промптов с помощью самой языковой модели. Большинство таких запросов получаются нелогичными для человека, но дают лучший результат, чем метод подбора с помощью проб и ошибок. В одном из случаев запрос, составленный нейросетью, начинался с отсылки на «Звёздный путь», и это заметно улучшило сгенерированный ответ.

Баттл утверждают, что нейросети представляют собой набор математических моделей и алгоритмов, а люди не могут точно знать как они работают, и какие из команд оказывают на нейросеть большее влияние. Поэтому даже пользователи, называющие себя экспертами в промптинге, просто находят удачные комбинации, но не могут составлять сразу хорошие запросы.

В качестве ещё одного примера целесообразности использования нейросети для генерации промптов приводят недавний эксперимент Intel. Инженеры компании разработали инструмент для Stable Diffusion, который получает пользовательский запрос, а потом преобразует его в оптимальный для нейросети. В результате изображения, сгенерированные с помощью преобразованных промптов, получается более детализированными и эстетичными. Для преобразования запросов разработчики Intel обучили специальную нейросеть.

Исследователи считают, что профессия промпт-инженера уже утратила свою актуальность, не успев стать востребованной и популярной. Нынешние языковые модели могут генерировать более правильные и эффективные запросы чем люди.

📎 Читать подробнее

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥6👎21
🖥 Генераторы данных с открытым исходным кодом!

🟡Mimesis - надежный генератор данных для Python, который может создавать широкий спектр поддельных данных на различных языках.

🟡Spawner - инструмент для создания данных для разнообразных баз данных и искусственного интеллекта. Содержит широкий набор полей, включая возможность пользовательской настройки вручную.

🟡Text or Images, Input or Output - крутейший LLM генератор.

🟡Benerator - генератор текстовых данных для оценки, тестирования и обучения ИИ-моделей.

🟡DataFactory - удобный способ создавать разнообразные наборы тестовых данных для наполнения баз данных и проверки ИИ-моделей.

🟡MockNeat - простой интерфейс для программной генерации данных в форматах json, xml, csv и sql.

🟡Faker - с помощью этого инструмента можно быстро создать фейковые данные для тестов.

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥2👎1
💫 В рейтинге ИИ-разработок от AlPort появились две генеративные нейросети Яндекса.

Текстовая YandexGPT и мультимодальная YandexART оказалась среди самых заметных и перспективных разработок в сфере генеративного искусственного интеллекта по ключевым категориям.

Также Яндекс стал одной из 11 компаний со всего мира, разрабатывающих более одного типа GenAI-моделей наряду с Stability AI, Open AI, Google, Microsoft, Meta , Tencent и Baidu.

🔗 https://habr.com/ru/news/800245/

@machinelearning_ru
👍92👎1🔥1
🔥 Крутейшая подборка для Дата Саентиста. Лучшие бесплатные курсы, книга, разбор вопросов с собеседований, roadmap, полезные материалы по Python, Go, Linux и многое другое.

100 вопросов для подготовки к собесу Data Science
Видео

100 вопросов для подготовки к собесу Python
Вопросы Middle
Видео

Вливаемся в Data Science: подробный roadmap что и где изучать

Machine Learning инженер: что/где/как изучать, чтобы въехать

Моя большая практическая шпаргалка SQL (SQLite) с готовыми запросами

Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра

Шпаргалка для алгособеса 2 — графовые и строковые алгоритмы

40 Полезных инструментов Дата Саентиста

Go — 100 вопросов/заданий с собеседований
Видео

Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
Видео

Бесплатные курсы для изучения искусственного интеллекта в 2024 году

NumPy: оттачивайте навыки Data Science на практике
Numpy полный бесплатный курс

Где изучать Python в 2024. Бесплатные курсы, книги и ресурсы
Видео

Где искать работу Дата Саентисту в 2024 году

Ресурсы для поиска работы Python разработчикам

Бесплатные курсы по большим языковым моделям для дата-сайентистов

@machinelearning_ru
👍96🔥6
⚡️AutoPrompt — полезный фреймворк для оптимизации ваших промтов

Инструмент генерирует и дополняет промт основываясь на запросе юзера. Также фреймворк легко интегрируется с популярными опен-сорс инструментам такими как LangChain, Wandb и Argilla. 

https://github.com/Eladlev/AutoPrompt?tab=readme-ov-file
👍8🔥3👎21
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

Потоковая мультидиффузия - новый метод ускорения, позволяющий в режиме реального времени преобразовывать текст в изображения с любой контрольной точки #SD.

📃 👉 https://huggingface.co/papers/2403.09055

@machinelearning_ru
👍72🔥2
Forwarded from Нейроканал
Если вы новичок, но уже обладаете базовыми знаниями, это идеальное время, чтобы начать пилить пет проекты. Но если вдруг своей идеи у вас нет, то не отчаивайтесь. Держите крутую подборку таких идей, с примерами реализации:
 
1. Прогнозирование успеваемости студентов.
2. Суммаризация текста.
3. Проекты по CV на любой вкус.
4. Классификация болезней куриц.
5. Проекты классификации аудио (,, , ).
6. Проект по обработке и анализу данных.
7. Прогнозирование цен на жилье.
8. Приложение с использованием Langchain и Open AI.
9. Классификация заболеваний почек.
10. LLM для ответов на вопросы по PDF.

@neuro_channel #петпроекты
👍72🔥2
💡 StreamingLLM представляет собой новый метод повышения эффективности чат-ботов в продолжительных диалогах.

Многие языковые модели используют key-value кэш в качестве диалоговой памяти. Однако, когда этот кэш переполняется, начальные фрагменты информации (токены) исчезают, что приводит к ухудшению производительности.

Исследователи предложили решение данной проблемы, заключающееся в сохранении хотя бы первого токена в кэше, чтобы минимизировать потери в производительности модели.

Авторы статьи обнаружили интересное явление: большое количество оценок внимания направлено на начальные токены независимо от их релевантности для задачи. Эти токены были названы "приёмниками внимания". Это связано с операцией Softmax, которая требует, чтобы сумма оценок внимания для всех контекстуальных токенов составляла единицу. Даже если текущий запрос слабо соответствует предыдущим токенам, модели все равно нужно распределить значения внимания.

Исследователи отметили, что наличие четырех токенов-приёмников внимания в начале кэша обеспечивает оптимальную производительность. Они также выяснили, что позиционное кодирование каждого токена должно оставаться неизменным даже при добавлении новых токенов и удалении старых. Это сочетание идей позволило StreamingLLM поддерживать непрерывный диалог с пользователем.

Кроме того, Gradio Notebook представляет собой кастомный компонент Gradio, который упрощает демонстрацию моделей машинного обучения для различных задач в Hugging Face Spaces. Gradio Notebook легко использовать: у него есть отдельные ячейки, настраиваемые под конкретную задачу и промпт, и вы можете выбрать любую модель на Hugging Face или загрузить свою.

Gradio Notebook
Документация

@machinelearning_ru
👍5🔥31
🤖 ИИ только что лишил меня работы... Я ненавижу тебя Devin

▪️Видео

@machinelearning_ru
👎7👍4🔥21
🔥 Илон Маск выложил в открытый доступ Grok: 314B параметров. 8 экспертов

https://github.com/xai-org/grok

@machinelearning_ru
🔥9👍53