Big data world – Telegram
Big data world
2.33K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Агенты-помощники ИИ, такие как ChatGPT, в значительной степени зависели от контролируемой тонкой настройки и обучения с подкреплением на основе отзывов людей. Но у этого метода есть свой набор проблем — высокая стоимость, потенциальные предубеждения и ограничения на истинный потенциал этих агентов ИИ. Что, если бы существовал более эффективный и самодостаточный способ согласования результатов ИИ с человеческими намерениями?
Self-ALIGN — это многоэтапный процесс, который работает путем создания синтетических подсказок из большой языковой модели, увеличения разнообразия подсказок и использования краткого набора написанных человеком принципов для управления моделями ИИ. Применительно к базовой языковой модели LLaMA-65b это привело к созданию нового помощника ИИ, Dromedary, использующего менее 300 строк человеческих аннотаций. Dromedary не только затмевает несколько современных систем искусственного интеллекта, таких как Text-Davinci-003 и Alpaca, но и делает это на множестве тестовых наборов данных.

Ссылка на документ: https://arxiv.org/abs/2305.03047

Ссылка на код: https://mitibmdemos.draco.res.ibm.com/dromedary

Подробный неофициальный обзор статьи: https://andlukyane.com/blog/paper-review-dromedary.
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы хотите изучать науку о данных и машинное обучение, этот веб-сайт — настоящая золотая жила. Это объясняет большинство технических и теоретических концепций Data Science & ML с интерактивными визуальными эффектами.

https://brilliant.org/
Краткое введение в нейронные сети

https://www.dkriesel.com/en/science/neural_networks
Сравнение алгоритмов машинного обучения в Python и R
Этот список наиболее часто используемых алгоритмов машинного обучения в Python и R предназначен для того, чтобы помочь начинающим инженерам и энтузиастам ознакомиться с наиболее часто используемыми алгоритмами.

https://www.kdnuggets.com/2023/06/machine-learning-algorithms-python-r.html
1_MLqq6tvQNmQlGpQyIbxwyw.gif
11.3 MB
Более 250 советов по Python и науке о данных, включая Pandas, NumPy, основы машинного обучения, Sklearn, Jupyter и другие.

https://medium.datadriveninvestor.com/250-python-and-data-science-tips-covering-pandas-numpy-ml-basics-sklearn-jupyter-and-more-e33074b92d58

👉 Весь PDF-архив вы можете найти здесь .
Многоязычное связывание сущностей от конца до конца

Представляем BELA, беспрецедентное решение с открытым исходным кодом, которое должно произвести революцию в области обработки естественного языка (NLP)! BELA решает сложную задачу связывания сущностей - задачу, распространенную во многих практических приложениях, - предлагая самую первую полностью сквозную многоязычную модель. Поразительно, но она может эффективно идентифицировать и связывать сущности в текстах на 97 языках, что является невиданной до сих пор способностью. Это знаменует собой значительный скачок в направлении оптимизации сложных стеков моделей, которые были распространенной проблемой в данной области.

Ссылка на статью: https://arxiv.org/abs/2306.08896
Ссылка на код: https://github.com/facebookresearch/BELA

Подробный неофициальный обзор статьи: https://andlukyane.com/blog/paper-review-bela
Pandas 2.0: меняет правила игры для специалистов по данным?

5 лучших функций для эффективной обработки данных https://towardsdatascience.com/pandas-2-0-a-game-changer-for-data-scientists-3cd281fcc4b4
Meta только что выпустила промежуточную графическую библиотеку

Промежуточная графическая библиотека (IGL) — это кроссплатформенная библиотека, которая управляет графическим процессором.

https://github.com/facebook/igl/
👍1
Новое издание одного из самых популярных учебников по машинному обучению выйдет летом 2023 года но доступно бесплатно в виде книги в формате PDF. https://hastie.su.domains/ISLP/ISLP_website.pdf
👍1
Откажитесь от жесткого кодирования в проекте по науке о данных — вместо этого используйте файлы конфигурации

Как эффективно взаимодействовать с файлами конфигурации в Python.
https://www.kdnuggets.com/2023/06/stop-hard-coding-data-science-project-config-files-instead.html
Секреты RLHF в LLM Интересный отчет, в котором более подробно рассматривается RLHF и изучается внутренняя работа PPO. Полезно прочитать, если вы заинтересованы в LLM RLHF. Репозиторий кода тоже включен!
статья : https://arxiv.org/abs/2307.04964
код : https://github.com/OpenLMLab/MOSS-RLHF
Мы запускаем Keras Core, новую библиотеку, которая объединяет Keras API с JAX и PyTorch в дополнение к TensorFlow. Это позволяет вам писать компоненты глубокого обучения для разных платформ и извлекать выгоду из лучшего, что может предложить каждая платформа. Подробнее: https://keras.io/keras_core/announcement/
Вышло второе издание R for Data Science

https://r4ds.hadley.nz/
Удивительные графические примечания к книге Гилберта Стрэнга «Линейная алгебра для всех». Я не могу себе представить усилия, затраченные на их создание. Визуальные пояснения могут помочь нам понять концепции намного проще, особенно в таких областях, как машинное обучение и математика. https://github.com/kenjihiranabe/The-Art-of-Linear-Algebra
👍7
Kandinsky 2.2 — новый шаг в направлении фотореализма.

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, LLaMA, Falcon и др.), и даже модальности видео (GEN-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешении, а также новых возможностях синтеза изображений.

Читать далее https://habr.com/ru/companies/sberbank/articles/747446/
LangChain + Streamlit🔥+ Llama 🦙: перенос диалогового ИИ на ваш локальный компьютер 🤯
Интеграция LLM с открытым исходным кодом и LangChain для бесплатных генеративных ответов на вопросы (ключ API не требуется)

https://ai.plainenglish.io/%EF%B8%8F-langchain-streamlit-llama-bringing-conversational-ai-to-your-local-machine-a1736252b172
Библиотека графиков с открытым исходным кодом для статистических данных

Lets-Plot — это библиотека для построения статистических данных на Python. https://lets-plot.org/
Это отличное руководство по настройке среды разработки Python с помощью VScode и Docker. Он начинается с раздела, в котором объясняются преимущества каждого инструмента и то, как они хорошо работают вместе. Оттуда это простое пошаговое руководство по настройке всего.

https://github.com/RamiKrispin/vscode-python?utm_campaign
Llama 2: с открытым исходным кодом, бесплатно для исследований и коммерческого использования.

Мы раскрываем мощь этих больших языковых моделей. Наша последняя версия Llama — Llama 2 — теперь доступна для отдельных лиц, создателей, исследователей и компаний, чтобы они могли экспериментировать, внедрять инновации и масштабировать свои идеи ответственно. https://ai.meta.com/resources/models-and-libraries/llama/