Data, Stories and Languages – Telegram
Data, Stories and Languages
2.98K subscribers
65 photos
8 videos
485 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

LLMs have shown impressive capabilities, but they often deliver responses with factual inaccuracies due to their dependence on encapsulated parametric knowledge. To address this, the RAG approach was introduced, which enhances LMs by retrieving relevant knowledge. However, the indiscriminate retrieval and incorporation of passages, without considering their necessity or relevance, can compromise the versatility of LMs and sometimes result in unproductive responses.

To tackle these challenges, a new framework named Self-Reflective Retrieval-Augmented Generation (Self-RAG) has been introduced. This framework not only adaptively retrieves passages as needed but also employs "reflection tokens" that allow the model to self-evaluate and adjust its outputs. This makes the model adaptable during the inference phase, catering to various task requirements. In tests, Self-RAG has demonstrated superior performance over leading LLMs, excelling in areas like Open-domain QA, reasoning, fact verification, and ensuring higher factuality and citation accuracy in long-form content.

Paper link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3👍1
​​Spanish idiom: No estoy muy católico

В любом языке есть множество идиом, и иногда их происхождение забавно. Недавно столкнулся в фразой "No estoy muy católico", что означает "не очень хорошо себя чувствую". Варианты происхождения разные, мне запомнилось два.

Самый простой вариант - религия может ассоциироваться с чем-то хорошим, поэтому если чувствуешь себя "не особо по-католически", то чувствуешь себя плохо.

Другой вариант, менее позитивный - возможно эта фраза появилась во времена испанской инквизиции. Тогда многих людей пытались насильно обращать в католичество с помощью пыток. Если человек долго упирался, про него могли говорить "este aún no está muy católico". А если он упирался - получал больше пыток... Вот такой вариант появления фразы.

#languages
🔥3👍1
​​Let's Talk AI podcast

Я недавно участвовал в подкасте по DS/AI и рассказывал о своей карьере, говорил о каггле, обсуждал рабочие проекты (без NDA). Содержание следующее:

1. Pursue projects and skills by interest.
2. Have a larger purpose: Useful and meaningful projects and products that improve human life can bring greater satisfaction than just attaining financial independence.
3. Learn from different experiences: Living and working in various countries can provide exposure to diverse cultures and teach adaptability.
4. Practice makes perfect: Participating in data science competitions, analyzing failures and open source can help in mastering skills.
5. Be versatile: The ability to work on diverse data science projects such as strategies, products, and revenue optimization is an essential skill.
6. Put people first: Focusing on human-centric solutions can improve the effectiveness of data science projects or products.
7. Kaggle: Kaggle is a unique platform for machine learning competitions. It offers four rankings: competitions, discussions, code sharing through notebooks, and data sets.
8. Sharing knowledge: Kaggle fosters a spirit of knowledge sharing, allowing others to learn from ideas and code.
9. Time investment: Competing on Kaggle requires lots of time and accepting that it may take multiple attempts before winning.
10. Continuous Learning: Being willing to learn continuously and iterate quickly is a skill beneficial to any professional and especially Data Scientists.

https://www.youtube.com/watch?v=jjqpop3455c&ab_channel=Let%27sTalkAI

И меня нарисовали в стиле подкаста ^-^

#datascience
👍2🔥2
​​А как часто вы пишете комментарии к своему коду?)

https://twitter.com/ph_singer/status/1717085319126782330
😁2
​​Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture

Machine learning models are continually being optimized for enhanced performance and longer contexts, but traditional architectures like Transformers face quadratic scaling challenges in sequence length and model dimension. Addressing this challenge, this paper introduces the Monarch Mixer (M2). M2 employs Monarch matrices, which are expressive structured matrices that not only capture a multitude of linear transforms but also excel in GPU efficiency, ensuring sub-quadratic scaling in both sequence length and model dimension.

For BERT-style language modeling, M2 equaled the performance of BERT-base and BERT-large but with up to 27% fewer parameters and achieved a significant 9.1× increase in throughput at a sequence length of 4K. On the ImageNet platform, M2 surpassed ViT-b by 1% accuracy using just half the parameters. Furthermore, for causal GPT-style models, where ensuring causality presents a quadratic bottleneck, the study introduces a unique perspective on Monarch matrices. This approach allows M2 to maintain its sub-quadratic scaling while ensuring causality, effectively matching the quality of Transformer models without relying on attention mechanisms or MLPs.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3👍1
​​Zephyr: Direct Distillation of LM Alignment

While distilled supervised fine-tuning (dSFT) enhances larger models' accuracy, they often misinterpret natural prompts. Using preference data from AI Feedback (AIF) and distilled direct preference optimization (dDPO), a chat model called Zephyr-7B is trained. This model sets a new standard in chat benchmarks for 7B parameter models, outperforming Llama2-Chat-70B, and doesn't require human annotations.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2
Midjourney, Stability AI and DeviantArt win a victory in copyright case by artists

С тех пор, как появился Stable Diffusion в интернете, идут жаркие споры между художниками и теми, кто генерирует картинки с помощью AI. У обеих сторон есть много аргументов. Основной аргумент художников заключается в том, что их работы были использованы без их разрешения и включены в коммерческие продукты. Недавно дело дошло до суда... и недавно судья в Калифорнии принял сторону этих продуктов.

Если точнее, трое художников подали иск против трех компаний по обвинению в нарушении авторских прав. В свою очередь, эти компании подали ходатайство о прекращении дела. Судья удовлетворил это ходатайство, заявив, что в жалобе есть много проблем. Основная причина такого решения заключается в том, что художники не зарегистрировали авторские права на каждую из своих работ.

Однако судья отметил, что если художники сосредоточатся только на тех работах, на которых были зарегистрированы авторские права, то разбирательство может быть продолжено.

🍿В общем интересно наблюдать за происходящим.

Первоисточник
Обсуждение

#datascience
👍4
​​The “it” in AI models is the dataset

Сейчас в твиттере всплыл пост несколько месячной давности от кого-то из OpenAI - утверждается, что вся соль не в моделях, а в данных. При достаточно большом датасете не особо важно, что мы тренируем - ViT, Conv-nets или что-то ещё. Так что, по его мнению, основное различие между современными топовыми моделями заключается не в моделях, а именно в датасетах.

В целом неудивительно, даже в практических простых задачах датасеты обычно важнее, чем сами модели.

Тред с обсуждением

#datascience
👍12
​​SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

The growth of Vision Foundation Models such as CLIP and SAM is rapidly expanding. They offer unique capabilities developed from their pre-training objectives, with CLIP excelling in semantic understanding and SAM in spatial understanding for segmentation. The study introduces a simple method to merge these VFMs into a single model, namely SAM-CLIP, that integrates their skills. The proposed strategy uses multi-task learning, continual learning techniques, and teacher-student distillation, resulting in less computational cost than traditional multi-task training from scratch. Furthermore, it requires only a small fraction of the pre-training datasets initially used to train individual models.

SAM-CLIP retains the key strengths of its precursor models and also develops synergistic functionalities. The model learns richer visual representations, merging both localization and semantic features, making it suitable for various vision tasks. It has also shown improved performance on several head probing tasks compared to SAM and CLIP. Most notably, in the area of zero-shot semantic segmentation, SAM-CLIP has established new state-of-the-art results on five benchmarks, outperforming former models designed for this task. These include significant improvements of +6.8% and +5.9% mean IoU on the Pascal-VOC and COCO-Stuff datasets respectively.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4
​​Collaborative Large Language Model for Recommender Systems

CLLM4Rec is a novel approach that integrates LLMs with recommender systems to tackle the semantic gap between natural language processing and the nuanced requirements of recommendation tasks. By extending the LLM vocabulary to include specific user and item ID tokens, CLLM4Rec is able to more accurately model the collaborative and content semantics that are crucial for personalized recommendation.

To effectively train these models, CLLM4Rec introduces a unique soft+hard prompting strategy in its pretraining phase, using corpora crafted from user-item interactions and content features. This strategy involves creating documents with a mix of soft tokens (user/item IDs) and hard tokens (vocabulary), which helps in learning embeddings that are stable and more aligned with recommendation contexts. Additionally, the model uses mutual regularization to ensure that user and item content contributes to recommendation-focused information capture, and it incorporates a finetuning strategy with an item prediction head to efficiently generate recommendations.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3
​​Дубай: к высоким температурам привыкаешь

Когда живёшь в другой стране достаточно долго, начинаешь акклиматизироваться и принимать некоторые вещи как должное… хотя это не всегда так.

Например, вчера я гулял и купил мороженое на палочке - самое обычное эскимо. Продолжаю гулять и есть его. Проходит 2 минуты… и мороженое становится заметно мягким. Ещё через минуту шоколад начинает падать с мороженого. Температура - всего лишь 32-34. По ощущениям, такая температура весьма комфортная - намного лучше, чем 40+ летом. Но когда задумываешься, понимаешь, что для мороженого это всё-таки жарко.

Кстати, одно из других многочисленных последствий жары - быстрее изнашивается обувь и одежда.

#dubai
👍2🔥2🤔1
​​MADLAD-400

Google Research/Mind выложили в открытый доступ огромный (7.2T токенов) датасет на основе CommonCrawl аж на 419 языках. Есть версия с фильтрами и без. Ну точно madlads 😁.

Датасет
Статья

#datascience
😁5🔥3
И ещё раз про разработку медицинского чат-бота

https://community.analyticsvidhya.com/c/datahour/medical-chat-bot-the-history-of-our-attempt

Я уже пару раз рассказывал про то, как делал медицинского чат-бота в MTS AI (потому что это один из моих любимых проектов), теперь 22 ноября расскажу снова, на этот раз для Analytics Vidhya.

В ожидании доклада можно перечитать мой блогпост на хабре.

#datascience
👍4
​​AI-помощники в приложениях для ведения заметок

Я активно использую Evernote и Notion для ведения заметок: в Evernote веду дневник, в Notion трекаю разные активности и веду заметки без привязки к дням. И вот, в последнее время, в обоих приложениях выкатили “AI-поиск”. Я решил попробовать, и пока впечатления смешанные.

В Notion у меня заметки более структурированные, поэтому поиск работает вполне неплохо, успешно отвечает на вопросы типа “сколько раз я делал такую-то активность в такой-то день” или “выдай рандомные пункты из такой-то заметки”. Будет ли хорошо работать на более сложных текстах - не знаю, но Notion AI мне в целом нравится.

В Evernote у меня просто дневник, заметки без какой-либо структуры, плюс они на четырёх языках (обычно одна заметка на одном языке, но бывает и на двух). В результате помощник работает плохо. Поиск происходит только по заметкам совпадающего языка - то есть, если у меня заметки были на английском, а запрос я пишу на русском, результата не будет. Пробовал спросить “what are my highlights of 2022?”, получил несколько пунктов, из которых пара правильных, пара совершенно мелких и незначительных и парочка ошибочных/выдуманных.

Кстати, несколько месяцев назад я пробовал натренировать простенькую языковую модель с нуля на своём дневнике - тоже провалилось из-за того, что они на нескольких языках.

А вы пробовали использовать таких помощников?

#datascience #life
👍32
​​CogVLM: Visual Expert for Pretrained Language Models

CogVLM is introduced as a novel open-source visual language foundation model that advances beyond the commonly used shallow alignment methods in visual language processing. Unlike traditional models that superficially map image features to a language model's input space, CogVLM integrates a trainable visual expert module within the attention and FFN layers of a pretrained language model. This structure allows for a more profound fusion of visual and language features, enabling the model to process complex vision-language tasks without compromising its natural language processing capabilities. CogVLM-17B variant achieves state-of-the-art results on an array of ten classic cross-modal benchmarks.

---
Personally, I liked this paper. Even though the model is trained on huge datasets and with huge resources (4096 A100 days) it still uses common approaches (which were widely used on Kaggle): increasing image size while training; warmup; decreasing learning rate by the end of the training, EMA etc.

Paper link
Code link

My overview of the paper:
Personal blog
Medium

#paperreview
👍2
Google Cloud demonstrates the world’s largest distributed training job for large language models across 50000+ TPU v5e chips

Статья от Гугла о том, как тренировали огромные модели, в том числе PaLM. Будет полезно тем, кто собирается тренировать свою следующую модель на 50к TPU. Тут ведь есть такие, да? 😅

https://cloud.google.com/blog/products/compute/the-worlds-largest-distributed-llm-training-job-on-tpu-v5e

#datascience
😁6🔥1
​​Встречи по языковому обмену и культурный обмен

Я продолжаю ходить на встречи по обмену языками, они интересны не только в плане языков, но и в плане узнавания нового.

Если говорить про языки, то интересно видеть как много разных подходов существует в зависимости от предпочтений людей. Кто-то использует приложения типа Duolingo или Anki, кто-то полностью от них отказывается; кто-то изучает грамматику, кто-то составляет списки слов на нескольких языках; кто-то учится по учебникам, кто-то старается говорить как можно раньше; кто-то читает книги, кто-то слушает подкасты. Исходя из опыта общения с несколькими десятками людей из разных стран, я бы сказал, что целенаправленное изучение грамматики всё-таки необходимо. Бесконечное зубрение, как в школах/вузах, излишне, но всё-таки надо прикладывать усилия, чтобы её изучать.

Из дополнительного забавного:
• играть в “Мафию” с людьми из разных стран сложно и интересно, потому что очень сложно понять, кто и как блефует из-за различий в культуре, темпераменте и т. д.;
• в Германии есть игра "Werewolf", практически повторяющая "Мафию", только там жители деревни и оборотни. Плюс есть несколько опциональных дополнительных ролей, которые рекомендуется использовать лишь в больших группах;
• если вы сидите в темноте и нет нормального источника света, можно включить на телефоне фонарик, положить его фонариком вверх и поставить на него бутылку воды - будет приятное освещение;
• один парень из Гватемалы показывал всем желающим (и не очень желающим) видео того, как его ручной геккон ловит и съедает огромных тараканов;
• обсуждали, что при изучении других языков могут возникать сложности с произношением звуков, которых нет в родном языке. Например, я помогал парню из Перу тренироваться произносить “ы”, ему это было довольно сложно;

#languages
4👍1🔥1
​​Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM

This novel approach introduces a significant advancement in adapting pre-trained LLMs for QA and speech continuation tasks. Spectron integrates a pre-trained speech encoder into the LLM, enabling the model to accept speech inputs and produce speech outputs. This integration allows for a more streamlined architecture, as the entire system is trained end-to-end and operates directly on spectrograms, simplifying the overall design and functionality.

A key aspect of this approach is its unique training objective, which jointly supervises speech recognition, text continuation, and speech synthesis. This is accomplished using paired speech-text pairs, facilitating a 'cross-modal' chain-of-thought within a single decoding pass. The method demonstrates superiority over existing spoken language models, particularly in maintaining speaker characteristics and ensuring semantic coherence. Furthermore, it shows a remarkable improvement in retaining the knowledge embedded in the original LLM, as evidenced by its performance on spoken QA datasets.

---
The main problem of this approach is the inference speed: spectrogram frames are computed with a rate of 12.5 ms.

Paper link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥1
​​GraphCast: AI model for faster and more accurate global weather forecasting

Интересная статья от Google про предсказание погоды на графах.
Модель берет данные с шагом в 6 часов, может предсказывать погоду аж на 10 дней вперёд. Эта модель "глобальная", поэтому предсказывает погоду для квадратов 28х28 километров. И результаты SOTA.


Блогпост
Статья
Обсуждение

#datascience
🔥4
​​Новый 4x Grandmaster на Kaggle
На каггле появился ещё один 4xGrandmaster - https://www.kaggle.com/theoviel
Довольно известная личность, аж 17 золотых медалей. Работает в NVIDIA - неудивительно, что получилось, там шикарные возможности нарабатывать опыт и отличное железо.

#datascience
🔥10👏4
​​Deep Learning for Day Forecasts from Sparse Observations

MetNet-3 represents a significant advancement in the field of weather forecasting using deep neural networks. Unlike traditional models, it can make predictions in less than a second once data becomes available, showcasing an impressive combination of high temporal (up to every 2 minutes) and spatial (1 km) resolution. This performance is a result of its ability to learn directly from atmospheric observations, which are the highest fidelity and lowest latency data available. Until now, neural models trained with atmospheric data have only achieved commendable performance for up to twelve hours of lead time, and only for precipitation.

In a major breakthrough, MetNet-3 extends the capabilities of neural models both in terms of lead time and the range of weather variables it can predict accurately. It can forecast up to 24 hours ahead for variables including precipitation, wind, temperature, and dew point. A key innovation in MetNet-3 is its densification technique, which enables it to generate spatially dense forecasts despite being trained on extremely sparse data. This advanced model outperforms leading single- and multi-member Numerical Weather Prediction models, such as HRRR and ENS, particularly over the CONUS region for up to a full day ahead. Moreover, MetNet-3 has been integrated into Google Search, making its advanced forecasts widely accessible.

Paper link
Blogpost link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2👍1