Data, Stories and Languages – Telegram
Data, Stories and Languages
2.98K subscribers
65 photos
8 videos
485 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
Кейс из ERP: как появляются пропущенные данные

Когда мы работаем с данными для их последующего анализа или тренировки моделей, мы часто сталкиваемся с ошибками, пропущенными значениями, расхождениями и другими проблемами. Я хочу поделиться старой историей, которая произошла где-то в 2012 году.

Я тогда работал на своей первой работе в ERP-консалтинге. Мы внедряли и поддерживали российскую систему Галактика - вполне милая и симпатичная система, но, как и любая другая, с некоторыми недостатками.

Через пару месяцев работы меня стали отправлять к клиентам, чтобы помогать им. И к этому всегда нужно было серьезно относиться: одеваться в полный костюм с галстуком, всегда общаться вежливо и никогда не спорить.

В какой-то момент меня отправили в отдел бухгалтерии предприятия ВПК и дали наставления: это очень важный клиент и очень важный человек, обязательно помоги ей и ни о чём не спорь.

Прихожу, аккуратно расспрашиваю, что за ситуация и как я могу помочь. Она показывает - мол, создает она документ в системе, но "данные не вводятся". Точные детали проблемы не помню, но суть заключалась в том, что у них было две системы на предприятии - наша и старая. В одной системе разделитель между целой и дробной частью числа был запятой, в другой - точкой. Она в нашей системе пыталась вводить данные так, как ей это привычно, но у нее это не получалось… и она просто не создавала документ в системе и переходила к следующему.

Вот такой жизненный пример того, почему в системе могут отсутствовать данные.

#data #story
🔥5😁2
​​Mistral 7B

Mistral 7B is a new language model designed for exceptional performance and efficiency. It notably outshines the Llama 2 13B in all tested benchmarks and surpasses the Llama 1 34B in reasoning, mathematics, and code generation.

The model employs advanced techniques such as grouped-query attention to speed up inference and sliding window attention to manage sequences of varying length while minimizing inference costs. Additionall Mistral 7B – Instruct has been fine-tuned for instruction-following tasks demonstrating superior performance over the Llama 2 13B – Chat model.

Paper link
Code link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4👍1
Startup team demonstrates differentiable Swift compiler outrunning TensorFlow by 322X

Увидел тут пост, который кажется слишком хорошим, чтобы быть реальностью.

Linkedin

Reddit

В треде они дают такое пояснение:

 current frameworks typically use runtime interpretation of python graphs and dispatch, such that much of the compute time is wasted on dispatch. That is the big limitation of existing frameworks. In fact, dispatch is so heavy, that 95% of Tensorflows code base is dedicated to "op coalescing" to reduce dispatch time, but that is an infinite pursuit of combinatorics.

However if you use a compiler ahead of time (compilers are designed to optimize code), and run code native, no heavy dispatch, cache optimization, code dwell... all the things you'd expect out of a systems language.

Что думаете?

#datascience
🤔5🔥2
​​All of ChatGPT's System Prompts

Добрые люди вытащили из ChatGPT список промптов и опубликовали их, можно посмотреть и потом, при желании, модифицировать.

Что забавно, некоторые промпты прям вежливые:
 Instruction
Please evaluate the following rubrics internally and then perform one of the actions below:

Так что, товарищи, помните, что вежливыми полезно быть даже с роботами.

Direct link
Ycombinator discussion

#datascience
🔥6😁2
​​InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

Pretraining LLMs with retrieval has been shown to enhance their perplexity and factual accuracy by tapping into external databases. However, the size constraints of current pretrained retrieval-augmented LLMs, like Retro with its 7.5B parameters, curtail the potential of instruction tuning and zero-shot generalization. Addressing this, the study introduces Retro 48B, a groundbreaking LLM that's pretrained with retrieval before instruction tuning. By continuing the pretraining of the 43B GPT model on an extra 100 billion tokens and retrieving from a massive 1.2 trillion tokens, Retro 48B significantly surpasses the original 43B GPT in terms of perplexity.

Post instruction tuning, the InstructRetro model exhibits marked improvement in zero-shot question answering (QA) tasks compared to a tuned GPT. On average, InstructRetro betters its GPT counterpart by 7% across short-form QA tasks and by 10% in more complex long-form tasks. Interestingly, the research also reveals that the encoder in the InstructRetro framework can be removed, letting the decoder backbone take the lead, without sacrificing performance. This suggests that retrieval-driven pretraining equips the decoder to adeptly integrate context for QA, pointing towards a promising approach to enhance GPT decoders for QA via prolonged pretraining with retrieval prior to instruction tuning.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍42
KindleVocabToAnki app — importing words from your Kindle to Anki for language learning

Сегодня я хочу поделиться своим пет-проектом для помощи в изучении иностранных языков.

Один из лучших способов прокачивать уровень языка - чтение книг. В последний год я большую часть книг читаю на девайсе Kindle Oasis. Одной из его фичей является возможность нажать на слово и увидеть всплывающее окно с переводом. Все просмотренные слова добавляются в словарь, который затем можно экспортировать.

Теперь нужно как-то запомнить эти слова. Обычно для запоминания слов я использую Anki - программу для интервальных повторений. Вопрос только в том, как перенести слова из словаря в Anki.

Естественно, уже существует ряд приложений для этого, но какие-то не работают на Mac, какие-то требуют кучу шагов, в каких-то не хватает кастомизации. В итоге я сделал своё приложение, которое сегодня и публикую.

App link
Blogpost link
Blogpost link 2

#languages
🔥7
​​PaLI-3 Vision Language Models: Smaller, Faster, Stronger

The paper introduces PaLI-3, a vision language model that, despite its compact size, demonstrates performance comparable to models ten times its size. The research delves into a comparison between ViT models and those pretrained using the SigLIP contrastive method. While the SigLIP-based PaLI slightly lags in traditional image classification, it excels in various multimodal benchmarks, particularly in localization and visually-situated text understanding.

By scaling the SigLIP image encoder to 2 billion parameters, the model sets a new benchmark in multilingual cross-modal retrieval. With just 5B parameters, PaLI-3 not only showcases the potential of efficient VLMs but also paves the way for future research, potentially inspiring the next generation of advanced models.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2👍1
​​Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

LLMs have shown impressive capabilities, but they often deliver responses with factual inaccuracies due to their dependence on encapsulated parametric knowledge. To address this, the RAG approach was introduced, which enhances LMs by retrieving relevant knowledge. However, the indiscriminate retrieval and incorporation of passages, without considering their necessity or relevance, can compromise the versatility of LMs and sometimes result in unproductive responses.

To tackle these challenges, a new framework named Self-Reflective Retrieval-Augmented Generation (Self-RAG) has been introduced. This framework not only adaptively retrieves passages as needed but also employs "reflection tokens" that allow the model to self-evaluate and adjust its outputs. This makes the model adaptable during the inference phase, catering to various task requirements. In tests, Self-RAG has demonstrated superior performance over leading LLMs, excelling in areas like Open-domain QA, reasoning, fact verification, and ensuring higher factuality and citation accuracy in long-form content.

Paper link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3👍1
​​Spanish idiom: No estoy muy católico

В любом языке есть множество идиом, и иногда их происхождение забавно. Недавно столкнулся в фразой "No estoy muy católico", что означает "не очень хорошо себя чувствую". Варианты происхождения разные, мне запомнилось два.

Самый простой вариант - религия может ассоциироваться с чем-то хорошим, поэтому если чувствуешь себя "не особо по-католически", то чувствуешь себя плохо.

Другой вариант, менее позитивный - возможно эта фраза появилась во времена испанской инквизиции. Тогда многих людей пытались насильно обращать в католичество с помощью пыток. Если человек долго упирался, про него могли говорить "este aún no está muy católico". А если он упирался - получал больше пыток... Вот такой вариант появления фразы.

#languages
🔥3👍1
​​Let's Talk AI podcast

Я недавно участвовал в подкасте по DS/AI и рассказывал о своей карьере, говорил о каггле, обсуждал рабочие проекты (без NDA). Содержание следующее:

1. Pursue projects and skills by interest.
2. Have a larger purpose: Useful and meaningful projects and products that improve human life can bring greater satisfaction than just attaining financial independence.
3. Learn from different experiences: Living and working in various countries can provide exposure to diverse cultures and teach adaptability.
4. Practice makes perfect: Participating in data science competitions, analyzing failures and open source can help in mastering skills.
5. Be versatile: The ability to work on diverse data science projects such as strategies, products, and revenue optimization is an essential skill.
6. Put people first: Focusing on human-centric solutions can improve the effectiveness of data science projects or products.
7. Kaggle: Kaggle is a unique platform for machine learning competitions. It offers four rankings: competitions, discussions, code sharing through notebooks, and data sets.
8. Sharing knowledge: Kaggle fosters a spirit of knowledge sharing, allowing others to learn from ideas and code.
9. Time investment: Competing on Kaggle requires lots of time and accepting that it may take multiple attempts before winning.
10. Continuous Learning: Being willing to learn continuously and iterate quickly is a skill beneficial to any professional and especially Data Scientists.

https://www.youtube.com/watch?v=jjqpop3455c&ab_channel=Let%27sTalkAI

И меня нарисовали в стиле подкаста ^-^

#datascience
👍2🔥2
​​А как часто вы пишете комментарии к своему коду?)

https://twitter.com/ph_singer/status/1717085319126782330
😁2
​​Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture

Machine learning models are continually being optimized for enhanced performance and longer contexts, but traditional architectures like Transformers face quadratic scaling challenges in sequence length and model dimension. Addressing this challenge, this paper introduces the Monarch Mixer (M2). M2 employs Monarch matrices, which are expressive structured matrices that not only capture a multitude of linear transforms but also excel in GPU efficiency, ensuring sub-quadratic scaling in both sequence length and model dimension.

For BERT-style language modeling, M2 equaled the performance of BERT-base and BERT-large but with up to 27% fewer parameters and achieved a significant 9.1× increase in throughput at a sequence length of 4K. On the ImageNet platform, M2 surpassed ViT-b by 1% accuracy using just half the parameters. Furthermore, for causal GPT-style models, where ensuring causality presents a quadratic bottleneck, the study introduces a unique perspective on Monarch matrices. This approach allows M2 to maintain its sub-quadratic scaling while ensuring causality, effectively matching the quality of Transformer models without relying on attention mechanisms or MLPs.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3👍1
​​Zephyr: Direct Distillation of LM Alignment

While distilled supervised fine-tuning (dSFT) enhances larger models' accuracy, they often misinterpret natural prompts. Using preference data from AI Feedback (AIF) and distilled direct preference optimization (dDPO), a chat model called Zephyr-7B is trained. This model sets a new standard in chat benchmarks for 7B parameter models, outperforming Llama2-Chat-70B, and doesn't require human annotations.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2
Midjourney, Stability AI and DeviantArt win a victory in copyright case by artists

С тех пор, как появился Stable Diffusion в интернете, идут жаркие споры между художниками и теми, кто генерирует картинки с помощью AI. У обеих сторон есть много аргументов. Основной аргумент художников заключается в том, что их работы были использованы без их разрешения и включены в коммерческие продукты. Недавно дело дошло до суда... и недавно судья в Калифорнии принял сторону этих продуктов.

Если точнее, трое художников подали иск против трех компаний по обвинению в нарушении авторских прав. В свою очередь, эти компании подали ходатайство о прекращении дела. Судья удовлетворил это ходатайство, заявив, что в жалобе есть много проблем. Основная причина такого решения заключается в том, что художники не зарегистрировали авторские права на каждую из своих работ.

Однако судья отметил, что если художники сосредоточатся только на тех работах, на которых были зарегистрированы авторские права, то разбирательство может быть продолжено.

🍿В общем интересно наблюдать за происходящим.

Первоисточник
Обсуждение

#datascience
👍4
​​The “it” in AI models is the dataset

Сейчас в твиттере всплыл пост несколько месячной давности от кого-то из OpenAI - утверждается, что вся соль не в моделях, а в данных. При достаточно большом датасете не особо важно, что мы тренируем - ViT, Conv-nets или что-то ещё. Так что, по его мнению, основное различие между современными топовыми моделями заключается не в моделях, а именно в датасетах.

В целом неудивительно, даже в практических простых задачах датасеты обычно важнее, чем сами модели.

Тред с обсуждением

#datascience
👍12
​​SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

The growth of Vision Foundation Models such as CLIP and SAM is rapidly expanding. They offer unique capabilities developed from their pre-training objectives, with CLIP excelling in semantic understanding and SAM in spatial understanding for segmentation. The study introduces a simple method to merge these VFMs into a single model, namely SAM-CLIP, that integrates their skills. The proposed strategy uses multi-task learning, continual learning techniques, and teacher-student distillation, resulting in less computational cost than traditional multi-task training from scratch. Furthermore, it requires only a small fraction of the pre-training datasets initially used to train individual models.

SAM-CLIP retains the key strengths of its precursor models and also develops synergistic functionalities. The model learns richer visual representations, merging both localization and semantic features, making it suitable for various vision tasks. It has also shown improved performance on several head probing tasks compared to SAM and CLIP. Most notably, in the area of zero-shot semantic segmentation, SAM-CLIP has established new state-of-the-art results on five benchmarks, outperforming former models designed for this task. These include significant improvements of +6.8% and +5.9% mean IoU on the Pascal-VOC and COCO-Stuff datasets respectively.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4
​​Collaborative Large Language Model for Recommender Systems

CLLM4Rec is a novel approach that integrates LLMs with recommender systems to tackle the semantic gap between natural language processing and the nuanced requirements of recommendation tasks. By extending the LLM vocabulary to include specific user and item ID tokens, CLLM4Rec is able to more accurately model the collaborative and content semantics that are crucial for personalized recommendation.

To effectively train these models, CLLM4Rec introduces a unique soft+hard prompting strategy in its pretraining phase, using corpora crafted from user-item interactions and content features. This strategy involves creating documents with a mix of soft tokens (user/item IDs) and hard tokens (vocabulary), which helps in learning embeddings that are stable and more aligned with recommendation contexts. Additionally, the model uses mutual regularization to ensure that user and item content contributes to recommendation-focused information capture, and it incorporates a finetuning strategy with an item prediction head to efficiently generate recommendations.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3
​​Дубай: к высоким температурам привыкаешь

Когда живёшь в другой стране достаточно долго, начинаешь акклиматизироваться и принимать некоторые вещи как должное… хотя это не всегда так.

Например, вчера я гулял и купил мороженое на палочке - самое обычное эскимо. Продолжаю гулять и есть его. Проходит 2 минуты… и мороженое становится заметно мягким. Ещё через минуту шоколад начинает падать с мороженого. Температура - всего лишь 32-34. По ощущениям, такая температура весьма комфортная - намного лучше, чем 40+ летом. Но когда задумываешься, понимаешь, что для мороженого это всё-таки жарко.

Кстати, одно из других многочисленных последствий жары - быстрее изнашивается обувь и одежда.

#dubai
👍2🔥2🤔1
​​MADLAD-400

Google Research/Mind выложили в открытый доступ огромный (7.2T токенов) датасет на основе CommonCrawl аж на 419 языках. Есть версия с фильтрами и без. Ну точно madlads 😁.

Датасет
Статья

#datascience
😁5🔥3
И ещё раз про разработку медицинского чат-бота

https://community.analyticsvidhya.com/c/datahour/medical-chat-bot-the-history-of-our-attempt

Я уже пару раз рассказывал про то, как делал медицинского чат-бота в MTS AI (потому что это один из моих любимых проектов), теперь 22 ноября расскажу снова, на этот раз для Analytics Vidhya.

В ожидании доклада можно перечитать мой блогпост на хабре.

#datascience
👍4
​​AI-помощники в приложениях для ведения заметок

Я активно использую Evernote и Notion для ведения заметок: в Evernote веду дневник, в Notion трекаю разные активности и веду заметки без привязки к дням. И вот, в последнее время, в обоих приложениях выкатили “AI-поиск”. Я решил попробовать, и пока впечатления смешанные.

В Notion у меня заметки более структурированные, поэтому поиск работает вполне неплохо, успешно отвечает на вопросы типа “сколько раз я делал такую-то активность в такой-то день” или “выдай рандомные пункты из такой-то заметки”. Будет ли хорошо работать на более сложных текстах - не знаю, но Notion AI мне в целом нравится.

В Evernote у меня просто дневник, заметки без какой-либо структуры, плюс они на четырёх языках (обычно одна заметка на одном языке, но бывает и на двух). В результате помощник работает плохо. Поиск происходит только по заметкам совпадающего языка - то есть, если у меня заметки были на английском, а запрос я пишу на русском, результата не будет. Пробовал спросить “what are my highlights of 2022?”, получил несколько пунктов, из которых пара правильных, пара совершенно мелких и незначительных и парочка ошибочных/выдуманных.

Кстати, несколько месяцев назад я пробовал натренировать простенькую языковую модель с нуля на своём дневнике - тоже провалилось из-за того, что они на нескольких языках.

А вы пробовали использовать таких помощников?

#datascience #life
👍32