Data, Stories and Languages – Telegram
Data, Stories and Languages
2.97K subscribers
65 photos
8 videos
484 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
XGBoost 2

Удивительно, но нигде не увидел новости о том, что вышла версия XGBoost 2.0.0 - а это ведь одна из самых популярных библиотек для ML.

Самые интересные штуки:
• multi-target regression, multi-label classification и multi-class - до этого подобное я видел только в pyboost
• тренировка на батчах с помощью external memory
добавили Learning to rank
• улучшенная работа с Pyspark
И много всякого другого.

https://github.com/dmlc/xgboost/releases

#datascience
🔥11
​​Instruction Tuning Vol. 1

Известный Sebastian Ruder начал выкладывать серию постов про Instruction Tuning. В этот раз выложил ссылки на популярные/важные датасеты. Рекомендую почитать.

https://nlpnewsletter.substack.com/p/instruction-tuning-vol-1

#datascience
👍5🔥2
​​QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

Recent years have seen significant advancements in LLMs. These models excel in numerous language-understanding tasks. However, their extensive computational requirements pose challenges, particularly when deploying on edge devices.

To address this, the paper introduces the Quantization-Aware Low-Rank Adaptation algorithm. This method is rooted in balancing the degrees of freedom between quantization and adaptation using group-wise operators. With QA-LoRA, during the fine-tuning phase, LLM weights are efficiently quantized, reducing both time and memory consumption. Post fine-tuning, these weights seamlessly integrate into a quantized model without compromising accuracy. The effectiveness of QA-LoRA has been demonstrated on the LLaMA and LLaMA2 model families across various datasets and applications.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4
​​Картинки в ChatGPT

Сегодня у меня появилась возможность загружать картинки в ChatGPT. По совету знакомых попробовал таким образом решить задачку с литкода https://leetcode.com/problems/3sum-closest/
ChatGPT решил её с первой попытки. Я сделал submit - сработало. 🤯

#datascience
🔥6😱4
​​Я прошёл курс немецкого языка на Duolingo

Я изучал немецкий язык в 2006-2008 годах в университете. Затем, в 2013-2015 годах, я изучал его самостоятельно. Как раз тогда я присоединился к Duolingo и прошёл курс немецкого. Мне особенно нравился раздел с переводами, жаль, что его убрали.

Грамматику я изучал по книге “German: An Essential Grammar” by Bruce Donaldson. Помимо этого я читал новости на Deutsche Welle и делал много других вещей. Мой любимый метод - это читать книги на английском и слушать их на немецком одновременно. Таким образом, я достиг уровня B2 (я проверил это на онлайн-тесте на DW). После этого сделал долгий перерыв в 2016-2023 годах и совсем не использовал немецкий.

В апреле 2023 я снова начал изучать немецкий и среди прочего использовал Duolingo. Вскоре после этого был большой редизайн курса, впечатления от него были смешанные, но я продолжил использовать приложение.

Недавно был еще один редизайн курса Duolingo, и мне всё это надоело. Главная проблема для меня - я слишком часто встречаю простые предложения (клавиатура на телефоне часто подсказывает все предложение после всего двух слов), но сложные были редки. На Duolingo можно пройти тест и пропустить несколько units, и успешно проскочил... ~20-30 уроков до последнего. Недавно я завершил курс полностью и разблокировал последний раздел - в нем шесть случайных ежедневных легендарных заданий.

Думаю, я потихоньку пройду все легендарные задания, а затем остановлюсь (или переключусь на испанский).

В итоге хочу сказать, что Duolingo определенно полезен до уровня ~A2 или раннего B1, но затем его полезность резко снижается.

Подробнее о том, как я изучал языки, я писал в своём блогпосте.

#languages
👍91
​​Think before you speak: Training Language Models With Pause Tokens

Language models traditionally generate responses by producing tokens sequentially, with each token being a result of manipulating a set of hidden vectors from preceding tokens. This study introduces a novel approach by allowing the model to process additional hidden vectors before producing the next token. This is achieved by adding a "pause token" to the input, and the model's outputs are extracted only after the last pause token is processed, giving the model extra computational time before finalizing an answer.

Empirical evaluations were conducted on decoder-only models with sizes of 1B and 130M parameters, using causal pretraining on C4. The results on various tasks, including reasoning, question-answering, and fact recall, showed promising improvements. Specifically, the 1B model displayed gains on 8 out of 9 tasks, with a notable 18% EM score increase on the SQuAD QA task.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥5
​​A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics

Огромная статья с обзором LLM в здравоохранении. Анализируют подходы, данные, использование. Рассматривают особенности использования моделей в медицине с учётом прозрачности, этики и прочего.

Выложили много материалов и ссылок на Github.

#datascience
🔥5
Кейс из ERP: как появляются пропущенные данные

Когда мы работаем с данными для их последующего анализа или тренировки моделей, мы часто сталкиваемся с ошибками, пропущенными значениями, расхождениями и другими проблемами. Я хочу поделиться старой историей, которая произошла где-то в 2012 году.

Я тогда работал на своей первой работе в ERP-консалтинге. Мы внедряли и поддерживали российскую систему Галактика - вполне милая и симпатичная система, но, как и любая другая, с некоторыми недостатками.

Через пару месяцев работы меня стали отправлять к клиентам, чтобы помогать им. И к этому всегда нужно было серьезно относиться: одеваться в полный костюм с галстуком, всегда общаться вежливо и никогда не спорить.

В какой-то момент меня отправили в отдел бухгалтерии предприятия ВПК и дали наставления: это очень важный клиент и очень важный человек, обязательно помоги ей и ни о чём не спорь.

Прихожу, аккуратно расспрашиваю, что за ситуация и как я могу помочь. Она показывает - мол, создает она документ в системе, но "данные не вводятся". Точные детали проблемы не помню, но суть заключалась в том, что у них было две системы на предприятии - наша и старая. В одной системе разделитель между целой и дробной частью числа был запятой, в другой - точкой. Она в нашей системе пыталась вводить данные так, как ей это привычно, но у нее это не получалось… и она просто не создавала документ в системе и переходила к следующему.

Вот такой жизненный пример того, почему в системе могут отсутствовать данные.

#data #story
🔥5😁2
​​Mistral 7B

Mistral 7B is a new language model designed for exceptional performance and efficiency. It notably outshines the Llama 2 13B in all tested benchmarks and surpasses the Llama 1 34B in reasoning, mathematics, and code generation.

The model employs advanced techniques such as grouped-query attention to speed up inference and sliding window attention to manage sequences of varying length while minimizing inference costs. Additionall Mistral 7B – Instruct has been fine-tuned for instruction-following tasks demonstrating superior performance over the Llama 2 13B – Chat model.

Paper link
Code link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4👍1
Startup team demonstrates differentiable Swift compiler outrunning TensorFlow by 322X

Увидел тут пост, который кажется слишком хорошим, чтобы быть реальностью.

Linkedin

Reddit

В треде они дают такое пояснение:

 current frameworks typically use runtime interpretation of python graphs and dispatch, such that much of the compute time is wasted on dispatch. That is the big limitation of existing frameworks. In fact, dispatch is so heavy, that 95% of Tensorflows code base is dedicated to "op coalescing" to reduce dispatch time, but that is an infinite pursuit of combinatorics.

However if you use a compiler ahead of time (compilers are designed to optimize code), and run code native, no heavy dispatch, cache optimization, code dwell... all the things you'd expect out of a systems language.

Что думаете?

#datascience
🤔5🔥2
​​All of ChatGPT's System Prompts

Добрые люди вытащили из ChatGPT список промптов и опубликовали их, можно посмотреть и потом, при желании, модифицировать.

Что забавно, некоторые промпты прям вежливые:
 Instruction
Please evaluate the following rubrics internally and then perform one of the actions below:

Так что, товарищи, помните, что вежливыми полезно быть даже с роботами.

Direct link
Ycombinator discussion

#datascience
🔥6😁2
​​InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

Pretraining LLMs with retrieval has been shown to enhance their perplexity and factual accuracy by tapping into external databases. However, the size constraints of current pretrained retrieval-augmented LLMs, like Retro with its 7.5B parameters, curtail the potential of instruction tuning and zero-shot generalization. Addressing this, the study introduces Retro 48B, a groundbreaking LLM that's pretrained with retrieval before instruction tuning. By continuing the pretraining of the 43B GPT model on an extra 100 billion tokens and retrieving from a massive 1.2 trillion tokens, Retro 48B significantly surpasses the original 43B GPT in terms of perplexity.

Post instruction tuning, the InstructRetro model exhibits marked improvement in zero-shot question answering (QA) tasks compared to a tuned GPT. On average, InstructRetro betters its GPT counterpart by 7% across short-form QA tasks and by 10% in more complex long-form tasks. Interestingly, the research also reveals that the encoder in the InstructRetro framework can be removed, letting the decoder backbone take the lead, without sacrificing performance. This suggests that retrieval-driven pretraining equips the decoder to adeptly integrate context for QA, pointing towards a promising approach to enhance GPT decoders for QA via prolonged pretraining with retrieval prior to instruction tuning.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍42
KindleVocabToAnki app — importing words from your Kindle to Anki for language learning

Сегодня я хочу поделиться своим пет-проектом для помощи в изучении иностранных языков.

Один из лучших способов прокачивать уровень языка - чтение книг. В последний год я большую часть книг читаю на девайсе Kindle Oasis. Одной из его фичей является возможность нажать на слово и увидеть всплывающее окно с переводом. Все просмотренные слова добавляются в словарь, который затем можно экспортировать.

Теперь нужно как-то запомнить эти слова. Обычно для запоминания слов я использую Anki - программу для интервальных повторений. Вопрос только в том, как перенести слова из словаря в Anki.

Естественно, уже существует ряд приложений для этого, но какие-то не работают на Mac, какие-то требуют кучу шагов, в каких-то не хватает кастомизации. В итоге я сделал своё приложение, которое сегодня и публикую.

App link
Blogpost link
Blogpost link 2

#languages
🔥7
​​PaLI-3 Vision Language Models: Smaller, Faster, Stronger

The paper introduces PaLI-3, a vision language model that, despite its compact size, demonstrates performance comparable to models ten times its size. The research delves into a comparison between ViT models and those pretrained using the SigLIP contrastive method. While the SigLIP-based PaLI slightly lags in traditional image classification, it excels in various multimodal benchmarks, particularly in localization and visually-situated text understanding.

By scaling the SigLIP image encoder to 2 billion parameters, the model sets a new benchmark in multilingual cross-modal retrieval. With just 5B parameters, PaLI-3 not only showcases the potential of efficient VLMs but also paves the way for future research, potentially inspiring the next generation of advanced models.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2👍1
​​Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

LLMs have shown impressive capabilities, but they often deliver responses with factual inaccuracies due to their dependence on encapsulated parametric knowledge. To address this, the RAG approach was introduced, which enhances LMs by retrieving relevant knowledge. However, the indiscriminate retrieval and incorporation of passages, without considering their necessity or relevance, can compromise the versatility of LMs and sometimes result in unproductive responses.

To tackle these challenges, a new framework named Self-Reflective Retrieval-Augmented Generation (Self-RAG) has been introduced. This framework not only adaptively retrieves passages as needed but also employs "reflection tokens" that allow the model to self-evaluate and adjust its outputs. This makes the model adaptable during the inference phase, catering to various task requirements. In tests, Self-RAG has demonstrated superior performance over leading LLMs, excelling in areas like Open-domain QA, reasoning, fact verification, and ensuring higher factuality and citation accuracy in long-form content.

Paper link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3👍1
​​Spanish idiom: No estoy muy católico

В любом языке есть множество идиом, и иногда их происхождение забавно. Недавно столкнулся в фразой "No estoy muy católico", что означает "не очень хорошо себя чувствую". Варианты происхождения разные, мне запомнилось два.

Самый простой вариант - религия может ассоциироваться с чем-то хорошим, поэтому если чувствуешь себя "не особо по-католически", то чувствуешь себя плохо.

Другой вариант, менее позитивный - возможно эта фраза появилась во времена испанской инквизиции. Тогда многих людей пытались насильно обращать в католичество с помощью пыток. Если человек долго упирался, про него могли говорить "este aún no está muy católico". А если он упирался - получал больше пыток... Вот такой вариант появления фразы.

#languages
🔥3👍1
​​Let's Talk AI podcast

Я недавно участвовал в подкасте по DS/AI и рассказывал о своей карьере, говорил о каггле, обсуждал рабочие проекты (без NDA). Содержание следующее:

1. Pursue projects and skills by interest.
2. Have a larger purpose: Useful and meaningful projects and products that improve human life can bring greater satisfaction than just attaining financial independence.
3. Learn from different experiences: Living and working in various countries can provide exposure to diverse cultures and teach adaptability.
4. Practice makes perfect: Participating in data science competitions, analyzing failures and open source can help in mastering skills.
5. Be versatile: The ability to work on diverse data science projects such as strategies, products, and revenue optimization is an essential skill.
6. Put people first: Focusing on human-centric solutions can improve the effectiveness of data science projects or products.
7. Kaggle: Kaggle is a unique platform for machine learning competitions. It offers four rankings: competitions, discussions, code sharing through notebooks, and data sets.
8. Sharing knowledge: Kaggle fosters a spirit of knowledge sharing, allowing others to learn from ideas and code.
9. Time investment: Competing on Kaggle requires lots of time and accepting that it may take multiple attempts before winning.
10. Continuous Learning: Being willing to learn continuously and iterate quickly is a skill beneficial to any professional and especially Data Scientists.

https://www.youtube.com/watch?v=jjqpop3455c&ab_channel=Let%27sTalkAI

И меня нарисовали в стиле подкаста ^-^

#datascience
👍2🔥2
​​А как часто вы пишете комментарии к своему коду?)

https://twitter.com/ph_singer/status/1717085319126782330
😁2
​​Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture

Machine learning models are continually being optimized for enhanced performance and longer contexts, but traditional architectures like Transformers face quadratic scaling challenges in sequence length and model dimension. Addressing this challenge, this paper introduces the Monarch Mixer (M2). M2 employs Monarch matrices, which are expressive structured matrices that not only capture a multitude of linear transforms but also excel in GPU efficiency, ensuring sub-quadratic scaling in both sequence length and model dimension.

For BERT-style language modeling, M2 equaled the performance of BERT-base and BERT-large but with up to 27% fewer parameters and achieved a significant 9.1× increase in throughput at a sequence length of 4K. On the ImageNet platform, M2 surpassed ViT-b by 1% accuracy using just half the parameters. Furthermore, for causal GPT-style models, where ensuring causality presents a quadratic bottleneck, the study introduces a unique perspective on Monarch matrices. This approach allows M2 to maintain its sub-quadratic scaling while ensuring causality, effectively matching the quality of Transformer models without relying on attention mechanisms or MLPs.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3👍1
​​Zephyr: Direct Distillation of LM Alignment

While distilled supervised fine-tuning (dSFT) enhances larger models' accuracy, they often misinterpret natural prompts. Using preference data from AI Feedback (AIF) and distilled direct preference optimization (dDPO), a chat model called Zephyr-7B is trained. This model sets a new standard in chat benchmarks for 7B parameter models, outperforming Llama2-Chat-70B, and doesn't require human annotations.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2
Midjourney, Stability AI and DeviantArt win a victory in copyright case by artists

С тех пор, как появился Stable Diffusion в интернете, идут жаркие споры между художниками и теми, кто генерирует картинки с помощью AI. У обеих сторон есть много аргументов. Основной аргумент художников заключается в том, что их работы были использованы без их разрешения и включены в коммерческие продукты. Недавно дело дошло до суда... и недавно судья в Калифорнии принял сторону этих продуктов.

Если точнее, трое художников подали иск против трех компаний по обвинению в нарушении авторских прав. В свою очередь, эти компании подали ходатайство о прекращении дела. Судья удовлетворил это ходатайство, заявив, что в жалобе есть много проблем. Основная причина такого решения заключается в том, что художники не зарегистрировали авторские права на каждую из своих работ.

Однако судья отметил, что если художники сосредоточатся только на тех работах, на которых были зарегистрированы авторские права, то разбирательство может быть продолжено.

🍿В общем интересно наблюдать за происходящим.

Первоисточник
Обсуждение

#datascience
👍4