NEW BOT Телеграм, страница

Data, Stories and Languages

Внимание! Hugging Face: Space secrets leak disclosure

Hugging Face вчера опубликовали блогпост, что у них утекли secrets в некоторых Spaces. Настойчиво советуют всем обновить HF Tokens. Уверяют, что в последние дни активно работают над улучшением безопасности.

Блогпост

#datascience

huggingface.co

Space secrets security update

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

😱5🤝1

848 views12:38

Data, Stories and Languages

Forwarded from ODS Events

▶️Мы уже в эфире!

Подключайтесь в комнату Reliable ML в ODS Spatial (пароль от спейса festfinaleparrot), чтобы задать вопросы спикерам лично!

Расписание онлайн дня тут
Если вы далеко от компьютера - смотрите трансляцию на ODS YouTube

Please open Telegram to view this post

VIEW IN TELEGRAM

app.spatial.chat

SpatialChat

Virtual space platform to help remote teams collaborate.

828 views07:05

Data, Stories and Languages

LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

Исследователи из Disney Studio представляют LiteVAE, семейство автоэнкодеров для LDMs, использующее 2D discrete wavelet transform для повышения масштабируемости и вычислительной эффективности по сравнению с обычными VAEs без потери качества.

Базовая модель LiteVAE сравнима по качеству с существующими VAEs в LDMs, при том, что количество параметров энкодера в шесть раз меньше - это значит, что тренировка идёт быстрее и нужно меньше памяти GPU. Более крупная модель превосходит VAEs аналогичной сложности по всем метрикам.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥5👍4

8.36K views05:00

Data, Stories and Languages

Код xLSTM

Недавно вышла нашумевшая статья про xLSTM, а теперь авторы выложили код: https://github.com/NX-AI/xlstm

Интересно, будет ли использоваться или быстро забудется?

#datascience

👍10🔥3👎1👀1

1.25K views16:04

Data, Stories and Languages

Войны художников против AI продолжаются

Как известно, художники постоянно негодуют по поводу AI (я их вполне понимаю) и пытаются придумать новые решения против этого. То программы, которые "портят" картинки чтобы модели на них не могли тренироваться, то ещё что.

Новая идея: https://cara.app/explore

 widespread use of generative AI, we decided to build a place that filters out generative AI images so that people who want to find authentic creatives and artwork can do so easily.

Звучит прикольно. Довольно быстро туда хлынула толпа юзеров. Они запустились в конце мая, ворвались в топ-9 приложений в App Store для social media, достигли 500к юзеров.

Казалось бы, что могло пойти не так? Они хостили свой продукт на платформе https://vercel.com/ai и... к ним пришло "письмо счастья" сообщающее, что они превысили все лимиты, и им надо заплатить почти 100к$. В тред твиттера даже пришёл VP of Product Vercel и объяснил, что всё верно - к ним пришло много трафика (56 миллионов function invocations за 3 июня), и они не настраивали лимиты по тратам.
В целом дальше обещал попробовать договориться - посмотрим, что получится.

Но самое ироничное в этом - совсем другое. Cara, платформа для "настоящих" художников и против AI, хостится на vercel, у которого на сайте большими буквами написано "Vercel is the Home of AI Apps".

Интересная история.

😁17🤷‍♂1❤1🤷1

965 views12:59

Data, Stories and Languages

σ-GPTs: A New Approach to Autoregressive Models

В этой статье решили попробовать генерить тексты не слева направо, а в рандомном порядке. Для этого к токенам добавляют два позиционных энкодинга - информация о позиции этого и следующего токенов. В результате, модель может генерить тексты параллельно (одновременно разные куски текста), по факту делать in-filling, лучше генерализирует в некоторых случаях. По приколу показали, что можно генерить тексты хоть по фрактальным паттернам - правда это работало уже не так хорошо.

Но смутило то, что говорят про возможность параллельной генерации, а скорость инференса замерять не стали. И тренировали лишь GPT-2. Возможно, что следуют заветам Karpathy. Кстати, он как раз сегодня выложил новую лекцию о том, как закодить GPT-2 с нуля.

Визуализацию примера того, как генерится текст, можно посмотреть тут

Paper link
Demo

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

👍9🔥4😁1

879 views04:51

Data, Stories and Languages

Чтение книг для практики иностранных языков

Чтение книг на иностранных языках - это отличный способ набрать словарный запас. Есть много способов прокачивания языка, но практика в любом виде просто необходима - это может быть чтение текстов, просмотр фильмов, слушание подкастов/аудиокниг/чего-угодно, разговоры и так далее. При чтении мне проще всего трекать прогресс, чем и хочу поделиться.

Недавно я закончил читать серию из четырёх книг на немецком - это перевод русский серии "Страж" Алексея Пехова. Кстати, это один из моих любимых авторов современного фэнтези. Я читал эту серию очень давно (последняя книга вроде как была опубликована лет 10 назад), но вот несколько месяцев назад мне попался на глаза немецкий перевод, и я решил перечитать её - на этот раз не только по фану, но и для языковой практики. Пехов пишет отличные книги, богатые на описания, но от этого получается высокая сложность текста, когда читаешь их в переводе.

На чтение первой книги у меня ушло больше месяца, и на Kindle я отметил примерно 1.5к слов как неизвестные (смотрел их перевод). Первая треть книги шла совсем с трудом, но постепенно становилось легче и легче. Вторую книгу я читал немного быстрее, но всё равно потребовался примерно месяц, и было примерно 1.1к новых слов. А дальше стало лучше - где-то три недели на третью книгу (~900 слов) и всего дней десять на четвёртую (~500 слов). Естественно, на скорость чтения влияли внешние факторы, но прогресс очевиден.
Кстати, все эти слова я потом переносил в Anki с помощью того приложения, о котором я писал раньше: https://news.1rj.ru/str/datastorieslanguages/59 Правда я в свою локальную версию добавил возможность делать перевод с помощью gpt-4o :)

Дальше планирую почитать что-нибудь в оригинале на немецком (в дополнение к другим способам практики).

P. S. Обложки к немецких изданий просто шикарные.

#languages

👍9🔥2

1.19K views04:34

Data, Stories and Languages

Leetcode теперь может автоматически считать асимптотику алгоритмов

Теперь на Leetcode появилась новая удобная фича. После сабмита решения можно нажать на кнопочку "Analyze Complexity" и увидеть какая сложность у написанного кода. Прикольно, так будет легче запомнить разные асимптотики тем, кто ещё в них путается

#datascience

🔥17❤2

905 views11:28

Data, Stories and Languages

GPT-4 is "smarter" at temperature=1 than temperature=0, even on deterministic tasks.

Я наткнулся на любопытное обсуждение в твиттере - оказалось, что если поставить temperature=1 в GPT-4, он будет работать немного получше.
Что забавно - попробовали такое же с затюненой LLama3 - и там полный разброс.
Тюнинг и инференс LLM остаётся алхимией :)

#datascience

🔥6🆒3

1.23K views15:44

Data, Stories and Languages

Обзор книги "Accelerate Model Training with PyTorch 2.X"

Недавно мне написали из Packt и сам автор книги Maicon Melo Alves и предложили почитать книгу и опубликовать отзыв.

Мой англоязычный отзыв можно почитать тут: https://www.linkedin.com/posts/andlukyane_accelerate-model-training-with-pytorch-2-activity-7207747253212483585-n7np?utm_source=share&utm_medium=member_desktop

Неофициально скажу, что книга вполне неплохая... но хз на кого нацеленная. Для новичков будет слишком много технических деталей, проще взять официальные туториалы pytorch. Для опытных людей новое будет, но я не уверен в том, что они подчерпнут достаточно полезного. Плюс весь код в открытом доступе

Наверное, полезнее всего будет тем, кто не хочет гуглить, а предпочитает читать книги. Сам стиль хороший, объяснения качественные, материал покрывает всё нужное.

Ссылка на книгу

#datascience

My review of the book "Accelerate Model Training with PyTorch 2.X" | Andrey Lukyanenko

My review of the book "Accelerate Model Training with PyTorch 2.X"

https://lnkd.in/dPPtBhR3

I was offered to read this book in exchange for an honest review.

I think this is a great book that will be useful to anyone who wants to improve their understanding…

👍10

1.16K views14:20

Data, Stories and Languages

ChatGPT is bullshit

https://link.springer.com/article/10.1007/s10676-024-09775-5

Я так и не понял, что в этой статье нового, но название порадовало.

#datascience

😁7🤝3🔥1

1.31K views04:57

Data, Stories and Languages

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Только недавно NVIDIA натренировала SSM Mamba-2 на 8B параметров на 3.5T токенов, как в Microsoft решил не ударить в грязь лицом и натренировали Samba (Mamba + MLP + Sliding Window Attention) на 3.8B параметров и 3.2T токенов. Получили модельку лучше, чем Phi3-mini - MMLU 71.2, 71.9 при intruction-tuning. Из главных плюшек - большой контекст. Например, тренировали на контексте 4к, и Samba успешно экстраполировала на 256к с почти идеальным memory recall. Плюс шустрый инференс. Выглядит очень любопытно. Но весов пока нет.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥6❤1👍1

1.06K views04:42

Data, Stories and Languages

Курс испанского языка на Duolingo пройден. Опять

Я уже рассказывал, что использую Duolingo для дополнительной практики языков. Вчера вот я снова завершил курс испанского. До этого я уже проходил его полностью пару раз, но каждый раз через какое-то время компания делала редизайн курса и добавляла новые материалы.

Впечатления от курса такие же как и прежде - чем ближе к концу, тем меньше польза. По субъективным ощущениям, я делал ошибки примерно в 10% вопросов, и большинство было либо из-за моих глупых опечаток, либо из-за случаев, когда Duolingo ожидал какой-то специфичный ответ вместо моего (который тоже подходил).

В качестве дополнительного усложнения, везде где это было возможно, я старался использовать микрофон для голосового ввода. Кстати, с этим было интересно: обычно iPhone отлично распознавал мой голос и выдавал именно то, что я говорил; а когда я использовал приложение на Android, те же самые фразы часто распознавались криво и приходилось исправлять их ручками.

Теперь не знаю забрасывать ли Duolingo, или поддерживать почти 900-дневный streak.

#languages

🔥11👍3🤓1

907 views07:45

Data, Stories and Languages

I Will Fucking Piledrive You If You Mention AI Again

Блогпост от австралийского DS - вопль от глубины души. Очень эмоционально, но при этом вполне адекватно. Основные тезисы:

• Многие проекты проваливаются потому, что кто-то наверху решил "делать AI-проект" не понимая реальных ограничений и сложностей. Очень многое упирается в инфраструктуру
• В компаниях на высоких уровнях слишком много "grifters", которые пропагандируют использование AI лишь для личной пользы без заботы о результатах
• Есть серьёзно задуматься, большинству компаний совершенно не нужно разрабатывать AI, чтобы оставаться конкурентоспособными. Плюс, у многих компаний этот самый AI уже есть - ибо они купили какие-то решения у компаний, которые умеют и понимают как это делать
• Недавно был опубликован большой отчёт о том, как идёт внедрение AI. Там много красивых чисел, но большинство - явный буллшит.
• Просто впихивание "AI" в любые проекты не поможет решить проблемы. Надо вначале выстраивать процессы и обучать людей.

Blogpost

#datascience

❤10🔥7😁4👏2👍1🤔1

1.07K views07:40

Data, Stories and Languages

ПРЯМ В ТЕМУ ПРЕДЫДУЩЕГО ПОСТА (И ЭТО НЕ КАПС, А ШИФТ)

😁9🤣5

1K views11:37

Data, Stories and Languages

Auto-import от fastai

Библиотека fastai - холиварная штука. С одной стороны, полно SOTA штук (по крайней мере так было несколько лет назад), с другой стороны полно очень спорных архитектурных решений и сам код очень спорный. Плюс создатели библиотеки любят пропагандировать стиль типа import *.

К чему я вообще вспомнил это? Сейчас увидел твит от Jeremy Howard, где он называет требования нормальных импортов "pointless busywork" и предлагает решение - делать import * по-прежнему, а потом запускать новую либу "fastcore", которая заменит импорты на правильные. Что может пойти не так...

#datascience

🤡7😱2👍1🫡1

938 views15:07

Data, Stories and Languages

😁10💯3❤2😢1

1.08K views15:15

Data, Stories and Languages

JetBrains Grazie

JetBrains, как и многие другие компании, пытается впихнуть невпихуемое AI в свои продукты. Какое-то время назад зарелизили AI Assistant, который работает в целом неплохо, теперь вот "AI writing companion".

Доступно для обладателей Pro подписки.

Мне вот интересно, многие ли используют продукты JetBrains для написания текстов? Я публикую блогпосты в интерфейсе JetBrains, но обычно сами тексты пишу в Typora или других инструментах.

Plugin

#datascience

😁3❤1🔥1

966 views14:06

Data, Stories and Languages

ВНИМАНИЕ: начиная с 26.08.2024 Slack начнёт удалять сообщения старше года в бесплатных workspace

Раньше в бесплатных workspace можно было видеть историю до 90 дней (если без ухищрений в виде закладок), но при оплате становилась доступной история за всё время.
Slack, видимо, понял, что большинство бесплатных workspace платить не будут, поэтому скоро он начнёт удалять старые сообщения:

> We will be reducing our data storage offering for the free version of Slack; starting 26th August 2024, we’ll begin deleting messages and files more than one year old from free workspaces on a rolling basis.

Link

Discussion

Slack Help Center

Updates to message and file history on free workspaces

Over the years, we’ve changed our subnoscriptions and features to maintain the quality of Slack for our customers. As our customer base has continued to grow, so has our mission to make Slack a too...

😱5😁2

999 views17:02

Data, Stories and Languages

Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning

Husky - универсальный open-source language agent, который решает разнообразные сложные задачи, включая numerical, tabular и knowledge-based reasoning. Husky работает в два этапа: генерирует следующее действие для решения задачи и выполняет его с помощью expert models, обновляя текущее состояние решения. В экспериментах Husky превосходит предыдущие language agents на 14 датасетах.

Ещё авторы создали свой собственный датасет, и, конечно, показали, что на нём их подход отлично работает.

Из забавного: почему Husky? Потому что подход использует несколько эскспертных моделей, которые подобны упряжке хаски, тянущих сани.
Ну и, вначале попробовали разные базовые модели, а потом оказалось, что есть взять Llama-3-8B и тюнить её, то получится лучше всего.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥5😁2👍1

1.07K views04:32

Data, Stories and Languages

Подход к запоминанию слов - генерация историй с помощью ChatGPT

В изучении языков один из ключевых моментов - приобретение и поддержка словарного запаса. Существует много "стандартных" подходов к этому:
• Зубрение списков слов (как по мне, это самое нудное)
• Придумывание фраз/предложений с этими словами
• Флешкарточки со словами (либо слова сами по себе, либо с контекстом)
• Пассивный вариант - поглощение контента
И так далее, есть множество вариантов.

Как я уже рассказывал, я активно использую Anki (флешкарточки) для повторения слов, но бывает так, что какие-то слова ну никак не откладываются в памяти - слишком часто в них ошибаюсь. Иногда я такие слова просто отбрасываю (если они очень редкие), иногда придумываю фразы с ними. Недавно я решил попробовать новый подход - беру 5-10 таких слов и прошу ChatGPT придумать историю с этими словами. В целом получается прикольно (пример на скриншоте), но даже в таких коротких текстах он иногда теряет нить повествования и забывает про то, что было сказано пару абзацев назад.

#languages

👍3❤2😁1

1.17K views13:48

About

Blog

Apps

Platform