LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Исследование: может ли GPT-4 заменить аналитика данных? 👀
Мой друг и коллега @hello_klimmy прислал любопытный научный доклад о том, может ли GPT4 быть хорошим аналитиком. Трое ученых из Наньянского технологического университета, главного технологического учебного заведения Сингапура, провели исследование, в котором попытались ответить на этот мучающий многих вопрос.

Они провели ряд экспериментов, по результатам которых выяснилось, что GPT-4 вполне в состоянии решать определенные задачи на уровне профессиональных аналитиков. Конечно же, очень многое зависит от промптов и данных, с которыми ИИ пришлось работать, и авторы работы подчеркивают, что их исследование – всего лишь предварительное и требует более обстоятельного подхода.

Ознакомиться с проведенными экспериментами и метриками, примененными для оценки результатов исследования, можно в этом документе, а пофантазировать о будущем профессии аналитика или попытаться построить прогнозы – в комментариях под постом!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥54
HouseWatch: open source инструмент для работы с кластерами ClickHouse 🕵️‍♀️
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!

HouseWatch — это инструмент, который дает возможность:
1️⃣ посмотреть нагрузку и производительность кластера,
2️⃣ подробно изучать запросы,
3️⃣ находить ошибки,
4️⃣ получать статистику использования диска на узел и многое другое.

Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.

HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍134
Voicebox: генеративная модель от Meta AI, которая «говорит» 🗣️
Разработчики Meta AI опубликовали исследование, в котором представили свое новое детище: модель для генерации речи Voicebox. В отличие от многих уже существующих аналогичных продуктов, Voicebox построена на новом подходе – «сопоставления потоков» (*flow matching*). Суть этого метода в том, что модель может обучаться на речевых данных без необходимости их маркировки, что дает возможность использовать более разнообразный набор данных, а в итоге – получать более качественные результаты генерации.

Какие же функции может выполнять Voicebox?
1️⃣ Генерация текста (как с референсом голоса или стиля речи, так и без),
2️⃣ Воспроизведение аудио отрывка на другом языке (доступно для английского, французского, немецкого, испанского, португальского, польского),
3️⃣ Редактирование аудио, включая удаление фоновых шумов и замену слов.

Впечатляет!
Но и настораживает – и это одна из причин почему разработчики Meta AI пока не готовы выложить модель и ее код в открытый доступ. Нам остается только слушать демочки и читать многостраничный научно-исследовательский отчет разработчиков.

А как вы считаете: пользы от моделей для генерации речи больше (помощь неговорящим, озвучивание), чем риск угроз (фальсификация высказываний, мошенничество)? И как стоить регулировать распространение таких продуктов?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥3
Ищем новых героев для заключительного выпуска 3 сезона Data Heroes 👾🚀
Хотите принять участие в записи нашего подкаста? Есть предложение!

Если вы работаете аналитиком данных в российской компании (не удаленно!), то будем рады пригласить вас на подкаст и пообщаться. Также будем очень рады и руководителям отделов аналитики!

Пишите моей коллеге @Milanchezaa с кратким резюме: кем работаете, что входит в ваши обязанности и деятельность компании.

P.S. Если у вас есть знакомые, которые могут нам подойти, то буду благодарен за репост!

P.P.S. Ставьте ❤️, если ждете новый эпизод Data Heroes, чтобы поддержать нашу креативную команду!
31👍7🔥6
Корреляция, ковариация и книги ужасов
Несмотря на то что количество реакций к прошлому посту рубрики #основы_статистики не смогло достичь нужного числа, мы все равно продолжаем, делиться с вами знаниями и напоминать о важных концепциях статистики. Все-таки, не в реакциях счастье!

Итак, мы уже познакомились с одним из самых важных инструментов статистического анализа, — T-критерием Стьюдента. Надеюсь, теперь вы и в ночи, и с похмелья без запинки расскажете, что он позволяет сравнивать две разные выборки и как им пользоваться. Однако, T-критерий не поможет, если нужно оценить влияние определенного фактора на целевой показатель.

Давайте сегодня погрузимся в вечерние традиции жителей нашего воображаемого города N и познакомимся с другим инструментом для анализа данных, а именно с коэффициентом корреляции.

По традиции (но без лишнего давления!) просим поддержать этот пост реакцией, если он вам понравился и показался полезным

P.S. И помните, что «поделиться этим постом с другом такая же здоровская идея, как поделиться с ним хорошим мемом»!
13524🔥13👍6🏆1
Chat Notebooks: ноутбуки Wolfram со встроенной языковой моделью 🧠
Идея ноутбуков, появившаяся на свет в 1987 (нет, мы сейчас не про те, что лэптопы!), за 36 лет своего существования оказала существенное влияние на рабочие процессы в науке о данных, став их неотъемлемой частью. И вот на днях взята новая веха: отныне, ноутбуки Wolfram дополняются функционалом для работы с языковой моделью.

В интерфейсе ноутбуков Wolfram появились «окошки» для общения с ИИ. В статье рассказывается о двух типах новых ноутбуков: ноутбуки с правами на чат (chat-enabled) и ноутбуки, управляемые с помощью чата (chat-driven). Вторые отличаются от первых тем, что для работы с ними не требуется прибегать к языку программирования Wolfram. Также любопытен тот факт, что ячейки чата в ноутбуке считываются ИИ последовательно, то есть, каждая последующая учитывает информацию из предыдущей, но не знает о последующей.

Другой особенностью Chat Notebooks является то, что искусственный образ, роль которого вы бы хотели, чтобы ИИ играл в общении с вами, может настраиваться на разных уровнях: вы можете указать роль ИИ для всей переписки в ноутбуке, а также задать отдельные образы внутри каждого отдельного чата.

В целом, Chat Notebooks похож на интеграцию ChatGPT в интерфейс ноутбуков Wolfram. Подробное руководство по работе с новшеством вы найдете в статье.
👍58🔥28🤔136😍3
Вежливость – не порок. Или все-таки он? 🤷
Бенн Стенсил, CTO Mode и автор популярного блога о науке о данных benn.substack.com, опубликовал новую статью, в которой рассуждает о том, стоит ли нам быть вежливыми с ChatGPT и какие последствия могут быть, если мы таковыми не будем. Без шуток про непредсказуемую глупость ИИ и референсов к «Матрице», конечно, не обошлось.

Но статья не является чисто развлекательной. Бенн, будучи ученым, а не простым популяризатором науки о данных, проводит эксперимент, в котором прогоняет ChatGPT через 61 задачу с 3 вариациями промптов: вежливой, нейтральной и недоброжелательной. Каждый из этих вариантов имел, в свою очередь, по 15 подвидов в зависимости от температуры – параметра, который отвечает за степень случайности в выборе следующего токена во время генерации текста, своего рода фактор «креативности» текста. Получив в итоге почти 3К ответов, Бенн изучил их, и вот к каким выводам он пришел:

1️⃣ Нейтральные по коннотации промпты чаще вежливых и недоброжелательных выдавали правильно сгенерированные ответы.
2️⃣ Используя вежливые формы обращения к ChatGPT вроде «пожалуйста» и «спасибо», вы провоцируете его быть более многословным при ответах.
3️⃣ Вежливые промпты не гарантируют, что ответы ChatGPT будут более исчерпывающими.
4️⃣ При наличии четких указаний, что ChatGPT должен был сделать в ответе, например, вывести только код, если промпт включал вежливые слова, ChatGPT был склонен не соблюдать инструкции.
5️⃣ При решении математических задач наиболее эффективны нейтральные промпты.

Изучить полный отчет и ознакомиться с другими выводами Бенна вы можете в его блоге. Почитать сексистcкие анекдотики авторства ChatGPT – там же.
Please open Telegram to view this post
VIEW IN TELEGRAM
91👍13🔥12
«Размер имеет значение!» или «Как количество токенов в инпуте влияет на модель»
Anthropic недавно объявили о релизе языковой модели, которая может работать с инпутом до 100К токенов. Для сравнения: GPT-4 позволяет до 32К токенов в контексте. А большинство языковых моделей работают с контекстом, не превышающим 2К токенов.

Галина Алперович опубликовала в своем блоге на Medium статью, в которой собрала информацию из различных источников о том, как длина контекста влияет на способы использования языковых моделей и на качество генерируемого ими текста, об ограничениях архитектуры трансформера и возможностях ее оптимизации для повышения планки объема контекста до 100К токенов.

В частности, она отмечает, что модели, которые смогут работать с таким большим контекстом, будут актуальны при решении задач, связанных с обработкой большого объема текста. Ведь, по сути, 100К – это почти целый роман! Учитывая, что модели тренируются на текстах из интернета, имея возможность «прокачать» модель на своем материале, вы получаете всезнающего ассистента, который будет шарить в вашей теме почти наравне с вами!
👍6518🔥4
Архитектура: история и будущее на примере Вконтакте
Хоть мы и пишем этот пост в мессенджере Telegram, все таки стоит отдать должное самой популярной социальной сети в России, ВКонтакте. А вы помните, как начинали свое знакомство с социальными сетями, зарегистрировавшись в VK? Может, даже рисовали граффити на стенах друзей или писали признания в анонимных «Мнениях»? Ух, ну и время было!

Но насколько сложной была архитектура ВКонтакте раньше, и как сильно она усложнилась к сегодняшнему дню?
Об этом в своем докладе рассказывает CTO Вконтакте, Александр Тоболь. Вот несколько интересных моментов из его выступления, которое мы советует посмотреть в оригинале и целиком:

🔵 Стоит сказать, что еще в 2006 году, как и многие приложения, VK под капотом базировался на LAMP-стаке.

🔵 С ростом популярности сайта архитектура начала усложняться, начали появляться новые технологии, такие как NGINX (внимание, 2008 год!).

🔵 Затем появилась другая проблема — масштабирование, поскольку MySQL перестал справляться с нагрузкой. Эта проблема подтолкнула VK прибегнуть к микросервисной архитектуре, которая в 2009 году еще была не так популярна.

🔵 Следующий этап уже был направлен на улучшение деталей, а именно на сетевое взаимодействие микросервиса и БД и формат данных.

🔵 В 2013 году основной задачей по улучшению работы приложения было ускорение кода, который, как и раньше, был написан на бессмертном PHP.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥64
Это страшное слово — деградация
В Твиттере X (иксе? экс? мы пока не разобрались, как это называть) завирусился тред про деградацию GPT-4. За последние пять дней в сети появилось много комментариев и мнений на тему работы модели, а именно ухудшения качества ответов. Но началось все с одного исследования

Рассказываем!
Недавно вышла научная статья ученых из Стэнфорда и Беркли в которой показано, что версия GPT-4, выпущенная в июне, работает хуже, чем более ранняя версия, выпущенная в марте.

Команда оценивала модели, используя 500 задач, в которых модели должны были определить, является ли число простым. В марте GPT-4 правильно ответил на 488 вопросов, а в июне правильных ответов было всего 12. То есть качество ответов упало с 97.6% до всего лишь 2.4%!

Однако, исследование было проведено странно
Все дело в том, что в эксперименте проверялись только числа, которые на самом деле были простыми. Составных чисел в выборке не было, а это не может не влиять на результаты. В итоге, команда провела более честный тест с простыми и составными числами. И выяснилось, что обе модели весьма некомпетентны в этом отношении — мартовская чаще говорила, что число простое, а июньская — наоборот.

Очевидный вывод состоит в том, что GPT-4 не умеет определять, является ли число простым. Хуже не стало — никогда не было хорошо.

В любом случае, по-прежнему остаются нерешенные проблемы, связанные с ухудшениям в других направлениях, например, генерации кода.

Почему это вообще происходит?
По слухам, OpenAI перешли на использование подмоделей, которые ведут себя также как основная GPT-4, но дешевле в эксплуатации. Когда пользователь задает вопрос, система решает, к какой модели его направить. Вероятно, перенаправление запроса и влияет на серьезные ухудшения в качестве ответов.

Конечно, это тревожный сигнал для тех, кто создает приложения на основе GPT-4. Потому что мы уже не просто восхищаемся тем, что могут делать языковые модели, но выпускаем на их основе сервисы и продукты, а значит толерантность к ошибкам резко снизилась.
👍71🔥133🙈3
Что делать, если у вас очень много источников данных, а хранилище одно?
Можно под каждый источник организовать свой способ доставки данных. Но есть более изящный способ — применить брокер сообщений Apache Kafka. Именно про него и рассказывает в докладе Артем Выборный.

В двух словах вводим в курс дела и рассказываем про саму архитектуру работы Kafka:
🔵 Обычно для работы Kafka под высокой нагрузкой используют не один сервер, а целый кластер серверов, управление которыми происходит посредством Apache Zookeeper.
🔵 Данные, которые Kafka получает из источника и записывает в хранилище, состоят из сообщений (грубо говоря, это одна транзакция). Источники при этом называются продюсерами, а хранилища (их может быть много) — консьюмерами.
🔵 Каждый брокер хранит сообщения по партициям. Физически — это просто очередь сообщений, то есть новые сообщения дописываются в начало, а старые остаются в конце.
🔵 Партиции вместе образуют топик. Можно настроить, какие сообщения, от какого продюсера попадают в какой топик, а также настроить какие консьюмеры будут читать какой топик.
🔵 У Kafka есть возможность обеспечения репликации (именно при помощи Zookeeper), что повышает отказоустойчивость.

А вот обо всех нюансах работы, вызванных такой архитектурой Kafka, вы можете узнать во всех подробностях в самом докладе.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍177🔥4👎2
Если бы фильм Barbie рассказывал про мир анализа данных…
@leftjoin
43😁27👎8🔥6🤔5
Ну, наконец-то! На зумах можно больше не слушать
Думаете мы просто предложим игнорировать статусы, совещания, ретро и прочие митинги? К счастью для многих руководителей — нет.

У нас есть идея куда лучше (и куда менее рисковая)
И это транскрипция встречи в реальном времени. Мы уже рассказывали про похожий сервис Otter.AI, который мог составлять документ с содержанием звонка, однако, только на английском языке. И вот, появился его конкурент Tactiq, который может работать с гораздо бóльшим количеством языков.

Коротко о нем
🔵Работает со встречами в Google Meet, Zoom, MS Teams и Webex,
🔵Устанавливается как расширение для Google Chrome,
🔵Выгружает транскрипцию можно в Google Docs, Slack или Notion,
🔵Поддерживает 15 языков (в том числе, русский!),
🔵В бесплатной версии можно транскрибировать до 10 встреч в месяц, идентифицируя слова каждого спикера, а затем сохранять себе конспект митинга,
🔵В платных версиях (за 8 или 16 долларов в месяц) есть возможности выгрузки транскрипции в PDF, организации записей созвонов команды, общей выгрузки записей и другие.

Это мы все к чему
В потоке радостного шума и анонсов миллиона сервисов на базе ИИ можно легко потеряться. К тому же, далеко не все эти сервисы уже сейчас работают хорошо и правда закрывают боли потребителей. Но вот транскрипция конференций и видеовстреч — очень нужная фича, для тех, у кого стабильных 5-10 звонков в день, каждый из которых слушать внимательно не всегда получается.
Please open Telegram to view this post
VIEW IN TELEGRAM
91👍9🔥8💯3