LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
А вы доверяете OpenAI?
Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.

Конечно, это совпадение, и смартфоны нас пока не подслушивают. Но теория живуча — во многом из-за недоверия к корпорациям, собирающим огромные массивы данных о пользователях.

Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.

Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.

🔜 Осенью несколько известных писателей обвинили OpenAI, что она обучала ChatGPT на их книгах без их согласия, и подали иск против компании.

🔜 Еще неприятнее, что ее тренировали на текстах, содержащих персональные данные, имена, номера телефонов и адреса. Нашелся и способ вытянуть их из нейросети.

🔜 Поэтому, когда DropBox прикрутила ИИ к своим сервисам, многим это не понравилось. Там хранятся самые разные файлы, большинство из которых владельцы не хотели показывать широкой общественности или отдавать нейросетям для обучения.

DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?

И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.

А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?
Please open Telegram to view this post
VIEW IN TELEGRAM
💯682514🔥10🤓7
Что внутри LLM?
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.

🔜 Весь процесс разбит на отдельные шаги с текстовыми пояснениями и наглядными анимациями.

Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥324🤔1
Апдейт карточек с вакансиями для аналитиков от Ромы Бунина @revealthedata! 🔥

А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
10🥰64🎉1
Forwarded from Reveal the Data
💼 Вакансии аналитиков 2023 vs 2022
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓

И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.

В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.

👉 Пройти опрос 👈
Занимает где-то 10 минут.

Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.

Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
🔥24👍137👌3
А у вас есть любимый SQL-запрос?
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют. ❤️

Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:

SELECT count(*) 
FROM one_thousand
INNER JOIN one_thousand ON random() < 0.5


Где one_thousand — это таблица с одним столбцом с числами от 0 до 999.

Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться. 👀

Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно. 💙
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍2311😁5
Базы данных: главное
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.

Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.

🔵 Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
🔵Написал свою базу данных dbeel.
🔵И в конце концов, полученные знания изложил в своем блоге.

Что там есть:
💬 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
💬 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
💬 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
💬 А еще много примеров кода, схемы и полезные ссылки.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍903922🔥4🎉1
Кстати, хотите подробнее почитать про ACID? У нас есть про них целая статья!
Anonymous Poll
72%
Конечно, хотим!
9%
Да ну, я и так все знаю
19%
А я просто хочу посмотреть результат
Лучший алгоритм для худших рекомендаций
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!

🔜 Первое видео — про Netflix и его алгоритм рекомендаций.

Сериалов и фильмов у Netflix просто гора, а смотреть нечего!

🔵 Почему так происходит, и из всей своей хваленой библиотеки контента Netflix подсовывает какую-то ерунду?
🔵 Как устроен его рекомендательный алгоритм, и как он работает — если работает вообще?
🔵 Почему история просмотров и лайков каких-то незнакомых людей может напрямую влиять на то, что Netflix предлагает посмотреть вам?

Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👨‍💻2614🔥103
Новые измерения в теории графов
Начнем с краткой справки:

🔜 Граф — это топологическая модель, состоящая из нескольких вершин и соединяющих их ребер.

🔜 Теория графов — раздел математики, изучающий графы, их свойства и способы применения.

Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.

💬 Хочется обобщить и сказать, что это может вообще угодно — но дело в том, что это как раз не так.

В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.

Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин.  Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.

💬 Можно представить, что граф — это двухмерный чертеж фундамента, а гиперграф — уже дом в трех измерениях.

Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.

Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79🔥2321
Шпаргалка: зарезервированные слова в SQL
Сегодня будет кратко. Так сказать — без лишних слов. 😏

Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.

В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.

🔜 Список зарезервированных слов SQL.

🔜 Такой же список, но более полный и с разбивкой по разным БД и СУБД: Apache Derby, BigQuery, Db2 (LUW), H2, MariaDB, MySQL,Oracle DB, PostgreSQL, SQL Server и SQLite. Есть слова, зарезервированные только в некоторых БД и доступные для использования в остальных. По ссылке — таблица, по которой сразу понятно, что к чему.

Если было полезно, не забудьте сохранить пост к себе! ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
88👍36🔥4
Интенсив: через Product Hunt на международный рынок
Рано или поздно большинству IT-продуктов становится «тесно» на локальном рынке — но чтобы расти, нужно расширять аудиторию и привлекать инвестиции.

👀 Логичный вопрос: и где их искать?

Один из вариантов — на площадках наподобие Product Hunt.

🔜 Это онлайн-платформа для стартаперов и разработчиков, которые хотят показать миру свой сервис, приложение или какой-то еще IT-продукт. Там они не только обмениваются фидбеком, но и ищут инвесторов. Ну а инвесторы в свою очередь ищут себе перспективные проекты!

31 января пройдет интенсив для тех, кто хочет попробовать силы в продвижении своего продукта на этой площадке. Ведет Паша Митюхин, который работает в Product Hunt с 2017. За это время он только запустил 2 своих приложения на PH и помог многим разработчикам вывести свои продукты в топ рейтинга.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥632🐳2
Люди против технологий
Прошлый год принес несколько громких скандалов, связанных с ИИ, а закончился большой драмой в OpenAI. 2024 начался с увольнений переводчиков в Duolingo, которых заменили нейросети, и возмущениями из-за того, что производитель графических планшетов Wacom поставил на промо-арт сгенерированную картинку.

💬 В общем, ничего нового. Развитие ИИ меняет жизнь, не всегда в лучшую сторону, и не все этому рады. Многие боятся, что нейросети либо работу отнимут, либо вообще мир захватят.

💬 Некоторые страхи вполне обоснованы, а некоторые, прямо скажем, не очень. Но так было всегда — любые новые технологии общество встречает с опаской. Это хорошо показывает материал на vc.ru со списком технофобий. Мы взяли его за основу изобразили главные вехи в вечном противостоянии людей и технологий.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥2719😁18