Neosync: помощник по работе с данными для разработчиков
Neosync — open source решение, которое позволяет анонимизировать реальные данные и генерировать синтетические. Оно пригодится для тестирования кода, воспроизведения багов или заполнения БД начальными данными.
🔜 В общем, для ситуаций, когда вам нужен набор данных, максимально приближенных к реальным. Или когда вы не можете использовать реальные данные — например, потому что они содержат чувствительную информацию, которую нигде «светить» нельзя.
У разработчиков часто есть специальные датасеты для таких задач, но проблема в том, что тестовые данные, как правило, плохо передают все особенности того, что творится в реальности.
Neosync предлагает решение:
🔵 анонимизирует реальные данные, убирая из них всю информацию, по которой их можно идентифицировать;
🔵 генерирует набор синтетических данных с нуля на основе схемы вашей базы данных.
При этом он сохраняет все взаимосвязи между таблицами. А еще умеет интегрироваться с Postgres, MySQL, AWS S3 и другими популярными системами и платформами.
Больше про функционал и возможности инструмента можно узнать на странице на GitHub.
Neosync — open source решение, которое позволяет анонимизировать реальные данные и генерировать синтетические. Оно пригодится для тестирования кода, воспроизведения багов или заполнения БД начальными данными.
У разработчиков часто есть специальные датасеты для таких задач, но проблема в том, что тестовые данные, как правило, плохо передают все особенности того, что творится в реальности.
Neosync предлагает решение:
При этом он сохраняет все взаимосвязи между таблицами. А еще умеет интегрироваться с Postgres, MySQL, AWS S3 и другими популярными системами и платформами.
Больше про функционал и возможности инструмента можно узнать на странице на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥32👌13❤2⚡2
Вероятностные крестики-нолики
Новая версия игры, где вы своими же действиями можете принести оппоненту победу.
🔜 Поле такое же, как всегда — сетка 3 х 3. И суть игры та же — игроки ходят по очереди и пытаются нарисовать три крестика или три нолика подряд. Но у каждой клетки прописаны вероятности — что произойдет, если вы попытаетесь поставить в ней крестик. Есть три варианта развития событий.
🔵 Благоприятный— игрок нарисует свою фигуру.
🔵 «Ну такой» — клетка останется пустой.
🔵 Неблагоприятный — игрок нарисует фигуру противника.
Вероятность каждого результата прописана прямо на клетке и никогда не равна 100%.
У игры есть два уровня сложности и два режима — против компьютера и против человека.
🔜 Как пишет автор до этой идеи он додумался, когда размышлял о том, какую большую роль в жизни играет случайность. Иногда вы можете все сделать правильно, но все равно проиграть, потому что удача была не на вашей стороне. Но все равно после какого-то количество попыток, если продолжать стараться, вы обязательно добьетесь своего.
Новая версия игры, где вы своими же действиями можете принести оппоненту победу.
Вероятность каждого результата прописана прямо на клетке и никогда не равна 100%.
У игры есть два уровня сложности и два режима — против компьютера и против человека.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍155🔥63⚡17❤9😁4
PDF Search: заставьте AI искать нужную информацию за вас
Многим из нас приходится постоянно работать с огромным количеством всевозможных файлов и документов, и чем больше их становится, тем сложнее находить среди них нужную информацию.
Современные технологию эту проблему не создали, но усугубили. И они же предлагают решение. Кто намного лучше людей справляется с большими объемами данных? Искусственный интеллект.
ИИ за несколько минут прошерстит документы, которые человек будет перечитывать полдня.
Это обещают создатели PDF Search — приложения для iPhone, Mac и iPad
🔵 Оно ищет информацию в ваших документах по запросу. ИИ здесь нужен для того, чтобы не просто высматривать ключевые слова, но и понимать контекст и поисковые запросы на естественном языке.
🔵 ИИ анализирует содержание документа целиком и в выдаче показывает наиболее релевантные страницы. Если подходящих документов несколько, он может вытащить из них информацию под ваш запрос в отдельную PDF-ку.
🔵 Отдельное приложение PDF Converter конвертирует в PDF файлы других форматов, чтобы PDF Search смог работать и с ними тоже.
🔵 И, конечно же, вы можете синхронизировать свои устройства, чтобы PDF Search смог работать со всеми файлами, какие только у вас есть.
Приложение платное, но есть пробный период.
Многим из нас приходится постоянно работать с огромным количеством всевозможных файлов и документов, и чем больше их становится, тем сложнее находить среди них нужную информацию.
Современные технологию эту проблему не создали, но усугубили. И они же предлагают решение. Кто намного лучше людей справляется с большими объемами данных? Искусственный интеллект.
ИИ за несколько минут прошерстит документы, которые человек будет перечитывать полдня.
Это обещают создатели PDF Search — приложения для iPhone, Mac и iPad
Приложение платное, но есть пробный период.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89🔥67⚡37👌29❤4
This media is not supported in your browser
VIEW IN TELEGRAM
ML и нейросети в российских сервисах
Большинство обсуждаемых новостей про нейросети и искусственный интеллект предсказуемо генерируют США и Китай. Но ими дело не ограничивается, поэтому мы решили посмотреть, как дела за их пределами — например, в России.
Самый очевидный пример — маркетплейсы. Они внедряют ИИ, чтобы сделать проще заполнение карточек текстами и картинками.
🔵 «Яндекс Маркет» добавил в личные кабинеты продавцов YandexGPT, создающую описание по информации в карточке. Wildberries тестирует сервис, которому достаточно только названия товара, чтобы составить текст.
🔵 Также внедряют нейросети, генерирующие картинки с товарами. YandexART представили в декабре прошлого года. Она до сих пор в бете и доступна не для всех категорий товаров. У Wildberries и Ozon аналогичные функции тоже пока находятся на стадии тестирования.
🔵 Ozon пошел дальше всех и еще в прошлом году выкатил сервис для генерации обложек на основе ML. Результат работы прикрепили к посту — кажется, дизайнерам бояться пока нечего.
🔵 «Яндекс Маркет» заботится не только о продавцах, но и покупателях — для них нейросеть генерирует персонализированные подборки товаров.
ML‑калькулятор для расчета стоимости квартир. Опять «Яндекс» — на этот раз «Яндекс Недвижимость».
🔵 Сервис «Про дом» рассчитывает стоимость покупки или аренды жилья на основе данных в карточке: этаж, площадь, число комнат. Он принимает во внимание также состояние дома и цены на соседние квартиры в моменте и в динамике.
«2ГИС» наводит порядок в карточках.
🔵 Нейросеть собственного изготовления сортирует фотографии по альбомам — отделяет фото интерьера от экстерьера и фото блюд из меню от фото парковки.
🔵 Сберовская GigaChat делает то, что в комментариях на vc.ru метко назвали «жмых по отзывам» — то есть краткое описание места или заведения на основе того, что о нем писали люди.
А нам все не дает покоя ML-обложка от Ozon. Если наберется 100 👍🏻 — наш дизайнер сделает свою версию.
Ставьте лайки, если интересно, что получится!
Большинство обсуждаемых новостей про нейросети и искусственный интеллект предсказуемо генерируют США и Китай. Но ими дело не ограничивается, поэтому мы решили посмотреть, как дела за их пределами — например, в России.
Самый очевидный пример — маркетплейсы. Они внедряют ИИ, чтобы сделать проще заполнение карточек текстами и картинками.
ML‑калькулятор для расчета стоимости квартир. Опять «Яндекс» — на этот раз «Яндекс Недвижимость».
«2ГИС» наводит порядок в карточках.
А нам все не дает покоя ML-обложка от Ozon. Если наберется 100 👍🏻 — наш дизайнер сделает свою версию.
Ставьте лайки, если интересно, что получится!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍178⚡91🔥59❤18👌2
Ищем спеца по датавизу в команду Valiotti Analytics
Если вы любите дизайн, данные и визуализацию, то у нас к вам деловое предложение.
С нас:
🔵 Разнообразная и интересная работа — надо будет создавать крутые дашборды для наших заказчиков совместно с командой аналитиков, писать стайлгайды и статьи про датавиз.
🔵 Достойная зарплата, классная молодая команда, корпоративный английский и другие плюшки.
🔵 Полная удаленка с гибким графиком.
С вас:
🔵 Владение Power Point, Google Slides, Keynote и графическими программами — Figma, PS, Illustrator.
🔵 Опыт работы с визуализацией данных.
🔵 Знакомство с Tableau и аналитикой данных — большой плюс.
Подробное описание вакансии читайте по ссылке.
Это про вас? Тогда пишите скорее нашему HR Татьяне @tanya_zab. Будет классно, если у вас есть портфолио!
Если это не про вас, но у вас есть кандидат на примете — помогите нам найти друг друга и отправьте ему этот пост.❤️
Если вы любите дизайн, данные и визуализацию, то у нас к вам деловое предложение.
С нас:
С вас:
Подробное описание вакансии читайте по ссылке.
Это про вас? Тогда пишите скорее нашему HR Татьяне @tanya_zab. Будет классно, если у вас есть портфолио!
Если это не про вас, но у вас есть кандидат на примете — помогите нам найти друг друга и отправьте ему этот пост.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥37⚡14❤3
Мы теряем интернет
«Все, что попадает в интернет, остается там навсегда» — слышали такую фразу? Ее еще любят припоминать, когда заходит речь об эффекте Стрейзанд или той самой фотографии Бейонсе, которую ее адвокат удалил из интернета.
Оказывается, это неправда.
🔜 38% веб-страниц, существовавших в 2013, сегодня уже недоступны — это обнаружила команда дата саентистов из Pew Research Center. Они изучили ссылки на новостных и правительственных сайтах, в примечаниях в «Википедии» и твиты. Последние — чтобы разобраться, как «цифровой распад» сказывается на соцсетях.
Для того, чтобы отследить появление и исчезновение страниц за 10 лет, с 2013 по 2023 годы, они использовали Common Crawl. Это бесплатный архив, который каждый месяц собирает данные об доступных сайтах в интернете. В выборку исследователей попало чуть меньше миллиона разных страниц.
🔵 23% новостных страниц и 21% страниц на правительственных сайтах содержат как минимум одну битую ссылку.
🔵 50 000 статей из «Википедии» в сумме содержали больше миллиона ссылок в разделе «Примечания» — то есть они вели на внешние сайты. Из них 11% оказались нерабочими.
🔵 За 10 лет почему-то исчезла половина твитов, написанных на турецком и арабском языках.
🔵 1/5 опубликованных твитов исчезают в течение нескольких месяцев.
Даже немного грустно от мысли, сколько информации — полезной и не очень — потеряно и сколько еще мы потеряем. Может, когда-нибудь и знаменитая фотография Бейонсе исчезнет.
«Все, что попадает в интернет, остается там навсегда» — слышали такую фразу? Ее еще любят припоминать, когда заходит речь об эффекте Стрейзанд или той самой фотографии Бейонсе, которую ее адвокат удалил из интернета.
Оказывается, это неправда.
Для того, чтобы отследить появление и исчезновение страниц за 10 лет, с 2013 по 2023 годы, они использовали Common Crawl. Это бесплатный архив, который каждый месяц собирает данные об доступных сайтах в интернете. В выборку исследователей попало чуть меньше миллиона разных страниц.
Даже немного грустно от мысли, сколько информации — полезной и не очень — потеряно и сколько еще мы потеряем. Может, когда-нибудь и знаменитая фотография Бейонсе исчезнет.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🔥66⚡13😁8❤4
Что получится, если заставить ChatGPT заполнить налоговую декларацию?
Программист Майк Макферсон решил это выяснить, а заодно — взглянуть на нейросети под довольно любопытным ракурсом. Их часто рассматривают как самостоятельный инструмент, который генерирует тексты, картинки, видео, код и так далее. Но что, если воспринимать ИИ как операционную систему, которая связывает несколько элементов вместе и помогает взаимодействовать с ними?
🔜 Возможности нейросетей сегодня впечатляют — и все же они до сих пор ограничены. Но их можно расширить, если «подружить» ИИ с другими приложениями, библиотеками или базами данных.
В 2022 Майк создал библиотеку Python tenforty — она помогает юзерам посчитать, сколько налогов они должны государству в зависимости от доходов, расходов, семейного положения и прочих факторов. Сразу оговоримся — эта штука знакома только с законодательством США.
Он планировал когда-нибудь сделать на ее основе приложение, но вместо этого сделал кастомную GPT Tax Driver. Ее функция та же — считать налоги и вычеты, только при этом она еще понимает запросы на естественном языке, пишет подробные ответы и даже может нарисовать график.
🔵 В целом, она с этими задачами отлично справляется, хотя иногда неправильно понимает суть вопроса или игнорирует некоторые требования пользователя.
🔵 Это теоретически удобный инструмент, но он предъявляет высокие требования к пользователю — надо тщательно подходить к написанию промптов и внимательно перепроверять ответы.
🔵 Несмотря на эти недостатки, у подхода «ИИ как ОС» точно есть потенциал — он делает разработку приложений намного проще и быстрее.
Программист Майк Макферсон решил это выяснить, а заодно — взглянуть на нейросети под довольно любопытным ракурсом. Их часто рассматривают как самостоятельный инструмент, который генерирует тексты, картинки, видео, код и так далее. Но что, если воспринимать ИИ как операционную систему, которая связывает несколько элементов вместе и помогает взаимодействовать с ними?
В 2022 Майк создал библиотеку Python tenforty — она помогает юзерам посчитать, сколько налогов они должны государству в зависимости от доходов, расходов, семейного положения и прочих факторов. Сразу оговоримся — эта штука знакома только с законодательством США.
Он планировал когда-нибудь сделать на ее основе приложение, но вместо этого сделал кастомную GPT Tax Driver. Ее функция та же — считать налоги и вычеты, только при этом она еще понимает запросы на естественном языке, пишет подробные ответы и даже может нарисовать график.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🔥61⚡41👌12💔3
Data Heroes с Александром Шестопаловым из BBE
Гостем нового выпуска подкаста стал коммерческий директор Bang Bang Education Александр Шестопалов. Это онлайн-школа дизайна и технологий, где студентов учат дизайну, анимации, монтажу и вот теперь аналитике.
Александр в эдтехе больше 8 лет — он успел поработать в маркетинге GeekBrains и Skillfactory. В BBE он с нуля построил команду маркетинга
Про что говорили?
💬 Про эдтех. Почему эта сфера сложная, но интересная? Чем отличаются массовые онлайн-школы от нишевых в подходах к продвижению и созданию курсов? Почему BBE, онлайн-школа творческих профессий, решила вести курсы для аналитиков?
💬 Про работу с людьми. Как нанимать людей и не ошибаться (или ошибаться, но редко)? Как проверить скиллы соискателя на собеседовании, и почему если человек сделал тестовое с помощью ИИ, это не всегда плохо?
💬 Про аналитику. Как устроена аналитика в эдтехе? За какими метриками следит коммерческий директор?
💬 Про будущее и технологии. С какими задачами ИИ справляется хорошо, а в чем все еще не может заменить человека? И что ждет эдтех — уйдем ли вы офлайн или сфера будет расти и дальше?
Выпуск уже на всех платформах: Яндекс Музыка, Apple Podcasts, Spotify.
Пишите, как вам подкаст?
#DataHeroes
Гостем нового выпуска подкаста стал коммерческий директор Bang Bang Education Александр Шестопалов. Это онлайн-школа дизайна и технологий, где студентов учат дизайну, анимации, монтажу и вот теперь аналитике.
Александр в эдтехе больше 8 лет — он успел поработать в маркетинге GeekBrains и Skillfactory. В BBE он с нуля построил команду маркетинга
Про что говорили?
Выпуск уже на всех платформах: Яндекс Музыка, Apple Podcasts, Spotify.
Пишите, как вам подкаст?
#DataHeroes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥97👍86❤23👌8⚡4
OpenAI купила Rockset и Multi
Обе сделки выглядят как acqui-hire — покупка компании в первую очередь для того, чтобы нанять работающих в ней людей.
💬 Rockset — база данных для real-time аналитики. Она умеет оперативно обрабатывать огромные массивы данных и подходит для создания поисковых систем и рекомендательных алгоритмов, мониторинга и алертинга.
💬 OpenAI планирует интегрировать разработки Rockset в свои продукты. Предположительно, это поможет повысить точность ответов ChatGPT.
💬 Это хорошие новости для пользователей нейросети и не очень — для клиентов Rockset. Компания будет постепенно «отключать» их от своих сервисов и полностью сконцентрируется на работе на благо ИИ. Им придется найти новую БД до конца сентября.
Еще сложнее придется клиентам компании Multi.
💬 Multi — платформа для распределенных команд. Она позволяет расшаривать экран во время созвонов сразу нескольким пользователям, всем вместе редактировать документы, писать, рисовать на экране. В общем, работать удаленно, но всем вместе, как будто вы сидите рядом в одном помещении.
💬 Правда, только до 24 июля. После все данные клиентов будут удалены.
Вот такая цена прогресса — в любой момент может прийти OpenAI и присвоить себе ваш любимый сервис, чтобы он улучшал ChatGPT
Обе сделки выглядят как acqui-hire — покупка компании в первую очередь для того, чтобы нанять работающих в ней людей.
Еще сложнее придется клиентам компании Multi.
Вот такая цена прогресса — в любой момент может прийти OpenAI и присвоить себе ваш любимый сервис, чтобы он улучшал ChatGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥86👍35⚡27👎3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤5🏆4
Forwarded from Коля Валиотти • Дата консалтинг
Стратегия управления на основе данных
Data-driven подход — это такая штука, к которой все стремятся, но не все понимают, что это такое и как к этому прийти.
▶️ Data-driven — это подход, когда все решения в компании принимаются на основе цифр. Чтобы этого добиться, нужно твердо понимать, зачем эти цифры нужны, о чем говорят и как влияют на развитие бизнеса. Система аналитики должна быть максимально согласована с целями и с миссией компании.
▶️ В идеале к этому состоянию надо идти по определенным шагам. Чтобы не превращать пост в простыню, вынес их на карточки.
Но что надо обязательно учесть: в реальности у большинства компаний нет точного понимания, как должна выглядеть аналитика и какие данные они хотят видеть. А делать выводы на основе цифр хочется уже сейчас.
В начале пути важно научиться работать со всеми доступными данными. Они уже у вас как-то собираются — например, в CRM-системе; можно начать собирать их в хранилище для построения отчетности, делать первые выводы, смотреть, чего не хватает. Постепенно бизнес будет развиваться и вместе с этим появится понимание, какие данные и метрики вам нужны.❗️
@datakolya
Data-driven подход — это такая штука, к которой все стремятся, но не все понимают, что это такое и как к этому прийти.
Но что надо обязательно учесть: в реальности у большинства компаний нет точного понимания, как должна выглядеть аналитика и какие данные они хотят видеть. А делать выводы на основе цифр хочется уже сейчас.
В начале пути важно научиться работать со всеми доступными данными. Они уже у вас как-то собираются — например, в CRM-системе; можно начать собирать их в хранилище для построения отчетности, делать первые выводы, смотреть, чего не хватает. Постепенно бизнес будет развиваться и вместе с этим появится понимание, какие данные и метрики вам нужны.
@datakolya
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23⚡9❤5😱3
Внедрили аналитику на старте и увеличили прибыль до 1,2M$
Недавно в комментариях попросили «что-нибудь посложнее». Окей, есть и посложнее.
💬 Как с нуля построить аналитику для быстро растущего стартапа?
💬 Как на практике выглядит «data-driven подход», и как данные помогают принимать решения в бизнесе?
💬 Какие знакомые любому предпринимателю проблемы решает аналитика?
Разбираемся на реальном примере кейса Valiotti Analytics — кастомной системе аналитики, которую сделали для EdTeh-стартапа Refocus. Мы присоединились к проекту прямо на старте и построили инфраструктуру по работе с данными, которая росла вместе с компанией. От двух отчетов с данными из AmoCRM она выросла в полноценную систему из 40+ дашбордов по продажам, маркетингу и продуктовому направлению.
🔜 Что мы такого сделали с данными, что компания выросла в 25 раз — в новой статье фаундера Valiotti Analytics на vc.ru. Если интересно заглянуть прямо внутрь системы аналитики и узнать, как и что в ней работает, это отличный шанс!
Недавно в комментариях попросили «что-нибудь посложнее». Окей, есть и посложнее.
Разбираемся на реальном примере кейса Valiotti Analytics — кастомной системе аналитики, которую сделали для EdTeh-стартапа Refocus. Мы присоединились к проекту прямо на старте и построили инфраструктуру по работе с данными, которая росла вместе с компанией. От двух отчетов с данными из AmoCRM она выросла в полноценную систему из 40+ дашбордов по продажам, маркетингу и продуктовому направлению.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤41🔥20⚡11🌚4
Postgres против всех
Чем сложнее проект, тем длиннее и запутаннее стек — это не всегда удобно, но неизбежно.
Или нет.
Часто стек растет, потому что под каждую задачу или проблему стараются подобрать наиболее подходящий инструмент. Но как выбрать этот «подходящий инструмент»? На что смотреть — на цену, скорость работы, простоту использования?
Или просто выбрать PostgreSQL?👀
Нашли для вас короткую статью, почему вместо раздувания списка инструментов иногда можно просто выбрать проверенный временем, универсальный и понятный PostgreSQL.
Хотя по сути дело даже не в конкретной БД — на месте PostgreSQL может оказаться любой другой вариант. Дело в самом подходе — не усложнять себе жизнь, внедряя множество инструментов под разные задачи. И вместо этого стремиться к тому, чтобы ИТ-инфраструктура была понятной и не перегруженной. Так проще с ней работать и поддерживать работоспособность.
🔜 А что вы думаете — как найти баланс между перегруженностью и простотой, которая уже не тянет стоящие перед командой проекта задачи?
Чем сложнее проект, тем длиннее и запутаннее стек — это не всегда удобно, но неизбежно.
Или нет.
Часто стек растет, потому что под каждую задачу или проблему стараются подобрать наиболее подходящий инструмент. Но как выбрать этот «подходящий инструмент»? На что смотреть — на цену, скорость работы, простоту использования?
Или просто выбрать PostgreSQL?
Нашли для вас короткую статью, почему вместо раздувания списка инструментов иногда можно просто выбрать проверенный временем, универсальный и понятный PostgreSQL.
Хотя по сути дело даже не в конкретной БД — на месте PostgreSQL может оказаться любой другой вариант. Дело в самом подходе — не усложнять себе жизнь, внедряя множество инструментов под разные задачи. И вместо этого стремиться к тому, чтобы ИТ-инфраструктура была понятной и не перегруженной. Так проще с ней работать и поддерживать работоспособность.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥32❤🔥20⚡14❤7