Примеры DBT репозиториев
Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант. Закрыт в 2023 году.
😞 😞 😞 😞 😞 😞 😞 😞 😞
https://github.com/superdao-inc/airflow-dags
Здесь можно найти остатки самописного SQL бойлерплейта и оценить, как переход на DBT сильно облегчает разработку. Также есть кликхаусификация DBT-моделей и несколько специфичных фишек, актуальных именно для Clickhouse. К примеру, вот такая моделька, в которой Clickhouse валится в огромном (3 TB) Group BY запросе, так как ему не хватает RAM. Решение - разбить запрос на чанки по адресам, каждый из которых меньше по размерам, чем весь массив эфириумных транзакций. В DBT модель встроен проброс массива первых букв кошельков, который формируется циклом в Airflow DAG. Или вот такой Generic Test, который проверяет, что в текстовом поле не абы что, а эфириумный адрес-хэш. Есть и макросы-шаблоны запросов, которые после применяются в нескольких моделях для разных эфириумных сеток.
Одним словом, рекомендую сделать dbt docs generate и походить по разным моделькам, макросам и тестам. Стартаперский творческий беспорядок прилагается.
🤪 🤪 🤪 🤪 🤪 🤪 🤪 🤪 🤪
Мой учебный репозиторий [DBT + Airflow + Greenplum]
https://github.com/alex-belozersky/dataplatform
Сейчас в процессе добавления в него интеграции DBT + Trino + Iceberg. Поставьте GitHub звезду, если интересно
😏 😏 😏 😏 😏 😏 😏 😏 😏
#DBT #GitHub
Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант. Закрыт в 2023 году.
https://github.com/superdao-inc/airflow-dags
Здесь можно найти остатки самописного SQL бойлерплейта и оценить, как переход на DBT сильно облегчает разработку. Также есть кликхаусификация DBT-моделей и несколько специфичных фишек, актуальных именно для Clickhouse. К примеру, вот такая моделька, в которой Clickhouse валится в огромном (3 TB) Group BY запросе, так как ему не хватает RAM. Решение - разбить запрос на чанки по адресам, каждый из которых меньше по размерам, чем весь массив эфириумных транзакций. В DBT модель встроен проброс массива первых букв кошельков, который формируется циклом в Airflow DAG. Или вот такой Generic Test, который проверяет, что в текстовом поле не абы что, а эфириумный адрес-хэш. Есть и макросы-шаблоны запросов, которые после применяются в нескольких моделях для разных эфириумных сеток.
Одним словом, рекомендую сделать dbt docs generate и походить по разным моделькам, макросам и тестам. Стартаперский творческий беспорядок прилагается.
Мой учебный репозиторий [DBT + Airflow + Greenplum]
https://github.com/alex-belozersky/dataplatform
Сейчас в процессе добавления в него интеграции DBT + Trino + Iceberg. Поставьте GitHub звезду, если интересно
#DBT #GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - superdao-inc/airflow-dags
Contribute to superdao-inc/airflow-dags development by creating an account on GitHub.
⚡5❤2👍2
Forwarded from Spydell_finance (Paul Spydell)
Общее впечатление от работы с LLM за последние два года
Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты
До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.
Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.
Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?
Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.
Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.
На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.
LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.
🔘 Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований.
🔘 LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах.
🔘 LLM могут быть применимы для генерации отчетов по шаблонам.
🔘 LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ.
Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.
Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.
Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.
Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.
Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.
Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.
Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.
Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.
Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты
До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.
Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.
Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?
Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.
Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.
На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.
LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.
Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.
Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.
Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.
Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.
Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.
Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.
Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.
Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👏2👍1
Пишет человек, искренне поверивший в магические ЛЛМ и пытавшийся внедрить в свои процессы.
В аналитике внедряемость около нуля. Все потому что любой ИИ современного извода заточен на воспроизводимость уже известного. В то время как хороший аналитик работает как раз с новыми вопросами, которых никто раньше не задавал.
Я могу представить решение задачи вида «покажи мне объем продаж за месяц по категориям. А теперь по магазинам». Да и то это возможно в ситуации когда витрины данных подчиняются шаблонам. То это это ИИ-ассистент в BI конструкторе битрикса, к примеру. Или ИИ-помогай в зуме, которому можно задать простые вопросы.
Но вопрос вида «как изменятся продажи, если я повышу расходы на рекламу на 50%» останется без ответа. И инсайты о том, что еще потребуется расширить склад, ИИ не найдет.
Хороший аналитик отвечает на вопросы, заданные впервые. Хороший аналитик больше работает с людьми, чем с данными. Никакой ИИ ему не угроза.
В аналитике внедряемость около нуля. Все потому что любой ИИ современного извода заточен на воспроизводимость уже известного. В то время как хороший аналитик работает как раз с новыми вопросами, которых никто раньше не задавал.
Я могу представить решение задачи вида «покажи мне объем продаж за месяц по категориям. А теперь по магазинам». Да и то это возможно в ситуации когда витрины данных подчиняются шаблонам. То это это ИИ-ассистент в BI конструкторе битрикса, к примеру. Или ИИ-помогай в зуме, которому можно задать простые вопросы.
Но вопрос вида «как изменятся продажи, если я повышу расходы на рекламу на 50%» останется без ответа. И инсайты о том, что еще потребуется расширить склад, ИИ не найдет.
Хороший аналитик отвечает на вопросы, заданные впервые. Хороший аналитик больше работает с людьми, чем с данными. Никакой ИИ ему не угроза.
👍3🤝3❤1
Зачем нужна аналитика
В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем полезны для его бизнеса. Актуально это и для аналитики данных, которая, на первый взгляд, не кажется бизнес-критичной функцией.
Краткая памятка, зачем нужна и чем полезна аналитика данных.
📰 📰 📰 📰 📰 📰
Отчетность
Первое, что приходит в голову, когда говорим про аналитику данных. Собственнику и топам полезно знать в деталях, какой перформанс имеет компания и отдельные ее подразделения. Еще полезнее, когда отчетность доступна не в экселе по запросу через 1-2 дня, а в любой момент в закладке в браузере.
Что требуется для отчетности:
– Понимание ключевых метрик бизнеса. Знать, куда и на что смотреть.
– Процессы по сбору и презентации данных. Хранилище данных и BI.
– Мониторинг качества данных. Смотрим на реальное положение вещей и верим в то, что видим.
📈📈📈📈📈📈
Оптимизация процессов
Перформанс сотрудников на местах заметно растет, если снабдить их релевантными и своевременными данными по их бизнес-процессам. Работать по наитию и на опыте хорошо, но еще лучше если экспертиза и опыт сотрудников дополняются актуальной картиной положения дел в удобной форме. Кроме того, всегда есть риск, что «я всегда так делаю» в какой-то момент сломается, и бизнес потеряет деньги. Важно не упустить этот момент.
Требуется:
– Доменная аналитика в вашей области деятельности
– Аналитики, способные говорить на одном языке со специалистами в области
– Система мотивации, поощряющая сотрудников пользоваться данными для закрытия их KPI. Высокие цели + инструменты их достигнуть.
💰 💰 💰 💰 💰 💰
Данные как актив
Tesla стоит столько, сколько она стоит во многом потому что у них самый большой датасет для автопилота. У них есть данные, как ведет себя автомобиль, и что видят его камеры-сенсоры в разных странах, в разное время года и дня, в городе и селе, на трассе и на проселке, в пустыне и на крайнем севере. Как только мир понял, что авто будущего это не только электро- но еще и автопилотная, ценность накопленных за 10 лет данных забустила цену компании.
Другой пример. Стартап по ДНК-тестам кошек. Была идея продукта, который принимает мазок изо рта любимого питомца и выдает хозяину набор рекомендаций по здоровью – все как у людей. Сам продукт на окупаемость не вышел. Но стартап продали очень дорого, так как только у них (!) есть большая БД ДНК домашних кошек.
Данные могут дорого стоить. Данные могут растить вашу ценность и капитализацию вашей компании.
Подумайте, какие данные могут быть значимыми в вашей отрасли. Какие тренды есть у вас и какие датасеты понадобятся вам и вашим партнерам завтра.
А хранить данные не слишком дорого. Например в облачном S3.
В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем полезны для его бизнеса. Актуально это и для аналитики данных, которая, на первый взгляд, не кажется бизнес-критичной функцией.
Краткая памятка, зачем нужна и чем полезна аналитика данных.
Отчетность
Первое, что приходит в голову, когда говорим про аналитику данных. Собственнику и топам полезно знать в деталях, какой перформанс имеет компания и отдельные ее подразделения. Еще полезнее, когда отчетность доступна не в экселе по запросу через 1-2 дня, а в любой момент в закладке в браузере.
Что требуется для отчетности:
– Понимание ключевых метрик бизнеса. Знать, куда и на что смотреть.
– Процессы по сбору и презентации данных. Хранилище данных и BI.
– Мониторинг качества данных. Смотрим на реальное положение вещей и верим в то, что видим.
📈📈📈📈📈📈
Оптимизация процессов
Перформанс сотрудников на местах заметно растет, если снабдить их релевантными и своевременными данными по их бизнес-процессам. Работать по наитию и на опыте хорошо, но еще лучше если экспертиза и опыт сотрудников дополняются актуальной картиной положения дел в удобной форме. Кроме того, всегда есть риск, что «я всегда так делаю» в какой-то момент сломается, и бизнес потеряет деньги. Важно не упустить этот момент.
Требуется:
– Доменная аналитика в вашей области деятельности
– Аналитики, способные говорить на одном языке со специалистами в области
– Система мотивации, поощряющая сотрудников пользоваться данными для закрытия их KPI. Высокие цели + инструменты их достигнуть.
Данные как актив
Tesla стоит столько, сколько она стоит во многом потому что у них самый большой датасет для автопилота. У них есть данные, как ведет себя автомобиль, и что видят его камеры-сенсоры в разных странах, в разное время года и дня, в городе и селе, на трассе и на проселке, в пустыне и на крайнем севере. Как только мир понял, что авто будущего это не только электро- но еще и автопилотная, ценность накопленных за 10 лет данных забустила цену компании.
Другой пример. Стартап по ДНК-тестам кошек. Была идея продукта, который принимает мазок изо рта любимого питомца и выдает хозяину набор рекомендаций по здоровью – все как у людей. Сам продукт на окупаемость не вышел. Но стартап продали очень дорого, так как только у них (!) есть большая БД ДНК домашних кошек.
Данные могут дорого стоить. Данные могут растить вашу ценность и капитализацию вашей компании.
Подумайте, какие данные могут быть значимыми в вашей отрасли. Какие тренды есть у вас и какие датасеты понадобятся вам и вашим партнерам завтра.
А хранить данные не слишком дорого. Например в облачном S3.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2👏2
Отчетность
Хорошо когда есть такие "дашборды руководителя" или "дашборды инвестора". На самом деле, это не требует каких-то сверх-усилий, но в таких картинках содержится заметная часть ответа на вопрос "Зачем я вам, олухам, деньги плачу".
За красоту, начальник, красоту и точность!
Хорошо когда есть такие "дашборды руководителя" или "дашборды инвестора". На самом деле, это не требует каких-то сверх-усилий, но в таких картинках содержится заметная часть ответа на вопрос "Зачем я вам, олухам, деньги плачу".
За красоту, начальник, красоту и точность!
Telegram
LEFT JOIN
Дашборд для руководителя в Power BI
Как и обещали, разбавляем дашборды из Tableau примерами работ из других BI-систем. Сегодня на очереди Power BI.
Три вкладки, куча фильтров (и, конечно, кросс-фильтрация), интерактивные графики и занятное оформление.
…
Как и обещали, разбавляем дашборды из Tableau примерами работ из других BI-систем. Сегодня на очереди Power BI.
Три вкладки, куча фильтров (и, конечно, кросс-фильтрация), интерактивные графики и занятное оформление.
…
❤3👍2👏1
Всем привет!
Врываясь в будни - все еще ищу крутых DBA и DE себе в команду.
https://team.vk.company/vacancy/39575/
Будет много консалтинга по Postgres, Greenplum. Дальше - Trino+Spark+Iceberg Озера данных и Лейкхаусы. У нас уникальная в российских облаках команда Big Data Services. Занимаемся сложными Data проектами на переднем крае технологий.
10к СУБД уже крутятся, прирастают х2 год-к-году и ждут вас!
Откликайтесь на портале или пишите @alexbelozersky
Врываясь в будни - все еще ищу крутых DBA и DE себе в команду.
https://team.vk.company/vacancy/39575/
Будет много консалтинга по Postgres, Greenplum. Дальше - Trino+Spark+Iceberg Озера данных и Лейкхаусы. У нас уникальная в российских облаках команда Big Data Services. Занимаемся сложными Data проектами на переднем крае технологий.
10к СУБД уже крутятся, прирастают х2 год-к-году и ждут вас!
Откликайтесь на портале или пишите @alexbelozersky
❤4⚡1🔥1
Media is too big
VIEW IN TELEGRAM
Блиц-обзор возможностей и "милых прикольчиков" кластерного Clickhouse.
Прочитано студентам ФКН ВШЭ практически экспромтом. Не судите строго.
#Clickhouse #webinar
Прочитано студентам ФКН ВШЭ практически экспромтом. Не судите строго.
#Clickhouse #webinar
👍6🔥3⚡1
Forwarded from VK Team
🎄 Любителям DS и ML — Data Ёлка!
Это мини-конференция сообщества Open Data Science, которая в этом году пройдёт в офисе VK и онлайн в VK Видео. Обсудим главные события и тренды отрасли за год, разберём лучшие решения с VK RecSys Challenge, пообщаемся на афтепати, наградим гостей за лучшие вопросы и новогодние костюмы.
🗓 18 января, 12:00 (сбор гостей с 11:00).
🖥 Онлайн в VK Видео — смотрите трансляцию в сообществе VK Team ВКонтакте.
📍 Москва, БЦ Skylight — Ленинградский проспект, 39, строение 79. На входе надо будет показать подтверждение участия и паспорт. Приглашение придёт на email после регистрации.
Встретимся у ёлки! 💙
Это мини-конференция сообщества Open Data Science, которая в этом году пройдёт в офисе VK и онлайн в VK Видео. Обсудим главные события и тренды отрасли за год, разберём лучшие решения с VK RecSys Challenge, пообщаемся на афтепати, наградим гостей за лучшие вопросы и новогодние костюмы.
🗓 18 января, 12:00 (сбор гостей с 11:00).
🖥 Онлайн в VK Видео — смотрите трансляцию в сообществе VK Team ВКонтакте.
📍 Москва, БЦ Skylight — Ленинградский проспект, 39, строение 79. На входе надо будет показать подтверждение участия и паспорт. Приглашение придёт на email после регистрации.
Встретимся у ёлки! 💙
❤3🤗2⚡1
Про собесы и увольнения
Однажды меня попросили на ТЗ нарисовать схему расположения графа в реляционной БД.
Я написал 8 способов. Рассмотрел случаи простых, направленных, взвешенных графов. Расписал преимущества и недостатки каждого метода. Написал эффективные запросы по различным обходам графов с учетом особенностей различных БД - знал тогда про Oracle (там LEVEL) и Postgres (WITH RECURSIVE). Одним словом, постарался, потому что считал позицию хорошей. В Банк.
Это был Сбер. И это было самая убогая днище позиция за все мои 12 лет. На ней я с руки запускал скрипты по прогрузкам данных в утро, когда у меня родился ребенок. Потому что никакой инфраструктуры не было и никто не понимал, зачем она вообще нужна. Никто из 40 аналитиков в «гильдии» БЮ.
Второй собес был у меня в СберМаркет на позицию руководителя операционной аналитики. Тяжелая должность, но лид лидов, команда 25 человек, правда с наполненностью 50%. Все было неплохо, но потом я увидел менеджера-заказчика аналитики, его повадки, и сбежал как от огня.
В третий раз столкнулся с зелеными где-то год тому назад. На финальном собесе вдруг осознал, что не видел никого из команды и не видел будущего непосредственного руководителя. Хотя оффер уже есть. Все это время получал максимально расплывчатые формулировки о том, что собственно делать надо. Хотя оффер есть.
Вывод. Выводы в том, что есть на свете специфичные организации со специфичными порядками и специфичным менеджментом. Потом стоит ли удивляться, что после очередных вывертов начальства, когда кто-то очередной доуправлялся, вас пачками отправят на мороз, не особо разбираясь. Руководствуясь принципами, сколько дней кто посещает офис.
Однажды меня попросили на ТЗ нарисовать схему расположения графа в реляционной БД.
Я написал 8 способов. Рассмотрел случаи простых, направленных, взвешенных графов. Расписал преимущества и недостатки каждого метода. Написал эффективные запросы по различным обходам графов с учетом особенностей различных БД - знал тогда про Oracle (там LEVEL) и Postgres (WITH RECURSIVE). Одним словом, постарался, потому что считал позицию хорошей. В Банк.
Это был Сбер. И это было самая убогая днище позиция за все мои 12 лет. На ней я с руки запускал скрипты по прогрузкам данных в утро, когда у меня родился ребенок. Потому что никакой инфраструктуры не было и никто не понимал, зачем она вообще нужна. Никто из 40 аналитиков в «гильдии» БЮ.
Второй собес был у меня в СберМаркет на позицию руководителя операционной аналитики. Тяжелая должность, но лид лидов, команда 25 человек, правда с наполненностью 50%. Все было неплохо, но потом я увидел менеджера-заказчика аналитики, его повадки, и сбежал как от огня.
В третий раз столкнулся с зелеными где-то год тому назад. На финальном собесе вдруг осознал, что не видел никого из команды и не видел будущего непосредственного руководителя. Хотя оффер уже есть. Все это время получал максимально расплывчатые формулировки о том, что собственно делать надо. Хотя оффер есть.
Вывод. Выводы в том, что есть на свете специфичные организации со специфичными порядками и специфичным менеджментом. Потом стоит ли удивляться, что после очередных вывертов начальства, когда кто-то очередной доуправлялся, вас пачками отправят на мороз, не особо разбираясь. Руководствуясь принципами, сколько дней кто посещает офис.
😱8💯8🤨2
Анонс - Data Lake[House]
В начале февраля буду презентовать Cloud Trino.
Это первый кирпичик в технологии Data Lake / Data LakeHouse. В комплекте идет Iceberg Catalog, который впоследствии может быть подключен к кластерам Trino, Spark, Clickhouse. В итоге будет возможно работать с одним датасетом несколькими сервисами одновременно. Сделали ETL на Спарке, и эти данные сразу же увидели аналитики и BI, подключенные к Трино.
Это пока что в будущем. Пока же первый шаг - кластер Trino + k8s + Iceberg Catalog + S3 Bucket. Все сервисы один-к-одному, то есть нельзя будет подключиться 2 кластерами Трино+Трино или Трино+Спарк к одному бакету.
В комменты обязательно накидайте вопросы по данному набору технологий, которые хотели бы подсветить.
Следите за анонсами, чтобы не пропустить.
В начале февраля буду презентовать Cloud Trino.
Это первый кирпичик в технологии Data Lake / Data LakeHouse. В комплекте идет Iceberg Catalog, который впоследствии может быть подключен к кластерам Trino, Spark, Clickhouse. В итоге будет возможно работать с одним датасетом несколькими сервисами одновременно. Сделали ETL на Спарке, и эти данные сразу же увидели аналитики и BI, подключенные к Трино.
Это пока что в будущем. Пока же первый шаг - кластер Trino + k8s + Iceberg Catalog + S3 Bucket. Все сервисы один-к-одному, то есть нельзя будет подключиться 2 кластерами Трино+Трино или Трино+Спарк к одному бакету.
В комменты обязательно накидайте вопросы по данному набору технологий, которые хотели бы подсветить.
Следите за анонсами, чтобы не пропустить.
🔥13
Нейросети и Китайские комнаты
Есть известный мысленный эксперимент - «Китайская комната». Представим себе ящик, и в нем сидит человек. На вход подаются карточки с фразами на китайском, который сам человек не знает. Но у него есть подробная инструкция, как ему отвечать. Если на вход карточки 1, 50, 100500800, то на выход - 3, 180, 666666. И так система в целом общается с внешним миром. Инструкция максимально детальная и до какой-то степени релевантная. Постоянно обновляется.
Можно ли сказать, что этот человек говорит по-китайски и является носителем китайского языка?
Можно ли считать студента, задрочившего все билеты, знатоком предмета? Можно ли школьника, заточенного под идеальную сдачу ЕГЭ и сдавшего на 100, считать освоившим школьную программу?
Интересный ответ был предложен в романе «Ложная Слепота» Уотсом. Давайте разделим интеллект и разум. Китайская комната обладает интеллектом, но не разумом. Правда, если начать копать в этом вопросе, то выяснится, что и человек-то не слишком разумен.
Я же считаю, что китайская комната не есть интеллект, хотя может быть полезным бизнес-инструментом с кучей оговорок и нюансов. Очень умный попугай не есть эксперт по всем вопросам. Интеллект это способность решать нестандартные задачи нестандартным способом.
И вообще, может ли компьютер сочинить симфонию?
Есть известный мысленный эксперимент - «Китайская комната». Представим себе ящик, и в нем сидит человек. На вход подаются карточки с фразами на китайском, который сам человек не знает. Но у него есть подробная инструкция, как ему отвечать. Если на вход карточки 1, 50, 100500800, то на выход - 3, 180, 666666. И так система в целом общается с внешним миром. Инструкция максимально детальная и до какой-то степени релевантная. Постоянно обновляется.
Можно ли сказать, что этот человек говорит по-китайски и является носителем китайского языка?
Можно ли считать студента, задрочившего все билеты, знатоком предмета? Можно ли школьника, заточенного под идеальную сдачу ЕГЭ и сдавшего на 100, считать освоившим школьную программу?
Интересный ответ был предложен в романе «Ложная Слепота» Уотсом. Давайте разделим интеллект и разум. Китайская комната обладает интеллектом, но не разумом. Правда, если начать копать в этом вопросе, то выяснится, что и человек-то не слишком разумен.
Я же считаю, что китайская комната не есть интеллект, хотя может быть полезным бизнес-инструментом с кучей оговорок и нюансов. Очень умный попугай не есть эксперт по всем вопросам. Интеллект это способность решать нестандартные задачи нестандартным способом.
И вообще, может ли компьютер сочинить симфонию?
👍6🔥3❤2🤓2
Контент в 2025
Anonymous Poll
26%
Новые технологии и лейкхаусы
58%
Хаки DBT, AIrflow, СУБД
5%
Нейро галлюцинации
11%
Мемасики
Любителям использовать ответы нейросетей как аргумент в спорах посвящается
Далее репост.
Далее репост.
Также посвящается внедрившим API LLM в боты суппорта компаний.
Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.
Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.
🥴5