Database Labdon – Telegram
Database Labdon
835 subscribers
33 photos
3 videos
1 file
821 links
🕸 Database Academy

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
🔵 عنوان مقاله
Introducing Elephantshark: A Tool to Monitor Postgres Network Traffic

🟢 خلاصه مقاله:
Elephantshark ابزاری برای مشاهده ترافیک شبکه Postgres است که بدون تغییر در کلاینت یا سرور، بین دو طرف قرار می‌گیرد. این ابزار با تکیه بر Ruby همچون یک پراکسی سبک عمل می‌کند: پیام‌های دوطرفه را عبور می‌دهد و همزمان پیام‌های پروتکل Postgres را پارس و لاگ می‌کند. نتیجه، دید شفاف و کم‌اصطکاک از تبادلات شبکه‌ای است که در توسعه، دیباگ، بررسی عملکرد و ممیزی کاربرد دارد و می‌تواند مکمل لاگ‌های سرور و ابزارهای packet capture باشد. کد و مستندات آن از طریق مخزن GitHub در دسترس است.

#Postgres #DatabaseMonitoring #NetworkTraffic #Ruby #Proxy #Observability #GitHub #PostgresProtocol

🟣لینک مقاله:
https://postgresweekly.com/link/175103/web


👑 @Database_Academy
🔵 عنوان مقاله
On Developing OAuth Support for Postgres

🟢 خلاصه مقاله:
پشتیبانی از OAuth در نسخه Postgres 18 به‌عنوان یک قابلیت مهم اضافه شده است. نویسنده که از نخستین حامیان این ایده بوده، مسیر تبدیل آن از نمونه‌های اولیه و بحث‌های جامعه به یک ویژگی پایدار را روایت می‌کند و نشان می‌دهد چرا ادغام مستقیم پایگاه‌داده با هویت‌های سازمانی و فضای ابری ضروری است. در پیاده‌سازی، Postgres توکن‌های استاندارد OAuth/OIDC را با بررسی issuer و audience، امضای مبتنی بر JWKS و نگاشت claimها به نقش‌های دیتابیس اعتبارسنجی می‌کند و تنظیمات از طریق پیکربندی آشنا (مانند pg_hba.conf) انجام می‌شود. بخش عملی مقاله نشان می‌دهد چطور می‌توان Postgres را به ارائه‌دهنده‌هایی مثل Okta، Auth0، Azure AD، Google و Keycloak وصل کرد تا کلاینت‌ها با bearer token متصل شوند و دسترسی بر اساس نقش‌های نگاشت‌شده کنترل شود. مزیت‌ها شامل هویت متمرکز، توکن‌های کوتاه‌عمر و قابل ابطال، کنترل دقیق‌تر دسترسی و ادغام ساده‌تر با جریان‌های ابری و بدون رمز عبور است. در ادامه، مسیر آینده شامل نگاشت پیشرفته‌تر claim به نقش، بهبود لاگ و عیب‌یابی، بهینه‌سازی عملکرد، سازگاری گسترده‌تر با ارائه‌دهنده‌ها و پشتیبانی بهتر در درایورها و ابزارهای پیرامونی عنوان می‌شود.

#Postgres #OAuth #Postgres18 #DatabaseSecurity #OIDC #IdentityManagement #OpenSource #Authentication

🟣لینک مقاله:
https://postgresweekly.com/link/175395/web


👑 @Database_Academy
🔵 عنوان مقاله
SQLMesh, dbt, and Fivetran... What's Next? (5 minute read)

🟢 خلاصه مقاله:
فشرده‌سازی اخیر در اکوسیستم Modern Data Stack با تصاحب dbt توسط Fivetran و یکپارچه‌سازی‌های اخیر با Tobiko Data و Census نشان می‌دهد که لایه‌های ingestion، transformation، modeling و حتی activation به سمت تجمیع زیر چتر چند فروشنده محدود می‌روند. این روند می‌تواند کار را برای تیم‌ها ساده‌تر کند و به متادیتا، lineage، حاکمیت و صورتحساب یکپارچه بینجامد، اما ریسک‌هایی هم دارد: کوچک شدن سطح open-source و دورتر شدن قابلیت‌های dbt Core از dbt Fusion که می‌تواند به قفل‌شدن در فروشنده و تجربه‌های نامتوازن منجر شود. در این میان، ابزارهایی مثل SQLMesh با تأکید بر قابلیت اطمینان، تغییرات مبتنی‌بر plan و سازگاری با پروژه‌های dbt گزینه‌ای برای حفظ انعطاف‌پذیری و اجرای موازی یا مسیرهای مهاجرتی هستند. در آینده باید انتظار یکپارچگی بیشتر پلتفرمی و استانداردهای در حال تغییر را داشت. تیم‌ها بهتر است وابستگی‌های خود به dbt Core در برابر قابلیت‌های مدیریت‌شده را بسنجند، اصول قابل‌حمل بودن (قراردادهای داده، استانداردهای lineage، چک‌های CI/CD) را تعریف کنند، لایه‌های ذخیره‌سازی/محاسبات را از ارکستراسیون جدا نگه دارند و با گزینه‌هایی مانند SQLMesh آزمایش‌های هدفمند انجام دهند تا برای تغییرات پیش‌رو آماده باشند.

#ModernDataStack #dbt #Fivetran #DataEngineering #OpenSource #SQLMesh #AnalyticsEngineering

🟣لینک مقاله:
https://smallbigdata.substack.com/p/sqlmesh-dbt-and-fivetran-whats-next?utm_source=tldrdata


👑 @Database_Academy
🧠 آموزش زبان سالیدیتی و ترید ارز دجیتال از صفر تا حرفه‌ای به صورت رایگان

🔹 جدیدترین اخبار بلاکچین و کریپتو و فناوری

🔹 تحلیل پروژه‌ها روز و فرصت‌های Web3

⚙️ نکات فنی، ترفندهای توسعه و فرصت‌های شغلی

به جامعه توسعه‌دهندگان آینده‌نگر بپیوند!

👇👇👇

📲 [@omidtrade360]
🔵 عنوان مقاله
A cute example of solving a logic puzzle

🟢 خلاصه مقاله:
این مطلب در Golang Weekly یک نمونه دوست‌داشتنی از حل یک پازل منطقی را نشان می‌دهد: تبدیل سرنخ‌های متنی به قیود دقیق، مدل‌سازی حالت‌ها، و حذف تدریجی گزینه‌های نامعتبر تا رسیدن به پاسخ یکتا. رویکرد آن بر سادگی و شفافیت تکیه دارد—با استفاده از ساختارهای داده ساده و اندکی backtracking یا constraint propagation که پیاده‌سازی‌اش در Go روان و قابل دنبال‌کردن است. فراتر از یک معما، پیام اصلی این است که پازل‌های منطقی محیطی عالی برای تمرین تفکر الگوریتمی در Go فراهم می‌کنند؛ از مدل‌سازی و آزمون‌پذیری تا ملاحظات کارایی. در پایان، خواننده تشویق می‌شود با نسخه‌های مختلف معما و شیوه‌های بیان قیود آزمایش کند و از فرایند تبدیل سرنخ‌های غیررسمی به منطق اجرایی لذت ببرد.

#Golang #Go #LogicPuzzle #AlgorithmicThinking #ConstraintSolving #Backtracking #GolangWeekly

🟣لینک مقاله:
https://postgresweekly.com/link/175724/web


👑 @Database_Academy
🔵 عنوان مقاله
E-Maj 4.7: Fine-Grained Write Logging and Time Travel Extension

🟢 خلاصه مقاله:
امکان ثبت ریزدانه تغییرات نوشتاری و «time travel» روی بخش‌هایی از پایگاه‌داده، هسته اصلی E-Maj 4.7 است. این افزونه تغییرات درج، به‌روزرسانی و حذف را روی جدول‌های انتخابی ردگیری می‌کند تا بتوان وضعیت گذشته همان بخش‌ها را در یک زمان مشخص مشاهده یا به‌صورت هدفمند بازگردانی کرد—بدون نیاز به برگرداندن کل پایگاه‌داده. نتیجه، ممیزی و ردیابی دقیق، رفع خطا و مقایسه نسخه‌ها، و بازیابی نقطه‌ای سریع‌تر و کم‌اختلال است. E-Maj 4.7 قابل پیکربندی است (انتخاب جدول‌ها، گروه‌بندی و نگهداشت سوابق) و در کنار پشتیبان‌گیری و تکرار داده، بازیابی را چابک‌تر می‌کند. به‌عنوان یک انتشار پخته از v4، برای استفاده عملی و محیط‌های تولیدی مناسب است.

#Database
#TimeTravel
#ChangeLogging
#DataAuditing
#PointInTimeRecovery
#DataVersioning
#EMaj
#RDBMS

🟣لینک مقاله:
https://postgresweekly.com/link/173763/web


👑 @Database_Academy
🔵 عنوان مقاله
Understanding and Setting Postgres JDBC Fetch Size

🟢 خلاصه مقاله:
این مقاله اهمیت تنظیم درست Fetch Size در JDBC برای Postgres را توضیح می‌دهد: مقدار پیش‌فرض 0 عملاً کل نتایج را یک‌باره در حافظه می‌ریزد و برای حجم‌های بزرگ خطرناک است. برای استریم واقعی باید auto-commit را خاموش کنید (setAutoCommit(false)) و روی Statement/PreparedStatement مقدار setFetchSize(n) بگذارید یا از defaultRowFetchSize در اتصال استفاده کنید؛ در حالت auto-commit فعال، درایور از cursor سمت سرور استفاده نمی‌کند و Fetch Size نادیده گرفته می‌شود. انتخاب مقدار به اندازه ردیف‌ها، تأخیر شبکه و حافظه بستگی دارد؛ معمولاً 100 تا 1000 شروع خوبی است و برای ردیف‌های بزرگ (JSON/BYTEA) بهتر است مقدار کوچک‌تر باشد. در Spring JdbcTemplate و jOOQ می‌توانید fetchSize را مستقیم تنظیم کنید؛ در JPA/Hibernate برای استریم با PostgreSQL علاوه بر hibernate.jdbc.fetch_size معمولاً نیاز به ResultSet رو به جلو و auto-commit خاموش دارید. حواستان باشد استریم باعث باز ماندن تراکنش می‌شود و می‌تواند VACUUM را به تأخیر بیندازد؛ پس جریان‌ها را کوتاه نگه دارید و برای سناریوهای تعاملی از صفحه‌بندی استفاده کنید. این موضوع اخیراً در Golang Weekly برجسته شده است و برای تیم‌هایی که Java و Go را ترکیب می‌کنند کاربردی است.

#PostgreSQL #JDBC #FetchSize #DatabasePerformance #Java #GolangWeekly #Streaming #PerformanceTuning

🟣لینک مقاله:
https://postgresweekly.com/link/175727/web


👑 @Database_Academy
🔵 عنوان مقاله
F3: The Open-Source Data File Format for the Future (45 minute read)

🟢 خلاصه مقاله:
F3 یک فرمت ستونی متن‌باز و نسل جدید است که با تمرکز بر میان‌عملیاتی، توسعه‌پذیری و کارایی طراحی شده و هنوز در حال تکامل است. نوآوری اصلی آن جاسازی منطق رمزگشایی WebAssembly داخل هر فایل است تا خواننده‌های قدیمی و جدید بتوانند بدون به‌روزرسانی همزمان کتابخانه‌ها، رمزگذاری‌های تازه را تفسیر کنند. F3 با جدا کردن چیدمان واحدهای I/O از گروه‌های ردیف، امکان بهینه‌سازی برای الگوهای دسترسی گوناگون را فراهم می‌کند؛ همچنین با پشتیبانی از محدوده‌های لغت‌نامه‌ای انعطاف‌پذیر و استفاده از flatbuffers برای دسترسی سریع به فراداده، هم فشرده‌سازی و هم سرعت رمزگشایی را بهبود می‌دهد. ارزیابی‌ها نشان می‌دهد F3 از نظر کارایی هم‌تراز Parquet و ORC است و در عین حال تکامل بی‌دردسر فرمت را ممکن می‌سازد؛ کد پیاده‌سازی آن نیز به‌صورت عمومی در دسترس است.

#DataFormats #ColumnarStorage #WebAssembly #OpenSource #Parquet #ORC #FlatBuffers #DataEngineering

🟣لینک مقاله:
https://db.cs.cmu.edu/papers/2025/zeng-sigmod2025.pdf?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
The Modern Data Stack's Final Act: Consolidation Masquerading as Unification (14 minute read)

🟢 خلاصه مقاله:
ادعای «سکوهای یکپارچه» در Modern Data Stack بیشتر پوششی برای «یکپارچه‌سازیِ بازاری» به‌نفع فروشندگان است تا یکپارچگی واقعی. عرضه‌کنندگان با ادغام لایه‌ها و خرید ابزارهای مجاور، بسته‌های بزرگ‌تری می‌فروشند که ظاهراً ساده‌ترند، اما عملاً وابستگی به فروشنده و هزینه‌های جابه‌جایی را بالا می‌برند. بیشتر این یکپارچه‌سازی سطحی است؛ همکاری‌پذیریِ معماریِ واقعی به متادیتای مشترک، حکمرانی و معناشناسیِ همسان و قابل‌انتقال نیاز دارد، چیزی که هنوز کمیاب است. تنها تعداد کمی از پلتفرم‌ها مانند Palantir Foundry و DataOS نمونه‌ای از یکپارچگیِ معماریِ سرتاسری را نشان می‌دهند. خریداران باید عمق «یکپارچگی» را محک بزنند: قابلیت حمل متادیتا، انتشار سیاست‌ها، ثبات مدل‌های معنایی و تکیه بر استانداردها و APIهای باز؛ در غیر این صورت، سادگیِ کوتاه‌مدت با قفل‌شدن بلندمدت تاخت می‌خورد.

#ModernDataStack #DataPlatform #Interoperability #VendorLockIn #DataGovernance #Consolidation #EnterpriseData #DataArchitecture

🟣لینک مقاله:
https://moderndata101.substack.com/p/the-modern-data-stacks-final-act?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
Spark Config Madness (3 minute read)

🟢 خلاصه مقاله:
اجرای Spark روی جدول‌های Iceberg که توسط AWS Glue مدیریت می‌شوند، با استفاده از پکیج‌های رسمی AWS Iceberg Glue، تمام عملیات‌های متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی می‌کند و قابلیت‌هایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی داده‌های مبتنی بر S3 به ارمغان می‌آورد. با چند تنظیم ساده برای Spark—از جمله فعال‌سازی افزونه‌های Iceberg، تعریف Glue به‌عنوان کاتالوگ، و استفاده از Default AWS Credential Chain—می‌توان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سخت‌کد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدول‌های جدید با CTAS، انجام upsertها با MERGE و پاک‌سازی هدفمند داده‌ها ممکن می‌شود و Iceberg مدیریت متادیتا و هم‌زمانی را بر عهده می‌گیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخه‌ها و ظرایف کار با S3 یادآور می‌شود که استفاده از سرویس‌های مدیریت‌شده‌ی Spark یا پایگاه‌داده‌ها می‌تواند هزینه و سربار مهندسی را به‌طور معناداری کاهش دهد.

#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL

🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
date and timestamp versions of random(min, max)

🟢 خلاصه مقاله:
این مقاله به دو به‌روزرسانی کاربردی اشاره می‌کند: افزوده‌شدن نسخه‌های مبتنی‌بر نوع‌های date و timestamp برای تابع random(min, max) و نمایش برآوردهای برنامه‌ریز برای گره Memoize در خروجی EXPLAIN. با پشتیبانی جدید random(min, max)، می‌توان مقادیر تصادفی از نوع تاریخ یا زمان را مستقیماً در یک بازه مشخص تولید کرد؛ کاری مفید برای تولید داده‌ی آزمایشی، شبیه‌سازی بار کاری و ناشناس‌سازی داده‌های زمانی بدون نیاز به تبدیل‌های اضافی. همچنین، EXPLAIN اکنون برآوردهای مربوط به Memoize را نشان می‌دهد تا روشن‌تر شود چرا برنامه‌ریز از این گره استفاده کرده و تأثیر تخمینی کش و هزینه‌ها چیست؛ موضوعی که به عیب‌یابی و بهینه‌سازی پرس‌وجوها کمک می‌کند.

#Databases #SQL #EXPLAIN #Memoize #Random #Date #Timestamp #Performance

🟣لینک مقاله:
https://postgresweekly.com/link/175090/web


👑 @Database_Academy
👍1
🔵 عنوان مقاله
Building and Debugging Postgres

🟢 خلاصه مقاله:
این مطلب نشان می‌دهد چگونه یک محیط container برای کامپایل Postgres از سورس بسازید و آن را با GDB و VS Code دیباگ کنید. مراحل شامل نصب وابستگی‌ها، پیکربندی با --enable-debug و --enable-cassert و CFLAGS مانند -O0 -g3، ساخت با make، راه‌اندازی با initdb و pg_ctl، و اتصال به پردازه‌های backend برای ردگیری اجرای کوئری‌ها است. برای GDB، روی follow-fork-mode child، breakpoints در نقاط کلیدی، و کار با core dump‌ها تأکید می‌شود؛ و برای VS Code، استفاده از Dev Containers/Remote - Containers، تنظیم launch.json و sourceFileMap برای نگاشت مسیرها، و pipeTransport یا docker exec پیشنهاد می‌شود. در انتها، نکاتی مانند استفاده از ccache برای تسریع build، اجرای make check، افزایش logging، و نگه‌داشتن assert‌ها برای یادگیری بهتر مطرح می‌شود.

#Postgres #PostgreSQL #GDB #VSCode #Containers #Debugging #DevContainers #CProgramming

🟣لینک مقاله:
https://postgresweekly.com/link/175386/web


👑 @Database_Academy
🔵 عنوان مقاله
The Era of Open Data Infrastructure (6 minute read)

🟢 خلاصه مقاله:
این مقاله از آغاز «عصر زیرساخت داده باز» می‌گوید؛ جایی که ادغام Fivetran و dbt Labs یک سکوِ یکپارچه و باز برای استانداردسازی جذب، تبدیل و فعال‌سازی داده می‌سازد. هسته این رویکرد Apache Iceberg است؛ قالب جدولِ استاندارد و مستقل از موتور که با تضمین‌های ACID، تکامل طرحواره و قابلیت time travel، امکان جابه‌جایی بی‌دردسر بین موتورهای پردازشی را فراهم می‌کند. این ترکیب با ارائه SLAs، تبارشناسی کامل از منبع تا مصرف، و رصدپذیری و حاکمیت یکپارچه، گلوگاه‌های استفاده از داده در سازمان‌ها را هدف می‌گیرد و اعتماد به مدل‌ها، انطباق‌پذیری و چابکی عملیاتی را به‌طور چشمگیری بهبود می‌دهد. در نتیجه، تیم‌ها بدون قفل‌شدن در یک فروشنده، می‌توانند منطق تجاری را یکدست پیاده کنند، کیفیت و خط‌سیر داده را شفاف ببینند و فعال‌سازی داده را برای تحلیل، هوش مصنوعی و فرایندهای عملیاتی با هزینه و پیچیدگی کمتر گسترش دهند.

#OpenData #DataInfrastructure #ApacheIceberg #Fivetran #dbtLabs #DataGovernance #Interoperability #DataActivation

🟣لینک مقاله:
https://www.getdbt.com/blog/dbt-labs-and-fivetran-product-vision?utm_source=tldrdata


👑 @Database_Academy
هر دیتابیس، فقط یه مجموعه داده نیست

امروز یه مقاله از GeeksforGeeks خوندم درباره‌ی پایه‌های DBMS.

مطلبش ساده بود، ولی باعث شد یه چیز جالب یادم بیاد:
چقدر از چیزهایی که تو دنیای نرم‌افزار می‌سازیم، در واقع تلاش برای نظم دادن به داده‌هامونه.
و DBMS دقیقاً همین کار رو می‌کنه — ساختن یه سیستم که بتونه داده رو نگه داره، بفهمه، و سریع در دسترس قرار بده.
ولی چیزی که جذاب‌تره اینه که DBMS فقط یه ابزار نیست، یه طرز فکره.
وقتی یاد می‌گیری داده‌ها رو چطور ساختار بدی، داری یاد می‌گیری چطور فکر سیستمی داشته باشی.

از همون‌جا میشه فهمید چرا معماری RDBMS پایه‌ی خیلی از سیستم‌های مدرن شده.
چون پشتش یه ایده ساده‌ست:

رابطه‌ها مهم‌تر از داده‌ها هستن.

<Sirus Valioghli/>
Forwarded from VIP
🚀 به دنیای توسعه و تکنولوژی خوش اومدی!

اگر به موضوعات زیر علاقه‌مندی:

🔹 Golang
🔹 Linux & DevOps
🔹 Software Engineering
🔹 AI & Machine Learning
🔹 فرصت‌های شغلی ریموت (خارجی و داخلی)

ما برات یه مجموعه کانال‌های تخصصی ساختیم تا همیشه به‌روز، حرفه‌ای و الهام‌بخش بمونی!
📚 یادگیری، فرصت، شبکه‌سازی و پیشرفت، همش اینجاست...

📌 از این لینک همه چنل‌هامونو یه‌جا ببین و جوین شو:

👉 https://news.1rj.ru/str/addlist/AJ7rh2IzIh02NTI0
🔵 عنوان مقاله
an interview with CEO and founder Hans-Jürgen Schönig

🟢 خلاصه مقاله:
برایند این گفتگو با Hans-Jürgen Schönig، مدیرعامل و بنیان‌گذار، روایت شکل‌گیری شرکت و مسیر رشد آن است: از انگیزه آغازین و مساله‌ای که قصد حلش را داشتند، تا چگونگی ساخت نسخه اولیه و مدل عملیاتی. او درباره چالش‌های شروع کار—یافتن مشتریان اولیه، اعتبارسنجی محصول، اولویت‌گذاری منابع محدود و تصمیم‌های دشوار درباره سرعت رشد—و نقشی که بازخورد مشتری در جهت‌دهی به محصول داشت، صحبت می‌کند. سپس به مقیاس‌پذیری تیم، فرهنگ مسئولیت‌پذیری و کیفیت، بهبود فرآیندها، و تکامل مسیر ورود به بازار و همکاری‌ها می‌پردازد. در ادامه، بر درس‌های کلیدی، نقاط عطف، شیوه رهبری و توازن میان نوآوری و پایداری تاکید می‌کند و در بخش پایانی، دیدگاه آینده و توصیه‌هایی عملی برای بنیان‌گذاران—شروع کوچک، یادگیری سریع و رشد پایدار—را مطرح می‌سازد.

#Startup #FounderStory #Leadership #CompanyGrowth #Entrepreneurship #BusinessStrategy #Interview

🟣لینک مقاله:
https://postgresweekly.com/link/175393/web


👑 @Database_Academy
🔵 عنوان مقاله
AWS Glue Iceberg Rest Catalog (5 minute read)

🟢 خلاصه مقاله:
AWS Glue 5.0 با تکیه بر Apache Iceberg و Iceberg REST catalog قابل شبیه‌سازی در محیط محلی است تا بتوان منطق ETL، طراحی جدول و رفتار کوئری را بدون هزینه EMR آزمایش کرد. با راه‌اندازی یک سرویس محلی Iceberg REST catalog و تنظیم Spark برای استفاده از آن، ساخت و تغییر طرح، پارتیشن‌بندی، snapshots و time travel به‌صورت محلی قابل ارزیابی می‌شود. مراحل کلیدی شامل نصب Spark با وابستگی‌های Iceberg، اجرای سرویس REST catalog، تنظیم URI و مسیر warehouse محلی و سپس اجرای سناریوهای ETL و پرس‌وجوهاست. این روش چرخه توسعه را سریع می‌کند و امکان تست‌های تکرارپذیر را فراهم می‌سازد، هرچند تفاوت‌هایی مثل نبود IAM و تفاوت کارایی با فضای ابری وجود دارد؛ بنابراین پیش از استقرار نهایی، اعتبارسنجی در staging روی AWS Glue یا EMR توصیه می‌شود.

#AWSGlue #ApacheIceberg #Spark #ETL #RESTCatalog #EMR #DataEngineering #Lakehouse

🟣لینک مقاله:
https://performancede.substack.com/p/aws-glue-iceberg-rest-catalog?utm_source=tldrdata


👑 @Database_Academy
1
🔵 عنوان مقاله
Practical Guide to Semantic Layers: From Definition to Demo (10 minute read)

🟢 خلاصه مقاله:
این راهنمای ۱۰ دقیقه‌ای نشان می‌دهد «لایهٔ معنایی» چگونه با تعریف متمرکزِ متریک‌ها و ابعاد در YAML، محاسبات KPI را در همه ابزارها یکسان می‌کند. در یک دمو عملی، با استفاده از Boring Semantic Layer و موتور DuckDB/Ibis، همان متریک‌ها از طریق Python و Streamlit بدون دوباره‌نویسی منطق، نتایج یکسان تولید می‌کنند. نگهداری تعریف‌ها در YAML (همراه با نسخه‌بندی و تست) به حکمرانی بهتر، قابلیت بازتولید و جابه‌جایی ساده بین موتورهای اجرایی کمک می‌کند. در سطح اکوسیستم، ابزارهایی مانند dbt SL، Malloy و استاندارد OSI از Snowflake هم‌کنش‌پذیری را پیش می‌برند و به سمت یک قرارداد مشترک برای متریک‌ها حرکت می‌کنند.

#SemanticLayer #DataEngineering #AnalyticsEngineering #DuckDB #Ibis #dbt #Malloy #Snowflake

🟣لینک مقاله:
https://rasmusengelbrecht.substack.com/p/practical-guide-to-semantic-layers?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
We Built an Open Source S3 Tables Alternative (8 minute read)

🟢 خلاصه مقاله:
RisingWave و Lakekeeper یک جایگزین متن‌باز برای S3 Tables ارائه کرده‌اند که با یک دستور، یک پشته کامل و «مدیریت‌شده» از Apache Iceberg را راه‌اندازی می‌کند. این راهکار با ترکیب یک REST catalog، ورود داده مبتنی بر SQL و یک موتور compaction سبک مبتنی بر DataFusion، عملیات را ساده می‌کند و بدون vendor lock-in، با DuckDB، Trino و Spark سازگار است و نیازی به نگه‌داری Spark برای مدیریت جدول‌ها ندارد. پشتیبانی از time travel، طراحی آگاه از پارتیشن و compaction خودکار، تجربه‌ای شبیه پایگاه‌داده از Iceberg می‌سازد، در حالی‌که ماهیت باز و ماژولارِ فرمت جدول حفظ می‌شود.

#ApacheIceberg #S3Tables #OpenSource #Lakehouse #RisingWave #Lakekeeper #DuckDB #Trino #Spark

🟣لینک مقاله:
https://medium.com/@yingjunwu/we-built-an-open-source-s3-tables-alternative-2b3c95ef4b3a?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
The Model Selection Showdown: 6 Considerations for Choosing the Best Model (5 minute read)

🟢 خلاصه مقاله:
انتخاب مدل مناسب در یادگیری ماشین با دنبال‌کردن شش گام عملی نتیجه می‌دهد: هدف را دقیق تعریف کنید و معیار موفقیت را با نیازهای ذینفعان هم‌راستا کنید؛ یک baseline ساده بسازید تا آستانه عملکرد و خطاهای داده روشن شوند؛ معیارهای سنجش را متناسب با مسئله و عدم‌توازن داده‌ها انتخاب کنید؛ با cross-validation درست (از جمله زمان‌محور برای سری‌های زمانی) برآورد تعمیم‌پذیری را مطمئن کنید و از نشت اطلاعات جلوگیری کنید؛ بین پیچیدگی و قابلیت تفسیر تعادل برقرار کنید و هزینه استقرار/نگه‌داری را بسنجید؛ و در نهایت، با داده‌های واقعی از طریق تست برون‌زمانی، A/B یا استقرار سایه اعتبارسنجی کنید و پایش مستمرِ رانش و کالیبراسیون داشته باشید. بهترین مدل لزوماً جدیدترین الگوریتم نیست، بلکه مدلی است که با مسئله، داده و نیاز کسب‌وکار بیشترین انطباق را دارد.

#ModelSelection #MachineLearning #DataScience #Metrics #CrossValidation #Interpretability #MLOps

🟣لینک مقاله:
https://machinelearningmastery.com/the-model-selection-showdown-6-considerations-for-choosing-the-best-model/?utm_source=tldrdata


👑 @Database_Academy
👍1