مهندسی و علم داده – Telegram
مهندسی و علم داده
4.01K subscribers
385 photos
174 videos
169 files
112 links
در مورد ادمین کانال :
- محمد عالیشاهی
- دکترای هوش مصنوعی دانشگاه تهران
-نائب رئیس هیات مدیره شرکت فناوران هوش مصنوعی
- مدیر ارشد پروژه های هوش مصنوعی و علم داده
-دبیر شورای حکمرانی داده انجمن هوش مصنوعی ایران
Download Telegram
راهی ساده و سرگرم‌کننده برای یادآوری اجزای کلیدی یک استک داده مدرن:

1- انبار داده (Data Warehouse)
مانند یک اتاق ذخیره‌سازی منظم.
داده‌های تمیز و ساختار یافته را ذخیره می‌کند
مناسب برای گزارش‌ها، داشبوردها و تحلیل‌های کسب‌وکار
💡 مثال: Azure Synapse Analytics
2- دریاچه داده (Data Lake)
مانند یک دریاچه بزرگ که همه چیز در آن ریخته می‌شود.
داده‌های خام، نیمه‌ساختاریافته و غیرساختاریافته را نگه می‌دارد
عالی برای علم داده و اکتشاف یادگیری ماشین
💡 مثال: Azure Data Lake Storage
3- کارخانه داده (Data Factory)
مانند یک کارخانه که مواد خام را جابجا و پردازش می‌کند.
داده‌ها را جابجا، تمیز و تبدیل می‌کند
مدیریت جریان‌های ETL/ELT
💡 مثال Azure Data Factory:
4- دیتا بریکس( ATABRICKS)
مانند یک کارگاه قدرتمند آجر.
از Apache Spark برای پردازش داده‌های کلان استفاده می‌کند
برای یادگیری ماشین و تحلیل‌های پیشرفته طراحی شده است
💡 مثال: Azure Databricks
@BIMining
5🙏4👍1
در نسخه 25.0.4 DBeaver ، پشتیبانی از پایگاه داده ClickHouse با دو تغییر مهم بهبود یافته است:
1. به‌روزرسانی درایور ClickHouse به نسخه 0.8.5
ابزار DBeaver برای اتصال به ClickHouse از درایور JDBC استفاده می‌کند. در نسخه25.0.4 این درایور به نسخه 0.8.5 ارتقا یافته است.
مزایای این به‌روزرسانی:
•افزایش سازگاری با نسخه‌های جدیدتر ClickHouse.
•رفع باگ‌ها و بهبود عملکرد ارتباط با سرور.
•پشتیبانی بهتر از ویژگی‌ها و قابلیت‌های جدید ClickHouse.
•امنیت و پایداری بیشتر در ارتباطات پایگاه داده.
درایور جدید را می‌توانید از طریق تنظیمات اتصال (Connection Settings) در DBeaver انتخاب یا به‌روزرسانی کنید. همچنین امکان ویرایش تنظیمات پیشرفته درایور (مانند پارامترهای JDBC) وجود دارد.
2. رفع مشکل نمایش نوع داده‌ها (Data Type Display)
در نسخه‌های قبلی DBeaver، برخی کاربران با مشکل نمایش نادرست یا ناقص نوع داده‌ها (Data Types) در جدول‌ها و ستون‌های ClickHouse مواجه بودند. این مشکل در نسخه 25.0.4 برطرف شده است.
@BIMining
👍101🙏1
تحلیل‌گر داده (Data Analyst)
شرح وظایف: تحلیل داده‌های موجود برای استخراج اطلاعات و پشتیبانی از تصمیم‌گیری مبتنی بر داده.

دانشمند داده (Data Scientist)
شرح وظایف: توسعه و پیاده‌سازی مدل‌های آماری و الگوریتم‌های یادگیری ماشین برای استخراج بینش و انجام پیش‌بینی‌های مبتنی بر داده.

تحلیل‌گر کسب‌وکار (Business Analyst)
شرح وظایف:تحلیل و مستندسازی فرآیندهای کسب‌وکار برای شناسایی فرصت‌ها، نیازمندی‌ها و ارائه پیشنهادات برای بهبود.

مهندس یادگیری ماشین (ML Engineer)
شرح وظایف: طراحی، توسعه و پیاده‌سازی سیستم‌های یادگیری ماشین برای تضمین مقیاس‌پذیری، عملکرد و قابلیت اطمینان در محیط تولید.
مهارت‌ها: یادگیری ماشین- مهندسی داده (ETL، پایپ‌لاین‌ها)-پایتون / جاوا-SQL-ابزارهای داده حجیم-مهندسی نرم‌افزار

مهندس هوش مصنوعی مولد (GenAI Engineer)
شرح وظایف: توسعه و پیاده‌سازی مدل‌ها و برنامه‌های هوش مصنوعی مولد برای تولید محتوا، خودکارسازی و ارائه تجربه‌های شخصی‌سازی‌شده.
مهارت ها: پایتون (Transformers، PyTorch، TensorFlow)-HuggingFace-LangChain-LangAPIها-مدل‌های LLMs

@BIMining
👍4👌2
در سال ۲۰۳۰ واقعاً چه چیزی اهمیت خواهد داشت؟
این نمودار یک تغییر چشمگیر را نشان می‌دهد:
راهبرد، سازگاری و تسلط بر فناوری به سرعت در حال رشد هستند ، در حالی که مهارت‌های سنتی مانند کنترل کیفیت، آموزش و حتی برنامه‌نویسی در اولویت پایین‌تری قرار می‌گیرند.
چرا؟ چون هوش مصنوعی در حال بازنویسی قواعد بازی است.
کارفرمایان دیگر فقط به دنبال «مهارت» به معنای سنتی آن نیستند آن‌ها به دنبال افرادی هستند که در این موارد برجسته باشند:
→ تفکر تحلیلی
→ تاب‌آوری، انعطاف‌پذیری و چابکی
→ رهبری و تأثیرگذاری اجتماعی
→ انگیزه و خودآگاهی
→ تفکر خلاق
→ تفکر سیستمی
→ کنجکاوی و یادگیری مادام‌العمر
این دقیقاً همان جایی است که چارچوب شایستگی جدید ما با عنوان «پنج‌گانه بزرگ راهبردی» وارد می‌شود. این فقط یک چارچوب یا مجموعه‌ای از مهارت‌های نرم و سخت نیست—بلکه مجموعه‌ای متمرکز از مهارت‌های قدرت‌مند است که برای دنیای پر از عدم قطعیت و تغییر طراحی شده‌اند.

@BIMining
👌32👍2
چگونه RAG کار می‌کند:
تولید تقویت‌شده با بازیابی یا RAG به مدل زبان اجازه می‌دهد تا پاسخ‌ها را بر اساس دانش خارجی ارائه دهد، نه فقط آنچه که روی آن آموزش دیده است:
1️⃣ کاربر یک سؤال می‌پرسد.
ممکن است ورودی فاقد زمینه کافی باشد، مثلاً: «آیا امکان خروجی PDF دارد؟»
2️⃣ مدل زبان بزرگ (LLM) سؤال را بازنویسی می‌کند.
با استفاده از تاریخچه گفتگو، سؤال را به یک پرسش مستقل تبدیل می‌کند:
«ویژگی‌های پلن Pro چیست؟ آیا می‌تواند PDF صادر کند؟»
3️⃣ جستجوی معنایی فعال می‌شود.
پرسش مستقل به صورت برداری تبدیل شده و با بخش‌های موجود در اسناد از طریق شباهت برداری مقایسه می‌شود.

4️⃣ پرامپت (ورودی مدل) ساخته می‌شود.
سیستم مرتبط‌ترین بخش‌ها را جمع‌آوری و آنها را در قالب پرامپتی ساختارمند قرار می‌دهد. این مرحله توسط یک زنجیره پرسش و پاسخ (QA Chain) انجام می‌شود که ترکیب می‌کند:
▪️ پرسش مستقل
▪️ زمینه بازیابی شده
▪️ قالب پاسخ
5️⃣ مدل زبان بزرگ پرامپت کامل را با دانش خارجی استدلال کند، حتی اگر روی آن آموزش ندیده باشد.
6️⃣ پاسخ نهایی تولید می‌شود.
پاسخ بر اساس اسناد بازیابی شده است، نه فقط حافظه داخلی مدل.
👍62
مقایسه پلتفرم های بیگ دیتا CLICKHOUSE ، Apache Druid , Apache Doris بر اساس سایت معتبر DBEngines

ClickHouse :
به وضوح بر کارایی فوق‌العاده بالا و پردازش کوئری‌های OLAP با حداقل زمان ممکن تمرکز دارد. استفاده از C++ و معماری ستونی (Column-oriented) این امکان را فراهم می‌کند.

نقطه قوت: بهترین عملکرد را برای تجمیع‌های پیچیده و کوئری‌های تحلیلی بر روی داده‌های عظیم ارائه می‌دهد. پشتیبانی گسترده از زبان‌های برنامه‌نویسی و انواع API، آن را بسیار انعطاف‌پذیر می‌کند.

نقاط متمایز: تنها پلتفرمی است که در این مقایسه قابلیت‌های In-memory و DBaaS (سرویس ابری مدیریت شده) را ارائه می‌دهد و از replication فیزیکی همزمان و غیرهمزمان با پشتیبانی از ذخیره‌سازهای ابجکت بهره می‌برد.

Apache Druid:
به صورت خاص برای کوئری‌های OLAP زیر ثانیه بر روی داده‌های با ابعاد بالا و کاردینالیتی بالا (High Dimensionality & High Cardinality) طراحی شده است.

نقطه قوت: بسیار مناسب برای داده‌های سری زمانی (Time Series Data) و داشبوردهای لحظه‌ای (Real-time Dashboards) که نیاز به پاسخگویی بسیار سریع دارند. موتور اصلی آن جاوا است.
@BIMining
👍51
🎓 ۱۴ ابزار هوش مصنوعی برتر که هر پژوهشگر باید در سال ۲۰۲۵ بشناسد
🔍 ۱. شناسایی خلأهای تحقیق
https://lnkd.in/dX9eJ9Tk

2📝-کمک در نگارش مقاله و افزودن منابع
https://lnkd.in/dikYmxEF

🎧 ۳ – تبدیل مقاله‌های پژوهشی به فایل صوتی
https://lnkd.in/dJUE375U

📚 ۴– یاری‌رسان در نگارش مقاله و پایان‌نامه
https://lnkd.in/d6mWCJQb

🔄 ۵– بازنویسی متن و بهینه‌سازی مسیر تحقیق
https://lnkd.in/d-PpN6Rh

📊 ۶ – تحلیل داده و تولید نمودارهای حرفه‌ای
https://lnkd.in/dEqebz8v

🚫 ۷– شناسایی سرقت ادبی و محتوای تولیدشده با AI
https://lnkd.in/dPzsVcqD

📖 ۸ – استخراج داده از مقالات برای مرور ادبیات
https://lnkd.in/d_rDXkNU

🧠 ۹– کشف و تحلیل مقالات برای چارچوب نظری
https://lnkd.in/db3vttW9

🔍 ۱۰– ویرایش گرامری و نگارشی مقاله
https://lnkd.in/dwQsyXVV

🧾 ۱۱– خلاصه‌سازی چند مقاله برای یافتن خلأ پژوهشی
https://lnkd.in/dKN3Yyxn

🎓 ۱۲– ارزیابی کیفیت پایان‌نامه
https://lnkd.in/dFrzuY25

🧭 ۱۳ – تجسم ایده‌ها و ایجاد ارتباط بین مفاهیم
https://lnkd.in/d4Q4pxS8

🗣 ۱۴– بازخورد انسانی برای مقاله‌ها
https://www.review-it.ai

@BIMining
👍4🙏1
📢 تحولی بزرگ در دنیای داده‌ها!

قدرت Chat-GPT با قدرت ClickHouse همگام شد!

🌐 بالاخره بعد از ماه‌ها تلاش بی‌وقفه، موفق به تلفیق قدرتمند هوش مصنوعی Chat-GPT با کلاستر ClickHouse شدیم. این دستاورد یک قدم بزرگ در مسیر دموکراتیک‌سازی دسترسی به داده‌هاست و ارائه گزارشات هوشمند را به سطح کاملاً جدیدی می‌برد.

💡 تحول عظیم در ارائه گزارشات هوشمند
دیگر نیازی به دانش فنی عمیق یا نوشتن کوئری‌های پیچیده نیست. با این تلفیق بی‌نظیر، شما می‌توانید تنها با استفاده از زبان طبیعی و یک جمله ساده، دقیق‌ترین و عمیق‌ترین گزارشات را از داده‌های خود استخراج کنید.

گزارشات مبتنی بر زبان طبیعی: کافیست سوال خود را به زبان ساده بپرسید: "بیشترین فروش ماه گذشته مربوط به کدام محصول بود؟" یا "عملکرد فروش در منطقه شمال شرق نسبت به سال قبل چگونه است؟" و سیستم، فوراً پاسخ را به صورت یک گزارش دقیق به شما ارائه می‌دهد.

سرعت بی‌نظیر: ClickHouse به عنوان موتور تحلیل داده، با سرعت فوق‌العاده بالا به پردازش میلیون‌ها و میلیاردها ردیف داده می‌پردازد و اطمینان می‌دهد که پاسخ شما در لحظه آماده است.
بزودی اطلاعات تکمیلی در همین کانال....
@BIMining
👍84👏1
سخنرانی با عنوان افزایش کارایی هوش مصنوعی با معماری توزیع شده کلیک هاوس
در الکامپ تاکز

@BIMining
👍61
📚 6 کتابخانه برتر AutoML برای پروژه‌ها

1️⃣ کتابخونه FLAML

💬 ساخت مایکروسافته و کلی وظیفه مثل دسته‌بندی و رگرسیون رو خودش سریع انجام می‌ده. فقط با چند خط کد!

2️⃣ کتابخونه PyCaret

💬 از صفر تا صد مدل‌سازی رو برات آسون می‌کنه. با این کتابخونه، راحت مدل آموزش می‌دی و خروجی می‌گیری.

3️⃣ کتابخونه MLJAR-Supervised

💬 کافی یه دیتا بهش بدی، خودش بهترین مدل رو با هوشمندی انتخاب و آموزش می‌ده؛ مهندسی ویژگی هم داره.

4️⃣ کتابخونه AutoGluon

💬 ساخت AWS و می‌تونی باهاش دیتای جدولی و سری زمانی رو هندل کنی و مدل‌های پایه رو هم فاین‌تون کنی.

5️⃣ کتابخونه AutoViML

💬 با حداقل ویژگی‌ها بهترین مدل رو پیدا می‌کنه و دیتا رو هم تمیز و آماده می‌کنه.

6️⃣ کتابخونه AutoKeras

💬 بر پایه Keras و برای کار با تصویر و متن خیلی کاربردیه.
@BIMining
👍51
ابزار ClickGraph v0.5.2 ؛ وقتی ClickHouse به یک موتور گراف تحلیلی تبدیل می‌شود:

تحلیل گرافی سال‌ها در قلمرو دیتابیس‌هایی مثل Neo4j بود؛ اما در سازمان‌هایی که همه‌چیز روی ClickHouse متمرکز است، انتقال داده به یک موتور جداگانه هزینه و ریسک بالایی دارد. ClickGraph برای همین متولد شده است: یک لایه تحلیلی گراف، سبک و stateless که روی ClickHouse سوار می‌شود، کوئری‌های Cypher را به SQL بهینه ترجمه می‌کند و آن‌ها را مستقیماً روی همان داده‌های موجود اجرا می‌کند؛ یعنی بدون مهاجرت داده، می‌توان یک دید گرافی قدرتمند از داده‌های ستونی ساخت و از اکوسیستم Neo4j مثل درایورها، cypher-shell، Browser و Bolt 5.8 استفاده کرد، در حالی که اجرا روی ClickHouse می‌ماند.
نسخه 0.5.2 روی همین ایده سوار است و آن را به بلوغ اینترپرایزی نزدیک کرده: پشتیبانی از الگوهای پیچیدهٔ اسکیمای گراف از پلی‌مورفیک تا denormalized و coupled edges، بهینه‌سازی مسیرهای چندمرحله‌ای و حفظ هم‌خوانی با ابزارهای Neo4j در کنار معماری سبک و تست‌شده، با تمرکز بر انعطاف در مدل‌سازی گراف و پرفورمنس قابل‌اتکا روی دیتاست‌های بزرگ.
@BIMining
👍3
نتفلیکس هر روز ۵ پتابایت لاگ (۱۰.۶ میلیون رویداد در ثانیه) را با ClickHouse پردازش می‌کند و نتایج را در کمتر از ۱ ثانیه برمی‌گرداند – مناسب برای ۴۰ هزار سرویس کوچک و ۳۰۰ میلیون کاربر.

📕سه ترفند کلیدی نتفلیکس
۱. ارسال سریع داده‌ها: به جای روش معمولی JDBC، کد مخصوص ساختند که داده‌ها را فشرده (LZ4) و با پروتکل native می‌فرستد. نتیجه: CPU و RAM کمتر، سرعت بیشتر از روش‌های آماده.

۲. گروه‌بندی لاگ‌ها بدون تأخیر: regex جستجوی متنی پیچیده را با lexer کامپایل‌شده (JFlex) جایگزین کردند – ۸–۱۰ برابر سریع‌تر، چون regex در ۱۰ میلیون رویداد در ثانیه قفل می‌کند.

۳. جستجوی سریع در برچسب‌ها: برچسب‌ها مثل ID سرویس را در ۳۱ جدول کوچک با LowCardinality تقسیم کردند به جای یک map بزرگ . زمان جستجو از ۳ ثانیه به ۰.۷ ثانیه رسید.
کاربرد برای بانک‌ها
داده‌های تازه (hot tier) در ClickHouse، داده‌های قدیمی در Iceberg، و API هوشمند. برای ۴۰ میلیون تراکنش روزانه بانکی، همین ترفندها (ارسال سریع + schema بهینه + تقسیم داده) کلید fraud detection و تحلیل realtime است.

@BIMining
👍101
برگزاری پنل هوش مصنوعی با عنوان
سنجش داده تا سناریوسازی ،زیرساخت های فناورانه،داده کاوی و طراحی مدل های پیش بینی با هوش مصنوعی

دوشنبه 24 آذرماه 1404 پاویون هوش مصنوعی مصلی امام خمینی
ساعت 11-12:15

@BIMining
👍1👏1
تحلیل داده ترکیبی متعادل از مبانی اصلی و مهارت‌های پشتیبان است.

🔹اسکریپت SQL ستون فقرات تحلیل (31%)
داده‌های کسب‌وکار عمدتاً در پایگاه‌داده‌ها ذخیره می‌شوند. تسلط بر SQL برای استخراج، پاکسازی و تبدیل داده ضروری است.
🔹 ابزارهای BI (15%)
ابزارهایی مثل Power BI یا Tableau داده‌های خام را به داستان‌های قابل‌فهم برای ذینفعان تبدیل می‌کنند.
🔹ابزار Excel (14%)
از تحلیل سریع تا گزارش‌گیری، Excel هنوز یک ابزار روزمره در سازمان‌هاست. یادگیری فرمول‌ها، پیوت‌ها و پاکسازی داده بسیار مفید است.
🔹زبان برنامه نویسی پایتون (14%)
پایتون از تحلیل‌های پیچیده، خودکارسازی و کار با حجم بزرگ داده پشتیبانی می‌کند.
🔹زبان R (10%)
اغلب در نقش‌های پژوهشی یا آماری استفاده می‌شود و برای مدل‌سازی عمیق مناسب است.
🔹ابزار و فرایند ETL (11% در مجموع)
درک جریان داده ETL و مبانی آماری، صحت و قابلیت اطمینان بینش‌ها را تضمین می‌کند.
🔹 کنترل نسخه، NoSQL، SAS مهارت‌های تکمیلی (%5 در مجموع)
این ابزارها در محیط‌ها و پروژه‌های خاص، به‌ویژه در مقیاس بزرگ، ارزش افزوده دارند.
@BIMining
👍5👏31