مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
Channel photo updated
🎯 دیتاست Iranis – دیتاست فارسی برای شناسایی پلاک خودرو! 🚗

رفقا، امروز یه دیتاست فوق‌العاده براتون داریم که شامل بیش از 83,000 تصویر از اعداد و حروف فارسی موجود روی پلاک خودروهاست. این دیتاست برای پروژه‌های تشخیص کاراکتر پلاک خودرو و سیستم‌های بینایی ماشین بسیار کاربردیه!

📊 ویژگی‌ها و مشخصات:
– شامل تصاویر واقعی از پلاک خودروهای فارسی.

– بیش از 83,000 نمونه تصویری از اعداد و حروف فارسی.

– دسته‌بندی شده بر اساس اعداد، حروف و نمادهای خاص (مانند نماد ویلچر برای افراد دارای معلولیت).

💡 کاربردها:
– تشخیص کاراکترهای پلاک خودرو.

– آموزش مدل‌های بینایی ماشین.

– ساخت سیستم‌های هوشمند شناسایی خودرو.

🔗 لینک دانلود دیتاست:

github.com/alitourani/Iranis-dataset

📥 این پست رو برای کسایی که تو حوزه بینایی ماشین کار می‌کنن بفرست تا از این منبع ارزشمند استفاده کنن! 😊

#دیتاست #بینایی_ماشین #پلاک_خودرو #پردازش_تصویر #هوش_مصنوعی #تشخیص_کاراکتر #MachineLearning
👍111
🎯 ابزار مدل‌سازی موضوعات در متن‌های کوتاه فارسی! 📝

اگر با چالش تحلیل و استخراج موضوعات از متن‌های کوتاه فارسی (مثل توییت‌ها یا پیام‌های کوتاه) مواجه هستید، این ابزار می‌تواند نیاز شما را برطرف کند. با استفاده از تکنیک‌های پیشرفته مانند LDA و NMF، می‌توانید موضوعات کلیدی را از داده‌های متنی استخراج کرده و آن‌ها را در پروژه‌های خود به کار ببرید.

📊 ویژگی‌ها و مزایا:

– تمرکز بر متن‌های کوتاه: ابزار بهینه برای داده‌هایی که طول متن در آن‌ها محدود است.

– روش‌های متنوع: پشتیبانی از الگوریتم‌های مختلف مدل‌سازی موضوعات برای مقایسه عملکرد و انتخاب بهترین روش.

– قابلیت اجرا: امکان استفاده آسان در محیط‌هایی مثل Google Colab برای تست سریع و کارآمد.

💡 مناسب برای چه کسانی؟

– تحلیلگران داده و متخصصان NLP که به دنبال استخراج موضوعات از داده‌های فارسی هستند.

– کسانی که روی شبکه‌های اجتماعی، نظرسنجی‌ها یا پیام‌های کوتاه کار می‌کنند.

– پژوهشگران و توسعه‌دهندگانی که نیاز به سازماندهی داده‌های متنی دارند.

🔗 لینک ابزار و نحوه استفاده:

https://github.com/DSInCenter/topicmodel

📥 اگر نیاز به استخراج موضوعات از متن‌های کوتاه دارید، این ابزار را امتحان کنید!

#مدل_سازی_موضوعات #پردازش_زبان #NLP_فارسی #تحلیل_متن #هوش_مصنوعی #متن_کوتاه #MachineLearning
👍41
🎯 تشخیص منظور کاربر از جملات بلند و پیچیده! 🤖

اگر در حال توسعه چت‌بات یا سیستم‌های هوشمند پردازش زبان طبیعی هستید، احتمالاً با چالش تشخیص منظور اصلی کاربر از جملات طولانی و پیچیده روبرو شده‌اید. این پروژه به شما کمک می‌کند تا این چالش را مدیریت کنید و سیستم‌های هوشمندتر و دقیق‌تری طراحی کنید.

📊 ویژگی‌ها و مزایا:

– تمرکز بر تحلیل و استخراج مقصود اصلی از جملات طولانی و همراه با اطلاعات حاشیه‌ای.

– مناسب برای توسعه چت‌بات‌ها و سیستم‌های پاسخ‌گویی هوشمند.

– استفاده از داده‌های دسته‌بندی‌شده با مشخص بودن هدف اصلی کاربر.

💡 کاربردها:

– توسعه چت‌بات‌های پشتیبانی مشتری.

– سیستم‌های پاسخ‌گویی هوشمند برای خدمات تلفن همراه، بانکداری، و سایر سرویس‌ها.

– بهبود تجربه کاربری در اپلیکیشن‌های مبتنی بر مکالمه.

🔗 لینک پروژه و کدها:

https://github.com/MojtabaZarreh/Recognizing-the-user-s-intent-from-long-and-complex-sentences

📥 اگر به دنبال راه‌حلی برای تحلیل دقیق‌تر نیازهای کاربران هستید، این پروژه را بررسی کنید!

#تشخیص_مقصود #پردازش_زبان #NLP_فارسی #چت_بات #هوش_مصنوعی #تحلیل_متن #MachineLearning
3👍2🔥1
🎯 دیتاست Persian Instruct – مجموعه داده‌ای برای تنظیم دستورات به زبان فارسی! 📝

اگر به دنبال یک دیتاست باکیفیت برای انجام تسک‌های مختلف پردازش زبان طبیعی (NLP) به زبان فارسی هستید، دیتاست Semi-Alpaca Instruction Tuning می‌تواند انتخاب بسیار خوبی باشد. این دیتاست برای پروژه‌هایی مثل ترجمه ماشینی، تولید متن، و سایر کاربردها طراحی شده است.

📊 ویژگی‌های دیتاست:

– حاوی مجموعه‌ای از دستورات به زبان فارسی برای تنظیم مدل‌ها.

– مناسب برای تسک‌های متنوع NLP در زبان فارسی.

– گردآوری شده با همکاری دانشجویان دانشگاه تهران.

🔗 لینک دیتاست:

https://github.com/mostafaamiri/Persian_instruct_dataset

💡 اگر در حوزه NLP فارسی فعالیت می‌کنید، این دیتاست را از دست ندهید!

#دیتاست #NLP_فارسی #پردازش_زبان #هوش_مصنوعی #تولید_متن #ترجمه_ماشینی #MachineLearning
👍71🔥1
📊 Senti-Persian – دیتاست تحلیل احساسات فارسی!

اگه دنبال یه دیتاست حرفه‌ای برای تحلیل احساسات به زبان فارسی هستی، Senti-Persian انتخاب مناسبیه! این دیتاست شامل 67,743 کامنت برچسب‌گذاری‌شده از سایت‌های ایرانی (نماوا، فیلیمو، آپارات) و شبکه‌های اجتماعی (یوتیوب، توییتر، اینستاگرام) هست که با برچسب‌های مثبت، منفی و خنثی دسته‌بندی شده.

ویژگی‌ها:

– داده‌های واقعی + داده‌های مصنوعی تولیدشده با تکنیک GAN

– بهبود دقت تحلیل احساسات از 88.4% به 96%

– مناسب برای توسعه سیستم‌های NLP فارسی

💡 کاربردها:

– تحلیل احساسات کاربران

– بهبود سیستم‌های پیشنهاددهی

– ابزارهای هوشمند در حوزه داده

🔗 لینک پروژه:

https://github.com/engmahsa/Senti-Persian-Dataset

📥 امتحانش کن و نظرت رو برامون بنویس!

#تحلیل_احساسات #دیتاست #NLP_فارسی #هوش_مصنوعی #پردازش_زبان
👍112
📚 RAG – سیستم پرسش و پاسخ برای فایل‌های PDF فارسی!

اگه دنبال یه سیستم هوشمند برای پرسش و پاسخ از فایل‌های PDF فارسی هستی، پروژه RAG دقیقاً همون چیزی هست که نیاز داری! این پروژه، با استفاده از مدل‌های زبان بزرگ و تکنیک Retrieval-Augmented Generation، اطلاعات مربوطه رو از فایل‌های PDF استخراج می‌کنه و پاسخ‌های دقیق و مرتبط ارائه می‌ده.

ویژگی‌ها:

پشتیبانی از فایل‌های PDF فارسی
– استفاده از مدل قدرتمند orca-tau-4k-persian-alpaca-f32 برای جستجوی معنایی و تولید پاسخ
– استخراج اطلاعات مرتبط و دقیق با کمک کلاس PDFProcessor

💡 کاربردها:
– پرسش و پاسخ از اسناد فارسی
– جستجوی سریع و دقیق در فایل‌های PDF
– ابزارهای آموزشی و پژوهشی

🔗 لینک پروژه:
github.com/zaha2020/RAG

📥 امتحانش کن و نظرت رو با ما به اشتراک بذار! 😊

#پرسش_پاسخ #PDF_فارسی #هوش_مصنوعی #پردازش_زبان #NLP_فارسی
6👍2
🎙 وبینار مسیر شغلی تحلیلگر داده - با بورسیه ۱۰۰٪ بدون قرعه‌کشی!

🌟 دنیای داده پر از فرصت‌های طلاییه، ولی پیدا کردن مسیر درست وسط این شلوغی کار آسونی نیست. اگه نمی‌دونی از کجا شروع کنی یا شرکت‌ها واقعاً دنبال چی هستن، این وبینار می‌تونه نقشه راه شفاف و واقعی تو باشه.

تو این وبینار یاد می‌گیری:
– رازهای پیدا کردن نیاز واقعی شرکت‌ها و رمزگشایی آگهی‌های شغلی
– ابزارهای پولساز و مسیر خودآموزی هدفمندشون
– تشخیص منابع آموزشی خوب از محتوای زرد
– تکنیک‌های یادگیری سریع برای تبدیل شدن به یک تحلیلگر داده حرفه‌ای

🎓 حالا نوبت بورسیه ۱۰۰٪ دیتاهابه!
ما به آدم‌های اهل عمل و یادگیری باور داریم. این بورسیه بدون قرعه‌کشی و کاملاً رایگانه! فقط کافیه شرایط ساده‌اش رو ببینی و اقدام کنی.

زمان: سه‌شنبه ۳۱ تیر، ساعت ۲۰:۰۰ تا ۲۱:۳۰
💰 هزینه: ۲۳۸ هزار تومان (با بورسیه، رایگان!)
🔗 لینک ثبت‌نام و جزئیات بورسیه:
https://zaya.io/gxxr0

📥 همین حالا کلیک کن و داستان بورسیه ۱۰۰٪ رو ببین!

📊 پرشین دیتا، مرجع دیتاست‌های فارسی!
@persian_data

#تحلیل_داده #بورسیه_رایگان #یادگیری_ماشین #مسیر_شغلی
3
🗣 هوش مصنوعی پرسش و پاسخ صوتی فارسی!

پروژه Persian Question Answering Voice2Voice AI یه سیستم هوشمند حرفه‌ایه که به صورت صوتی با کاربر تعامل داره! یعنی شما سوالتون رو میپرسید و هوش مصنوعی به زبان فارسی جواب میده - هم به صورت صوتی و هم متنی.

قابلیت‌های کلیدی:


مکالمه صوتی دوطرفه کاملاً به زبان فارسی

نسخه بومی شده و قابل اجرا بدون اینترنت

مدل آموزشی اختصاصی برای پردازش زبان طبیعی

جمع‌آوری داده‌ها با خزنده‌های اختصاصی


🔗 لینک پروژه:

https://github.com/M-Taghizadeh/Persian_Question_Answering_Voice2Voice_AI

امتحانش کن و نظراتت رو با ما به اشتراک بذار 👇

#هوش_مصنوعی_فارسی #پردازش_صوت #NLP #پرسش_و_پاسخ #پروژه_پایتون
5👍3
🎙 دیتاست گفتار غیررسمی فارسی برای ASR و TTS

اگه دنبال یه دیتاست کاربردی برای پروژه‌های تشخیص گفتار خودکار (ASR) یا تبدیل متن به گفتار (TTS) هستی، VirgoolInformal-Speech-Dataset دقیقاً همون چیزیه که لازم داری! این دیتاست شامل فایل‌های صوتی و متنی غیررسمی فارسیه که به‌طور کامل پردازش شده و آماده استفاده است.

چی داره؟

🎧 فایل‌های صوتی و متنی خام جمع‌آوری‌شده از وبلاگ‌های فارسی

🛠 داده‌های پردازش‌شده برای هم‌ترازی صوت و متن

📒 دفترچه Jupyter برای پردازش خودکار داده‌ها

💡 به چه دردی می‌خوره؟

🚀 آموزش مدل‌های هوش مصنوعی فارسی

📊 تحلیل گفتار غیررسمی فارسی

ارزیابی مدل‌های ASR با معیار CER

🔗 لینک پروژه:

https://github.com/MahtaFetrat/VirgoolInformal-Speech-Dataset

📥 امتحانش کن و اگه دیتاست جالبی پیدا کردی، برای ما هم بفرست! 😊

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی

@Data_hub

📊 پرشین دیتا، مرجع دیتاست‌های فارسی!

@persian_data

#تشخیص_گفتار #TTS_فارسی #ASR_فارسی #پردازش_زبان #دیتاست #هوش_مصنوعی
👍6
Media is too big
VIEW IN TELEGRAM
🎥 معرفی وبینار مسیر شغلی تحلیلگر داده - از زبان مدرس!

🌟 می‌خوای مسیر شغلی تحلیلگر داده رو شروع کنی ولی نمی‌دونی از کجا باید شروع کنی؟ یا شاید کلی ابزار و دوره دیدی ولی همچنان سردرگمی؟ این وبینار طراحی شده تا تمام سوالاتت رو جواب بده و نقشه راه شفاف و عملی رو جلوی پات بذاره!

چی قراره یاد بگیری؟
– شناخت نیاز واقعی شرکت‌ها از طریق رمزگشایی آگهی‌های شغلی
– معرفی ابزارهای پولساز و نقشه راه یادگیری‌شون
– تشخیص منابع آموزشی خوب از محتوای زرد
– تکنیک‌های یادگیری سریع برای تبدیل شدن به Fast Learner

🎓 شرایط بورسیه ۱۰۰٪ دیتاهاب:
ما برای آدم‌های عملگرا و اهل یادگیری، این وبینار رو کاملاً رایگان کردیم! شرایط ساده و بدون قرعه‌کشیه، جزئیات کامل بورسیه رو تو لینک زیر ببین:
🔗 لینک ثبت‌نام و اطلاعات بیشتر:
https://zaya.io/gxxr0
📊 پرشین دیتا، مرجع دیتاست‌های فارسی!
@persian_data

#تحلیل_داده #بورسیه_رایگان #یادگیری_ماشین #مسیر_شغلی
1
🎙 دیتاست متن تولیدشده توسط هوش مصنوعی فارسی

اگه دنبال دیتاستی برای شناسایی متن‌های تولیدشده توسط هوش مصنوعی به زبان فارسی هستی، پروژه Persian AI-Generated Text Detection به کارت میاد! این پروژه هدفش استخراج متن‌های فارسی تولیدشده توسط کتابخانه OpenAI GPT و ساخت دیتاستی ارزشمند برای آموزش مدل‌های شناساییه.

چی داره؟
🗂 ایجاد یک دیتاست بزرگ از متن‌های فارسی تولیدشده توسط هوش مصنوعی
🛠 فراهم کردن داده‌های آموزشی برای مدل‌های شناسایی متن‌های AI

🔗 لینک پروژه:
https://github.com/E-Ghafour/Persian_AI_generated_text_detection

📥 امتحانش کن و اگر دیتاست جالبی پیدا کردی، برای ما هم بفرست! 😊

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی
@Data_hub
📊 پرشین دیتا، مرجع دیتاست‌های فارسی!
@persian_data

#تشخیص_متن_AI #هوش_مصنوعی_فارسی #دیتاست #پردازش_زبان #تولید_متن
3👍2
🤖 هوش مصنوعی داره شغل‌ها رو یکی یکی فتح می‌کنه - میدونی کی نوبت شغل تو میرسه؟

رفقا سلام!

یه الگوی جالب توی تاریخ فناوری وجود داره که نشون می‌ده هوش مصنوعی چطور یه حوزه رو کامل تسخیر می‌کنه. شطرنج بهترین مثالشه:

🏁 مرحله اول: کنترل کامل انسانی (قرن‌ها فقط انسان‌ها بازی می‌کردن)
⚙️ مرحله دوم: موتورهای ساده (Deep Blue و امثالهم با brute force)
🤝 مرحله سوم: فاز سانتور (انسان + ماشین = بهترین ترکیب)
🚀 مرحله چهارم: استقلال کامل AI (AlphaZero که حتی به انسان یاد می‌ده!)

حالا سوال مهم: مهندسی نرم‌افزار کجاست؟
الان دقیقاً توی فاز سانتوریم! GitHub Copilot، ChatGPT و ابزارهای مشابه ما رو به برنامه‌نویس‌هایی تبدیل کردن که بدون اینا نمی‌تونیم با همون کیفیت و سرعت کار کنیم.

⚠️ اما مرحله بعد چی؟
آیا هوش مصنوعی روزی می‌تونه کامل مستقل کد بنویسه، باگ رفع کنه، و حتی خودش رو بهبود بده؟

💡 راه حل؟ تحلیل داده!
توی این دنیای در حال تغییر، یکی از امن‌ترین و پولسازترین مسیرها، تبدیل شدن به تحلیلگر داده حرفه‌ایه. چون هوش مصنوعی بدون داده هیچیه!

🎯 وبینار "مسیر شغلی تحلیلگر داده"
اگه نمی‌دونی از کجا شروع کنی یا وسط این همه ابزار و دوره گم شدی، این وبینار نقشه راه شفاف و واقعی تو می‌شه.

چی یاد می‌گیری؟
– رمزگشایی آگهی‌های شغلی و شناخت نیاز واقعی شرکت‌ها
– معرفی ابزارهای پولساز و مسیر یادگیری‌شون
– تشخیص منابع خوب از محتوای زرد
– تکنیک‌های یادگیری سریع برای Fast Learner شدن

🎓 بورسیه ۱۰۰٪ دیتاهاب:
فقط کافیه پوستر وبینار رو توی شبکه‌های اجتماعی حرفه‌ای خودت منتشر کنی و @DataHub_ir رو تگ کنی. کد تخفیف ۱۰۰٪ رو دریافت می‌کنی!

زمان: سه‌شنبه ۳۱ تیر، ساعت ۲۰:۰۰
🔗 ثبت‌نام: https://zaya.io/gxxr0

🤔 سوال برای شما: به نظرتون کدوم حوزه بعد از شطرنج، کاملاً به هوش مصنوعی واگذار می‌شه؟ پزشکی؟ حقوق؟ یا خود مهندسی نرم‌افزار؟

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی @Data_hub
📊 پرشین دیتا، مرجع دیتاست‌های فارسی! @persian_data

#تحلیل_داده #هوش_مصنوعی #مسیر_شغلی #بورسیه
4👍4
🎯 Daanish Solution - راهکاری جامع برای داده‌کاوی و یادگیری ماشین

اگه دنبال یه فریم‌ورک قدرتمند و انعطاف‌پذیر برای ساده‌سازی پروژه‌های داده‌کاوی هستی، Daanish Solution بهترین گزینه است! این پروژه ابزارهایی برای تحلیل آماری، طبقه‌بندی، پیش‌بینی سری‌های زمانی و خوشه‌بندی ارائه می‌ده.

ویژگی‌ها:

📊 تحلیل اکتشافی داده (EDA) با Sweetviz برای تولید گزارش‌های خودکار.

🤖 طبقه‌بندی با مدل‌هایی مثل Logistic Regression، XGBoost و LightGBM.

📈 پیش‌بینی سری‌های زمانی با ARIMA و LSTM.

⚙️ خوشه‌بندی داده‌ها با روش‌های K-Means و DBSCAN.

🛠 پیش‌پردازش داده‌ها شامل حذف پرت، مدیریت داده‌های گمشده و مهندسی ویژگی.

🔗 لینک پروژه:

https://github.com/soleimanihamed/Daanish

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی

@Data_hub

📊 پرشین دیتا، مرجع دیتاست‌های فارسی!

@persian_data

#تحلیل_داده #یادگیری_ماشین #دیتاست #هوش_مصنوعی
👍4
🎯 FarSSiM - دیتاست شباهت معنایی برای زبان غیررسمی فارسی

اگه دنبال یک دیتاست منحصر‌به‌فرد برای تحلیل شباهت معنایی در زبان غیررسمی فارسی هستی، FarSSiM اولین دیتاست STS فارسیه که شامل 1123 جفت متن کوتاه غیررسمیه. این دیتاست با شناسایی پارافریز‌ها بین توییت‌های فارسی جمع‌آوری شده و شامل امتیازدهی معنایی و ارتباط بین جملات است.

ساختار فایل و ویژگی‌ها:

📂 فایل اکسل با داده‌های:

– متن اول و دوم

– امتیازدهی توسط 4 ارزیاب

– میانگین، انحراف معیار و واریانس امتیازها

📊 آمار دیتاست:

– تعداد کل جفت‌ها: 1123

🔗 لینک پروژه:

https://github.com/mojtabasajjadi/FarSSiM

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی @Data_hub

📊 پرشین دیتا، مرجع دیتاست‌های فارسی! @persian_data

#پردازش_زبان #شباهت_معنایی #دیتاست_فارسی #هوش_مصنوعی
👍61