مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
📊 Senti-Persian – دیتاست تحلیل احساسات فارسی!

اگه دنبال یه دیتاست حرفه‌ای برای تحلیل احساسات به زبان فارسی هستی، Senti-Persian انتخاب مناسبیه! این دیتاست شامل 67,743 کامنت برچسب‌گذاری‌شده از سایت‌های ایرانی (نماوا، فیلیمو، آپارات) و شبکه‌های اجتماعی (یوتیوب، توییتر، اینستاگرام) هست که با برچسب‌های مثبت، منفی و خنثی دسته‌بندی شده.

ویژگی‌ها:

– داده‌های واقعی + داده‌های مصنوعی تولیدشده با تکنیک GAN

– بهبود دقت تحلیل احساسات از 88.4% به 96%

– مناسب برای توسعه سیستم‌های NLP فارسی

💡 کاربردها:

– تحلیل احساسات کاربران

– بهبود سیستم‌های پیشنهاددهی

– ابزارهای هوشمند در حوزه داده

🔗 لینک پروژه:

https://github.com/engmahsa/Senti-Persian-Dataset

📥 امتحانش کن و نظرت رو برامون بنویس!

#تحلیل_احساسات #دیتاست #NLP_فارسی #هوش_مصنوعی #پردازش_زبان
👍112
📚 RAG – سیستم پرسش و پاسخ برای فایل‌های PDF فارسی!

اگه دنبال یه سیستم هوشمند برای پرسش و پاسخ از فایل‌های PDF فارسی هستی، پروژه RAG دقیقاً همون چیزی هست که نیاز داری! این پروژه، با استفاده از مدل‌های زبان بزرگ و تکنیک Retrieval-Augmented Generation، اطلاعات مربوطه رو از فایل‌های PDF استخراج می‌کنه و پاسخ‌های دقیق و مرتبط ارائه می‌ده.

ویژگی‌ها:

پشتیبانی از فایل‌های PDF فارسی
– استفاده از مدل قدرتمند orca-tau-4k-persian-alpaca-f32 برای جستجوی معنایی و تولید پاسخ
– استخراج اطلاعات مرتبط و دقیق با کمک کلاس PDFProcessor

💡 کاربردها:
– پرسش و پاسخ از اسناد فارسی
– جستجوی سریع و دقیق در فایل‌های PDF
– ابزارهای آموزشی و پژوهشی

🔗 لینک پروژه:
github.com/zaha2020/RAG

📥 امتحانش کن و نظرت رو با ما به اشتراک بذار! 😊

#پرسش_پاسخ #PDF_فارسی #هوش_مصنوعی #پردازش_زبان #NLP_فارسی
6👍2
🎙 وبینار مسیر شغلی تحلیلگر داده - با بورسیه ۱۰۰٪ بدون قرعه‌کشی!

🌟 دنیای داده پر از فرصت‌های طلاییه، ولی پیدا کردن مسیر درست وسط این شلوغی کار آسونی نیست. اگه نمی‌دونی از کجا شروع کنی یا شرکت‌ها واقعاً دنبال چی هستن، این وبینار می‌تونه نقشه راه شفاف و واقعی تو باشه.

تو این وبینار یاد می‌گیری:
– رازهای پیدا کردن نیاز واقعی شرکت‌ها و رمزگشایی آگهی‌های شغلی
– ابزارهای پولساز و مسیر خودآموزی هدفمندشون
– تشخیص منابع آموزشی خوب از محتوای زرد
– تکنیک‌های یادگیری سریع برای تبدیل شدن به یک تحلیلگر داده حرفه‌ای

🎓 حالا نوبت بورسیه ۱۰۰٪ دیتاهابه!
ما به آدم‌های اهل عمل و یادگیری باور داریم. این بورسیه بدون قرعه‌کشی و کاملاً رایگانه! فقط کافیه شرایط ساده‌اش رو ببینی و اقدام کنی.

زمان: سه‌شنبه ۳۱ تیر، ساعت ۲۰:۰۰ تا ۲۱:۳۰
💰 هزینه: ۲۳۸ هزار تومان (با بورسیه، رایگان!)
🔗 لینک ثبت‌نام و جزئیات بورسیه:
https://zaya.io/gxxr0

📥 همین حالا کلیک کن و داستان بورسیه ۱۰۰٪ رو ببین!

📊 پرشین دیتا، مرجع دیتاست‌های فارسی!
@persian_data

#تحلیل_داده #بورسیه_رایگان #یادگیری_ماشین #مسیر_شغلی
3
🗣 هوش مصنوعی پرسش و پاسخ صوتی فارسی!

پروژه Persian Question Answering Voice2Voice AI یه سیستم هوشمند حرفه‌ایه که به صورت صوتی با کاربر تعامل داره! یعنی شما سوالتون رو میپرسید و هوش مصنوعی به زبان فارسی جواب میده - هم به صورت صوتی و هم متنی.

قابلیت‌های کلیدی:


مکالمه صوتی دوطرفه کاملاً به زبان فارسی

نسخه بومی شده و قابل اجرا بدون اینترنت

مدل آموزشی اختصاصی برای پردازش زبان طبیعی

جمع‌آوری داده‌ها با خزنده‌های اختصاصی


🔗 لینک پروژه:

https://github.com/M-Taghizadeh/Persian_Question_Answering_Voice2Voice_AI

امتحانش کن و نظراتت رو با ما به اشتراک بذار 👇

#هوش_مصنوعی_فارسی #پردازش_صوت #NLP #پرسش_و_پاسخ #پروژه_پایتون
5👍3
🎙 دیتاست گفتار غیررسمی فارسی برای ASR و TTS

اگه دنبال یه دیتاست کاربردی برای پروژه‌های تشخیص گفتار خودکار (ASR) یا تبدیل متن به گفتار (TTS) هستی، VirgoolInformal-Speech-Dataset دقیقاً همون چیزیه که لازم داری! این دیتاست شامل فایل‌های صوتی و متنی غیررسمی فارسیه که به‌طور کامل پردازش شده و آماده استفاده است.

چی داره؟

🎧 فایل‌های صوتی و متنی خام جمع‌آوری‌شده از وبلاگ‌های فارسی

🛠 داده‌های پردازش‌شده برای هم‌ترازی صوت و متن

📒 دفترچه Jupyter برای پردازش خودکار داده‌ها

💡 به چه دردی می‌خوره؟

🚀 آموزش مدل‌های هوش مصنوعی فارسی

📊 تحلیل گفتار غیررسمی فارسی

ارزیابی مدل‌های ASR با معیار CER

🔗 لینک پروژه:

https://github.com/MahtaFetrat/VirgoolInformal-Speech-Dataset

📥 امتحانش کن و اگه دیتاست جالبی پیدا کردی، برای ما هم بفرست! 😊

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی

@Data_hub

📊 پرشین دیتا، مرجع دیتاست‌های فارسی!

@persian_data

#تشخیص_گفتار #TTS_فارسی #ASR_فارسی #پردازش_زبان #دیتاست #هوش_مصنوعی
👍6
Media is too big
VIEW IN TELEGRAM
🎥 معرفی وبینار مسیر شغلی تحلیلگر داده - از زبان مدرس!

🌟 می‌خوای مسیر شغلی تحلیلگر داده رو شروع کنی ولی نمی‌دونی از کجا باید شروع کنی؟ یا شاید کلی ابزار و دوره دیدی ولی همچنان سردرگمی؟ این وبینار طراحی شده تا تمام سوالاتت رو جواب بده و نقشه راه شفاف و عملی رو جلوی پات بذاره!

چی قراره یاد بگیری؟
– شناخت نیاز واقعی شرکت‌ها از طریق رمزگشایی آگهی‌های شغلی
– معرفی ابزارهای پولساز و نقشه راه یادگیری‌شون
– تشخیص منابع آموزشی خوب از محتوای زرد
– تکنیک‌های یادگیری سریع برای تبدیل شدن به Fast Learner

🎓 شرایط بورسیه ۱۰۰٪ دیتاهاب:
ما برای آدم‌های عملگرا و اهل یادگیری، این وبینار رو کاملاً رایگان کردیم! شرایط ساده و بدون قرعه‌کشیه، جزئیات کامل بورسیه رو تو لینک زیر ببین:
🔗 لینک ثبت‌نام و اطلاعات بیشتر:
https://zaya.io/gxxr0
📊 پرشین دیتا، مرجع دیتاست‌های فارسی!
@persian_data

#تحلیل_داده #بورسیه_رایگان #یادگیری_ماشین #مسیر_شغلی
1
🎙 دیتاست متن تولیدشده توسط هوش مصنوعی فارسی

اگه دنبال دیتاستی برای شناسایی متن‌های تولیدشده توسط هوش مصنوعی به زبان فارسی هستی، پروژه Persian AI-Generated Text Detection به کارت میاد! این پروژه هدفش استخراج متن‌های فارسی تولیدشده توسط کتابخانه OpenAI GPT و ساخت دیتاستی ارزشمند برای آموزش مدل‌های شناساییه.

چی داره؟
🗂 ایجاد یک دیتاست بزرگ از متن‌های فارسی تولیدشده توسط هوش مصنوعی
🛠 فراهم کردن داده‌های آموزشی برای مدل‌های شناسایی متن‌های AI

🔗 لینک پروژه:
https://github.com/E-Ghafour/Persian_AI_generated_text_detection

📥 امتحانش کن و اگر دیتاست جالبی پیدا کردی، برای ما هم بفرست! 😊

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی
@Data_hub
📊 پرشین دیتا، مرجع دیتاست‌های فارسی!
@persian_data

#تشخیص_متن_AI #هوش_مصنوعی_فارسی #دیتاست #پردازش_زبان #تولید_متن
3👍2
🤖 هوش مصنوعی داره شغل‌ها رو یکی یکی فتح می‌کنه - میدونی کی نوبت شغل تو میرسه؟

رفقا سلام!

یه الگوی جالب توی تاریخ فناوری وجود داره که نشون می‌ده هوش مصنوعی چطور یه حوزه رو کامل تسخیر می‌کنه. شطرنج بهترین مثالشه:

🏁 مرحله اول: کنترل کامل انسانی (قرن‌ها فقط انسان‌ها بازی می‌کردن)
⚙️ مرحله دوم: موتورهای ساده (Deep Blue و امثالهم با brute force)
🤝 مرحله سوم: فاز سانتور (انسان + ماشین = بهترین ترکیب)
🚀 مرحله چهارم: استقلال کامل AI (AlphaZero که حتی به انسان یاد می‌ده!)

حالا سوال مهم: مهندسی نرم‌افزار کجاست؟
الان دقیقاً توی فاز سانتوریم! GitHub Copilot، ChatGPT و ابزارهای مشابه ما رو به برنامه‌نویس‌هایی تبدیل کردن که بدون اینا نمی‌تونیم با همون کیفیت و سرعت کار کنیم.

⚠️ اما مرحله بعد چی؟
آیا هوش مصنوعی روزی می‌تونه کامل مستقل کد بنویسه، باگ رفع کنه، و حتی خودش رو بهبود بده؟

💡 راه حل؟ تحلیل داده!
توی این دنیای در حال تغییر، یکی از امن‌ترین و پولسازترین مسیرها، تبدیل شدن به تحلیلگر داده حرفه‌ایه. چون هوش مصنوعی بدون داده هیچیه!

🎯 وبینار "مسیر شغلی تحلیلگر داده"
اگه نمی‌دونی از کجا شروع کنی یا وسط این همه ابزار و دوره گم شدی، این وبینار نقشه راه شفاف و واقعی تو می‌شه.

چی یاد می‌گیری؟
– رمزگشایی آگهی‌های شغلی و شناخت نیاز واقعی شرکت‌ها
– معرفی ابزارهای پولساز و مسیر یادگیری‌شون
– تشخیص منابع خوب از محتوای زرد
– تکنیک‌های یادگیری سریع برای Fast Learner شدن

🎓 بورسیه ۱۰۰٪ دیتاهاب:
فقط کافیه پوستر وبینار رو توی شبکه‌های اجتماعی حرفه‌ای خودت منتشر کنی و @DataHub_ir رو تگ کنی. کد تخفیف ۱۰۰٪ رو دریافت می‌کنی!

زمان: سه‌شنبه ۳۱ تیر، ساعت ۲۰:۰۰
🔗 ثبت‌نام: https://zaya.io/gxxr0

🤔 سوال برای شما: به نظرتون کدوم حوزه بعد از شطرنج، کاملاً به هوش مصنوعی واگذار می‌شه؟ پزشکی؟ حقوق؟ یا خود مهندسی نرم‌افزار؟

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی @Data_hub
📊 پرشین دیتا، مرجع دیتاست‌های فارسی! @persian_data

#تحلیل_داده #هوش_مصنوعی #مسیر_شغلی #بورسیه
4👍4
🎯 Daanish Solution - راهکاری جامع برای داده‌کاوی و یادگیری ماشین

اگه دنبال یه فریم‌ورک قدرتمند و انعطاف‌پذیر برای ساده‌سازی پروژه‌های داده‌کاوی هستی، Daanish Solution بهترین گزینه است! این پروژه ابزارهایی برای تحلیل آماری، طبقه‌بندی، پیش‌بینی سری‌های زمانی و خوشه‌بندی ارائه می‌ده.

ویژگی‌ها:

📊 تحلیل اکتشافی داده (EDA) با Sweetviz برای تولید گزارش‌های خودکار.

🤖 طبقه‌بندی با مدل‌هایی مثل Logistic Regression، XGBoost و LightGBM.

📈 پیش‌بینی سری‌های زمانی با ARIMA و LSTM.

⚙️ خوشه‌بندی داده‌ها با روش‌های K-Means و DBSCAN.

🛠 پیش‌پردازش داده‌ها شامل حذف پرت، مدیریت داده‌های گمشده و مهندسی ویژگی.

🔗 لینک پروژه:

https://github.com/soleimanihamed/Daanish

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی

@Data_hub

📊 پرشین دیتا، مرجع دیتاست‌های فارسی!

@persian_data

#تحلیل_داده #یادگیری_ماشین #دیتاست #هوش_مصنوعی
👍4
🎯 FarSSiM - دیتاست شباهت معنایی برای زبان غیررسمی فارسی

اگه دنبال یک دیتاست منحصر‌به‌فرد برای تحلیل شباهت معنایی در زبان غیررسمی فارسی هستی، FarSSiM اولین دیتاست STS فارسیه که شامل 1123 جفت متن کوتاه غیررسمیه. این دیتاست با شناسایی پارافریز‌ها بین توییت‌های فارسی جمع‌آوری شده و شامل امتیازدهی معنایی و ارتباط بین جملات است.

ساختار فایل و ویژگی‌ها:

📂 فایل اکسل با داده‌های:

– متن اول و دوم

– امتیازدهی توسط 4 ارزیاب

– میانگین، انحراف معیار و واریانس امتیازها

📊 آمار دیتاست:

– تعداد کل جفت‌ها: 1123

🔗 لینک پروژه:

https://github.com/mojtabasajjadi/FarSSiM

🎓 انجام پروژه | منتورشیپ | تدریس خصوصی @Data_hub

📊 پرشین دیتا، مرجع دیتاست‌های فارسی! @persian_data

#پردازش_زبان #شباهت_معنایی #دیتاست_فارسی #هوش_مصنوعی
👍61