مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
متن خام فارسی

🗃 نوع: #متن

📖 توضیحات:
Persian raw text - حدود ۸۰ گیگابایت متن خام فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/persiannlp/persian-raw-text

لطفا به اشتراک بگذارید👈🏻 @persian_data
اسامی فارسی

🗃 نوع: #متن

📖 توضیحات:
اسامی اماکن و اشیا

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/mrahimygk/persian-data

لطفا به اشتراک بگذارید👈🏻 @persian_data
مجموعه اشعار مختلف فارسی

🗃 نوع: #متن

📖 توضیحات:
شامل متن اشعار، ایست واژه ها و کد کرالر. این داده ها برای ایجاد مدل زبانی و nlg توصیه می شود.


📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/amnghd/Persian_Literature_DataBase

لطفا به اشتراک بگذارید👈🏻 @persian_data
Some datasets for ML and Datascience

🗃 نوع: #متن

📖 توضیحات:
یک ریپ از مجموعه دیتاست‌های فارسی که یکم بهم ریختس ولی میشه بین فایلها، دیتا خوب پیدا کرد کی دو تا تحلیل فارسی هم هست که دید خوبی به خواننده میده

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/skorani/persian-dataset

لطفا به اشتراک بگذارید👈🏻 @persian_data
یک دیتاست جالب برای استخراج کلمات کلیدی

🗃 نوع: #متن

📖 توضیحات:
This repository contains two proposed annotated datasets for automatic keyphrase extraction task. Every dataset contains a document (. txt) and its corresponding text body and text gold-standard keywords list

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/HamidHabibzadeh/KeyphraseExtractionDataset/blob/master/PersianNewsDataset.txt

لطفا به اشتراک بگذارید👈🏻 @persian_data
یک ابزار رایگان کاربردی

🗃 نوع: #سورس_کد

📖 توضیحات:
بارها شده دلمون بخواد فایل pdf فارسی تبدیل کنیم ولی امکانش نبوده . این ابزار رایگان یک کدی هست که به پایتون نوشته شده و هدفش تبدیل pdf هست(حتی pdfهایی که از نوع تصویر هستند)

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/mmahdibarghi/pdf2txt

لطفا به اشتراک بگذارید👈🏻 @persian_data
این اوج بی اخلاقیه(یک نوع دزدی)!
پست کانال خط به خط کپی کنند
و اسم ناشر حذف کنند.

پ.ن: چون قبلا هم این کار انجام داده بودند مجبور شدم الان تذکر بدم.
👍1
اگر هدفتون یادگیری پایتون هست و دنبال یک سری تمرین ساده تا پیچیده هستین توصیه می کنم این ریپ از دست ندین
توضیحات دوستمون در مورد ریپ خوبش:
این مخزن شامل تمرین های من در هنگام یادگیری زبان پایتون می شود . همچنین ترجمه فارسی مسائل سایت پروجکت اویلر هم قرار داده شده است.
https://github.com/siniorone/Project-Euler

@persian_data
من اين ديتاست رو با جمع اوري اطلاعت سايت شيپور ساختم. با كمك selenium و beautifulsoap . داده ها كاملا واقعي هستن ويژگي هاي مثل متراژ، ادرس به انگليسي، تعداد اتاق خواب، اسانسور، انباري، پاركينگ ودر نهايت قيمت به تومان و دلار رو شامل ميشه. اميدوارم براتون مفيد باشه. ميتونه تمرين خيلي خوبي براي regression باشه و حس خوبي بهتون بده چون داده ها اشنا به نظر ميان ( همگي مربوط به شهر تهران هستن)
https://www.kaggle.com/mokar2001/house-price-tehran-iran
لطفا به اشتراک بگذارید👈🏻 @persian_data
دیتاست PersainTelegramData شامل داده های حدودا 500 کانال تلگرامی هست که در یک بازه زمانی دو هفته ایی جمع آوری شده است و مناسب تسک هایی مثل تحلیل داده های یک کانال خاص و یا پیش بینی هشتگ ها و کلمات کلیدی یک متن و یا پیش بینی زمان بعدی ارسال پست توسط یک کانال (مسئله سری زمانی) می باشد

@persian_data

https://github.com/rominaoji/PersianTelegramData
اين ديتاست بومی و جالب در زمینه ریسک سکته قلبی هست و برای انجام کارهای بین رشته ای هوش مصنوعی و پزشکی مناسب هست.

https://www.kaggle.com/mokar2001/ascvd-heart-risk

لطفا به اشتراک بگذارید👈🏻 @persian_data
یک پروژه جالب از تشیخص جنسیت بر اساس متن هستش. این مدل کارها خلاقانه و ترکیبی هستند و خیلی مناسب برای کارهای پژوهشی هست. در ضمن کد و دیتاست این کار
موجود است

https://github.com/mirzanahal/Persian-Gender-Recognition


لطفا به اشتراک بگذارید👈🏻 @persian_data
👍1
یک کد و دیتاست فارسی باحال در زمینه تشخیص شایعه
از هر نظر کامل بود و هم روش های مختلف تست شدند و هم دیتاست موجوده و هم شیوه نامه تگ زنی معرفی شده.
https://github.com/Zarharan/PersianStanceDetection

لطفا به اشتراک بگذارید👈🏻 @persian_data
یک پروژه تکست کلسیفیکیشن که پروژه ارشد بوده
دیتاست از توییتر فارسی جمع اوری شده و به صورت خودکار و براساس هشتگ برچسب خورده
هم دیتاست وجود داره و هم کل پیاده سازی‌ها

https://github.com/elirn98/classification-of-persian-tweets-using-neural-networks

لطفا به اشتراک بگذارید👈🏻 @persian_data
یک دیتابیس از حدود 700 هزار کلمه فارسی
یکی از مهم ترین کاربردهاش توی مدل‌های زبانی هست. و البته یک کار خوبی که میشه باهاش کرد حذف کلمات بی معنی که توسط توکنایزر تشخیص داده میشه...
https://github.com/shahind/Persian-Words-Database
لطفا به اشتراک بگذارید👈🏻 @persian_data
سلام دوستان روزتون بخیر.
من روی تسک کلاسیفیکیشن بر روی یک دیتاستی کار می کنم و احساس کردم کار به نقطه ای رسیده که نواقص کار به لطف شما برطرف بشه و اگر جای بهبود داره، بهبودش بدین.
https://github.com/mohsenMahmoodzadeh/Image-Caption-classification-with-tensorflow-Keras
لینک دیتاست در بخش readme ریپازیتوری قرار داده شده.
ممنون میشم اگر احساس کردین محتوای ریپازیتوری براتون مفید بوده، با star دادن ازش حمایت کنید و یا با ایجاد issue یا fork کردن، به تکمیل کار کنید تا بنده هم از تجربه و تخصص تون استفاده کنم.
پیشاپیش خیلی ممنونم.🙏

@persian_data
Sentiment analysis on telegram channels news for predicting bearish or bullish stocks
داستان از این قراره که خیلی وقته برای تشخیص و تحلیل قیمت دلار و طلا و ارز سعی می کنن از nlp استفاده کنند. این یک نمونه دست به نقدش روی زبان فارسیه
دیتاست هم موجود است

https://github.com/mirzanahal/Persian-Stock-Prediction

لطفا به اشتراک بگذارید👈🏻 @persian_data
دیتاست فارسی 30 هزارتایی توییتر برای تحلیل احساسات
برخلاف دیتاست های رایج 6 کلاسه هست و مناسب برای تست مدل های شما

لطفا به اشتراک بگذارید👈🏻 @persian_data

https://github.com/nazaninsbr/Persian-Emotion-Detection
👍1