مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
fastText pre-trained persian word vectors

🗃 نوع: #متن

📮 اندازه: 4.22 GB

📖 توضیحات:
مدل‌های زبانی آموزش دیده شده فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/javadhelali/fasttext-pretrained-persian-word-vectors

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian sentiment analysis dataset

🗃 نوع: #متن

📮 اندازه: 11.14 MB

📖 توضیحات:
این مجموعه داده مربوط به نظرات اینسناگرام همراه با برچسب است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/instatext/persian-sentiment-analysis-dataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
persian-sms-spam-word

🗃 نوع: #متن

📮 اندازه: 16.31 KB

📖 توضیحات:
دیتاستی شامل حدود ۴۰۰ کلمه فارسی مناسب برای تشخیص پیامک‌های اسپم

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amirshnll/persiansmsspamword

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
Persian Artists on Spotfiy

🗃 نوع: #جدولی

📮 اندازه: 3.13 MB

📖 توضیحات:
Metadata and audio features of over ۱۰۰۰۰ songs from ۶۳ Iranian singers


📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/imuhammad/persian-artists-on-spotfiy

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
الفاظ رکیک فارسی

🗃 نوع: #متن

📮 اندازه: 7.2 KB

📖 توضیحات:
برخی از کلمات، کلمات بد به حساب میان و باید فیلتر بشن
از این دیتاست در فیلتر کردن متن‌ها در پروژه‌های خود استفاده کنید و متون پاک و سالمی را داشته باشید. این مجموعه داده شامل ۲۹۱ کلمه است که به راحتی در قسمت پیش پردازش قابل استفاده است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amirshnll/persian-swear-words

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian-OCR-Dataset

🗃 نوع: #تصویر

📮 اندازه: 76.87 MB

📖 توضیحات:
این ورژن شامل 120000 تصویر سیاه و سفید با ابعاد 50 در 100 از حروف الفبای فارسی است و برای مواردی مثل تشخیص پلاک کاربرد دارد.
📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amir137825/persianocrdataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian top song features

🗃 نوع: #متن

📮 اندازه: 1.29 MB

📖 توضیحات:
دیتاستی شامل اطلاعات ۶۲۴ اهنگ فارسی همراه مشخصات مختلف هر اهنگ

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/saeedtqp/radiojavan-popular-music-features

لطفا به اشتراک بگذارید👈🏻
@persian_data
چت های یک گروه تلگرامی

🗃 نوع: #متن

📮 اندازه: 2 MB

📖 توضیحات:
این دیتاست مربوط به یک گروه تلگرام است و حاوی جملات محاوره ای فارسی می باشد.این دیتا شامل سه ستون متن پیام ها، زمان و تاریخ پیام ها و52563 رکورددر قالب یک فایل اکسل است.ازاین دیتاست برای انجام پروژه های پردازش زبان طبیعی می توان استفاده کرد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mohamad1dehqani/persian-telegram-group

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian Classical Music Instrument Recognition (PCMIR) Persian Music Database

🗃 نوع: #صوت

📮 اندازه: 189.94 MB

📖 توضیحات:
یک دیتاست باحال از انواع سازهای سنتی ایرانی که ضبط شدند

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/hosseinmousavi/pcmir-database

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian Text-Based Traffic Signs

🗃 نوع: #تصویر

📮 اندازه: 278.58 MB

📖 توضیحات:
Since there is no public text based traffic panels dataset, we collected a new dataset included the Persian text based traffic panels in the streets of Tehran-Iran for the first time. Our dataset contains two sets of figures. The first set has ۹۲۹۴ pictures and the second set has ۳۳۰۵ pictures.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/sabakheirinejad/persian-textbased-traffic-signs

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian text-to-speech audio

🗃 نوع: #متن #صوت

📮 اندازه: 3.89 GB

📖 توضیحات:
دیتاستی مناسب برای تسک‌های text-to-speech فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/moradi/persian-texttospeech-audio

لطفا به اشتراک بگذارید👈🏻
@persian_data
برای معرفی و درج دیتاست خود داخل کانال به @mohammad_dehghani پیام دهید.
A dataset of claims and facts in Persian investigated by Factnameh.org

🗃 نوع: #متن

📮 اندازه: 4.16 MB

📖 توضیحات:

این دیتاست شامل ۴۰۲ سطر و ۱۲ ستون است که در مورد نقل قول و ادعاهای افراد مختلف و درست یا غلط بودن آن است. این مجموعه داده مناسب برای تسک‌های دسته بندی است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/imuhammad/factnameh

لطفا به اشتراک بگذارید👈🏻
@persian_data
مجموعه ایمیل های فارسی برچسب دار

🗃 نوع: #متن

📮 اندازه: 2.95 MB

📖 توضیحات:
این دیتاست شامل هزار ایمیل دارای برچسب اسپم و غیراسپم است. این مجموعه داده مناسب تسک‌های دسته بندی و خصوصا طراحی سیستم تشخیص اسپم هست.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mohamad1dehqani/persian-spam-email

لطفا به اشتراک بگذارید👈🏻
@persian_data
دیتاست نام اشخاص به زبان فارسی

🗃 نوع: #متن

📮 اندازه: 745 KB

📖 توضیحات:
این دیتاست شامل حدود ۶۰۰۰ هزار اسم فارسی در قالب یک فایل sql است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/rezaali/dataset-for-names-of-people-in-persian-language

لطفا به اشتراک بگذارید👈🏻
@persian_data
دیتاست ویکی پدیا فارسی شامل تمامی مقالات فارسی

🗃 نوع: #متن

📮 اندازه: 804.48 MB

📖 توضیحات:
دیتاست ویکی پدیا فارسی شامل تمامی مقالات فارسی تا تاریخ ۱۲ مرداد ۱۳۹۹



📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/miladfa7/persian-wikipedia-dataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
Dataset for teenagers chat in Telegram groups

🗃 نوع: #متن

📮 اندازه: 23.73 MB

📖 توضیحات:
Dataset for teenagers' chat in Telegram groups (Persian)

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/rezaali/dataset-for-teenagers-chat-telegram-group-persian

لطفا به اشتراک بگذارید👈🏻 @persian_data
دیتاست نظرات دیجی کالا

🗃 نوع: #متن

📮 اندازه: 18.75 MB

📖 توضیحات:
این مجموعه داده شامل حدود ۱۰۰۰۰۰ هزار نظر در سایت دیجی کالاست که برچسب دار است. این داده مناسب برای تحلیل احساسات و سیستم‌های توصیه‌گر است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/saeedtqp/persian-digikala-reviwes

لطفا به اشتراک بگذارید👈🏻@persian_data
مجموعه اخبار قدیمی فارسی تمیزشده

🗃 نوع: #متن

📮 اندازه: 5.61 GB

📖 توضیحات:
The HC Corpora was a great resource that contains natural language text from various newspapers, social media posts and blog pages in multiple languages. This is a cleaned version of the raw data from newspaper subset of the HC corpus.


📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/alvations/old-newspapers

لطفا به اشتراک بگذارید👈🏻 @persian_data
Persian Speech Emotion Detection Database

🗃 نوع: #صوت

📮 اندازه: 1014.24 MB

📖 توضیحات:
The database includes ۳۰۰۰ semi-natural utterances, equivalent to ۳ h and ۲۵ min of speech data extracted from online radio plays.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mansourehk/shemo-persian-speech-emotion-detection-database

لطفا به اشتراک بگذارید👈🏻 @persian_data
تصاویر ماشین‌های داخل سایت دیوار

🗃 نوع: #تصویر

📖 توضیحات:
یکی از برنامه نویسای باحال لطف کرده و دیتاستی از ماشین‌های ایرانی از سایت دیوار کرال کرده که براساس اسم ماشین پوشه‌بندی شدند.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/farshadnp/IranianVehiclesPicture

لطفا به اشتراک بگذارید👈🏻@persian_data