مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
دیتاست برای تشخیص زبان متن

🗃 نوع: #متن

📮 اندازه: 12.39 MB

📖 توضیحات: این دیتاست شامل ۲۳۵۰۰۰ پاراگراف از ۲۳۵ زبان است که هر برای هر زبان هزار پاراگراف وجود دارد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/zarajamshaid/language-identification-datasst

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
غلط های املایی

🗃 نوع: #متن

📮 اندازه: 146.42 KB

📖 توضیحات:
این مجموعه داده شامل ۵۰۵۰ جفت کلمه فارسی است که ستون اول یک کلمه غلط املایی و ستون دوم شکل صحیح آن کلمه است. از این مجموعه داده در مباحث نرمالسازی می‌توان استفاده کرد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/rtatman/faspell

لطفا به اشتراک بگذارید👈🏻
@persian_data
نظرات کاربران سایت طاقچه 2019

🗃 نوع: #متن

📮 اندازه: 21.03 MB

📖 توضیحات:
تعداد ۱۱ هزار نظر از سایت طاقچه به همراه امتیاز مربوط به هر نظر که مناسب برای انجام پروژه‌های تحلیل احساسات است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/saeedtqp/taaghche

لطفا به اشتراک بگذارید👈🏻
@persian_data
fastText pre-trained persian word vectors

🗃 نوع: #متن

📮 اندازه: 4.22 GB

📖 توضیحات:
مدل‌های زبانی آموزش دیده شده فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/javadhelali/fasttext-pretrained-persian-word-vectors

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian sentiment analysis dataset

🗃 نوع: #متن

📮 اندازه: 11.14 MB

📖 توضیحات:
این مجموعه داده مربوط به نظرات اینسناگرام همراه با برچسب است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/instatext/persian-sentiment-analysis-dataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
persian-sms-spam-word

🗃 نوع: #متن

📮 اندازه: 16.31 KB

📖 توضیحات:
دیتاستی شامل حدود ۴۰۰ کلمه فارسی مناسب برای تشخیص پیامک‌های اسپم

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amirshnll/persiansmsspamword

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
Persian Artists on Spotfiy

🗃 نوع: #جدولی

📮 اندازه: 3.13 MB

📖 توضیحات:
Metadata and audio features of over ۱۰۰۰۰ songs from ۶۳ Iranian singers


📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/imuhammad/persian-artists-on-spotfiy

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
الفاظ رکیک فارسی

🗃 نوع: #متن

📮 اندازه: 7.2 KB

📖 توضیحات:
برخی از کلمات، کلمات بد به حساب میان و باید فیلتر بشن
از این دیتاست در فیلتر کردن متن‌ها در پروژه‌های خود استفاده کنید و متون پاک و سالمی را داشته باشید. این مجموعه داده شامل ۲۹۱ کلمه است که به راحتی در قسمت پیش پردازش قابل استفاده است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amirshnll/persian-swear-words

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian-OCR-Dataset

🗃 نوع: #تصویر

📮 اندازه: 76.87 MB

📖 توضیحات:
این ورژن شامل 120000 تصویر سیاه و سفید با ابعاد 50 در 100 از حروف الفبای فارسی است و برای مواردی مثل تشخیص پلاک کاربرد دارد.
📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amir137825/persianocrdataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian top song features

🗃 نوع: #متن

📮 اندازه: 1.29 MB

📖 توضیحات:
دیتاستی شامل اطلاعات ۶۲۴ اهنگ فارسی همراه مشخصات مختلف هر اهنگ

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/saeedtqp/radiojavan-popular-music-features

لطفا به اشتراک بگذارید👈🏻
@persian_data
چت های یک گروه تلگرامی

🗃 نوع: #متن

📮 اندازه: 2 MB

📖 توضیحات:
این دیتاست مربوط به یک گروه تلگرام است و حاوی جملات محاوره ای فارسی می باشد.این دیتا شامل سه ستون متن پیام ها، زمان و تاریخ پیام ها و52563 رکورددر قالب یک فایل اکسل است.ازاین دیتاست برای انجام پروژه های پردازش زبان طبیعی می توان استفاده کرد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mohamad1dehqani/persian-telegram-group

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian Classical Music Instrument Recognition (PCMIR) Persian Music Database

🗃 نوع: #صوت

📮 اندازه: 189.94 MB

📖 توضیحات:
یک دیتاست باحال از انواع سازهای سنتی ایرانی که ضبط شدند

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/hosseinmousavi/pcmir-database

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian Text-Based Traffic Signs

🗃 نوع: #تصویر

📮 اندازه: 278.58 MB

📖 توضیحات:
Since there is no public text based traffic panels dataset, we collected a new dataset included the Persian text based traffic panels in the streets of Tehran-Iran for the first time. Our dataset contains two sets of figures. The first set has ۹۲۹۴ pictures and the second set has ۳۳۰۵ pictures.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/sabakheirinejad/persian-textbased-traffic-signs

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian text-to-speech audio

🗃 نوع: #متن #صوت

📮 اندازه: 3.89 GB

📖 توضیحات:
دیتاستی مناسب برای تسک‌های text-to-speech فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/moradi/persian-texttospeech-audio

لطفا به اشتراک بگذارید👈🏻
@persian_data
برای معرفی و درج دیتاست خود داخل کانال به @mohammad_dehghani پیام دهید.
A dataset of claims and facts in Persian investigated by Factnameh.org

🗃 نوع: #متن

📮 اندازه: 4.16 MB

📖 توضیحات:

این دیتاست شامل ۴۰۲ سطر و ۱۲ ستون است که در مورد نقل قول و ادعاهای افراد مختلف و درست یا غلط بودن آن است. این مجموعه داده مناسب برای تسک‌های دسته بندی است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/imuhammad/factnameh

لطفا به اشتراک بگذارید👈🏻
@persian_data