مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
دیتاست برای تشخیص زبان متن

🗃 نوع: #متن

📮 اندازه: 12.39 MB

📖 توضیحات: این دیتاست شامل ۲۳۵۰۰۰ پاراگراف از ۲۳۵ زبان است که هر برای هر زبان هزار پاراگراف وجود دارد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/zarajamshaid/language-identification-datasst

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
غلط های املایی

🗃 نوع: #متن

📮 اندازه: 146.42 KB

📖 توضیحات:
این مجموعه داده شامل ۵۰۵۰ جفت کلمه فارسی است که ستون اول یک کلمه غلط املایی و ستون دوم شکل صحیح آن کلمه است. از این مجموعه داده در مباحث نرمالسازی می‌توان استفاده کرد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/rtatman/faspell

لطفا به اشتراک بگذارید👈🏻
@persian_data
نظرات کاربران سایت طاقچه 2019

🗃 نوع: #متن

📮 اندازه: 21.03 MB

📖 توضیحات:
تعداد ۱۱ هزار نظر از سایت طاقچه به همراه امتیاز مربوط به هر نظر که مناسب برای انجام پروژه‌های تحلیل احساسات است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/saeedtqp/taaghche

لطفا به اشتراک بگذارید👈🏻
@persian_data
fastText pre-trained persian word vectors

🗃 نوع: #متن

📮 اندازه: 4.22 GB

📖 توضیحات:
مدل‌های زبانی آموزش دیده شده فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/javadhelali/fasttext-pretrained-persian-word-vectors

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian sentiment analysis dataset

🗃 نوع: #متن

📮 اندازه: 11.14 MB

📖 توضیحات:
این مجموعه داده مربوط به نظرات اینسناگرام همراه با برچسب است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/instatext/persian-sentiment-analysis-dataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
persian-sms-spam-word

🗃 نوع: #متن

📮 اندازه: 16.31 KB

📖 توضیحات:
دیتاستی شامل حدود ۴۰۰ کلمه فارسی مناسب برای تشخیص پیامک‌های اسپم

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amirshnll/persiansmsspamword

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
Persian Artists on Spotfiy

🗃 نوع: #جدولی

📮 اندازه: 3.13 MB

📖 توضیحات:
Metadata and audio features of over ۱۰۰۰۰ songs from ۶۳ Iranian singers


📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/imuhammad/persian-artists-on-spotfiy

لطفا به اشتراک بگذارید👈🏻
@persian_data
👍1
الفاظ رکیک فارسی

🗃 نوع: #متن

📮 اندازه: 7.2 KB

📖 توضیحات:
برخی از کلمات، کلمات بد به حساب میان و باید فیلتر بشن
از این دیتاست در فیلتر کردن متن‌ها در پروژه‌های خود استفاده کنید و متون پاک و سالمی را داشته باشید. این مجموعه داده شامل ۲۹۱ کلمه است که به راحتی در قسمت پیش پردازش قابل استفاده است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amirshnll/persian-swear-words

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian-OCR-Dataset

🗃 نوع: #تصویر

📮 اندازه: 76.87 MB

📖 توضیحات:
این ورژن شامل 120000 تصویر سیاه و سفید با ابعاد 50 در 100 از حروف الفبای فارسی است و برای مواردی مثل تشخیص پلاک کاربرد دارد.
📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/amir137825/persianocrdataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
Persian top song features

🗃 نوع: #متن

📮 اندازه: 1.29 MB

📖 توضیحات:
دیتاستی شامل اطلاعات ۶۲۴ اهنگ فارسی همراه مشخصات مختلف هر اهنگ

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/saeedtqp/radiojavan-popular-music-features

لطفا به اشتراک بگذارید👈🏻
@persian_data
چت های یک گروه تلگرامی

🗃 نوع: #متن

📮 اندازه: 2 MB

📖 توضیحات:
این دیتاست مربوط به یک گروه تلگرام است و حاوی جملات محاوره ای فارسی می باشد.این دیتا شامل سه ستون متن پیام ها، زمان و تاریخ پیام ها و52563 رکورددر قالب یک فایل اکسل است.ازاین دیتاست برای انجام پروژه های پردازش زبان طبیعی می توان استفاده کرد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mohamad1dehqani/persian-telegram-group

لطفا به اشتراک بگذارید👈🏻
@persian_data