مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
آیا به تجزیه و تحلیل موسیقی علاقه دارید؟ این پروژه گیت‌هاب برای شماست! 🎶
پروژه Music Analyzer به شما امکان می‌دهد تا به تجزیه و تحلیل و پردازش داده‌های موسیقی بپردازید. این ابزار می‌تواند ویژگی‌های مختلف موسیقی را استخراج کرده و اطلاعات مفیدی را در اختیار شما قرار دهد. از این پروژه می‌توانید در پژوهش‌های خود، توسعه اپلیکیشن‌های موسیقی 🎵، یا حتی در پروژه‌های یادگیری ماشین 🤖 استفاده کنید.
برای دسترسی به این ابزار کارآمد، از لینک زیر استفاده کنید:

📱 GitHub Repo
👍8
دیتاست مربوط به instructهای فارسی مناسب برای فاین تیون کردن مدل های زبانی

📱 GitHub Repo
👍9
اگر به حوزه پردازش زبان طبیعی (NLP) و مدل‌های زبانی هوش مصنوعی علاقه‌مندید، این مجموعه داده برای شماست! این پروژه با هدف ارزیابی عملکرد ChatGPT برای زبان فارسی ایجاد شده است. شامل مجموعه‌ای متنوع از سوالات و پاسخ‌ها به زبان فارسی می‌باشد که می‌تواند در پروژه‌های مرتبط با توسعه مدل‌های AI و NLP بسیار کاربردی باشد. می‌توانید از این دیتاست برای ارزیابی و بهبود مدل‌های زبان فارسی در اپلیکیشن‌های چت‌بوت، ترجمه ماشینی و سایر کاربردهای مشابه استفاده کنید.

📱 GitHub Repo
👍8
مجموعه‌ای جامع از کلمات در تمامی زبان‌ها! این ریپازیتوری شامل یک دیتاست بزرگ و کلیه کلمات موجود در زبان‌های مختلف است. برای محققین و علاقه‌مندان به پردازش زبان طبیعی (NLP) و مطالعات زبان‌شناسی می‌تواند بسیار مفید واقع شود. از این دیتاست در پروژه‌های ترجمه خودکار، تشخیص زبان، و تحلیل متنی می‌توانید استفاده کنید.

📱 GitHub Repo
👍3
مجموعه تصاویری از جملات فارسی، شامل 2000 تصویر با کیفیت بالا که حاوی متون فارسی در سبک‌ها و فونت‌های مختلف هستند. این دیتاست برای پروژه‌های پردازش تصویر، OCR و تحلیل متون بسیار مفید است. هدف از ایجاد این مجموعه، ارائه منبعی غنی برای تحقیق و توسعه الگوریتم‌های تشخیص و خواندن متون فارسی در تصاویر است.

📱 GitHub Repo
👍7
PHate is a Persian multi-label hate speech dataset curated for hate speech detection tasks. It includes annotations with annotator rationales, providing valuable insights into the annotators' decision-making process. The dataset comprises 7K data.

📱 GitHub Repo
👍2
این دیتاست شامل مجموعه‌ای از داده‌های فینگلیش (فارسی با الفبای لاتین) می‌باشد که برای استفاده در پروژه‌های تحلیل متن و پردازش زبان طبیعی بسیار مفید است. دیتاست شامل ۲۰۰۰ جمله و بیش از ۵۰۰۰ کلمه مختلف است که از منابع مختلف جمع‌آوری شده‌اند. از این مجموعه داده می‌توان در پروژه‌های تبدیل فینگلیش به فارسی، ساخت مدل‌های زبانی، و حتی بهبود سیستم‌های پیشنهاد دهنده کلمات استفاده کرد.

📱 GitHub Repo
👍7
ترجمه سایت محبوب w3schools

این مخزن شامل مجموعه‌ای جامع از نکات و دستورالعمل‌های پایه‌ای پایتون به زبان فارسی است. مناسب برای کسانی که تازه وارد دنیای برنامه‌نویسی شده‌اند یا به دنبال تمرین و تقویت مهارت‌های اولیه خود در پایتون هستند. با این مخزن می‌توانید مباحث مختلف شامل متغیرها، توابع، حلقه‌ها و استثناها را به طریقی ساده و روان یاد بگیرید. مناسب برای دانش‌آموزان، دانشجویان و هر کسی که می‌خواهد پایتون را از صفر تا صد بیاموزد و در پروژه‌های ساده خود استفاده کند.

📱 GitHub Repo
👍5
The data was meticulously collected from Telegram, focusing on public channels. These channels were identified and curated by our team of agents, dedicated to exploring and discovering relevant content.

Dataset Statistics:
Largest Available Corpus to Date
Average Length of Document: 46 tokens
Number of Documents: 188,874,296
Number of Channels Scraped: 58,000
Uncompressed Size: 123 GB
Channels List: Available in channels.json

📱 GitHub Repo
👍6
یه دیتاست جامع و متنوع شامل متون فارسی تحت عنوان «جام جم کورپوس»،
این مجموعه داده حاوی متون فارسی از سایت جام جم هست. این دیتاست می‌تواند برای پروژه‌های پردازش زبان طبیعی (NLP) و ساخت مدل‌های یادگیری ماشین مورد استفاده قرار گیرد. اگر در حوزه‌هایی مثل تشخیص احساسات، خلاصه‌سازی متون یا ترجمه ماشینی فعالیت می‌کنید، این دیتاست می‌تونه بسیار کاربردی باشه.

📱 GitHub Repo
👍5
این مجموعه داده شامل بیش از 5800 توییت فارسی است که با دقت برچسب‌گذاری شده‌اند (برای تشخیص کنایه) تا موضع کاربران در مورد موضوعات خاص را مشخص کند. این دیتاست به ویژه برای پژوهش‌های مرتبط با پردازش زبان طبیعی (NLP) و تحلیل احساسات کاربرد دارد. از این دیتاست می‌توان در پروژه‌های مختلفی از جمله خلق مدل‌های یادگیری ماشینی برای تشخیص موضع و تحلیل احساسات متون فارسی استفاده کرد.

📱 GitHub Repo
👍131
این پروژه یک مجموعه ابزارهای پردازش متن فارسی پایه رو در اختیار شما قرار می‌ده. با استفاده از این ابزارها می‌تونید کارهایی مثل توکن‌سازی، نرمال‌سازی، استمینگ و حذف توقف‌کلمات رو برای متون فارسی انجام بدید. این ابزارها برای پروژه‌های مرتبط با پردازش زبان طبیعی (NLP) و تحلیل متن بسیار کاربردی هستن. همراه با توضیح و مستندات کامل، این پروژه مناسب برای محققان، توسعه‌دهندگان و علاقه‌مندان به حوزه پردازش زبان فارسی است.

📱 GitHub Repo
👍8
نرم‌افزاری ساده و کاربردی برای تولید کد ملی ایرانی با پایتون! این ابزار به شما امکان می‌دهد تا با استفاده از دستورات CMD و زبان برنامه‌نویسی پایتون، به‌راحتی کد ملی‌های معتبر و صحیح بسازید. این پروژه می‌تواند برای تست واحد (Unit Testing) و تولید داده‌های تصادفی در پروژه‌های مختلف مورد استفاده قرار گیرد. لینک گیتهاب را برای اطلاعات بیشتر مشاهده کنید.

📱 GitHub Repo
👍4
Danial Ebrat

سلام! امیدوارم حال دلتون خوب باشه 😊
بالاخره بعد از این همه مدت گفتم این رو براتون آمادش کنم!
یه نرم افزار ساده نوشتم که میتونه به صورت خودکار از لیست اساتید مورد نظر، متناسب با فیلد تحقیقاتی هر استاد، متن ایمیل و رزومه ی مربوط به اون فیلد رو انتخاب کنه، اسم استاد، دانشگاه و گروهش رو در متن ایمیل جایگذاری کنه، رزومه، و در صورت نیاز دانشنامه رو هم ضمیمه کنه و با عنوانی مشخص، ایمیل رو برای استاد ارسال کنه.
💥

برای دانیال های بعدی در مسیر مهاجرت تحصیلی، اینجوری دیگه تمرکزتون میتونه تنها روی پیدا کردن استاد مناسب با فیلدتون باشه به جای وقت گذاشتن برای ایمیل زدن.
.
من با استفاده از این نرم افزار حدود حدود 30-40 تا مصاحبه گرفتم که در نهایت منجر شد به ۶ پذیرش برای پوزیشن های دکترا.
.
، البته، از کیفیت ایمیل هم غافل نشید! مثل تکه های پازل، سعی کنید هر تکه رو به بهترین شکل ممکن در بیارید.
.
تمام اطلاعات رو میتونید از صفحه ی گیتهاب پروژه بخونید، و در این ویدیو میتونین طریقه ی استفاده از این نرم افزار رو ببینید
.
امیدوارم این نرم افزار مسیرتون رو هموار تر کنه.
اگر وقت کنم (که اصلا معلوم نیست کی) بهتون هم یاد میدم اصلا این ایمیل ها رو از کجا پیدا کنید. روش هایی که تجربی یاد گرفتم و احتمالا تا حالا نشنیدین.
کم و کاستی ها رو ببخشید، سعی کردم با کمال گرایی مبارزه کنم و در ویدیو یوتیوب
مشکلات مشخص هست. 😄

با تشکر از احسان برای ایده ی قشنگش که پایه گذار اصلی به وجود آمدن این پروژه بود ❤️
Ehsan Barkhordar

لینک ویدئو
👍13
سلام دوستان
من یه پکیج پایتون نوشتم برای تبدیل pdf به word فارسی
این پکیج کاملا از زبان فارسی پشتیبانی میکنه.
این پکیح رو تویpypi منتشر کردم
https://pypi.org/project/persian-pdf-converter/2.3.1

اگر براتون مقدوره به ریپازیتوری گیت هاب پکیج ستاره بدین

https://github.com/mahdiramezanii/persian_pdf_converter
👍29
این پروژه به خلاصه‌سازی خودکار گفتار پرداخته است. با استفاده از الگوریتم‌های پردازش زبان طبیعی و تکنیک‌های یادگیری ماشین، این سیستم قادر است گفتار را به متن تبدیل کرده و خلاصه‌ای از آن را ارائه دهد. این پروژه می‌تواند در برنامه‌های متنوعی مانند تولید محتوا، استنطاق خودکار جلسات و استخراج اطلاعات کلیدی از فایل‌های صوتی مفید باشد.

📱 GitHub Repo
👍4
این دیتاست پزشکی مناسب برای پروژه‌های پرسش و پاسخ (QA) با هدف بهبود سیستم‌های هوش مصنوعی در زمینه تشخیص و پاسخ به سوالات پزشکی تهیه شده است. این مجموعه شامل نمونه‌های سوال و جواب مرتبط با موضوعات پزشکی است که از منابع معتبر جمع‌آوری شده‌اند. از این دیتاست می‌توان در پروژه‌های پردازش زبان طبیعی (NLP) و سیستم‌های هوشمند پزشکی استفاده کرد.

📱 GitHub Repo
👍8
اگر شما هم مثل من مشکل دارید که وقتی میرید توی سایت medium.com و مقالات اکثرا پریمیوم هست و نمیتونید بخونید، باید بگم که خدا شما رو دوست داشته که این پست رو دیدید.😁
خب حالا راه حل چیه؟🤔
فقط کافیه لینک مقاله رو توی این سایت بزارید | readmedium.com | و تمام🪄.

Amirreza Heydari
👍31
we present a new, diverse, and publicly-available dataset of machine-generated text in Persian. By utilizing the OpenAI’s GPT-3.5 Turbo model, we’ve created a comprehensive collection of machine-generated content spanning various themes and levels of formality. We used all Digikala comments, COPER articles, and a subset of pn_summary as human-written text and generated their paraphrases using ChatGPT.

📱 GitHub Repo
👍6