ابزار شناسایی واژگان غیرقانونی
این پروژه از تکنیکهای پردازش زبان طبیعی (NLP) برای شناسایی و تشخیص واژگان غیرقانونی در متن استفاده میکند. هدف از این ابزار، کمک به توسعهدهندگان، مدیران محتوا و محققان در شناسایی سریع و کارآمد محتوای غیرقانونی یا نامناسب است.
از این ابزار میتوان در پروژههای مرتبط با نظارت بر محتوا، فیلترینگ خودکار و تحلیل دادهها استفاده کرد.
برای کسب اطلاعات بیشتر و دسترسی به کد منبع این ابزار به لینک زیر مراجعه کنید:
📱 GitHub Repo
این پروژه از تکنیکهای پردازش زبان طبیعی (NLP) برای شناسایی و تشخیص واژگان غیرقانونی در متن استفاده میکند. هدف از این ابزار، کمک به توسعهدهندگان، مدیران محتوا و محققان در شناسایی سریع و کارآمد محتوای غیرقانونی یا نامناسب است.
از این ابزار میتوان در پروژههای مرتبط با نظارت بر محتوا، فیلترینگ خودکار و تحلیل دادهها استفاده کرد.
برای کسب اطلاعات بیشتر و دسترسی به کد منبع این ابزار به لینک زیر مراجعه کنید:
📱 GitHub Repo
GitHub
GitHub - saaz742/NLP-Find-Illegal-Words: Recognize illegal Persian words in a text
Recognize illegal Persian words in a text. Contribute to saaz742/NLP-Find-Illegal-Words development by creating an account on GitHub.
👍4
دوره آموزشی کامل و رایگان NLP و فوق خفن پر از شکل و مثال
این دوره به صورت جامع و رایگان شما را با مبانی و مفاهیم پیشرفته پردازش زبان طبیعی (NLP) آشنا میکنه. منابع و محتوای آموزشی به صورت تصویری و متنی ارائه شدن و از مقدماتی تا پیشرفته رو پوشش میدهد. این دوره برای دانشجویان، محققان و توسعهدهندگان علاقهمند به شناخت و بهبود تکنیکهای NLP مفید و کاربردی هست. همین حالا شروع به یادگیری کن!
📱 GitHub Repo
این دوره به صورت جامع و رایگان شما را با مبانی و مفاهیم پیشرفته پردازش زبان طبیعی (NLP) آشنا میکنه. منابع و محتوای آموزشی به صورت تصویری و متنی ارائه شدن و از مقدماتی تا پیشرفته رو پوشش میدهد. این دوره برای دانشجویان، محققان و توسعهدهندگان علاقهمند به شناخت و بهبود تکنیکهای NLP مفید و کاربردی هست. همین حالا شروع به یادگیری کن!
📱 GitHub Repo
lena-voita.github.io
NLP Course | For You
Natural Language Processing course with interactive lectures-blogs, research thinking exercises and related papers with summaries. Also a lot of fun inside!
👍5🔥1
مجموعه داده جدید برای تشخیص کنایه در زبان فارسی!
این دیتاست منحصر به فرد شامل جملات فارسی است که به همراه برچسبهای کنایهدار و غیرکنایهدار ارائه شده است. هدف این مجموعه داده، تسهیل فرایند تشخیص کنایه در متنهای فارسی و بهبود مدلهای پردازش زبان طبیعی (NLP) در این زمینه است. این دیتاست میتواند به پژوهشگران و علاقهمندان در حوزه هوش مصنوعی و تحلیل متن در توسعه الگوریتمها و مدلهای تشخیص کنایه کمک کند.
📱 GitHub Repo
این دیتاست منحصر به فرد شامل جملات فارسی است که به همراه برچسبهای کنایهدار و غیرکنایهدار ارائه شده است. هدف این مجموعه داده، تسهیل فرایند تشخیص کنایه در متنهای فارسی و بهبود مدلهای پردازش زبان طبیعی (NLP) در این زمینه است. این دیتاست میتواند به پژوهشگران و علاقهمندان در حوزه هوش مصنوعی و تحلیل متن در توسعه الگوریتمها و مدلهای تشخیص کنایه کمک کند.
📱 GitHub Repo
GitHub
GitHub - Theitsybitsy/Persian-Irony-Detection: # Persian-Irony-Detection A machine learning project for detecting irony in Persian…
# Persian-Irony-Detection A machine learning project for detecting irony in Persian text using NLP and various algorithms. Contributions welcome! - Theitsybitsy/Persian-Irony-Detection
👍9
دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکههای اجتماعی
▪️دیتاستهایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده میشوند، شامل مجموعهای از متون هستند که برای آموزش و ارزیابی مدلهای یادگیری ماشین به کار میروند.
▪️مهمترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از دادههای شبکههای اجتماعی است که شامل متنهای تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمعآوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.
▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده میشوند به شرح زیر هستند:
اخبار خبرگزاریها
انواع بلاگها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار
https://huggingface.co/datasets/lifeweb-ai/Divan
▪️دیتاستهایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده میشوند، شامل مجموعهای از متون هستند که برای آموزش و ارزیابی مدلهای یادگیری ماشین به کار میروند.
▪️مهمترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از دادههای شبکههای اجتماعی است که شامل متنهای تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمعآوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.
▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده میشوند به شرح زیر هستند:
اخبار خبرگزاریها
انواع بلاگها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار
https://huggingface.co/datasets/lifeweb-ai/Divan
huggingface.co
lifeweb-ai/Divan · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍5
کد مربوط به تاپیک مدلینگ برای متون کوتاه مثل توییت
همینطور ک می دونین کار روی short text اونم فارسی خیلی چالش داره...
📱 GitHub Repo
همینطور ک می دونین کار روی short text اونم فارسی خیلی چالش داره...
📱 GitHub Repo
GitHub
GitHub - DSInCenter/pySTTM
Contribute to DSInCenter/pySTTM development by creating an account on GitHub.
👍6
مجموعه داده PersianSpeech شامل صدها ساعت داده گفتاری فارسی است که توسط گویندگان متنوع در شرایط مختلف ضبط شدهاست. این دیتاست با هدف کمک به توسعه سیستمهای تشخیص گفتار فارسی و برنامههای پردازش زبان طبیعی تهیه شده است. شامل انواع مختلف جملهها، کلمات و عبارتهای گفتاری است که به تحقیقات و پروژههای مبتنی بر یادگیری ماشین و شبکههای عصبی در حوزه صوت کمک میکند. از این مجموعه داده میتوان در پروژههای تشخیص گفتار، ترجمه ماشینی، و تجزیه و تحلیل صوت استفاده کرد.
📱 GitHub Repo
📱 GitHub Repo
GitHub
GitHub - persiandataset/PersianSpeech: Persian ASR dataset
Persian ASR dataset. Contribute to persiandataset/PersianSpeech development by creating an account on GitHub.
👍8🔥3
تو هر تخصصی که هستید میتونید با گذروندن این دوره کوتاه هم کلی چیز جدید یاد بگیرید هم یه مدرک بینالمللی تو یه موضوع جذاب که تو هر رشتهای بکار میاد به رزومه تون اضافه کنید:
گوگل یه دوره آنلاین ۵ روزه از ۱۱ تا ۱۵ نوامبر داره که میتونه کمکتون کنه تا تکنولوژیها و روشهای پایه Gen AI رو خوب یاد بگیرید. این دوره رو تیم تحقیق و مهندسی ML گوگل طراحی کرده. هم مباحث نظری داره و هم تمرینهای عملی کدنویسی، تا بتونید پروژههای جدید Gen AI رو شروع کنید.
مباحث این ۵ روز:
Day 1: Foundational Models & Prompt Engineering
Day 2: Embeddings and Vector Stores/Databases
Day 3: Generative AI Agents
Day 4: Domain-Specific LLMs
Day 5: MLOps for Generative AI
https://rsvp.withgoogle.com/events/google-generative-ai-intensive
منبع: توییتر اقای الله یاری
گوگل یه دوره آنلاین ۵ روزه از ۱۱ تا ۱۵ نوامبر داره که میتونه کمکتون کنه تا تکنولوژیها و روشهای پایه Gen AI رو خوب یاد بگیرید. این دوره رو تیم تحقیق و مهندسی ML گوگل طراحی کرده. هم مباحث نظری داره و هم تمرینهای عملی کدنویسی، تا بتونید پروژههای جدید Gen AI رو شروع کنید.
مباحث این ۵ روز:
Day 1: Foundational Models & Prompt Engineering
Day 2: Embeddings and Vector Stores/Databases
Day 3: Generative AI Agents
Day 4: Domain-Specific LLMs
Day 5: MLOps for Generative AI
https://rsvp.withgoogle.com/events/google-generative-ai-intensive
منبع: توییتر اقای الله یاری
Withgoogle
5-Day Gen AI Intensive Course with Google
Join our 5-day course on Nov 11 - 15 designed to help you deeply understand some of the fundamental technologies and techniques behind Generative AI.
👍4👎1
Introduction to Bioimage Analysis
یک آموزش مثال محور با کلی شکل و تصویر و نمودار با کد
کسایی که به حوزه پردازش تصویر و تصاویر پزشکی علاقه مند هستند، این گنج از دست ندن
https://bioimagebook.github.io/index.html
یک آموزش مثال محور با کلی شکل و تصویر و نمودار با کد
کسایی که به حوزه پردازش تصویر و تصاویر پزشکی علاقه مند هستند، این گنج از دست ندن
https://bioimagebook.github.io/index.html
👍4
یک ابزار خوب برای استخراج کلمات کلیدی فارسی! این مجموعه کد برای شناسایی و استخراج کلمات کلیدی از متون فارسی طراحی شده است. این پروژه میتواند در زمینههای سئو، تولید محتوا، تحلیل متون و دیگر کاربردهای مرتبط با پردازش زبان فارسی بسیار مفید باشد.
📱 GitHub Repo
📱 GitHub Repo
GitHub
GitHub - E-Ghafour/Persian_Embedrank_Keyphrase_Extraction: extracting the keyword of the persian texts
extracting the keyword of the persian texts. Contribute to E-Ghafour/Persian_Embedrank_Keyphrase_Extraction development by creating an account on GitHub.
🔥4👍1
Forwarded from Ali
سلام
معرفی دیتاست
تمام ویکیپدیا فارسی با ساختار و استفاده راحت
https://huggingface.co/datasets/codersan/Persian-Wikipedia-Corpus
معرفی دیتاست
تمام ویکیپدیا فارسی با ساختار و استفاده راحت
https://huggingface.co/datasets/codersan/Persian-Wikipedia-Corpus
huggingface.co
codersan/Persian-Wikipedia-Corpus · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥8👍6👎2
یه دیتاست فوقالعاده برای علاقهمندان به پردازش زبان طبیعی و تشخیص نیت! دیتاست Persian ATIS شامل مکالمات و سوالات متنی به زبان فارسی و مرتبط با آژانس هواپیمایی است که به نیتها و اسلاتهای مختلف برچسبگذاری شدهاند. این مجموعه داده میتونه به شما کمک کنه تا مدلهای یادگیری ماشین و تحلیل زبان طبیعی بهتری برای زبان فارسی بسازید.
📱 GitHub Repo
📱 GitHub Repo
GitHub
GitHub - DSInCenter/Persian-Atis: This repository contains the dataset of the article "A Persian Benchmark for Joint Intent Detection…
This repository contains the dataset of the article "A Persian Benchmark for Joint Intent Detection and Slot Filling" arxiv.org/abs/2303.00408 - DSInCenter/Persian-Atis
👍5
این ریپازیتوری یک مجموعهی جذاب و کاربردی از دیتاستهای ایرانی را گردآوری کرده است. توسط این لینک میتوانید به بهترین منابع داده دسترسی پیدا کنید که برای پروژههای تحقیقاتی و کاربردهای مختلف از جمله یادگیری ماشین، تحلیل داده و تحقیقات آماری بسیار مفید هستند. اگر به دنبال دیتاستهای معتبر و متنوع برای کارهای تحقیقی و پروژههای هوش مصنوعی خود هستید، حتماً این ریپازیتوری را بررسی کنید!
📱 GitHub Repo
📱 GitHub Repo
GitHub
GitHub - MEgooneh/awesome-Iran-datasets: Iranian/Persian Datasets. دیتاستهای فارسی و ایرانی
Iranian/Persian Datasets. دیتاستهای فارسی و ایرانی - MEgooneh/awesome-Iran-datasets
👍7❤1
این پروژه یک تحلیل جامع از دادههای جستجوهای گوگل درباره هتلها و اقامتگاههای ایرانی است. با استفاده از ابزارهای تحلیل کلانداده و دادهکاوی، روندها، میزان تقاضا و الگوهای جستجو برای این صنعت ارزشمند را بررسی میکند. این دادهها میتوانند به مدیران هتلها، استارتاپهای گردشگری و برنامهریزان سفر کمک کنند تا تصمیمهای آیندهنگرانهتری بگیرند و خدمات خود را بهبود ببخشند.
📱 GitHub Repo
📱 GitHub Repo
GitHub
GitHub - sohrabovsky/gtrend_for_iranian_hotels_industry: Decomposition of google trend results for top 10 cities with highest demands…
Decomposition of google trend results for top 10 cities with highest demands in Hotel industry of Iran and its comparision with sales of one of Iranian OTAs. - sohrabovsky/gtrend_for_iranian_hotels...
کد فاین تیون کردن مدل های پرسش و پاسخ روی دیتاست فارسی
📱 GitHub Repo https://github.com/AliBagherz/PersianQa
📱 GitHub Repo https://github.com/AliBagherz/PersianQa
GitHub
GitHub - AliBagherz/PersianQa: Persian Qa Model Training codes sample
Persian Qa Model Training codes sample. Contribute to AliBagherz/PersianQa development by creating an account on GitHub.
👍3
پروژه وب اسکرپینگ آگهی های خونه تهران در سایت دیوار همراه با دیتاست استخراج شده
1. پروژه وباسکرپینگ در گیتهاب
لینک:
https://github.com/ErfanNahidi/divar-webscraping
این پروژه شامل کدی برای جمعآوری اطلاعات آگهیهای فروش خانه از سایت دیوار است. ابزارهای استفادهشده در این پروژه شامل کتابخانههای BeautifulSoup، Selenium و دیگر ابزارهای پایتون برای انجام عملیات وباسکرپینگ هستند. همچنین توضیحات و راهنماهای کامل برای اجرای پروژه و سفارشیسازی جمعآوری دادهها در دسترس است. ( این پروژه به مرور زمان آپدیت و تکمیل میشه در حال حاضر باگ و کمبود های زیاد داره و همچنین در آینده برای دسته بندی آگهی ها هم توسعه داده میشه )
2. دیتاست استخراج شده آگهیهای فروش خانه در تهران
لینک: https://www.kaggle.com/datasets/erfannahidi/house-for-sale-ads-on-divar-site-iran-tehran
این دیتاست شامل اطلاعات جمعآوریشده از آگهیهای فروش خانه در تهران است که ویژگیهایی نظیر متراژ، قیمت، منطقه، امکانات خانه و سایر جزئیات را در بر میگیرد. این منبع میتواند برای تحلیلهای دادهای، مدلسازی قیمتگذاری، و انجام پروژههای یادگیری ماشین در حوزه املاک مورد استفاده قرار گیرد.
نکته : دیتا استخراج شده به صورت عمد به شکل کثیف و خام گذاشته شده تا شما بر اساس خلاقیت و راه کار های خودتون با این دیتاست کار کنید همچنین تجربه ای از کار کردن با یک دیتاست کاملا واقعی داشته باشید
یه پیشنهاد جالب : با توسعه یه مدل nlp از قسمت توضیحات باقی اطلاعات رو میتونید استخراج کنید
کاربردها:
تحلیل بازار املاک تهران
پیشبینی قیمت خانه با استفاده از الگوریتمهای یادگیری ماشین
استخراج الگوها و روندها در آگهیهای فروش خانه
این دو منبع بهویژه برای علاقهمندان به دادهکاوی و یادگیری ماشین که به دنبال کار روی دادههای واقعی هستند، بسیار مفید خواهد بود.
---
1. پروژه وباسکرپینگ در گیتهاب
لینک:
https://github.com/ErfanNahidi/divar-webscraping
این پروژه شامل کدی برای جمعآوری اطلاعات آگهیهای فروش خانه از سایت دیوار است. ابزارهای استفادهشده در این پروژه شامل کتابخانههای BeautifulSoup، Selenium و دیگر ابزارهای پایتون برای انجام عملیات وباسکرپینگ هستند. همچنین توضیحات و راهنماهای کامل برای اجرای پروژه و سفارشیسازی جمعآوری دادهها در دسترس است. ( این پروژه به مرور زمان آپدیت و تکمیل میشه در حال حاضر باگ و کمبود های زیاد داره و همچنین در آینده برای دسته بندی آگهی ها هم توسعه داده میشه )
2. دیتاست استخراج شده آگهیهای فروش خانه در تهران
لینک: https://www.kaggle.com/datasets/erfannahidi/house-for-sale-ads-on-divar-site-iran-tehran
این دیتاست شامل اطلاعات جمعآوریشده از آگهیهای فروش خانه در تهران است که ویژگیهایی نظیر متراژ، قیمت، منطقه، امکانات خانه و سایر جزئیات را در بر میگیرد. این منبع میتواند برای تحلیلهای دادهای، مدلسازی قیمتگذاری، و انجام پروژههای یادگیری ماشین در حوزه املاک مورد استفاده قرار گیرد.
نکته : دیتا استخراج شده به صورت عمد به شکل کثیف و خام گذاشته شده تا شما بر اساس خلاقیت و راه کار های خودتون با این دیتاست کار کنید همچنین تجربه ای از کار کردن با یک دیتاست کاملا واقعی داشته باشید
یه پیشنهاد جالب : با توسعه یه مدل nlp از قسمت توضیحات باقی اطلاعات رو میتونید استخراج کنید
کاربردها:
تحلیل بازار املاک تهران
پیشبینی قیمت خانه با استفاده از الگوریتمهای یادگیری ماشین
استخراج الگوها و روندها در آگهیهای فروش خانه
این دو منبع بهویژه برای علاقهمندان به دادهکاوی و یادگیری ماشین که به دنبال کار روی دادههای واقعی هستند، بسیار مفید خواهد بود.
---
Kaggle
House for sale ads on Divar site (Iran, Tehran)
Nearly 3050 ads have been scrap from the website.The point is this data is dirty
👍11❤5
یه دیتابیس جامع از فرصتهای شغلی حوزه داده در ایران!
این مجموعه داده حاوی اطلاعات مربوط به آگهیهای شغلی مرتبط با علوم داده و مهندسی داده در کشور ایران است. اطلاعات شامل جزئیاتی مانند عنوان شغل، نام شرکت، موقعیت جغرافیایی، حقوق پیشنهادی و تاریخ انتشار آگهی هستند. این دیتاست میتواند برای تحلیل روندهای بازار کار، شناسایی فرصتهای شغلی و تحقیق در مورد نیازهای شغلی در حوزه داده مورد استفاده قرار گیرد.
📱 GitHub Repo
این مجموعه داده حاوی اطلاعات مربوط به آگهیهای شغلی مرتبط با علوم داده و مهندسی داده در کشور ایران است. اطلاعات شامل جزئیاتی مانند عنوان شغل، نام شرکت، موقعیت جغرافیایی، حقوق پیشنهادی و تاریخ انتشار آگهی هستند. این دیتاست میتواند برای تحلیل روندهای بازار کار، شناسایی فرصتهای شغلی و تحقیق در مورد نیازهای شغلی در حوزه داده مورد استفاده قرار گیرد.
📱 GitHub Repo
GitHub
GitHub - arghavanaslani/IranDataJobs: Web Scraping Project for Data Job Postings in August 2023
Web Scraping Project for Data Job Postings in August 2023 - arghavanaslani/IranDataJobs
👍8🔥1
سلام دوستان 👋
قطعا برای همهمون پیش اومده که وسط یه پروژه نیاز داریم تعطیلات رسمی تقویم جلالی (شمسی) رو داشته باشیم اما سورس قابل اطمینانی هم براش پیدا نکنیم!
من یه اسکرپر ساده و کاربردی نوشتم که تعطیلات رسمی تقویم رو به همراه تاریخهای معادل میلادی در قالب یک دیتافریم یا فایل CSV خروجی میده.
فقط کافیه سال مورد نظرتون رو مشخص کنید و کد رو اجرا کنید.
این ابزار به راحتی قابل استفادهست و میتونه برای پروژههای مختلف شما خیلی مفید باشه.
خوشحال میشم نظرات و پیشنهاداتتون رو بدونم و اگر دوست داشتین، به پروژه روی گیتهاب استار ⭐ بدین.
منتظرتون هستم 😉
https://github.com/DehghanianSina/IR_Holidays_Scraper
قطعا برای همهمون پیش اومده که وسط یه پروژه نیاز داریم تعطیلات رسمی تقویم جلالی (شمسی) رو داشته باشیم اما سورس قابل اطمینانی هم براش پیدا نکنیم!
من یه اسکرپر ساده و کاربردی نوشتم که تعطیلات رسمی تقویم رو به همراه تاریخهای معادل میلادی در قالب یک دیتافریم یا فایل CSV خروجی میده.
فقط کافیه سال مورد نظرتون رو مشخص کنید و کد رو اجرا کنید.
این ابزار به راحتی قابل استفادهست و میتونه برای پروژههای مختلف شما خیلی مفید باشه.
خوشحال میشم نظرات و پیشنهاداتتون رو بدونم و اگر دوست داشتین، به پروژه روی گیتهاب استار ⭐ بدین.
منتظرتون هستم 😉
https://github.com/DehghanianSina/IR_Holidays_Scraper
GitHub
GitHub - DehghanianSina/IR_Holidays_Scraper: Python scraper for Time.ir to generate a comprehensive Jalali-Gregorian calendar with…
Python scraper for Time.ir to generate a comprehensive Jalali-Gregorian calendar with holiday details. Includes web scraping, date conversion, and data merging using BeautifulSoup, jdatetime, and p...
👍13❤6🔥2
یک دیتاست باحال واسه تبدیل متن فارسی محاوره به رسمی
این دیتاست شامل زیرنویسهای محاورهای و رسمی شده فارسی برای کاربردهای پردازش زبان طبیعی است. این مجموعه که شامل تغییرات جملات از فرم محاورهای به فرم رسمی است، میتواند در پروژههای تبدیل متن محاورهای به متن رسمی، تحلیل ترجمه و سایر کاربردهای مرتبط با پردازش زبان فارسی بسیار مفید باشد. این مجموعه داده به شما اجازه میدهد تا مدلهای خود را روی دادههای واقعی آموزش دهید و بهبود دهید. برای کسانی که در حوزه پردازش زبان طبیعی (NLP) و ترجمه ماشینی فعالیت میکنند، این دیتاست یک منبع ارزشمند است.
📱 GitHub Repo
این دیتاست شامل زیرنویسهای محاورهای و رسمی شده فارسی برای کاربردهای پردازش زبان طبیعی است. این مجموعه که شامل تغییرات جملات از فرم محاورهای به فرم رسمی است، میتواند در پروژههای تبدیل متن محاورهای به متن رسمی، تحلیل ترجمه و سایر کاربردهای مرتبط با پردازش زبان فارسی بسیار مفید باشد. این مجموعه داده به شما اجازه میدهد تا مدلهای خود را روی دادههای واقعی آموزش دهید و بهبود دهید. برای کسانی که در حوزه پردازش زبان طبیعی (NLP) و ترجمه ماشینی فعالیت میکنند، این دیتاست یک منبع ارزشمند است.
📱 GitHub Repo
GitHub
GitHub - SaeeSaadat/NLP_informal2formal_subnoscript_dataset: This code is used to prepare dataset from opus.nlpl.eu, to be used in…
This code is used to prepare dataset from opus.nlpl.eu, to be used in a persian informal to formal text converter project. - SaeeSaadat/NLP_informal2formal_subnoscript_dataset
👍7
این دیتاست ارزیابی عملکرد مدلهای GPT در زبان فارسی تهیه شده است. دیتاست شامل مجموعهای از سوالات و پاسخها به زبان فارسی است که امکان بررسی و تحلیل کیفیت و دقت مدلهای پردازش زبان طبیعی (NLP) مانند GPT را فراهم میکند. از این دیتاست میتوان برای ارزیابی مدلهای مختلف یادگیری عمیق و بهبود عملکرد آنها در فهم و تولید زبان فارسی استفاده کرد. مناسب برای محققین و توسعهدهندگان در حوزه پردازش زبان طبیعی.
📱 GitHub Repo
📱 GitHub Repo
GitHub
GitHub - Anonymous2024LRECS/GPT_Persian_Eval
Contribute to Anonymous2024LRECS/GPT_Persian_Eval development by creating an account on GitHub.
👍6
یک لیست جامع از تمامی دیتاست هایی که واسه زبان فارسی و روی تسک SA یا تحلیل احساسات تهیه شدن
📱 GitHub Repo
📱 GitHub Repo
GitHub
GitHub - Keramatfar/Persian_NLP_Datasets: A reference for Persian NLP datasets.
A reference for Persian NLP datasets. Contribute to Keramatfar/Persian_NLP_Datasets development by creating an account on GitHub.
👍3❤1