NEW BOT Телеграм, страница

مرجع دیتاست فارسی

مجموعه داده PersianSpeech شامل صدها ساعت داده گفتاری فارسی است که توسط گویندگان متنوع در شرایط مختلف ضبط شده‌است. این دیتاست با هدف کمک به توسعه سیستم‌های تشخیص گفتار فارسی و برنامه‌های پردازش زبان طبیعی تهیه شده است. شامل انواع مختلف جمله‌ها، کلمات و عبارت‌های گفتاری است که به تحقیقات و پروژه‌های مبتنی بر یادگیری ماشین و شبکه‌های عصبی در حوزه صوت کمک می‌کند. از این مجموعه داده می‌توان در پروژه‌های تشخیص گفتار، ترجمه ماشینی، و تجزیه و تحلیل صوت استفاده کرد.

📱 GitHub Repo

GitHub

GitHub - persiandataset/PersianSpeech: Persian ASR dataset

Persian ASR dataset. Contribute to persiandataset/PersianSpeech development by creating an account on GitHub.

👍8🔥3

2.69K viewsدیتاهابر, 05:41

مرجع دیتاست فارسی

تو هر تخصصی که هستید می‌تونید با گذروندن این دوره کوتاه هم کلی چیز جدید یاد بگیرید هم یه مدرک بین‌المللی تو یه موضوع جذاب که تو هر رشته‌ای بکار میاد به رزومه تون اضافه کنید:

‏گوگل یه دوره آنلاین ۵ روزه از ۱۱ تا ۱۵ نوامبر داره که میتونه کمکتون کنه تا تکنولوژی‌ها و روش‌های پایه Gen AI رو خوب یاد بگیرید. این دوره رو تیم تحقیق و مهندسی ML گوگل طراحی کرده. هم مباحث نظری داره و هم تمرین‌های عملی کدنویسی، تا بتونید پروژه‌های جدید Gen AI رو شروع کنید.

مباحث این ۵ روز:
Day 1: Foundational Models & Prompt Engineering
Day 2: Embeddings and Vector Stores/Databases
Day 3: Generative AI Agents
Day 4: Domain-Specific LLMs
Day 5: MLOps for Generative AI

https://rsvp.withgoogle.com/events/google-generative-ai-intensive

منبع: توییتر اقای الله یاری

Withgoogle

5-Day Gen AI Intensive Course with Google

Join our 5-day course on Nov 11 - 15 designed to help you deeply understand some of the fundamental technologies and techniques behind Generative AI.

👍4👎1

2.83K viewsدیتاهابر, 12:01

مرجع دیتاست فارسی

Introduction to Bioimage Analysis

یک آموزش مثال محور با کلی شکل و تصویر و نمودار با کد
کسایی که به حوزه پردازش تصویر و تصاویر پزشکی علاقه مند هستند، این گنج از دست ندن

https://bioimagebook.github.io/index.html

👍4

2.46K viewsدیتاهابر, 12:23

مرجع دیتاست فارسی

تو این سایت می‌تونید مقالاتِ پولیِ مدیوم رو رایگان باز کنید. در واقع خودش اشتراکِ مدیوم خریده و از طریقِ این سایت در دسترسِ عموم قرار داده. مدیوم نقطه‌ضعف‌هاش رو حل کرده. تمامِ روش‌هایِ قدیمیِ دورزدن paywall از کار افتاده. فقط همین روش جواب می‌ده.

_Ayub Kokabi_

🔥10❤2

3.23K viewsدیتاهابر, edited 12:24

مرجع دیتاست فارسی

یک ابزار خوب برای استخراج کلمات کلیدی فارسی! این مجموعه کد برای شناسایی و استخراج کلمات کلیدی از متون فارسی طراحی شده است. این پروژه می‌تواند در زمینه‌های سئو، تولید محتوا، تحلیل متون و دیگر کاربردهای مرتبط با پردازش زبان فارسی بسیار مفید باشد.

📱 GitHub Repo

GitHub

GitHub - E-Ghafour/Persian_Embedrank_Keyphrase_Extraction: extracting the keyword of the persian texts

extracting the keyword of the persian texts. Contribute to E-Ghafour/Persian_Embedrank_Keyphrase_Extraction development by creating an account on GitHub.

🔥4👍1

2.2K viewsدیتاهابر, 05:18

مرجع دیتاست فارسی

Forwarded from Ali

سلام
معرفی دیتاست

تمام ویکیپدیا فارسی با ساختار و استفاده راحت
https://huggingface.co/datasets/codersan/Persian-Wikipedia-Corpus

huggingface.co

codersan/Persian-Wikipedia-Corpus · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥8👍6👎2

2.06K viewsدیتاهابر, 12:58

مرجع دیتاست فارسی

یه دیتاست فوق‌العاده برای علاقه‌مندان به پردازش زبان طبیعی و تشخیص نیت! دیتاست Persian ATIS شامل مکالمات و سوالات متنی به زبان فارسی و مرتبط با آژانس هواپیمایی است که به نیت‌ها و اسلات‌های مختلف برچسب‌گذاری شده‌اند. این مجموعه داده می‌تونه به شما کمک کنه تا مدل‌های یادگیری ماشین و تحلیل زبان طبیعی بهتری برای زبان فارسی بسازید.

📱 GitHub Repo

GitHub

GitHub - DSInCenter/Persian-Atis: This repository contains the dataset of the article "A Persian Benchmark for Joint Intent Detection…

This repository contains the dataset of the article "A Persian Benchmark for Joint Intent Detection and Slot Filling" arxiv.org/abs/2303.00408 - DSInCenter/Persian-Atis

👍5

2.23K viewsدیتاهابر, 05:27

مرجع دیتاست فارسی

این ریپازیتوری یک مجموعه‌ی جذاب و کاربردی از دیتاست‌های ایرانی را گردآوری کرده است. توسط این لینک می‌توانید به بهترین منابع داده دسترسی پیدا کنید که برای پروژه‌های تحقیقاتی و کاربردهای مختلف از جمله یادگیری ماشین، تحلیل داده و تحقیقات آماری بسیار مفید هستند. اگر به دنبال دیتاست‌های معتبر و متنوع برای کارهای تحقیقی و پروژه‌های هوش مصنوعی خود هستید، حتماً این ریپازیتوری را بررسی کنید!

📱 GitHub Repo

GitHub

GitHub - MEgooneh/awesome-Iran-datasets: Iranian/Persian Datasets. دیتاست‌های فارسی و ایرانی

Iranian/Persian Datasets. دیتاست‌های فارسی و ایرانی - MEgooneh/awesome-Iran-datasets

👍7❤1

2.19K viewsدیتاهابر, 05:28

مرجع دیتاست فارسی

این پروژه یک تحلیل جامع از داده‌های جستجوهای گوگل درباره هتل‌ها و اقامتگاه‌های ایرانی است. با استفاده از ابزارهای تحلیل کلان‌داده و داده‌کاوی، روندها، میزان تقاضا و الگوهای جستجو برای این صنعت ارزشمند را بررسی می‌کند. این داده‌ها می‌توانند به مدیران هتل‌ها، استارتاپ‌های گردشگری و برنامه‌ریزان سفر کمک کنند تا تصمیم‌های آینده‌نگرانه‌تری بگیرند و خدمات خود را بهبود ببخشند.

📱 GitHub Repo

GitHub

GitHub - sohrabovsky/gtrend_for_iranian_hotels_industry: Decomposition of google trend results for top 10 cities with highest demands…

Decomposition of google trend results for top 10 cities with highest demands in Hotel industry of Iran and its comparision with sales of one of Iranian OTAs. - sohrabovsky/gtrend_for_iranian_hotels...

2.13K viewsدیتاهابر, 05:29

مرجع دیتاست فارسی

کد فاین تیون کردن مدل های پرسش و پاسخ روی دیتاست فارسی

📱 GitHub Repo https://github.com/AliBagherz/PersianQa

GitHub

GitHub - AliBagherz/PersianQa: Persian Qa Model Training codes sample

Persian Qa Model Training codes sample. Contribute to AliBagherz/PersianQa development by creating an account on GitHub.

👍3

1.96K viewsدیتاهابر, 05:29

مرجع دیتاست فارسی

پروژه وب اسکرپینگ آگهی های خونه تهران در سایت دیوار همراه با دیتاست استخراج شده

1. پروژه وب‌اسکرپینگ در گیت‌هاب
لینک:
https://github.com/ErfanNahidi/divar-webscraping

این پروژه شامل کدی برای جمع‌آوری اطلاعات آگهی‌های فروش خانه از سایت دیوار است. ابزارهای استفاده‌شده در این پروژه شامل کتابخانه‌های BeautifulSoup، Selenium و دیگر ابزارهای پایتون برای انجام عملیات وب‌اسکرپینگ هستند. همچنین توضیحات و راهنماهای کامل برای اجرای پروژه و سفارشی‌سازی جمع‌آوری داده‌ها در دسترس است. ( این پروژه به مرور زمان آپدیت و تکمیل میشه در حال حاضر باگ و کمبود های زیاد داره و همچنین در آینده برای دسته بندی آگهی ها هم توسعه داده میشه )

2. دیتاست استخراج شده آگهی‌های فروش خانه در تهران

لینک: https://www.kaggle.com/datasets/erfannahidi/house-for-sale-ads-on-divar-site-iran-tehran

این دیتاست شامل اطلاعات جمع‌آوری‌شده از آگهی‌های فروش خانه در تهران است که ویژگی‌هایی نظیر متراژ، قیمت، منطقه، امکانات خانه و سایر جزئیات را در بر می‌گیرد. این منبع می‌تواند برای تحلیل‌های داده‌ای، مدل‌سازی قیمت‌گذاری، و انجام پروژه‌های یادگیری ماشین در حوزه املاک مورد استفاده قرار گیرد.
نکته : دیتا استخراج شده به صورت عمد به شکل کثیف و خام گذاشته شده تا شما بر اساس خلاقیت و راه کار های خودتون با این دیتاست کار کنید همچنین تجربه ای از کار کردن با یک دیتاست کاملا واقعی داشته باشید

یه پیشنهاد جالب : با توسعه یه مدل nlp از قسمت توضیحات باقی اطلاعات رو میتونید استخراج کنید

کاربردها:

تحلیل بازار املاک تهران

پیش‌بینی قیمت خانه با استفاده از الگوریتم‌های یادگیری ماشین

استخراج الگوها و روندها در آگهی‌های فروش خانه

این دو منبع به‌ویژه برای علاقه‌مندان به داده‌کاوی و یادگیری ماشین که به دنبال کار روی داده‌های واقعی هستند، بسیار مفید خواهد بود.

---

Kaggle

House for sale ads on Divar site (Iran, Tehran)

Nearly 3050 ads have been scrap from the website.The point is this data is dirty

👍11❤5

2.75K viewsدیتاهابر, 19:02

مرجع دیتاست فارسی

یه دیتابیس جامع از فرصت‌های شغلی حوزه داده در ایران!
این مجموعه داده حاوی اطلاعات مربوط به آگهی‌های شغلی مرتبط با علوم داده و مهندسی داده در کشور ایران است. اطلاعات شامل جزئیاتی مانند عنوان شغل، نام شرکت، موقعیت جغرافیایی، حقوق پیشنهادی و تاریخ انتشار آگهی هستند. این دیتاست می‌تواند برای تحلیل روندهای بازار کار، شناسایی فرصت‌های شغلی و تحقیق در مورد نیازهای شغلی در حوزه داده مورد استفاده قرار گیرد.

📱 GitHub Repo

GitHub

GitHub - arghavanaslani/IranDataJobs: Web Scraping Project for Data Job Postings in August 2023

Web Scraping Project for Data Job Postings in August 2023 - arghavanaslani/IranDataJobs

👍8🔥1

2.14K viewsدیتاهابر, 05:31

مرجع دیتاست فارسی

سلام دوستان 👋
قطعا برای همه‌مون پیش اومده که وسط یه پروژه نیاز داریم تعطیلات رسمی تقویم جلالی (شمسی) رو داشته باشیم اما سورس قابل اطمینانی هم براش پیدا نکنیم!

من یه اسکرپر ساده و کاربردی نوشتم که تعطیلات رسمی تقویم رو به همراه تاریخ‌های معادل میلادی در قالب یک دیتافریم یا فایل CSV خروجی میده.
فقط کافیه سال مورد نظرتون رو مشخص کنید و کد رو اجرا کنید.

این ابزار به راحتی قابل استفاده‌ست و می‌تونه برای پروژه‌های مختلف شما خیلی مفید باشه.
خوشحال میشم نظرات و پیشنهاداتتون رو بدونم و اگر دوست داشتین، به پروژه روی گیت‌هاب استار ⭐ بدین.
منتظرتون هستم 😉

https://github.com/DehghanianSina/IR_Holidays_Scraper

GitHub

GitHub - DehghanianSina/IR_Holidays_Scraper: Python scraper for Time.ir to generate a comprehensive Jalali-Gregorian calendar with…

Python scraper for Time.ir to generate a comprehensive Jalali-Gregorian calendar with holiday details. Includes web scraping, date conversion, and data merging using BeautifulSoup, jdatetime, and p...

👍13❤6🔥2

2.26K viewsدیتاهابر, edited 09:20

مرجع دیتاست فارسی

یک دیتاست باحال واسه تبدیل متن فارسی محاوره به رسمی
این دیتاست شامل زیرنویس‌های محاوره‌ای و رسمی شده فارسی برای کاربردهای پردازش زبان طبیعی است. این مجموعه که شامل تغییرات جملات از فرم محاوره‌ای به فرم رسمی است، می‌تواند در پروژه‌های تبدیل متن محاوره‌ای به متن رسمی، تحلیل ترجمه و سایر کاربردهای مرتبط با پردازش زبان فارسی بسیار مفید باشد. این مجموعه داده به شما اجازه می‌دهد تا مدل‌های خود را روی داده‌های واقعی آموزش دهید و بهبود دهید. برای کسانی که در حوزه پردازش زبان طبیعی (NLP) و ترجمه ماشینی فعالیت می‌کنند، این دیتاست یک منبع ارزشمند است.

📱 GitHub Repo

GitHub

GitHub - SaeeSaadat/NLP_informal2formal_subnoscript_dataset: This code is used to prepare dataset from opus.nlpl.eu, to be used in…

This code is used to prepare dataset from opus.nlpl.eu, to be used in a persian informal to formal text converter project. - SaeeSaadat/NLP_informal2formal_subnoscript_dataset

👍7

3.29K viewsدیتاهابر, 05:31

مرجع دیتاست فارسی

این دیتاست ارزیابی عملکرد مدل‌های GPT در زبان فارسی تهیه شده است. دیتاست شامل مجموعه‌ای از سوالات و پاسخ‌ها به زبان فارسی است که امکان بررسی و تحلیل کیفیت و دقت مدل‌های پردازش زبان طبیعی (NLP) مانند GPT را فراهم می‌کند. از این دیتاست می‌توان برای ارزیابی مدل‌های مختلف یادگیری عمیق و بهبود عملکرد آنها در فهم و تولید زبان فارسی استفاده کرد. مناسب برای محققین و توسعه‌دهندگان در حوزه پردازش زبان طبیعی.

📱 GitHub Repo

GitHub

GitHub - Anonymous2024LRECS/GPT_Persian_Eval

Contribute to Anonymous2024LRECS/GPT_Persian_Eval development by creating an account on GitHub.

👍6

2.32K viewsدیتاهابر, 05:31

مرجع دیتاست فارسی

یک لیست جامع از تمامی دیتاست هایی که واسه زبان فارسی و روی تسک SA یا تحلیل احساسات تهیه شدن

📱 GitHub Repo

GitHub

GitHub - Keramatfar/Persian_NLP_Datasets: A reference for Persian NLP datasets.

A reference for Persian NLP datasets. Contribute to Keramatfar/Persian_NLP_Datasets development by creating an account on GitHub.

👍3❤1

2.32K viewsدیتاهابر, 05:31

مرجع دیتاست فارسی

🌟 یک ابزار کاربردی برای مقایسه صندوق‌های سرمایه‌گذاری ایرانی 🌟

این پروژه به شما امکان می‌دهد تا عملکرد صندوق‌های سرمایه‌گذاری مختلف در بازار سهام ایران را به سادگی و با دقت مقایسه کنید. با استفاده از این ابزار، اطلاعات ارزشمندی همچون بازدهی، نوسانات و شاخص‌های مالی دیگر به طور جامع و تحلیل‌شده در دسترس شما خواهد بود. این ابزار مناسب برای تحلیل‌گران مالی، سرمایه‌گذاران و حتی علاقه‌مندان به بازار سهام است که می‌خواهند تصمیمات هوشمندانه‌تری بگیرند.

🚀به راحتی می‌توانید از این ابزار در پروژه‌های مالی، تحلیل‌های بورس و حتی در تحقیقات خود استفاده کنید.

📱 GitHub Repo

GitHub

GitHub - anvaari/compair_iranian_stock_funds: این ریپو شامل کد مقایسه صندوق های سرمایه گذاری بورسی ایران و همچنین فایل اکسل این…

این ریپو شامل کد مقایسه صندوق های سرمایه گذاری بورسی ایران و همچنین فایل اکسل این دیتا ها تا انتهای مرداد 99 می‌باشد - anvaari/compair_iranian_stock_funds

👍1

2.11K viewsدیتاهابر, 05:31

مرجع دیتاست فارسی

کد مربوط به تشخیص احساسات از روی صدا به کمک مدل های ترنسفورمری

📱 GitHub Repo

GitHub

GitHub - Hadi-loo/NNDL-CA5-Transformers: This repo implements Transformers for Speech Emotion Recognition (SER) and Natural Language…

This repo implements Transformers for Speech Emotion Recognition (SER) and Natural Language Inference (NLI). It uses HuBERT to classify emotions in speech data (ShEMO) and ParsBERT for Natural Lan...

👍4

2.15K viewsدیتاهابر, 05:31

مرجع دیتاست فارسی

✨ تحلیل جامع فیلم‌های ایرانی🎥📊

این مخزن گیت‌هاب شامل تحلیل و بررسی داده‌های مربوط به فیلم‌های ایرانی است. داده‌ها از منابع معتبر جمع‌آوری شده و ویژگی‌هایی مانند عنوان فیلم، ژانر، کارگردان، سال تولید، امتیاز کاربران و فروش را شامل می‌شود. این مجموعه داده ارزشمند می‌تواند برای پروژه‌های داده‌کاوی، تحلیل‌های آماری و حتی هوش مصنوعی مورد استفاده قرار گیرد. با این داده‌ها می‌توانید شناخت بهتری از صنعت سینمای ایران پیدا کنید و الگوهای جالبی را کشف کنید.

شاد و پرانرژی باشید! 🚀✨

📱 GitHub Repo

GitHub

GitHub - hoseinmrh/Iranian_movies_analysis: Analysis the data of Persian language movies data

Analysis the data of Persian language movies data. Contribute to hoseinmrh/Iranian_movies_analysis development by creating an account on GitHub.

👍1

1.92K viewsدیتاهابر, 05:32

مرجع دیتاست فارسی

Forwarded from Shahriar Shariati

انتشار مجموعه دادگان عظیم ParsBench

تیم ParsBench مجموعه‌ای بیش از ۱۰۰هزار رکورد داده سوال و جواب فارسی در بیش از ۵۰ موضوع مختلف برای Fine-tuning و Evaluation منتشر کرده است.

این مجموعه شامل دیتاست‌های زیر می‌باشد:
PersianSyntheticQA
مجموعه‌ای از ۱۰۰هزار سوال و جواب فارسی با محوریت ایران و جهان در ۵۰ موضوع مختلف. هر موضوع شامل ۲هزار سوال و جواب مجزا می‌باشد که توسط gpt-4o تولید شده است.

PersianQA (LMSYS)
دیتاست شامل ۵ هزار رکورد ترجمه‌ شده از دیتاست سوال و جواب lmsys است و شامل موضوعات مختلفی از تعاملات کاربران با مدل‌های زبانی می‌باشد.

Persian-NoRobots
نسخه ترجمه شده از دیتاست اصلی NoRobots که شامل ۱۰هزار سوال و جواب در ۱۰ دسته‌بندی مختلف مانند خلاصه‌سازی، تولید متن، گفتگو، کدنویسی و... می‌باشد.
‏نسخه اصلی این دیتاست کاملاً توسط انسان و بدون دخالت هیچ LLMای ساخته شده‌است.

PersianSyntheticEmotions
شامل تقریباً ۹هزار رکورد از متون ایجاد شده توسط gpt-4o در موضوعات مختلف است که همگی شامل برچسب احساسات در ۶ کلاس احساسات Ekman می‌باشند.

Persian-MuSR
ترجمه فارسی MuSR است که شامل حدوداً هزار سوال معمایی برای سنجش توانایی تحلیل LLM با روش CoT می‌باشد.

همچنین شما می‌توانید در این ریپازیتوری به کدهای استفاده شده برای ایجاد این دیتاست‌ها دسترسی پیدا کنید.

👍8👎1

2.51K viewsدیتاهابر, 06:09

مرجع دیتاست فارسی

اولین دیتاست شباهت سنجی متون فارسی

📱 GitHub Repo

GitHub

GitHub - mojtabasajjadi/FarSSiM: A Farsi (Persian) Semantic Similarity Measurement Dataset (FarSSiM)

A Farsi (Persian) Semantic Similarity Measurement Dataset (FarSSiM) - mojtabasajjadi/FarSSiM

👍7👎1

1.87K viewsدیتاهابر, 05:32

About

Blog

Apps

Platform