مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
انتشار دیتاست‌ها و LLMهای فاین‌تیون شده اختصاصی باسلام
+ به همراه کد و بلاگ تجربه مهندسی


آدم‌ها در باسلام می‌تونن خودشون محصولاتشون رو تعریف کنند. در نتیجه استاندارد ثابتی برای محتوا وجود نداره. یکی از چالش‌هایی که ما در تیم matchmaking باسلام داشتیم این بود که چطور از دل این دیتای بدون ساختار، دیتای ساختاریافته استخراج کنیم که بتونیم در الگوریتم‌های جستجو و دیسکاوری ازشون استفاده کنیم.

برای حل این مسئله ما از مدل‌های زبانی بزرگ (LLM) استفاده کردیم. از اون جا که احتمال دادیم پلتفرم‌های دیگه‌ای هم ممکنه مسئله یا چالش‌های مشابهی به خصوص در زبان فارسی داشته باشند، تصمیم گرفتیم کد، دیتاست‌ها و LLM های فاین تیون شده رو Open Source کنیم.

دیتاست‌ها از جنس Instruction-tuning هستند و همچنین مدل‌ها، فاین‌تیون شده‌ی مدل llama-2.

لینک کالکشن هاگینگ‌فیس مدل‌ها و دیتاست‌ها:
https://huggingface.co/collections/BaSalam/product-catalog-generator-6654e4b5c7ff1a0216849ff8

لینک کد Train مدل:
https://github.com/basalam/product-catalog-generator

لینک بلاگ تجربه مهندسی:
https://vrgl.ir/RZxJY

Mohammadreza Esmaeilian
👍14
اگه آلمان مقصد جذابیه براتون این سایت های مهم کلی بهتون کمک می‌کنن:

و قبلش این و بگم که برای محتوای بیشتر دباره کار تو محیط بین المللی می‌تونید تلگرام کی‌ورک رو هم دنبال کنید:
⁩1. www.uni-assist.de یونی اسیست
2. www.studienkollegs.de لیست کالج ها
3. www.teheran.diplo.de سفارت آلمان در تهران
4. www.hochschulkompass.de جستجوی دانشگاه و رشته
5. www.studieren.de جستجوی دانشگاه و رشته
6. www.dsit.org.ir موسسه گوته
7. www.pdexp.com پست پ د ا
8. www.tntiran.com پست تی ان تی
9. www.dhl.co.ir پست دی اچ ال
10. www.karapost.com کاراپست
11. www.study-in.de جستجوی دانشگاه و رشته
12. www.daad-iran.org دآآد ایران
13. www.daad.de دآآد
14. www.gate-germany.de
15. grad.saorg.ir دانشگاه های مورد تایید وزارت علوم
16. www.hochschulstart.de وابسته به اسیست
17. www.studis-online.de
18. www.howtogermany.com
19. www.numbeo.com هزینه زندگی و مشخصات رفاهی شهر ها
20. www.expatistan.com هزینه زندگی در شهر ها
21. www.lebenslauf.com نوشتن زندگی نامه
22. https://lnkd.in/dXm6jPCv
23. https://lnkd.in/dMH2ZMY6
24. www.testas.de تست آس
25. www.testdaf.de تست داف
26. en.dsh-germany.com د اس ها
27. www.skyscanner.net موتور جستجوی پرواز
28. www.applyabroad.org فروم
29. www.academiacafe.com یه فروم دیگه
30. www.stexx.eu بانک اطلاعاتی تحصیل در همه جا
31. www.topuniversities.com (QS)رده بندی دانشگاه ها
32. https://lnkd.in/diCwRhmY رده بندی دانشگاه ها
33. europass.cedefop.europa.eu وبسایت حرفه ای برای نوشتن رزومه
34. www.deutschland.de در مورد آلمان
35. www.worldatlas.com اطلاعات عمومی کشور ها
36. www.gehalt.de درآمد مشاغل مختلف در آلمان به طور میانگین
37. www.studienwahl.de راهنمای تحصیل در آلمان

برای جستجوی خانه و وگ و هاستل و ...

1. www.airbnb.com
2. www.wg-gesucht.de
3. www.homestay.com
4. www.immowelt.de
5. www.wohnungsmarkt24.de
6. www.immobilienscout24.de
7. www.immonet.de
8. www.studenten-wg.de
9. https://lnkd.in/dFTX2Qaj
10. www.wohngemeinschaft.de
11. www.wohnung-fuer-dich.de
12. www.wg-suche.de
13. www.quoka.de
14. Studierendenwerk der Unis
15. Sonntag, Kurier und andere Zeitungen
16. Facebook (Wohnungssuche/wg - wohnungsbörse / wg- Wohnungsmarkt + esme shahr)
17. www.hostelbookers.com
18. www.hostelworld.com
19. www.studenten-wg.de
20. www.booking.com

برای پرداخت هزینه های اپلای و ...(بدون فیلتر شکن وارد شوید!)
1. www.assist-pay.ir
2. www.parsianpay.com
3. www.tehranpayment.com

مفید برای یادگیری زبان و آموزشی:
1. www.memrise.com
2. www.fluentu.com
3. www.coursera.org

خرید اجناس دسته دوم در آلمان :

1. www.gebraucht.de
2. www.ebay-kleinanzeigen.de
3. www.shpock.com

سایت های خوب کاریابی :
1. www.Indeed.de
2. www.Jobrapido.de
3. www.stepstone.de
4. www.jobtopus.de

Shadi Sepehri
👍12
چون حجم پروژه زبان فارسی باستان زیاده و در آینده قراره وسیع تر بشه و خب مسلما در یک ریپازیتوری گیتهاب جا نمیشه؛ به همین علت براش یک اورگانیزیشن (organization) ساختم.

اگه کسی علاقه داشته باشه میتونه روی این پروژه کار کنه؛ بهم ایمیل بزنید تا من در آینده شما رو عضو لیست People کنم، خیلی هم خوشحال میشم🥰.

کارهای غیر فنی و غیر کدی هم زیاد دارم؛ مثلا پیدا کردن کتاب های خوب، مقاله، ساختن world list برای این زبان، جمع آوری دیتای عکس از کتیبه ها یا دیتای متنی از زبان فارسی باستان و ....

https://github.com/Electronic-Persian-Old-Library
👍9
آیا به تجزیه و تحلیل موسیقی علاقه دارید؟ این پروژه گیت‌هاب برای شماست! 🎶
پروژه Music Analyzer به شما امکان می‌دهد تا به تجزیه و تحلیل و پردازش داده‌های موسیقی بپردازید. این ابزار می‌تواند ویژگی‌های مختلف موسیقی را استخراج کرده و اطلاعات مفیدی را در اختیار شما قرار دهد. از این پروژه می‌توانید در پژوهش‌های خود، توسعه اپلیکیشن‌های موسیقی 🎵، یا حتی در پروژه‌های یادگیری ماشین 🤖 استفاده کنید.
برای دسترسی به این ابزار کارآمد، از لینک زیر استفاده کنید:

📱 GitHub Repo
👍8
دیتاست مربوط به instructهای فارسی مناسب برای فاین تیون کردن مدل های زبانی

📱 GitHub Repo
👍9
اگر به حوزه پردازش زبان طبیعی (NLP) و مدل‌های زبانی هوش مصنوعی علاقه‌مندید، این مجموعه داده برای شماست! این پروژه با هدف ارزیابی عملکرد ChatGPT برای زبان فارسی ایجاد شده است. شامل مجموعه‌ای متنوع از سوالات و پاسخ‌ها به زبان فارسی می‌باشد که می‌تواند در پروژه‌های مرتبط با توسعه مدل‌های AI و NLP بسیار کاربردی باشد. می‌توانید از این دیتاست برای ارزیابی و بهبود مدل‌های زبان فارسی در اپلیکیشن‌های چت‌بوت، ترجمه ماشینی و سایر کاربردهای مشابه استفاده کنید.

📱 GitHub Repo
👍8
مجموعه‌ای جامع از کلمات در تمامی زبان‌ها! این ریپازیتوری شامل یک دیتاست بزرگ و کلیه کلمات موجود در زبان‌های مختلف است. برای محققین و علاقه‌مندان به پردازش زبان طبیعی (NLP) و مطالعات زبان‌شناسی می‌تواند بسیار مفید واقع شود. از این دیتاست در پروژه‌های ترجمه خودکار، تشخیص زبان، و تحلیل متنی می‌توانید استفاده کنید.

📱 GitHub Repo
👍3
مجموعه تصاویری از جملات فارسی، شامل 2000 تصویر با کیفیت بالا که حاوی متون فارسی در سبک‌ها و فونت‌های مختلف هستند. این دیتاست برای پروژه‌های پردازش تصویر، OCR و تحلیل متون بسیار مفید است. هدف از ایجاد این مجموعه، ارائه منبعی غنی برای تحقیق و توسعه الگوریتم‌های تشخیص و خواندن متون فارسی در تصاویر است.

📱 GitHub Repo
👍7
PHate is a Persian multi-label hate speech dataset curated for hate speech detection tasks. It includes annotations with annotator rationales, providing valuable insights into the annotators' decision-making process. The dataset comprises 7K data.

📱 GitHub Repo
👍2
این دیتاست شامل مجموعه‌ای از داده‌های فینگلیش (فارسی با الفبای لاتین) می‌باشد که برای استفاده در پروژه‌های تحلیل متن و پردازش زبان طبیعی بسیار مفید است. دیتاست شامل ۲۰۰۰ جمله و بیش از ۵۰۰۰ کلمه مختلف است که از منابع مختلف جمع‌آوری شده‌اند. از این مجموعه داده می‌توان در پروژه‌های تبدیل فینگلیش به فارسی، ساخت مدل‌های زبانی، و حتی بهبود سیستم‌های پیشنهاد دهنده کلمات استفاده کرد.

📱 GitHub Repo
👍7
ترجمه سایت محبوب w3schools

این مخزن شامل مجموعه‌ای جامع از نکات و دستورالعمل‌های پایه‌ای پایتون به زبان فارسی است. مناسب برای کسانی که تازه وارد دنیای برنامه‌نویسی شده‌اند یا به دنبال تمرین و تقویت مهارت‌های اولیه خود در پایتون هستند. با این مخزن می‌توانید مباحث مختلف شامل متغیرها، توابع، حلقه‌ها و استثناها را به طریقی ساده و روان یاد بگیرید. مناسب برای دانش‌آموزان، دانشجویان و هر کسی که می‌خواهد پایتون را از صفر تا صد بیاموزد و در پروژه‌های ساده خود استفاده کند.

📱 GitHub Repo
👍5
The data was meticulously collected from Telegram, focusing on public channels. These channels were identified and curated by our team of agents, dedicated to exploring and discovering relevant content.

Dataset Statistics:
Largest Available Corpus to Date
Average Length of Document: 46 tokens
Number of Documents: 188,874,296
Number of Channels Scraped: 58,000
Uncompressed Size: 123 GB
Channels List: Available in channels.json

📱 GitHub Repo
👍6
یه دیتاست جامع و متنوع شامل متون فارسی تحت عنوان «جام جم کورپوس»،
این مجموعه داده حاوی متون فارسی از سایت جام جم هست. این دیتاست می‌تواند برای پروژه‌های پردازش زبان طبیعی (NLP) و ساخت مدل‌های یادگیری ماشین مورد استفاده قرار گیرد. اگر در حوزه‌هایی مثل تشخیص احساسات، خلاصه‌سازی متون یا ترجمه ماشینی فعالیت می‌کنید، این دیتاست می‌تونه بسیار کاربردی باشه.

📱 GitHub Repo
👍5
این مجموعه داده شامل بیش از 5800 توییت فارسی است که با دقت برچسب‌گذاری شده‌اند (برای تشخیص کنایه) تا موضع کاربران در مورد موضوعات خاص را مشخص کند. این دیتاست به ویژه برای پژوهش‌های مرتبط با پردازش زبان طبیعی (NLP) و تحلیل احساسات کاربرد دارد. از این دیتاست می‌توان در پروژه‌های مختلفی از جمله خلق مدل‌های یادگیری ماشینی برای تشخیص موضع و تحلیل احساسات متون فارسی استفاده کرد.

📱 GitHub Repo
👍131
این پروژه یک مجموعه ابزارهای پردازش متن فارسی پایه رو در اختیار شما قرار می‌ده. با استفاده از این ابزارها می‌تونید کارهایی مثل توکن‌سازی، نرمال‌سازی، استمینگ و حذف توقف‌کلمات رو برای متون فارسی انجام بدید. این ابزارها برای پروژه‌های مرتبط با پردازش زبان طبیعی (NLP) و تحلیل متن بسیار کاربردی هستن. همراه با توضیح و مستندات کامل، این پروژه مناسب برای محققان، توسعه‌دهندگان و علاقه‌مندان به حوزه پردازش زبان فارسی است.

📱 GitHub Repo
👍8
نرم‌افزاری ساده و کاربردی برای تولید کد ملی ایرانی با پایتون! این ابزار به شما امکان می‌دهد تا با استفاده از دستورات CMD و زبان برنامه‌نویسی پایتون، به‌راحتی کد ملی‌های معتبر و صحیح بسازید. این پروژه می‌تواند برای تست واحد (Unit Testing) و تولید داده‌های تصادفی در پروژه‌های مختلف مورد استفاده قرار گیرد. لینک گیتهاب را برای اطلاعات بیشتر مشاهده کنید.

📱 GitHub Repo
👍4
Danial Ebrat

سلام! امیدوارم حال دلتون خوب باشه 😊
بالاخره بعد از این همه مدت گفتم این رو براتون آمادش کنم!
یه نرم افزار ساده نوشتم که میتونه به صورت خودکار از لیست اساتید مورد نظر، متناسب با فیلد تحقیقاتی هر استاد، متن ایمیل و رزومه ی مربوط به اون فیلد رو انتخاب کنه، اسم استاد، دانشگاه و گروهش رو در متن ایمیل جایگذاری کنه، رزومه، و در صورت نیاز دانشنامه رو هم ضمیمه کنه و با عنوانی مشخص، ایمیل رو برای استاد ارسال کنه.
💥

برای دانیال های بعدی در مسیر مهاجرت تحصیلی، اینجوری دیگه تمرکزتون میتونه تنها روی پیدا کردن استاد مناسب با فیلدتون باشه به جای وقت گذاشتن برای ایمیل زدن.
.
من با استفاده از این نرم افزار حدود حدود 30-40 تا مصاحبه گرفتم که در نهایت منجر شد به ۶ پذیرش برای پوزیشن های دکترا.
.
، البته، از کیفیت ایمیل هم غافل نشید! مثل تکه های پازل، سعی کنید هر تکه رو به بهترین شکل ممکن در بیارید.
.
تمام اطلاعات رو میتونید از صفحه ی گیتهاب پروژه بخونید، و در این ویدیو میتونین طریقه ی استفاده از این نرم افزار رو ببینید
.
امیدوارم این نرم افزار مسیرتون رو هموار تر کنه.
اگر وقت کنم (که اصلا معلوم نیست کی) بهتون هم یاد میدم اصلا این ایمیل ها رو از کجا پیدا کنید. روش هایی که تجربی یاد گرفتم و احتمالا تا حالا نشنیدین.
کم و کاستی ها رو ببخشید، سعی کردم با کمال گرایی مبارزه کنم و در ویدیو یوتیوب
مشکلات مشخص هست. 😄

با تشکر از احسان برای ایده ی قشنگش که پایه گذار اصلی به وجود آمدن این پروژه بود ❤️
Ehsan Barkhordar

لینک ویدئو
👍13
سلام دوستان
من یه پکیج پایتون نوشتم برای تبدیل pdf به word فارسی
این پکیج کاملا از زبان فارسی پشتیبانی میکنه.
این پکیح رو تویpypi منتشر کردم
https://pypi.org/project/persian-pdf-converter/2.3.1

اگر براتون مقدوره به ریپازیتوری گیت هاب پکیج ستاره بدین

https://github.com/mahdiramezanii/persian_pdf_converter
👍29
این پروژه به خلاصه‌سازی خودکار گفتار پرداخته است. با استفاده از الگوریتم‌های پردازش زبان طبیعی و تکنیک‌های یادگیری ماشین، این سیستم قادر است گفتار را به متن تبدیل کرده و خلاصه‌ای از آن را ارائه دهد. این پروژه می‌تواند در برنامه‌های متنوعی مانند تولید محتوا، استنطاق خودکار جلسات و استخراج اطلاعات کلیدی از فایل‌های صوتی مفید باشد.

📱 GitHub Repo
👍4