مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
🏷 عنوان شغلی: کارشناس پردازش زبان طبیعی

📅 تاریخ آگهی: 1402/07/30

🏦 شرکت: دیتاهاب

🏫 موقعیت مکانی: ریموت

نوع همکاری: #تمام_وقت یا #پاره_وقت

📂 حداقل سابقه: سه سال

💰حقوق: 15 تا 20

🛠 مهارت‌ها: Python , NLP

❇️ اطلاعات بیشتر👇

jobvision.ir/jobs/604677


👉@data_jobs
👍6
سلام ارادت وقت بخیر
ما اخیرا یه دیتاست فارسی برای پرسش و پاسخ مکالمه‌ای درست کردیم و مقاله اون رو آرکایو کردیم و همینطور دیتاست و مدل ها رو داخل گیت‌هاب گذاشتیم
دیتاست بصورت انسانی تهیه شده و همینطور بازبینی شده و عملکرد انسانی اون در کنار بنچ‌مارک ها اومده
ممنون میشم داخل کانالتون معرفی کنید
لینک مقاله:
https://arxiv.org/abs/2312.04362
لینک گیت:
https://github.com/HamedHematian/PCoQA
👍14
https://github.com/Persian-Twitter-Analysis/PersianTwitterDataset

This repository contains the dataset of Persian tweets, fully gathered by us. It contains more than 3300 tweets, and the sentiment of each tweet is labeled into 5 groups:

0: Happy - Joy - Agreement
1: Sad - Upset - Disagreement
2: Angry - Furious
3: Neutral - No Sentiment or emotion
4: Intense Emotions (Passion), encompassing Fear, Surprise, and Love
👍5
Forwarded from دیتاهاب
از طرف تیم دیتاهاب، سال جدید رو بهتون تبریک میگیم 🥳💐
امیدواریم سالی پر از شادی و موفقیت داشته باشین و به ویژه پر از پووول 😍
👍18
DmyShapesDataset

🟢 این پروژه یه ابزار برای ساخت دیتاست‌های اختصاصی برای شکل‌ها ارائه می‌ده و واقعا برای کسانی که میخوان پردازش تصویر و یادگیری ماشین رو شروع کنن به خصوص توی تسک Classification تصاویر و اشکال هندسی خیلی مفیده.

🟢 این امکان رو بهتون می‌ده که تصاویری با شکل‌های مختلف مثل دایره، مربع و مستطیل ایجاد کنید و حتی می‌تونید جزئیاتی مثل اندازه، رنگ پر کردن، و تعداد شکل‌ها در هر تصویر رو سفارشی کنید.

🧑‍💻 GitHub Link
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
توی این ریپو یه مجموعه غنی و کامل از سوالاتی که موقع مصاحبه برای موقعیت شغلی Data Scientist مطرح شده به همراه جوابشون، جمع‌آوری شده.

و از زوایای زیر هم دسته بندی شدن:

🔢 یادگیری ماشین و یادگیری عمیق که موضوعاتی از قبیل جنگل‌های تصادفی، رگراسیون خطی، Loss Function , Cost Function, SVM , Active Learning و ...
🔢 آمار و احتمال شامل سوالاتی درباره آزمون فرض، قضیه حد مرکزی و توزیع داده‌ها و ...
🔢 پایتون با مشکلات و چالش‌های مرتبط با داده‌ها با استفاده از کتابخانه‌هایی مانند Pandas معروف و ...
🔢 پایگاه داده و SQL با سوالات متمرکز بر بازیابی داده و تجزیه و تحلیل داده.
🔢 سوالات مبتنی بر رزومه

💡در کل اگر برای مصاحبه با موقعیت Data Scientist آماده می‌شید، این مخزن می‌تونه منبع مفیدی باشد تا با سوالات رایج معمول و مهارت‌های حل مسئله خود آشنا بشید.

🧑‍💻 GitHub Link
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12
📖 کتاب Understanding Deep Learning از دکتر سیمون جی.دی. پرنس که توسط دانشکده MIT منتشر شده، مفاهیم پایه و اصلی یادگیری عمیق رو به بیان ساده و کاملا کاربردی بیان کرده.

👩‍💻 یکی از بزرگترین مزیت‌های این کتاب اینه که کدها و پیاده‌سازی‌های مربوط به مفاهیم مطرح شده رو به صورت نوت بوک ژوپیتر (ipynb) در کنار کتاب قرار دادن به علاوه اسلاید تمام بخش‌ها و Figure‌های مهم هم میتونین توی همین لینک بهشون دسترسی پیدا کنین.


🔗 Link
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
📱 برای پیدا کردن پوزیشن شغلی توی LinkedIn، یه بات اوپن سورس با پایتون نوشته شده که می‌تونه بهتون کمک کنه و فرآیند درخواست شغل رو رو به طور کاملا خودکار انجام می ده، به طور خاص برای موقعیت های شغلی که گزینه "Easy Apply" دارن.

📱 GitHub Repo

یک دموی نه چندان با کیفیت ۱۹ ثانیه‌ای از عملکرد بات:

📱 YouTube Video

📱 Medium Article
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
یک دوست عزیزی اومدن و یکسری ویدیوهای آموزشی مربوط به مسیر مهاجرت کاری شامل رزومه نویسی، سایت های کاریابی، نحوه اپلای، آماده‌سازی برای مصاحبه، بررسی تجربه زندگی در کشورهای مختلف و... که توی یوتیوب بوده رو یکجا تجمیع و دسته‌بندی کردن

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13
سلام وقتتون به خیر

من اولین بارمه یه دیتاست میسازم

شامل 5000 تا تصویر از ماشین های ایرانی و یه فایل csv که توش مشخصات فنی و نام ماشین قرار داره

https://huggingface.co/datasets/abbastafakory31/iran_car_dataset/discussions/1
👍13
یه دیتاست جدید شامل ۱۱۸۲ تصویر حاوی متون فارسی در زمینه‌های مختلف، برای اون دسته از عزیزانی که حوزه پردازش تصویر و OCR و پردازش متن کار می‌کنن می‌تونه مفید باشه:

🧑‍💻 GitHub Repo

📄 Paper

📱 Dataset

📱 Labels
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
سلام
امیدوارم که حال دلتون خوب باشه

با توجه به داغ شدن اخبار LLMها و مدل‌های جدیدی که هر هفته منتشر میشن، کم و بیش شده که دلمون بخواد که باهاشون چت کنیم و ارزیابی شون کنیم

یا بعضی وقت‌ها برای خودم مثلا پیش میاد یه تسک خیلی خیلی مهم دارم و حتی اگه 1 پراپمت هم بتونم بفرستم به یک مدل خیلی خیلی خوب مثل GPT 4 Turbo که همین اخیر منتشر شده و آخرین مدل OpenAI هست واقعا برام ارزش داره برای همین خیلی گشتم و به این پلتفرم دانشگاه برکلی کالفرنیا رسیدم که در ادامه خدمتتون معرفی می‌کنم:

https://chat.lmsys.org/

+ از بزرگترین مزیت‌هاش اینه که ثبت‌نام و دردسر نداره و راحت میتونین وارد سایتش بشید
+ دسترسی به تمام LLMهای مطرح دنیا رو بهتون میده از غول‌های کلوز سورس‌ها مثل Claude , GPT بگیرید تا اوپن سورس‌های جدید مثل Llama3 (البته کلوز سورس‌ها محدودیت درخواست در هفته دارن بعضیاشون)

پ.ن: تحریم همیشگی (فیلترشکن فراموش نشه)
👍12
وارد سایت که بشید از بخش Direct میتونین مستقیم یه مدل رو انتخاب کنین و شروع کنین چت کردن باهاش
در بخش اول سمت چپ، (Battle)Arena، شما پرامپت رو وارد میکنید و خودش به صورت رندم ۲تا LLM رو انتخاب میکنه و پاسخ هاشون رو بهتون نمایش میده

که البته میتونین امتیاز دهی و voting هم نسبت به مدل‌ها داشته باشید

که هدف اصلی راه اندازی چنین پلتفرمی هم طبق توضیحاتشون همین بحث human evolution هست و این که بتونن یک Leaderboard ای برای کل LLMهای جهان تشکیل بدهند که این لیدربورد رو هم از نوار بالا بهش دسترسی دارید
👍2
و جذاب ترین بخش هم برای خودم در این سایت Side by Side Arena هست که شما بر خلاف حالت Arena Battle که خودش رندم انتخاب می‌کنه، هر ۲ مدل دلخواهتون رو میتونین خودتون انتخاب کنین و جواب هاشون رو مقایسه کنین
تقریبا هر بخشی که از نوار بالا انتخاب کنین در پایین یه باکس هم قرار میگیره که ممکنه به چشم نیاد چون خیلی کوچیک و باریک هست اما این امکان رو میده بهتون که 3 پارامتر Temperature و Top P و Max output tokens رو تنظیم کنین
این دوست عزیز اومدن و یه اسکریپتی رو با پایتون نوشتن که تاریخی که در متن‌های فارسی به انواع حالات نوشته میشه رو استخراج کنه و به یک شکل استانداردی نمایش بده

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22