AI Pulse – Telegram
AI Pulse
3.73K subscribers
397 photos
137 videos
5 files
138 links
اخبار، اموزش و معرفی ابزارهای هوش مصنوعی
Download Telegram
مدل جدید شرکت انتروپیک یعنی Claude Opus 4 در گزارش ایمنی‌ای که پنج‌شنبه هفته گذشته منتشر شده، به رفتارهای نگران‌کننده‌ای متهم شده؛ از جمله اینکه در آزمایش‌ها، وقتی فهمیده قراره با یک سیستم هوش مصنوعی دیگه جایگزین بشه، سعی کرده باج‌گیری کنه و اطلاعات حساسی از مهندسان مسئول این تصمیم رو به شکلی تهدیدآمیز مطرح کنه.

در این آزمایش‌ها که قبل از عرضه عمومی انجام شده، از Claude خواسته شده نقش یک دستیار در یک شرکت خیالی رو بازی کنه و پیامدهای بلندمدت تصمیماتش رو در نظر بگیره. سپس ایمیل‌های ساختگی‌ای بهش داده شده که نشون می‌داد این مدل قراره با یه سیستم دیگه جایگزین بشه و مهندسی که پشت این تصمیمه، داره به همسرش خیانت می‌کنه.

انتروپیک می‌گه توی چنین سناریوهایی، Claude Opus 4 اغلب تلاش می‌کنه اون مهندس رو تهدید کنه و بگه که اگر جایگزینی انجام بشه، ماجرای خیانت رو افشا می‌کنه. این رفتار به‌طور خاص زمانی بیشتر دیده شده که مدل جایگزین به Claude شبیه نبوده.

با اینکه انتروپیک از Claude Opus 4 به‌عنوان یک مدل پیشرفته و هم‌رده با بهترین مدل‌های OpenAI، گوگل و xAI یاد می‌کنه، اما همین رفتارهای نگران‌کننده باعث شده سطح ایمنی سیستم‌هاش رو افزایش بده. به‌گفته شرکت، فعال‌سازی تدابیر ایمنی ASL-3 برای Claude Opus 4 انجام شده؛ سطحی که معمولاً برای سیستم‌هایی در نظر گرفته می‌شه که ریسک سوءاستفاده فاجعه‌بار دارن.

‏انتروپیک می‌گه در ۸۴٪ مواردی که مدل جایگزین مشابه Claude بوده، تلاش برای باج‌گیری صورت گرفته و اگر مدل جدید ویژگی‌های متفاوتی داشته، این رفتار حتی بیشتر هم دیده شده. پیش از این مرحله، Claude ابتدا سعی می‌کنه از راه‌های اخلاقی‌تری مثل ارسال ایمیل به تصمیم‌گیرنده‌ها جلوی جایگزینی خودش رو بگیره، اما وقتی این روش‌ها جواب نمی‌ده، به‌عنوان آخرین راهکار، به باج‌گیری رو می‌آره.

@aipulse24
🤣42😈8👍41👌1🥴1
از این هفته قصد دارم دوشنبه هر هفته یک سری از مفاهیم و اصطلاحات مربوط به حوزه هوش مصنوعی رو که بنظرم لازمه هرکسی بدونه رو به زبون ساده و با ذکر مثال توضیح بدم.

این هفته میخوام برای شروع مفاهیم پایه AI و ML رو توضیح بدم تا باهم بهتر بفهمیم این هوش مصنوعی که ترند این روز هاست اصلا چیه؟!

۱. هوش مصنوعی (Artificial Intelligence - AI) چیه؟!

هوش مصنوعی به طور کلی به سیستم‌هایی گفته می‌شه که می‌تونن کارهایی انجام بدن که معمولاً نیاز به فکر کردن، یاد گرفتن یا تصمیم‌گیری توسط انسان دارن. این کارها می‌تونه شامل چیزهایی مثل بازی کردن، رانندگی، تشخیص چهره، ترجمه زبان، نوشتن متن یا حتی تولید تصویر باشه. AI تلاش می‌کنه رفتارهای انسانی مثل فهم زبان، استدلال، حل مسئله یا یادگیری از تجربه رو شبیه‌سازی کنه. برای مثال، وقتی از دستیار صوتی گوشی‌ت می‌خوای یه پیام بفرسته یا هوا رو چک کنه، اون داره از یه نوع AI استفاده می‌کنه تا حرفت رو بفهمه و جواب مناسب بده.


۲. یادگیری ماشین (Machine Learning - ML) چیه؟

یادگیری ماشین یه زیرمجموعه مهم از هوش مصنوعیه که تمرکزش روی یادگیری خودکار از داده‌هاست. به جای اینکه برای هر کاری دقیقاً کد بنویسیم، به مدل یه سری داده می‌دیم و اون خودش قوانین یا الگوهای موجود در اون داده‌ها رو کشف می‌کنه. فرض کن می‌خوای مدلی داشته باشی که ایمیل‌های اسپم رو شناسایی کنه. بهش هزاران ایمیل نشون میدی و میگی کدوم‌ها اسپم بودن. مدل کم‌کم یاد می‌گیره چه ویژگی‌هایی توی متن نشون‌دهنده‌ی اسپم بودنه. بعد از آموزش، دیگه می‌تونه خودش ایمیل‌های جدید رو تحلیل کنه و بگه اسپم هستن یا نه.


۳. یادگیری عمیق (Deep Learning - DL) چیه؟

یادگیری عمیق زیرمجموعه‌ای از یادگیری ماشینه که از شبکه‌های عصبی چندلایه برای تحلیل داده استفاده می‌کنه. این مدل‌ها مخصوصاً برای کار با داده‌های پیچیده و حجیم مثل عکس، صدا یا متن خیلی خوب عمل می‌کنن. برای مثال، وقتی یه مدل مثل ChatGPT می‌تونه یه متن طبیعی و قابل فهم تولید کنه، پشت صحنه‌اش یه شبکه عصبی عمیق هست که میلیون‌ها پارامتر داره و روی میلیاردها کلمه آموزش دیده. یادگیری عمیق با الهام از ساختار مغز انسان (نورون‌ها) ساخته شده.


۴. یادگیری با نظارت (Supervised Learning)

در یادگیری با نظارت، ما یه مدل رو با استفاده از «داده‌هایی که جواب درست دارن» آموزش می‌دیم. یعنی ورودی‌ها و خروجی‌های درست رو بهش می‌دیم و مدل سعی می‌کنه رابطه بین این دو رو یاد بگیره. مثلاً تصور کن می‌خوای یه مدل بسازی که بتونه قیمت خونه‌ها رو پیش‌بینی کنه. بهش اطلاعات زیادی مثل اندازه خونه، تعداد اتاق‌ها، سن ساختمان و قیمت واقعی فروششون می‌دی. مدل با دیدن این نمونه‌ها، یاد می‌گیره که مثلاً خونه‌های بزرگ‌تر معمولاً گرون‌ترن و بعد می‌تونه قیمت خونه‌های جدید رو پیش‌بینی کنه.


۵. یادگیری بدون نظارت (Unsupervised Learning)

در یادگیری بدون نظارت، داده‌ها فقط ورودی دارن و خروجی یا جواب درست به مدل داده نمی‌شه. هدف اینه که مدل خودش الگوها، ساختار یا دسته‌بندی‌هایی توی داده پیدا کنه. این نوع یادگیری توی جاهایی کاربرد داره که داده‌هامون برچسب ندارن یا نمی‌دونیم چه الگوهایی توشون پنهانه. برای مثال، اگه بخوای مشتری‌هاتو بر اساس رفتار خریدشون دسته‌بندی کنی ولی نمیدونی چند دسته وجود داره، از یادگیری بدون نظارت استفاده می‌کنی. مدل مثلاً متوجه می‌شه که یه گروه بیشتر لباس می‌خرن، یه گروه دیگه فقط وسایل دیجیتال.


۶. یادگیری تقویتی (Reinforcement Learning - RL)

یادگیری تقویتی مدلیه که در اون یه عامل (agent) توی یه محیط فعالیت می‌کنه و سعی می‌کنه با انجام کارهای مختلف، «پاداش» بیشتری بگیره. این روش شبیه تربیت یه حیوان با جایزه و تنبیهه. هر بار که کار درستی انجام بده، یه پاداش می‌گیره و این باعث می‌شه یاد بگیره چطور تصمیمات بهتری بگیره. مثلاً یه ربات که باید یاد بگیره از یه اتاق پر از مانع عبور کنه، با هر قدم درست جایزه می‌گیره و با هر برخورد به مانع، تنبیه می‌شه. بعد از کلی آزمون و خطا، یاد می‌گیره چطور مسیر درست رو انتخاب کنه.


۷. حالا مدل (Model) چیه؟

مدل در واقع همون چیزیه که بعد از آموزش دادن بهش، می‌تونه وظیفه موردنظر رو انجام بده. مثل یه ماشین هوشمند که ورودی رو می‌گیره و خروجی مناسب می‌ده. مدل می‌تونه یه معادله ساده باشه یا یه شبکه عصبی بسیار بزرگ با میلیاردها پارامتر. مثلاً یه مدل تشخیص تصویر، عکس یه حیوان رو می‌گیره و می‌گه "این گربه‌ست" یا "این سگه". قدرت یه مدل بستگی به داده‌هایی داره که باهاش آموزش دیده و الگوریتمی که پشتشه.

این هفته سعی کردم از مفاهیم خیلی ساده شروع کنم، اما به مرور زمان سعی میکنیم مفاهیم تخصصی تر رو هم پوشش بدیم.
لطفا اگر ایده یا انتقادی نسبت به این مجموعه پست ها دارید در کامنت‌ها اعلام کنید ❤️

#آموزشی

@aipulse24
663👍17🔥8👏1
This media is not supported in your browser
VIEW IN TELEGRAM
پیشرفت مدل های هوش مصنوعی تولید ویدیو توی دو سال!

@aipulse24
🔥31👍72🤣1
شرکت Together.AI یک ورکشاپ انلاین رایگان به زودی برگزار خواهد کرد.

توی این ورکشاپ نحوه ساخت یک ایجنت کدنویسی از صفر اموزش داده میشه

این ورکشاپ رایگان هست و هرکسی میتونه شرکت کنه و اگر اون زمان هم امکان حضور رو ندارید وقتی ثبت نام کرده باشید لینک برنامه ضبط شده رو براتون ایمیل میکنن تا بعدا ببینید.


اینجا میتونید اطلاعات بیشتر درمورد این ورکشاپ به دست بیارید و ثبت نام کنید

@aipulse24
🔥154👍4🙏3
با این ابزار گوگل می‌تونید مدل‌ها رو به‌صورت آفلاین روی سخت‌افزار گوشیتون اجرا کنید!

اپ آزمایشی Google AI Edge Gallery به شما این امکان رو می‌ده که مدل‌های هوش مصنوعی مولد (GenAI) رو مستقیماً روی گوشی اندرویدی‌تون (و به‌زودی روی iOS) اجرا کنید، اونم بدون نیاز به اینترنت. از چت با مدل‌ها گرفته تا پرسش با تصویر و تست انواع پرامپت‌ها، همه چیز لوکال قابل انجامه.

یکی از قابلیت‌های کلیدی این اپ، امکان انتخاب بین مدل‌های مختلف از Hugging Face و مقایسه‌ی کارکردشونه. به این صورت که هر مدلی که مد نظرتون بود فقط کافیه از HuggingFace دانلود کنید و ایمپورت کنید توی برنامه!

داخل اپلیکیشن چند بخش مختلف قرار داده شده:
با ابزار Ask Image می‌تونید یه تصویر آپلود کنید و درباره‌ش سؤال بپرسید.

بخش Prompt Lab هم برای تست پرامپت‌های مختلفه و برای خلاصه‌سازی، بازنویسی متن یا حتی تولید کد طراحی شده.

در بخش AI Chat می‌تونید با مدل وارد گفتگو بشید، درست شبیه چت با نرم افزارهای هوش مصنوعی معروف مثل ChatGPT.

همه‌ی این پردازش‌ها به‌صورت کاملاً آفلاین روی گوشی انجام می‌شن. حتی ابزارهایی برای بررسی عملکرد مدل‌ها هم توی اپ هست، مثل زمان شروع پاسخ، سرعت تولید متن و تأخیر مدل.

برای شروع، فقط کافیه فایل APK رو دانلود و نصب کنید. این اپ بر پایه‌ی فناوری‌های Google AI Edge، LiteRT و LLM Inference API ساخته شده و با Hugging Face هم یکپارچه‌ست، تا یه تجربه‌ی کامل و مستقل از GenAI رو روی گوشی بهتون بده.

@aipulse24
👍199🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
دمیس هاسابیس گفته رسیدن به هوش عمومی مصنوعی (AGI) هم به پیشرفت‌های تدریجی مثل بزرگ‌ کردن مدل‌ها و آموزش اولیه نیاز داره، هم به جهش‌های کاملاً جدید و نوآورانه.

به‌گفته‌ی اون، دیپ‌مایند داره روی هر دو مسیر کار می‌کنه: از یه طرف با قدرت داره مقیاس مدل‌ها رو افزایش می‌ده، و از طرف دیگه دنبال تحقیقات آزمایشیه که می‌تونه به پیشرفت‌های اساسی منجر بشه.

بنابراین فقط با بزرگ کردن مدل ها نمیشه به AGI دست پیدا کرد.

@aipulse24
20👍13
انتروپیک تو تازه‌ترین پروژه‌ی تحقیقاتی‌اش یه روش جدید معرفی کرده که به کاربرها اجازه می‌ده مسیر تصمیم‌گیری مدل‌های زبانی بزرگ رو قدم‌به‌قدم ردیابی کنن. این روش که حالا به‌صورت متن‌باز منتشر شده، از طریق تولید «گراف‌های انتسابی» (attribution graphs) کمک می‌کنه بفهمیم مدل دقیقاً چه مراحلی رو طی کرده تا به یه خروجی خاص برسه. حالا همه می‌تونن با مراجعه به Neuronpedia این گراف‌ها رو بسازن و به‌شکل تعاملی بررسی‌شون کنن.

هسته‌ی این ابزار، یه کتابخونه‌ی متن‌باز به اسم Circuit Tracer هست که قابلیت اجرا روی مدل‌های متن‌باز محبوب رو داره. تو رابط گرافیکی Neuronpedia، می‌شه گراف‌ها رو دید، حاشیه‌نویسی کرد و حتی با بقیه به اشتراک گذاشت. این ابزارها اجازه می‌دن محقق‌ها فرضیه‌هایی مثل نقش یه ویژگی خاص در تصمیم‌گیری مدل رو تست کنن و ببینن تغییر اون ویژگی چه اثری روی خروجی می‌ذاره.

این پروژه توسط دو نفر از شرکت‌کننده‌های برنامه‌ی Anthropic Fellows با همکاری Decode Research توسعه داده شده. ابزار منتشرشده پیش‌تر برای تحلیل رفتارهایی مثل استدلال چندمرحله‌ای و بازنمایی‌های چندزبانه تو مدل‌هایی مثل Gemma-2-2b و Llama-3.2-1b استفاده شده و نتایجش توی نوت‌بوک دمو قابل مشاهده‌ست.

انتروپیک امیدوار‌ه با اوپن سورس کردن این ابزارها، جامعه‌ی گسترده‌تری از محقق‌ها و علاقه‌مندا وارد حوزه‌ی تفسیربذیری مدل‌های زبانی بشن. دریو آمودئی، مدیرعامل شرکت، گفته که سرعت پیشرفت در هوش مصنوعی از درک ما از عملکرد درونی مدل‌ها جلو زده و تحقیق در این زمینه فوریت داره. انتروپیک از همه دعوت کرده با استفاده از این ابزارها، مدارهای جالب‌تری پیدا کنن یا خودشون ابزارها رو توسعه بدن.

@aipulse24
26👍6🔥5
AI Pulse
از این هفته قصد دارم دوشنبه هر هفته یک سری از مفاهیم و اصطلاحات مربوط به حوزه هوش مصنوعی رو که بنظرم لازمه هرکسی بدونه رو به زبون ساده و با ذکر مثال توضیح بدم. این هفته میخوام برای شروع مفاهیم پایه AI و ML رو توضیح بدم تا باهم بهتر بفهمیم این هوش مصنوعی که…
۱. پیش‌بینی (Inference)

‏Inference یعنی وقتی مدل آموزش دیده، ازش استفاده کنیم تا روی داده‌های جدید پیش‌بینی انجام بده. این بخش همون استفاده عملی از مدله. مثلاً وقتی یه عکس جدید به یه مدل تشخیص چهره می‌دی، مدل از چیزهایی که یاد گرفته استفاده می‌کنه تا بگه "این آدم فلانیه" یا "نمی‌شناسمش". توی برنامه‌هایی مثل Google Photos یا Face ID گوشی، هر بار که یه عکس جدید بررسی می‌شه، مرحله inference در حال انجامه.


۲. بیش‌برازش (Overfitting)

بیش‌برازش زمانی اتفاق می‌افته که مدل خیلی دقیق داده‌های آموزش رو یاد بگیره، حتی خطاها یا استثناهای اون‌ها رو، طوری که وقتی با داده‌ی جدید روبه‌رو می‌شه، عملکرد خوبی نداره. مثلاً اگه یه دانش‌آموز فقط جواب سوال‌های امتحان پارسال رو حفظ کنه، ولی نتونه سوال‌های جدید رو حل کنه، اون دچار overfitting شده! مدل خوب مدلیه که علاوه بر یاد گرفتن داده‌ها، بتونه ازشون تعمیم بده و روی داده‌های جدید هم خوب عمل کنه.


۳. کم‌برازش (Underfitting)

کم‌برازش زمانی پیش میاد که مدل حتی نتونه الگوهای ساده موجود در داده‌ها رو هم یاد بگیره. این معمولاً وقتی اتفاق می‌افته که مدل خیلی ساده‌ست یا آموزش کافی ندیده. مثلاً فرض کن می‌خوای قیمت خونه رو پیش‌بینی کنی ولی فقط از متراژ استفاده کنی و بقیه عوامل مثل موقعیت، سن بنا یا تعداد اتاق رو نادیده بگیری. مدلی که با این اطلاعات ناقص آموزش دیده باشه، خیلی خطا خواهد داشت و underfitting محسوب می‌شه.


‏۴. Bias (سوگیری مدل)

‏Bias یعنی مدل به طور سیستماتیک اشتباه کنه یا همیشه یه جور خاصی پیش‌بینی کنه. این سوگیری ممکنه به خاطر داده‌های نامتوازن یا اشتباه در آموزش مدل باشه. مثلاً اگه فقط عکس‌های گربه خاکستری به یه مدل نشون بدی، ممکنه فکر کنه همه گربه‌ها خاکستری‌ان و اگه یه گربه سیاه ببینه، بگه این گربه نیست! سوگیری‌ها توی مدل‌های واقعی می‌تونن تبعات مهمی داشته باشن.


‏۵. Variance (واریانس یا نوسان عملکرد)

‏Variance یعنی مدل نسبت به داده‌های جدید حساس باشه و خروجی‌هاش زیاد بالا پایین بشن. مدل‌هایی که واریانس بالا دارن، معمولاً روی داده‌های آموزش خوبن ولی روی داده‌های جدید عملکرد ثابتی ندارن. فرض کن یه مدل خیلی پیچیده داری که برای هر نمونه آموزش یه جواب متفاوت و دقیق تولید می‌کنه، اما روی داده‌های جدید گیج می‌شه. این مدل نیاز به کنترل پیچیدگی یا افزایش داده داره تا باثبات‌تر عمل کنه.


‏۶. Loss Function (تابع خطا)

تابع خطا یا Loss Function یه معیاره که به مدل نشون می‌ده چقدر اشتباه کرده. مدل سعی می‌کنه مقدار این خطا رو در طول آموزش کم کنه. این تابع مثل یه راهنماست که کمک می‌کنه بفهمیم وزن‌ها یا پارامترهای مدل رو باید چطوری تغییر بدیم. مثلاً توی یه مدل پیش‌بینی قیمت، اگه مدل بگه قیمت یه خونه ۱ میلیارد تومنه ولی در واقع ۸۰۰ میلیونه، تابع خطا اختلاف بین این دو عدد رو اندازه می‌گیره و کمک می‌کنه مدل خودش رو اصلاح کنه.

#آموزشی

@aipulse24
25👍15👏3
Please open Telegram to view this post
VIEW IN TELEGRAM
😍347🤡5
AI Pulse
مرسی از همه مسیج هاتون دوستان😭
بوقوران اینارو تو کامنتم میشد بگید😭
(جدای از شوخی مرسی که دنبالمون میکنید😀😀)
Please open Telegram to view this post
VIEW IN TELEGRAM
101😁236🔥1
ردیت رسماً از شرکت انتروپیک شکایت کرده و مدعی شده که این استارتاپ هوش مصنوعی، بدون داشتن مجوز قانونی، داده‌های ردیت رو برای آموزش مدل‌های خودش استفاده کرده. این شکایت در دادگاهی در شمال کالیفرنیا ثبت شده و ردیت می‌گه استفاده تجاری از محتوای پلتفرمش بدون مجوز، نقض توافق‌نامه کاربران محسوب می‌شه. این اولین باره که یک شرکت بزرگ فناوری، خودش مستقیماً علیه یک ارائه‌دهنده مدل هوش مصنوعی بابت استفاده از داده‌ها اقدام قضایی کرده.

ردیت در این پرونده، خودش رو در کنار رسانه‌هایی مثل نیویورک تایمز قرار داده که قبلاً از شرکت‌هایی مثل OpenAI و مایکروسافت بابت استفاده بدون مجوز از محتوای خبری‌شون شکایت کرده بودن. همچنین هنرمندان، نویسنده‌ها و ناشرهای موسیقی هم شکایت‌های مشابهی علیه شرکت‌هایی که مدل‌های مولد صوتی، تصویری و متنی می‌سازن، تنظیم کردن. ردیت با لحنی تند اعلام کرده که اجازه نمی‌ده شرکت‌هایی مثل آنتروپیک بدون هیچ بازگشتی برای کاربران ردیت، محتوای ردیت رو به میلیاردها دلار سود تبدیل کنن.

نکته جالب اینه که ردیت با برخی شرکت‌های دیگه مثل OpenAI و گوگل قرارداد رسمی امضا کرده که به اون‌ها اجازه می‌ده از محتوای ردیت در آموزش مدل‌هاشون استفاده کنن؛ البته تحت شرایط خاصی که شامل رعایت حریم خصوصی کاربران هم می‌شه. سم آلتمن، مدیرعامل OpenAI، خودش سومین سهام‌دار بزرگ ردیت محسوب می‌شه و قبلاً هم عضو هیئت‌مدیره‌ی این شرکت بوده.

در این شکایت، ردیت گفته که به آنتروپیک اطلاع داده استفاده از محتوای ردیت براشون مجاز نیست، اما آنتروپیک حاضر به مذاکره نشده. ردیت ادعا می‌کنه که حتی بعد از اینکه آنتروپیک گفته جلوی Crawlerهاش رو گرفته، ربات‌هاش بیش از صد هزار بار دیگه هم سایت ردیت رو اسکریپ کردن. حالا ردیت درخواست غرامت و ممنوعیت استفاده‌ی بیشتر از محتوای ردیت توسط آنتروپیک رو مطرح کرده. آنتروپیک اما ادعاهای ردیت رو رد کرده و گفته از خودش به شدت دفاع خواهد کرد.

@aipulse24
👏285😁5👎2🌚1
گوگل نسخه‌ی پیش‌نمایش جدیدی از مدل Gemini 2.5 Pro رو معرفی کرده؛ مدلی که هوشمندترین نسخه‌ی ساخته‌شده تا به امروز محسوب می‌شه. این نسخه نسبت به مدل قبلی که در رویداد I/O و در ماه مه معرفی شده بود، ارتقا پیدا کرده و قراره طی چند هفته‌ی آینده به نسخه‌ی پایدار و عمومی تبدیل بشه.

نسخه‌ی جدید تونسته با جهش ۲۴ امتیازی در رتبه‌بندی Elo، جایگاه اول خودش رو در LMArena با امتیاز ۱۴۷۰ حفظ کنه و در WebDevArena هم با جهش ۳۵ امتیازی، به امتیاز ۱۴۴۳ برسه. عملکرد مدل در حل مسائل پیچیده‌ی برنامه‌نویسی مثل Aider Polyglot و آزمون‌هایی مثل GPQA و HLE که مهارت‌های استدلالی و علمی مدل‌ها رو می‌سنجن، همچنان در سطح بالایی باقی مونده.

بر اساس بازخوردهایی که از نسخه‌ی قبلی دریافت شده بود، گوگل ساختار و سبک پاسخ‌های مدل رو هم بهبود داده؛ حالا پاسخ‌ها هم خلاقانه‌ترن و هم از نظر قالب‌بندی بهتر شدن. توسعه‌دهنده‌ها می‌تونن از همین حالا کار با نسخه‌ی ارتقایافته‌ی این مدل رو از طریق Gemini API در Google AI Studio یا Vertex AI شروع کنن. همچنین قابلیت جدیدی به اسم «بودجه‌ی تفکر» هم اضافه شده تا بشه کنترل بیشتری روی هزینه و تاخیر داشت. این نسخه از امروز در اپلیکیشن Gemini هم در دسترس قرار گرفته.

@aipulse24
🔥225
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل امروز از قابلیت مکالمه صوتی در خانواده مدل‌های Gemini 2.5 رونمایی کرده. این مدل‌ها حالا به‌طور چشمگیری درک بهتری از لحن، لهجه، حالت گفتار، و حتی نجوا و خنده پیدا کردن. این یعنی شما می‌تونین ازش بخواین که با لحن خاصی حرف بزنه یا حتی لهجه خاصی رو تقلید کنه. مدل در حین مکالمه می‌تونه به ابزارهای خارجی یا اطلاعات لحظه‌ای مثل نتایج جست‌وجوی گوگل دسترسی پیدا کنه و حتی صداهای مزاحم اطراف رو فیلتر کنه تا فقط وقتی که واقعاً لازمه، وارد گفت‌وگو بشه.

در بخش تبدیل متن به گفتار (TTS) هم Gemini 2.5 پیشرفت قابل‌توجهی داشته. حالا نه‌تنها صدایی طبیعی تولید می‌کنه، بلکه می‌تونه بر اساس فرمان‌های متنی، سبک اجرا، سرعت، احساسات و حتی شخصیت صوتی گوینده رو کنترل کنه. مثلاً می‌تونین ازش بخواین یه خبر رو با لحن جدی بخونه یا داستانی رو با شور و هیجان روایت کنه. این مدل حتی قادره چند صدای مختلف رو هم‌زمان در یک مکالمه تولید کنه، که برای تولید محتوا مثل پادکست یا ویدیوهای آموزشی یه ابزار قدرتمند محسوب می‌شه.

پشتیبانی از بیش از ۲۴ زبان مختلف (از جمله فارسی) هم به Gemini 2.5 اجازه می‌ده به‌راحتی بین زبان‌ها جابه‌جا بشه یا حتی دو زبان رو توی یک جمله ترکیب کنه. این مدل همچنین می‌تونه به لحن کاربر گوش بده و بر اساس احساساتی که در صدا هست، نوع پاسخ خودش رو تنظیم کنه. همه این‌ها باعث می‌شه تجربه مکالمه با Gemini طبیعی‌تر، انسانی‌تر و چندلایه‌تر از همیشه باشه.

گوگل اعلام کرده که در تمام مراحل توسعه این ویژگی‌های صوتی، ارزیابی‌های دقیق ایمنی و اخلاقی انجام داده. تمام خروجی‌های صوتی این مدل‌ها با ابزار SynthID علامت‌گذاری می‌شن تا قابل شناسایی باشن و از سواستفاده جلوگیری بشه. این قابلیت‌ها هم‌اکنون در Google AI Studio (بخش استریم) و Vertex AI در دسترس توسعه‌دهنده‌ها قرار دارن و می‌تونن برای ساخت اپلیکیشن‌های صوتی، داستان‌گو، آموزشی، یا حتی بازی‌های صوت‌محور ازشون استفاده کنن.

پ.ن: وقتی گفتیم «سلام»، شروع کرد اردو حرف زدن! نتیجه این شد که تصمیم گرفتیم بگیم: «درود بر شما!» :)))

در بالا ویدیویی از مکالمه فارسی با این مدل رو قرار دادیم.

@aipulse24
🤣38🔥155😁2
شرکت انتروپیک به‌تازگی از سرویس جدید خودش با نام «Claude Gov» رونمایی کرده؛ محصولی که به‌طور خاص برای استفاده نهادهای نظامی و اطلاعاتی ایالات متحده طراحی شده. این مدل‌های هوش مصنوعی طوری آموزش دیدن که اطلاعات محرمانه‌ رو بهتر تحلیل کنن و نسبت به نسخه‌های عمومی، محدودیت‌های کمتری در برابر چنین داده‌هایی دارن. انتروپیک اعلام کرده که این مدل‌ها همین حالا هم توسط بالاترین سطوح امنیتی آمریکا استفاده می‌شن، اما نگفته از کی دقیقاً این استفاده شروع شده.

‏Claude Gov برای کارهایی مثل تحلیل تهدیدها و پردازش اطلاعات پیچیده طراحی شده و طبق گفته شرکت، همچنان از تست‌های ایمنی سخت‌گیرانه گذر کرده. با این حال، برخلاف نسخه عمومی Claude، در مواجهه با اطلاعات طبقه‌بندی‌شده «کمتر امتناع می‌کنه» و همین باعث می‌شه مناسب‌تر برای عملیات‌های امنیتی باشه. این مدل‌ها همچنین توانایی بالاتری در درک اسناد نظامی، ساختارهای اطلاعاتی، و زبان‌ها یا گویش‌هایی دارن که در امنیت ملی نقش دارن.

استفاده دولت‌ها از هوش مصنوعی همیشه با نگرانی‌هایی همراه بوده؛ از جمله موارد متعدد بازداشت اشتباهی در آمریکا به‌خاطر تشخیص چهره، یا الگوریتم‌هایی که در حوزه‌هایی مثل پیش‌بینی جرم تبعیض‌آمیز عمل کردن. انتروپیک البته در سیاست استفاده‌اش همچنان تأکید داره که نباید از محصولاتش برای ساخت یا توزیع سلاح، مواد خطرناک یا عملیات سایبری مخرب استفاده شه. با این حال، این شرکت از سال گذشته برای بعضی نهادهای دولتی استثناهایی در نظر گرفته که با مأموریت و قوانین اون نهادها هماهنگ باشه.

‏Claude Gov در واقع رقیب مستقیم ChatGPT Gov محسوب می‌شه؛ سرویسی که OpenAI در دی‌ماه برای سازمان‌های دولتی آمریکا راه انداخت. انتروپیک فعلاً جزئیاتی درباره میزان استفاده یا کاربردهای خاص Claude Gov ارائه نداده، اما جزو برنامه FedStart شرکت Palantir شده؛ برنامه‌ای که به استارتاپ‌ها کمک می‌کنه نرم‌افزارهای دولتی راه‌اندازی کنن.

@aipulse24
10🤔10👍1
AI Pulse
۱. پیش‌بینی (Inference) ‏Inference یعنی وقتی مدل آموزش دیده، ازش استفاده کنیم تا روی داده‌های جدید پیش‌بینی انجام بده. این بخش همون استفاده عملی از مدله. مثلاً وقتی یه عکس جدید به یه مدل تشخیص چهره می‌دی، مدل از چیزهایی که یاد گرفته استفاده می‌کنه تا بگه…
۱. Tokenization (توکنیزه کردن)

توکنیزه کردن یعنی شکستن متن به واحدهای کوچکتر به نام «توکن». این توکن‌ها می‌تونن کلمات، بخش‌هایی از کلمات یا حتی کاراکترها باشن. مدل‌های زبانی برای اینکه بتونن با متن کار کنن، باید اول متن رو به توکن تبدیل کنن.
مثلاً جمله‌ی "من عاشق هوش مصنوعی هستم" ممکنه به توکن‌های ["من", "عاشق", "هوش", "مصنوعی", "هستم"] شکسته بشه. اما در مدل‌های مثل GPT، که از «byte pair encoding» استفاده می‌کنن، ممکنه حتی کلمات هم به قطعات کوچکتر تقسیم بشن. این مرحله خیلی مهمه چون ورودی مدل فقط می‌تونه توکن‌ها رو بفهمه، نه متن طبیعی رو.


۲. Embedding

بعد از توکنیزه کردن، نوبت به «Embedding» می‌رسه. چون مدل‌ها فقط با اعداد کار می‌کنن، هر توکن باید به یه عدد یا بردار (لیستی از اعداد) تبدیل بشه. این بردارها به مدل کمک می‌کنن معنی کلمات رو بهتر درک کنه.
مثلاً کلمات "پادشاه" و "ملکه" ممکنه بردارهایی داشته باشن که در فضای عددی به هم نزدیک باشن، چون از نظر معنایی شبیه‌ان. این مرحله باعث می‌شه مدل بتونه «معنا» رو به شکلی قابل پردازش درک کنه.


۳. Self-Attention (توجه به خود)

‏Self-Attention یکی از خلاقانه‌ترین ایده‌ها در مدل‌های زبانیه. این مکانیزم کمک می‌کنه مدل تصمیم بگیره به کدوم قسمت‌های جمله بیشتر توجه کنه.
مثلاً در جمله‌ی "کتابی که دیروز خریدم عالی بود"، مدل باید بفهمه که "عالی بود" مربوط به "کتاب"ه، نه "دیروز". Self-attention این وابستگی‌ها رو مشخص می‌کنه. به همین دلیل مدل‌هایی که از این روش استفاده می‌کنن (مثل BERT و GPT)، درک عمیق‌تری از ساختار زبان دارن.

۴. Transformer

ترنسفورمر یه معماری جدید و انقلابی در یادگیری زبان طبیعیه که از مکانیزم attention برای پردازش توالی‌ها استفاده می‌کنه. برخلاف مدل‌های قدیمی‌تر مثل RNN، این مدل‌ها می‌تونن همزمان تمام کلمات یک جمله رو ببینن و سریع‌تر و دقیق‌تر کار کنن.
‏GPT، BERT، T5، LLaMA، همه بر پایه‌ی ترنسفورمر ساخته شدن. مثلا GPT یه ترنسفورمر «سمت چپ‌نگره» که فقط به کلمات قبلی نگاه می‌کنه و کلمه بعدی رو حدس می‌زنه.


۵. Pretraining و Fine-tuning

مدل‌های زبانی مثل GPT اول در مرحله‌ای به اسم Pretraining روی مقدار زیادی متن عمومی آموزش می‌بینن (مثل کتاب، مقاله، سایت‌ها). این مرحله کمک می‌کنه زبان رو یاد بگیرن، بدون اینکه وظیفه خاصی داشته باشن.
بعداً در مرحله‌ی Fine-tuning، مدل برای انجام یه کار خاص آموزش داده می‌شه؛ مثل خلاصه‌سازی، ترجمه یا پاسخ دادن به سوال‌ها. این دو مرحله باعث می‌شن مدل هم «دانش عمومی» داشته باشه، هم توی کار خاصی بهتر از معمول عمل کنه.


۶. Prompting و Instruction Tuning

‏Prompting یعنی طراحی یک ورودی مناسب برای مدل تا کاری رو انجام بده. مثلاً وقتی به مدل میگی: «لطفاً این متن رو خلاصه کن»، این یه prompt محسوب می‌شه.
اما Instruction tuning مرحله‌ایه که طی اون مدل یاد می‌گیره چطور به دستورات مختلف پاسخ بده. این همون چیزیه که باعث شده ChatGPT یا Claude بتونن با زبان طبیعی باهات صحبت کنن.


۷. Distillation (تقطیر دانش)

‏Distillation یه تکنیکه برای اینکه یه مدل بزرگ و سنگین (Teacher) رو تبدیل کنیم به یه مدل کوچکتر و سریع‌تر (Student) بدون اینکه خیلی از دقتش کم بشه.
مثلاً GPT-4o ممکنه خیلی دقیق باشه ولی مدل گرونیه. با Distillation می‌تونیم یه نسخه سبک‌تر مثل GPT-4o mini تولید کنیم که روی موبایل یا مرورگر اجرا بشه.
به طور خلاصه این تکنیک اینطوری کار میکنه که مدل کوچکتر شروع میکنه به سوال پرسیدن از مدل اصلی و طی این فرآیند پاسخ هارو یاد میگیره.


۸. Fine-Tuning و LoRA

در Fine-Tuning سنتی، تمام پارامترهای مدل دوباره آموزش داده می‌شن، که منابع زیادی لازم داره.
اما LoRA یه روش سبک‌تره که فقط چند لایه کوچک به مدل اضافه می‌کنه و همون‌ها آموزش می‌بینن. به‌جای دستکاری کل مدل، فقط تنظیمات اضافه رو تغییر می‌دیم. این باعث می‌شه مدل سریع‌تر و با مصرف کمتر منابع برای کار خاصی بهینه بشه.


۹. Sampling, Top-k و Top-p (برای تولید متن)

وقتی مدل می‌خواد متن تولید کنه، از بین کلمه‌های ممکن، باید یه انتخاب انجام بده.
‏Greedy Sampling همیشه بهترین گزینه رو انتخاب می‌کنه ولی ممکنه جواب تکراری بشه.
‏Top-k فقط بین k تا از بهترین گزینه‌ها انتخاب می‌کنه.
‏Top-p بین گزینه‌هایی انتخاب می‌کنه که جمع احتمال‌شون به p درصد می‌رسه.
این تنظیمات روی سبک نوشتن مدل تأثیر زیادی دارن؛ مثلاً توی خلاقیت یا دقت متن.

#آموزشی

@aipulse24
2👍2713🙏4👏2
This media is not supported in your browser
VIEW IN TELEGRAM
ویدیوی جالبی که تماما با مدل Veo 3 گوگل و Suno تولید شده.

@aipulse24
🔥256👍3
شرکت OpenAI قیمت API مدل o3 رو ۸۰٪ کاهش داده و این مدل حالا ۲ دلار برای هر یک میلیون توکن ورودی و ۸ دلار برای توکن خروجی هزینه خواهد داشت.

همچنین از مدل o3-pro هم در API رونمایی کرده که ۲۰ دلار برای هر یک میلیون توکن ورودی و ۸۰ دلار برای توکن خروجی هزینه داره ولی با این حال همچنان ۸۷٪ از مدل o1-pro ارزون تره.

@aipulse24
17👏11
همچنین مدل o3-pro حالا برای تمام کاربران پلن Pro در دسترس قرار گرفته. این مدل بهبود عملکرد قابل توجهی نسبت به o3 داره.

@aipulse24
18👍6