NEW BOT Телеграм, страница

فریمورک OmniHuman که توسط تیم تحقیقاتی ByteDance توسعه داده شده، یک سیستم پیشرفته برای تولید ویدیوهای انسانی هست که با استفاده از یک تصویر و سیگنال‌های حرکتی کار می‌کنه. این مدل با معرفی یک استراتژی آموزشی ترکیبی جدید، تونسته مشکل کمبود داده‌های باکیفیت رو که چالش اصلی روش‌های قبلی بوده حل کنه. نتیجه این پیشرفت، تولید ویدیوهای فوق‌العاده واقع‌گرایانه با استفاده از سیگنال‌های ضعیف، به‌ویژه صدا هست.

از ویژگی‌های منحصر به فرد این سیستم می‌تونیم به پشتیبانی از هر نوع نسبت تصویر اشاره کنیم. مهم نیست تصویر ورودی پرتره باشه، نیم‌تنه یا تمام‌قد - سیستم می‌تونه با همه این‌ها کار کنه و نتایج با کیفیتی تولید کنه. این قابلیت باعث می‌شه OmniHuman برای طیف گسترده‌ای از کاربردها مناسب باشه و محدودیت‌های معمول در سیستم‌های مشابه رو نداشته باشه.

در زمینه تولید ویدیوهای خوانندگی، این سیستم قابلیت‌های چشمگیری داره. می‌تونه با سبک‌های مختلف موسیقی کار کنه و حتی آهنگ‌های با زیر و بم زیاد رو هم پشتیبانی کنه. همچنین در تولید ویدیوهای سخنرانی، OmniHuman تونسته مشکل حرکات دست رو که چالش بزرگی برای سیستم‌های موجود بوده، به خوبی حل کنه و حرکات طبیعی و واقع‌گرایانه‌ای تولید کنه.

یکی از نکات جالب توجه در مورد OmniHuman، تنوع ورودی‌های قابل پذیرش اون هست. این سیستم نه تنها با تصاویر معمولی انسان‌ها کار می‌کنه، بلکه می‌تونه با تصاویر کارتونی، اشیاء مصنوعی و حتی حیوانات هم کار کنه. در هر مورد، سیستم می‌تونه ویژگی‌های حرکتی متناسب با سبک اون تصویر رو حفظ کنه و انیمیشن‌های متناسبی تولید کنه.

نکته مهمی که باید در نظر داشت اینه که برای تولید اکثر ویدیوها، فقط به یک تصویر و یک فایل صوتی نیاز هست.

نسخه کامل وایت پیپر این فریمورک رو میتونید از اینجا مشاهده کنید.

@aipulse24

🔥21🤯3👍1

11.6K viewsMohammad, 16:58

AI Pulse

تشویق مدل به فکر کردن بیشتر، تنها با اضافه کردن Wait به دستور!

محققان دانشگاه استنفورد یک روش جدید برای بهینه‌سازی مدل‌های زبانی معرفی کردن. این روش که s1 نام داره، با استفاده از فقط ۱۰۰۰ نمونه آموزشی و یک تکنیک ساده به نام budget forcing تونسته عملکردی مشابه مدل‌های بزرگ OpenAI مثل o1 به دست بیاره. نکته مهم اینجاست که اکثر مدل‌های موفق در این حوزه مثل DeepSeek r1 از داده‌های آموزشی خیلی بیشتری (حدود ۸۰۰ برابر) استفاده می‌کنن.

محققان استنفورد برای انتخاب این ۱۰۰۰ نمونه از سه معیار اصلی استفاده کردن: کیفیت (داده‌های با فرمت مناسب و بدون خطا)، سختی (مسائلی که مدل‌های پایه نمی‌تونن حل کنن) و تنوع (پوشش حوزه‌های مختلف از ریاضیات تا فیزیک و علوم کامپیوتر). این انتخاب هوشمندانه باعث شده که با وجود حجم کم داده‌های آموزشی، مدل بتونه عملکرد خوبی داشته باشه.

تکنیک budget forcing که در این تحقیق معرفی شده، یک روش ساده اما موثر برای کنترل زمان فکر کردن مدل هست. این تکنیک به دو روش عمل می‌کنه: اول اینکه اگر مدل بیش از حد مشخصی فکر کنه، به طور خودکار پردازش متوقف می‌شه و مدل مجبور به ارائه پاسخ می‌شه. دوم اینکه اگر بخوایم مدل بیشتر فکر کنه، با اضافه کردن کلمه "Wait" به زنجیره استدلال، مدل تشویق می‌شه تا بیشتر روی مسئله تمرکز کنه.

در آزمون‌های مختلف، مدل s1-32B عملکرد قابل توجهی داشته. برای مثال در آزمون‌های ریاضی AIME24 به دقت ۵۶.۷ درصد و در MATH500 به دقت ۹۳ درصد رسیده. همچنین در سوالات علمی سطح دکترا (GPQA Diamond) به دقت ۵۹.۶ درصد دست پیدا کرده که نشون می‌ده این مدل می‌تونه با مدل‌های بزرگ‌تر رقابت کنه.

نکته جالب دیگه اینه که کل فرآیند آموزش این مدل فقط ۲۶ دقیقه روی ۱۶ کارت H100 طول کشیده که در مقایسه با مدل‌های مشابه که نیاز به روزها و هفته‌ها آموزش دارن، بسیار کمتره. این نشون می‌ده که با روش‌های هوشمندانه می‌شه به جای افزایش حجم داده و زمان محاسبات، به نتایج مشابه یا حتی بهتری رسید.

محققان همچنین نشون دادن که با افزایش زمان فکر کردن مدل در زمان استفاده (test-time)، دقت پاسخ‌ها بهبود پیدا می‌کنه. برای مثال در AIME24، وقتی به مدل اجازه داده شد تا ۶ بار بیشتر فکر کنه، دقت از ۵۰ درصد به ۵۷ درصد افزایش پیدا کرد. این نشون می‌ده که حتی بعد از آموزش هم می‌شه با تنظیم پارامترهای اجرا، عملکرد مدل رو بهبود داد.

نسخه کامل این مقاله رو میتونید از اینجا مشاهده کنید.

@aipulse24

👍16❤14🔥1

10.4K viewsMohammad, edited 20:20

AI Pulse

گوگل دیپ‌مایند امروز اعلام کرد که نسخه جدید هوش مصنوعی جمنای ۲.۰ رو برای همه کاربران عرضه کرده. این نسخه که شامل مدل‌های Flash، Pro و Flash-Lite میشه، با قابلیت‌های پیشرفته‌تر و عملکرد بهتر نسبت به نسخه‌های قبلی طراحی شده و می‌تونه کارهای پیچیده‌تری رو انجام بده.

جمنای ۲.۰ Flash، با قابلیت پشتیبانی از ۱ میلیون توکن context window طراحی شده و می‌تونه حجم زیادی از اطلاعات رو پردازش کنه. این مدل به‌خصوص برای توسعه‌دهندگان مناسبه و قراره به‌زودی قابلیت‌های تولید تصویر و تبدیل متن به گفتار هم بهش اضافه بشه.

نسخه Pro این مجموعه که فعلاً در حالت آزمایشی قرار داره، قوی‌ترین عملکرد رو در زمینه کدنویسی داره و می‌تونه دستورات پیچیده رو بهتر درک کنه. این مدل با پشتیبانی از ۲ میلیون توکن، قابلیت جستجو در گوگل و اجرای کد رو هم داره که برای متخصصان و برنامه‌نویس‌ها خیلی کاربردی خواهد بود.

گوگل همچنین یک مدل جدید به نام Flash-Lite رو معرفی کرده که مقرون‌به‌صرفه‌ترین گزینه این خانواده هست. این مدل با حفظ سرعت و هزینه پایین، کیفیت بهتری نسبت به نسخه ۱.۵ داره و می‌تونه برای کاربردهای عمومی مثل تولید توضیحات تصویر مورد استفاده قرار بگیره.

تیم توسعه‌دهنده تاکید کرده که در کنار افزایش قابلیت‌های این مدل‌ها، روی ایمنی و امنیت اونها هم سرمایه‌گذاری ویژه‌ای انجام داده و از تکنیک‌های یادگیری تقویتی جدید برای بهبود عملکرد و مقابله با تهدیدات امنیتی استفاده کرده.

‏🆓 این مدلها از حالا به صورت رایگان از Google AI Studio قابل استفاده هستن.

@aipulse24

Please open Telegram to view this post

VIEW IN TELEGRAM

5❤16🔥4

10.8K viewsMohammad, edited 20:41

AI Pulse

Forwarded from TechTube 𝕏 تک توب

1:19

This media is not supported in your browser

VIEW IN TELEGRAM

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

شرکت فرانسوی Mistral اپ موبایلش به نام Le Chat رو عرضه کرده که امکان چت با مدلهای بزرگ این شرکت، ساخت عکس با هوش مصنوعی Flux و همچنین اجرای کدها و انالیز داده هارو به صورت رایگان ولی محدود مهیا میکنه.

علاوه بر این، این شرکت قابلیتی به نام Flash Answers رو در سایتش اضافه کرده که با فعال کردن اون چت به مدلی سوییچ میکنه که جوابهارو با سرعت بالایی تا 1100 توکن بر ثانیه برای شما میفرسته که از رقبا بسیار سریعتر هست.

اپ جدید این شرکت از اینجا برای اندروید و از اینجا برای iOS قابل دانلود هست.

🔎 the-decoder

📍 @TechTube

❤14👍1

1.94K viewsSonia, 22:24

AI Pulse

TechTube 𝕏 تک توب

Video

مثلا کل اعضای کانال از کانال تک تیوب نیومدن و ما یک کانال مستقل هستیم که از بقیه حمایت میکنیم😭

😭

Please open Telegram to view this post

VIEW IN TELEGRAM

😁40🤣25🐳4

2.27K viewsSonia, edited 22:24

AI Pulse

سلاااام من برگشتم بالاخره بعد مدت ها 🥰

یه پست تحلیلی بریم راجع به رودمپ جدیدی که سم التمن درمورد آینده OpenAI داد.

(چون به هرحال نظرات و تحلیل های من خیلی مهمه و در مجامع جهانی مورد بررسی قرار میگیره گفتم زودتر به شماها بگم🤪)

چیزایی که گفته نشده از گفته شده ها توی این تویت مهم ترن!

👀 مشخصه که GPT 5 قرار نیست یه مدل خیلی نزدیک به AGI باشه بلکه یه ایجنت هست! یه سیستم توزیع کننده نیازهای کاربرها به مدل مناسب براساس نوع نیاز

🌕 رویکردی مشابه اپل! که برای کاربر تصمیم میگیره تا مجبور به تصمیم گیری نباشه و براش کار با ابزار روان تر باشه که مزایا و معایب خودش رو داره🌕

چرا؟!😳

چون اگه بخواد جای گوگل رو بگیره با 300 میلیون کاربر فعال نمیتونه! باید برسه به 1 میلیارد و باید از "خوره های هوش مصنوعی" عبور کنه و کاربر معمولی رو هدف قرار بده که حوصله نداره فکر کنه کدوم مدل واسه چی خوبه فقط سریع جواب سوال اش رو میخواد

👀 دیگه o3 رو که قرار بود اوایل 2025 از طریق API به صورت جداگانه فراهم کنه، ارائه نمیده!

چرا؟!😳

چون دیپ سیک از مدل های openai واسه ترین مدل هاش استفاده کرد پس این شرکت نمیخواد بهترین مدلش رو همینطوری در حیات وحش 😅 رها کنه گرگ بخورتش

👀 خوب حالا برنامه سم التمن واسه پاور یوزرها چیه؟!

یک مدل جدید بیزنسی جدید که من بهش میگم intelligence as a service

به این صورت که همه کاربرها به مدل GPT5 دسترسی دارن ولی کاربری که میخواد GPT اش باهوش تر باشه و کارهای خفن تر بکنه باید پول بده که احتمالا لول های مختلف پرداختی رو واسش معرفی میکنه

چرا؟!😳

چون اینجوری کلی پول درمیاره! شما اگه کاربر معمولی هستی داری یه مدل متوسط استفاده میکنی که ران کردنش ارزونه و حتی اگر کاربر خفن هستی این Openai هست که واست تصمیم میگیره کدوم یکی مدل ها واسه این تسک خاص بهتره با وجودی که داری کلی پول ماهانه میدی

یعنی شما پول ماهانه 200 دلارو میدی ولی الان GPT5 تشخیص داده که این سوال همچینم پیچیده نیست به جا اینکه از بهترین مدل مثلا o3 استفاده کنه میگه یه turbo 3.5 هم واسه این کافیه پس درحدی که پول میدی آش نمیخوری درواقع پول میدی یه دونه موز میتونی ورداری🙂

همین دیگه تموم شد 💼

💼

@aipulse24

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30😁8👍3❤2✍1👏1😍1

2.6K viewsSonia, edited 15:38

AI Pulse

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

شرکت Clone Robotics از جدیدترین ربات خودش با نام Clone رونمایی کرده.

این ربات اولین ربات انسان نمای جهان با ساختار اسکلتی-عضلانی هست.

بیش از ۲۰۰ درجه قدرت مانور حرکت، بیش از ۲۰۰۰ رشته عضلانی و ۵۰۰ سنسور داره و در حال حاضر از سیستم پنوماتیک استفاده میکنه ولی در اینده به سیستم هیدرولیکی منتقل خواهد شد.

این کلیپ رو صفحه رسمی شرکت در اینستاگرام دقیقا با همین موسیقی روش منتشر کرده😳

😳

@aipulse24

Please open Telegram to view this post

VIEW IN TELEGRAM

😨21🔥5🤣2⚡1🥴1

11.1K viewsSonia, edited 03:39

AI Pulse

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

گوگل به تازگی از یک ابزار هوش مصنوعی جدید به نام "Career Dreamer" رونمایی کرده که به افراد کمک می‌کنه موقعیت‌های شغلی بیشتری رو کشف کنن. این ابزار هوشمند با استفاده از تجربیات، تحصیلات، مهارت‌ها و علایق شما، الگوهایی رو پیدا می‌کنه و شما رو با فرصت‌های شغلی متناسب آشنا میکنه. با کمک Career Dreamer می‌تونید یک Career Identity بنویسید و اون رو به رزومه‌تون اضافه کنید یا در مصاحبه‌های شغلی ازش استفاده کنید.

این ابزار جدید به شما امکان می‌ده تا با نمایش یک شبکه بصری از موقعیت‌های شغلی مختلف، مشاغل متناسب با پیشینه و علایقتون رو ببینید. همچنین می‌تونید با کمک دستیار هوش مصنوعی Gemini، روی نوشتن کاور لتر و رزومه کار کنید و ایده‌های شغلی بیشتری رو کشف کنید. لازم به ذکره که برخلاف سرویس‌هایی مثل Indeed و LinkedIn، این ابزار شما رو به آگهی‌های شغلی واقعی متصل نمی‌کنه و هدفش فقط کمک به کشف سریع مسیرهای شغلی مختلفه.

در حال حاضر Career Dreamer به صورت آزمایشی فقط در ایالات متحده در دسترسه و هنوز مشخص نیست که آیا گوگل قصد داره این ابزار رو به کشورهای دیگه هم بیاره یا نه.

طبق گزارش مجمع جهانی اقتصاد، افراد به طور میانگین ۱۲ شغل مختلف رو در طول زندگی‌شون تجربه می‌کنن و پیش‌بینی می‌شه که نسل Z حدود ۱۸ شغل در ۶ مسیر شغلی متفاوت داشته باشه. گوگل امیدواره که این ابزار بتونه به همه افراد جویای کار، از دانشجویان گرفته تا تازه‌فارغ‌التحصیلان و افراد نظامی در حال انتقال به بخش غیرنظامی، کمک کنه تا مهارت‌های موجودشون رو بهتر با فرصت‌های شغلی تطبیق بدن.

@aipulse24

❤20👍8

12.8K viewsMohammad, 08:54

AI Pulse

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

شرکت چینی علی بابا چند ساعت پیش ورژن جدید مدل تولید ویدیوی خودش رو معرفی کرد.

مدل Wanx 2 که اولین بار در جولای ۲۰۲۳ معرفی شده بود حالا با یه پیشرفت فوق العاده در کیفیت خروجی با نام Wanx 2.1 معرفی شده.

به طور کلی مدل های چینی چند ماه بعد از معرفی Chat GPT برای رقابت با محصولات امریکایی وارد بازار شدن ولی صرفا بعد از موفقیت اخیر Deepseek که باعث ریزش بازار سهام توی آمریکا شد، توجه هارو به خودشون جلب کردن.

اغلب مدل های تولید فیلم توی ساخت ویدیوهای حرکات پیچیده انسانی مثل ژیمناستیک و پاتیناژ شدیدا مشکل دارن اما این مدل توی ویدیوی معرفی نشون میده که بدون مشکل میتونه این حرکات رو بازسازی کنه.

این توانایی های فوق العاده مدل به همراه بهبود کیفیت پیکسل کلیپ ها، رعایت قوانین فیزیک و بهبود پیروی از پرامپت باعث شده تا در رده بندی مدل های ویدیویی نمره ۸۴.۷ رو به دست بیاره
(هرچند که اخیرا خیلی بنچ مارک ها قابل اطمینان نیستن)

این مدل به زودی اوپن سورس خواهد بود ولی فعلا روی سایت چینی خودش و استادیو هوش مصنوعی علی بابا قابل دسترسی هست

لازم به ذکره که متاسفانه دوستان چینی کلا علاقه به اسم های ناجور دارن و اسم این مدل توی انگلیسی معنی بدی میده😭

🥺

😭

@aipulse24

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍4🤣3❤‍🔥1

10.3K viewsSonia, 07:34

AI Pulse

استارتاپ مرکور (Mercor) که توسط سه جوان ۲۱ ساله تاسیس شده، موفق شده در دور سرمایه‌گذاری سری B خودش ۱۰۰ میلیون دلار جذب کنه و به ارزش ۲ میلیارد دلاری برسه.

این استارتاپ که در حوزه استخدام هوشمند فعالیت می‌کنه، با استفاده از هوش مصنوعی فرآیند استخدام رو ساده‌تر کرده. کارفرماها شرح شغل رو آپلود می‌کنن و سیستم مرکور بهترین کاندیداها رو پیشنهاد میده. متقاضیان کار هم یک مصاحبه ۲۰ دقیقه‌ای با هوش مصنوعی انجام میدن که مهارت‌هاشون رو ارزیابی می‌کنه و یک پروفایل براشون می‌سازه.

جالبه بدونید که شرکت‌های بزرگ تکنولوژی مثل OpenAI در حال حاضر از ابزارهای مرکور استفاده می‌کنن. این استارتاپ ادعا می‌کنه که سیستمش نه تنها استخدام رو ساده‌تر می‌کنه، بلکه تعصب و سوگیری رو هم از این فرآیند حذف می‌کنه. البته این ادعا که سیستم‌های هوش مصنوعی کمتر از انسان‌ها دچار سوگیری میشن، همیشه درست نبوده.

درآمد سالانه مرکور در حال حاضر به ۷۵ میلیون دلار رسیده. برندان فودی، مدیرعامل شرکت، معتقده که مرکور به جای جایگزین کردن نیروی انسانی، داره به شناسایی مشاغلی کمک می‌کنه که هوش مصنوعی نمی‌تونه انجام بده - مثل آموزش مدل‌های هوش مصنوعی، مدیریت تصمیم‌گیری‌های پیچیده یا نقش‌های خلاقانه و استراتژیک.

@aipulse24

❤13👍10❤‍🔥2🔥2🤡2

2.36K viewsMohammad, edited 17:37

AI Pulse

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

آنتروپیک بالاخره از مدل جدیدش رونمایی کرد. کلاد ۳.۷ سانت (Claude 3.7 Sonnet) هوشمندترین مدل این شرکت تا به امروز و اولین مدل هیبریدی استدلالی در دنیا محسوب میشه. این مدل با رویکردی کاملاً متفاوت طراحی شده و می‌تونه مثل مغز انسان، هم پاسخ‌های سریع بده و هم با تفکر عمیق به حل مسائل پیچیده بپردازه.

نکته جالب اینجاست که کلاد ۳.۷ در واقع دو مدل در یک مدله. در حالت استاندارد، یک نسخه ارتقا یافته از کلود ۳.۵ هست و در حالت تفکر بسط‌یافته، با خودارزیابی قبل از پاسخ، عملکرد بهتری در ریاضیات، فیزیک، برنامه‌نویسی و وظایف پیچیده داره. کاربران API هم می‌تونن زمان تفکر مدل رو تا سقف ۱۲۸ هزار توکن تنظیم کنن.

در حوزه برنامه‌نویسی، نتایج تست‌های اولیه نشون میده که کلاد در صدر قرار داره. شرکت‌های معتبری مثل Cursor، Cognition و Vercel تأیید کردن که این مدل در انجام وظایف واقعی برنامه‌نویسی و مدیریت کدهای پیچیده، عملکرد فوق‌العاده‌ای داره.

همزمان با این به‌روزرسانی، ابزار جدید "کلاد کد" هم معرفی شده که یک ایجنت فعال برای توسعه‌دهندگان محسوب میشه. این ابزار می‌تونه کد بخونه، فایل‌ها رو ویرایش کنه، تست بنویسه و اجرا کنه، و حتی کد رو به گیت‌هاب push کنه - و در تمام این مراحل، شما رو در جریان کار قرار میده.

خوشبختانه این مدل روی تمام پلن‌های کلاد - شامل رایگان، حرفه‌ای، تیمی و سازمانی - و همینطور پلتفرم‌های ابری معتبر مثل آمازون Bedrock و Google Cloud Vertex AI در دسترسه. از نظر قیمت‌گذاری هزینه‌ها مثل قبل مونده: ۳ دلار برای هر میلیون توکن ورودی و ۱۵ دلار برای هر میلیون توکن خروجی.

آنتروپیک تأکید کرده که این مدل با دقت زیادی تست شده و استانداردهای امنیتی، ایمنی و قابلیت اطمینان رو رعایت می‌کنه. حتی در تشخیص درخواست‌های مضر و بی‌ضرر هم ۴۵٪ بهتر از نسخه قبلی عمل می‌کنه.

@aipulse24

❤21👍6❤‍🔥1🔥1

1.89K viewsMohammad, edited 20:50

AI Pulse

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

شرکت nothing برای معرفی سری جدید گوشی هاش یعنی 3a از ربات NEO Gamma استفاده کرده

@aipulse24

❤16👍9

1.59K viewsSonia, 01:19

AI Pulse

‏OpenAI روز سه‌شنبه اعلام کرد که قابلیت Deep Research رو برای تمام کاربران پولی ChatGPT منتشر می‌کنه.

مشترکین ChatGPT Plus، Team، Enterprise و Edu ماهانه ۱۰ کردیت Deep Research دریافت می‌کنن. این قابلیت قبلاً فقط برای کاربران ChatGPT Pro، اشتراک ۲۰۰ دلاری این شرکت در دسترس بود؛ همچنین کاربران ChatGPT Pro الان ماهانه ۱۲۰ کردیت Deep Research می‌گیرن، که از ۱۰۰ کردیت در زمان راه‌اندازی بیشتر شده.

‏Google هم هفته گذشته قابلیت Deep Research خودش رو برای تمام کاربران Gemini Advanced منتشر کرده بود.

@aipulse24

❤‍🔥9👍4👀3🤣1

1.66K viewsMohammad, 10:48

About

Blog

Apps

Platform