NEW BOT Телеграм, страница

این عکس هام خیلی قشنگن. اوج نبوغ معماری و هندسه نسل های قبلی رو برای همیشه در تاریخ ثبت کردند.

❤22🔥4

767 viewsHassan Maleki, 16:57

‌این مقاله از هاروارد و MIT بدون سر و صدا به مهم‌ترین سؤال هوش مصنوعی پاسخ می‌دهد که هیچ‌کس به درستی بنچمارک نکرده(محک نزده):
‌
آیا مدل‌های زبانی بزرگ واقعاً می‌توانند مطلب علمی جدیدی را کشف کنند، یا فقط در حرف زدن درباره آن خوب هستند؟

این مقاله که با عنوان «ارزیابی مدل‌های زبانی بزرگ در کشف علمی» نامیده می‌شود و به جای پرسیدن سؤالات پیش پا افتاده و(trivia) ویا معمول از مدل‌ها، چیزی بسیار سخت‌تر را مورد آزمایش قرار داده :

آیا مدل‌ها می‌توانند فرضیه بسازند، آزمایش طراحی کنند، نتایج را تفسیر کنند و باورها را مانند دانشمندان واقعی به‌روزرسانی کنند؟

این چیزی است که نویسندگان به شیوه متفاوتی انجام دادند 👇

• آن‌ها مدل‌های زبانی را در کل حلقه کشف ارزیابی می‌کنند:
فرضیه → آزمایش → مشاهده → بازنگری
• وظایف شامل زیست‌شناسی، شیمی و فیزیک هستند، نه پازل‌های اسباب‌بازی
• مدل‌ها باید با داده‌های ناقص، نتایج پر از نویز(اختلال) و سرنخ‌های غلط کار کنند
• موفقیت بر اساس پیشرفت علمی اندازه‌گیری می‌شود، نه روان بودن یا اعتماد به نفس

آنچه پیدا کردند، تکان‌دهنده است.

مدل‌های زبانی بزرگ در پیشنهاد فرضیه‌ها خوب هستند، اما در همه چیزهای بعدی شکننده‌اند.

✓ آن‌ها داده ها را بیش از اندازه با الگوهای سطحی مطابقت می‌کنند(over fit)
✓ حتی وقتی شواهد با آن‌ها تناقض دارد، رها کردن فرضیه‌های بد برایشان سخت است
✓ همبستگی را با علیت اشتباه می‌گیرند
✓ وقتی آزمایش‌ها شکست می‌خورند، توضیحات توهمی می‌سازند
✓ برای محتمل بودن بهینه‌سازی می‌کنند، نه پیدا کردن حقیقت

شگفت‌انگیزترین نتیجه:

نمرات بالای بنچمارک (محک زدن) با توانایی کشف علمی همبستگی ندارد.

برخی از مدل‌های برتر که در آزمون‌های استدلال استاندارد غالب هستند، وقتی مجبور به اجرای آزمایش‌های تکراری و به‌روزرسانی نظریه‌ها شوند، کاملاً شکست می‌خورند.

چرا این مهم است:

علم واقعی استدلال یک‌باره نیست.

علم واقعی حاصل از بازخورد، شکست، بازنگری و خویشتن‌داری است.

مدل‌های زبانی بزرگ امروز:

• مانند دانشمندان حرف می‌زنند
• مانند دانشمندان می‌نویسند
• اما هنوز مانند دانشمندان فکر نمی‌کنند

پیام اصلی مقاله:

هوش علمی، هوش زبانی نیست.

نیاز به حافظه، ردیابی فرضیه، استدلال علی، و توانایی گفتن «اشتباه کردم» دارد.

تا وقتی مدل‌ها نتوانند این کار را به طور قابل اعتماد انجام دهند، ادعاها درباره «دانشمندان هوش مصنوعی» عمدتاً نابهنگام هستند.

این مقاله هوش مصنوعی را تبلیغ نمی‌کند. شکاف باقی‌مانده را تعریف می‌کند.

و دقیقاً به همین دلیل مهم است.

🔗 Alex Prompter

🔻پیوند به مقاله:

https://arxiv.org/abs/2512.15567

https://x.com/i/status/2001909854525624770

arXiv.org

Evaluating Large Language Models in Scientific Discovery

Large language models (LLMs) are increasingly applied to scientific research, yet prevailing science benchmarks probe decontextualized knowledge and overlook the iterative reasoning, hypothesis...

❤10🔥2✍1👍1

1.86K viewsHassan Maleki, 21:21

Infinity

Forwarded from بخش دانشجویی خانه ریاضیات اصفهان

🔷 بخش دانشجویی خانه ریاضیات اصفهان برگزار می‌کند:

🔹 #گپ_دانشجویی با موضوع «مقدمه‌ای بر خم‌های بیضوی»

👤 ارائه‌دهنده: زهرا بابک
فارغ‌التحصیل ارشد ریاضی دانشگاه شهید بهشتی

🗓️ پنجشنبه ۴ دی ۱۴۰۴
🕢 ساعت ۱۹:۳۰

🔗 پیوند شرکت در وبینار:
https://www.skyroom.online/ch/mathhouse/students

♾️ حضور در این وبینار برای همهٔ علاقه‌مندان آزاد است.

@IMHStudents

❤8

469 viewsHassan Maleki, 10:20

Infinity

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

❤5🔥2😢1

513 viewsHassan Maleki, 15:58

Infinity

پارادوکس روز تولد: میشه نشون داد تو هر جمع ۲۳ نفری از آدما احتمال اینکه دو نفر در یک تاریخ متولد شده باشن تقریبا ۵۰ درصده.

👍4😱3🔥2🎉1🆒1

481 viewsHassan Maleki, edited 21:19

About

Blog

Apps

Platform