میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها
بازدید 5
0

میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها

شرکت مستقر در پاریس Mistral AI از هوش مصنوعی متن‌باز جدیدی با نام Mistral Medium 3.5 رونمایی کرد. این مدل ۱۲۸ میلیارد پارامتری همراه با مجموعه‌ای از قابلیت‌های ایجنت‌محور معرفی شده اما کاربران شبکه‌های اجتماعی به انتقاد گسترده از آن پرداخته‌اند.

Mistral Medium 3.5 در بنچمارک SWE-Bench Verified که عملکرد مدل در کدنویسی را آزمایش می‌کند، امتیاز ۷۷.۶ درصد را کسب کرده است. این مدل همچنین در بنچمارک τ³-Telecom که استفاده عامل‌محور از ابزارهای آن در محیط‌های تخصصی را بررسی می‌کند، به امتیاز ۹۱.۴ درصد رسیده است.

در مقابل، مدل Qwen 3.6 علی‌بابا با ۲۷ میلیارد پارامتر (یعنی کمتر از یک‌چهارم تعداد پارامترهای Medium 3.5) در همان بنچمارک SWE-Bench Verified امتیاز ۷۲.۴ درصد کسب کرده و تحت مجوز Apache 2.0 عرضه می‌شود؛ یعنی می‌توان آن را رایگان دانلود و اجرا کرد.

میسترال برای هر یک میلیون توکن ورودی این مدل ۱.۵۰ دلار و برای هر یک میلیون توکن خروجی ۷.۵۰ دلار دریافت می‌کند.

میسترال از مدل متن‌باز Medium 3.5 رونمایی کرد؛ عملکرد ضعیف در بنچمارک‌ها

بررسی جداول رتبه‌بندی مدل‌های متن‌باز نیز نشان می‌دهد که جایگاه‌های بالای این جدول‌ها در اختیار Qwen از علی‌بابا، GLM از شرکت چینی Zhipu AI و MiMo-V2 از شیائومی است؛ مدل‌هایی که هم ارزان‌تر هستند و هم قدرتمند و رقابتی ظاهر شده‌اند. Medium 3.5 هنوز حتی در رتبه‌بندی‌های مستقل بزرگ جایگاهی ندارد و ارزیابی‌های شخص ثالث از آن همچنان در انتظار انتشار است.

واکنش کاربران به Mistral Medium 3.5

«پدرو دومینگوس»، استاد یادگیری ماشین در دانشگاه واشنگتن، از جمله افرادی است که واکنش تندی به این مدل نشان داده. او می‌گوید:

«شرکت‌های معمولی هوش مصنوعی به این افتخار می‌کنند که مدلشان در بنچمارک‌ها چقدر بهتر است. فقط میسترال است که افتخار می‌کند که مدلش چقدر بدتر است. نمی‌دانم چه چیزی بدتر است؛ اینکه اروپا در رقابت هوش مصنوعی حضور نداشته باشد یا نماینده آن چیزی مثل میسترال باشد که مایه تمسخر است.»

«یوسف التوخى»، بنیان‌گذار Yoyo Studios، نیز محاسبه کرده که Qwen 3.6 با ۲۷ میلیارد پارامتر، ۴.۷ برابر کوچک‌تر از Medium 3.5 است و در حوزه کدنویسی امتیازی قابل‌مقایسه کسب می‌کند. هزینه خروجی Medium 3.5 نیز آن را در کنار مدل‌های بسته‌ای قرار می‌دهد که در تمام بنچمارک‌های مهم امتیازهای بسیار بالاتری دارند.

البته همه واکنش‌ها کاملاً منفی نبود. «میکال لانگمایر»، توسعه‌دهنده هوش مصنوعی، این وضعیت دوگانه را چنین توصیف می‌کند:

«واقعاً خوشحالم که هنوز یک آزمایشگاه غیرآمریکایی و غیرچینی وجود دارد که تلاش می‌کند مدل‌های زبانی بزرگ پیشرو بسازد، اما واقعاً باید در اروپا سطح بازی را بالا ببریم. مدل پرچمدار جدید [میسترال] اساساً در هیچ بنچمارکی بهترین نیست، اما چند برابر بیشتر از اکثر رقبا هزینه دارد.»

برخی توسعه‌دهندگان نیز استدلال کرده‌اند که ارائه وزن‌های متن‌باز بیشتر یک استراتژی بلندمدت برای دوام است و هدف آن صرفاً رقابت در جدول رتبه‌بندی نیست. در واقع آنها می‌گویند مدلی که هرکسی بتواند آن را دانلود، تنظیم و روی زیرساخت خودش میزبانی کند، الزاماً نیازی ندارد امروز در رتبه‌بندی‌ها پیروز شود.

اشتراک گذاری

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *