شرکت مستقر در پاریس Mistral AI از هوش مصنوعی متنباز جدیدی با نام Mistral Medium 3.5 رونمایی کرد. این مدل ۱۲۸ میلیارد پارامتری همراه با مجموعهای از قابلیتهای ایجنتمحور معرفی شده اما کاربران شبکههای اجتماعی به انتقاد گسترده از آن پرداختهاند.
Mistral Medium 3.5 در بنچمارک SWE-Bench Verified که عملکرد مدل در کدنویسی را آزمایش میکند، امتیاز ۷۷.۶ درصد را کسب کرده است. این مدل همچنین در بنچمارک τ³-Telecom که استفاده عاملمحور از ابزارهای آن در محیطهای تخصصی را بررسی میکند، به امتیاز ۹۱.۴ درصد رسیده است.
در مقابل، مدل Qwen 3.6 علیبابا با ۲۷ میلیارد پارامتر (یعنی کمتر از یکچهارم تعداد پارامترهای Medium 3.5) در همان بنچمارک SWE-Bench Verified امتیاز ۷۲.۴ درصد کسب کرده و تحت مجوز Apache 2.0 عرضه میشود؛ یعنی میتوان آن را رایگان دانلود و اجرا کرد.
میسترال برای هر یک میلیون توکن ورودی این مدل ۱.۵۰ دلار و برای هر یک میلیون توکن خروجی ۷.۵۰ دلار دریافت میکند.

بررسی جداول رتبهبندی مدلهای متنباز نیز نشان میدهد که جایگاههای بالای این جدولها در اختیار Qwen از علیبابا، GLM از شرکت چینی Zhipu AI و MiMo-V2 از شیائومی است؛ مدلهایی که هم ارزانتر هستند و هم قدرتمند و رقابتی ظاهر شدهاند. Medium 3.5 هنوز حتی در رتبهبندیهای مستقل بزرگ جایگاهی ندارد و ارزیابیهای شخص ثالث از آن همچنان در انتظار انتشار است.
واکنش کاربران به Mistral Medium 3.5
«پدرو دومینگوس»، استاد یادگیری ماشین در دانشگاه واشنگتن، از جمله افرادی است که واکنش تندی به این مدل نشان داده. او میگوید:
«شرکتهای معمولی هوش مصنوعی به این افتخار میکنند که مدلشان در بنچمارکها چقدر بهتر است. فقط میسترال است که افتخار میکند که مدلش چقدر بدتر است. نمیدانم چه چیزی بدتر است؛ اینکه اروپا در رقابت هوش مصنوعی حضور نداشته باشد یا نماینده آن چیزی مثل میسترال باشد که مایه تمسخر است.»
«یوسف التوخى»، بنیانگذار Yoyo Studios، نیز محاسبه کرده که Qwen 3.6 با ۲۷ میلیارد پارامتر، ۴.۷ برابر کوچکتر از Medium 3.5 است و در حوزه کدنویسی امتیازی قابلمقایسه کسب میکند. هزینه خروجی Medium 3.5 نیز آن را در کنار مدلهای بستهای قرار میدهد که در تمام بنچمارکهای مهم امتیازهای بسیار بالاتری دارند.
البته همه واکنشها کاملاً منفی نبود. «میکال لانگمایر»، توسعهدهنده هوش مصنوعی، این وضعیت دوگانه را چنین توصیف میکند:
«واقعاً خوشحالم که هنوز یک آزمایشگاه غیرآمریکایی و غیرچینی وجود دارد که تلاش میکند مدلهای زبانی بزرگ پیشرو بسازد، اما واقعاً باید در اروپا سطح بازی را بالا ببریم. مدل پرچمدار جدید [میسترال] اساساً در هیچ بنچمارکی بهترین نیست، اما چند برابر بیشتر از اکثر رقبا هزینه دارد.»
برخی توسعهدهندگان نیز استدلال کردهاند که ارائه وزنهای متنباز بیشتر یک استراتژی بلندمدت برای دوام است و هدف آن صرفاً رقابت در جدول رتبهبندی نیست. در واقع آنها میگویند مدلی که هرکسی بتواند آن را دانلود، تنظیم و روی زیرساخت خودش میزبانی کند، الزاماً نیازی ندارد امروز در رتبهبندیها پیروز شود.
نظرات کاربران