به گزارش صدای شهر شرکت بایت دنس، مالک تیک‌تاک مدل بزرگ زبانی جدیدی به نام Seed-OSS-۳۶B را به‌صورت متن‌باز روی وب‌سایت Hugging Face منتشر کرد. این مدل قادر است تا ۵۱۲ هزار توکن را در یک تعامل پردازش کند و برای کاربرد‌های پیشرفته در ریاضیات، کدنویسی و استدلال متنی طراحی شده است.

به گزارش venturebeat، مجموعه مدل‌های Seed-OSS-۳۶B شامل سه نسخه است: نسخه Base با داده مصنوعی، نسخه Base بدون داده مصنوعی و نسخه Instruct که پس از آموزش با داده‌های دستوری بهینه شده است. نسخه‌های متن‌باز تحت مجوز Apache-۲.۰ عرضه شده‌اند و توسعه‌دهندگان می‌توانند از آنها در پروژه‌های تحقیقاتی یا تجاری بدون پرداخت هزینه استفاده کنند.
این مدل‌ها با معماری پیشرفته شامل مدل‌سازی زبانی علیتی، توجه گروه‌بندی شده، فعال‌سازی SwiGLU، RMSNorm و RoPE positional encoding ساخته شده‌اند و هر مدل شامل ۳۶ میلیارد پارامتر و پشتیبانی از ۱۵۵ هزار توکن واژگان است. ویژگی برجسته آن، قابلیت پردازش متن طولانی تا ۵۱۲ هزار توکن است که امکان کار با اسناد طولانی و زنجیره‌های استدلالی بدون کاهش عملکرد را فراهم می‌کند.
بنچمارک‌ها نشان می‌دهد که نسخه Instruct در زمینه ریاضیات و کدنویسی عملکردی در سطح state-of-the-art ارائه می‌کند و نسخه‌های Base نیز انعطاف لازم برای پژوهش و توسعه را فراهم می‌آورند. علاوه بر این، مدل‌ها با ابزار‌هایی مانند Hugging Face Transformers و vLLM قابل استقرار هستند و از کوانتیزاسیون ۴ و ۸ بیتی برای کاهش نیاز حافظه پشتیبانی می‌کنند.
انتهای پیام/

Source link

سهام:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *