به گزارش صدای شهر شرکت بایت دنس، مالک تیکتاک مدل بزرگ زبانی جدیدی به نام Seed-OSS-۳۶B را بهصورت متنباز روی وبسایت Hugging Face منتشر کرد. این مدل قادر است تا ۵۱۲ هزار توکن را در یک تعامل پردازش کند و برای کاربردهای پیشرفته در ریاضیات، کدنویسی و استدلال متنی طراحی شده است.
به گزارش venturebeat، مجموعه مدلهای Seed-OSS-۳۶B شامل سه نسخه است: نسخه Base با داده مصنوعی، نسخه Base بدون داده مصنوعی و نسخه Instruct که پس از آموزش با دادههای دستوری بهینه شده است. نسخههای متنباز تحت مجوز Apache-۲.۰ عرضه شدهاند و توسعهدهندگان میتوانند از آنها در پروژههای تحقیقاتی یا تجاری بدون پرداخت هزینه استفاده کنند.
این مدلها با معماری پیشرفته شامل مدلسازی زبانی علیتی، توجه گروهبندی شده، فعالسازی SwiGLU، RMSNorm و RoPE positional encoding ساخته شدهاند و هر مدل شامل ۳۶ میلیارد پارامتر و پشتیبانی از ۱۵۵ هزار توکن واژگان است. ویژگی برجسته آن، قابلیت پردازش متن طولانی تا ۵۱۲ هزار توکن است که امکان کار با اسناد طولانی و زنجیرههای استدلالی بدون کاهش عملکرد را فراهم میکند.
بنچمارکها نشان میدهد که نسخه Instruct در زمینه ریاضیات و کدنویسی عملکردی در سطح state-of-the-art ارائه میکند و نسخههای Base نیز انعطاف لازم برای پژوهش و توسعه را فراهم میآورند. علاوه بر این، مدلها با ابزارهایی مانند Hugging Face Transformers و vLLM قابل استقرار هستند و از کوانتیزاسیون ۴ و ۸ بیتی برای کاهش نیاز حافظه پشتیبانی میکنند.
انتهای پیام/
Source link