شرکت بایتدنس، مالک تیک تاک ، مدل بزرگ زبانی Seed-OSS-36B را با قابلیت پردازش ۵۱۲ هزار توکن بهصورت متنباز در Hugging Face منتشر کرد.
شرکت بایتدنس، مالک پلتفرم محبوب تیک تاک ، مدل بزرگ زبانی جدید خود با نام Seed-OSS-36B را بهصورت متنباز روی وبسایت Hugging Face در اختیار توسعهدهندگان قرار داد.
این مدل که قادر به پردازش ۵۱۲ هزار توکن در یک تعامل است، برای کاربردهای پیشرفته در زمینههای ریاضیات، کدنویسی و استدلال متنی طراحی شده است.
به گزارش VentureBeat، مجموعه Seed-OSS-36B شامل سه نسخه است: نسخه Base با داده مصنوعی، نسخه Base بدون داده مصنوعی و نسخه Instruct که پس از آموزش با دادههای دستوری بهینهسازی شده است.
تمامی نسخهها تحت مجوز Apache-2.0 عرضه شدهاند و امکان استفاده رایگان در پروژههای تحقیقاتی و تجاری را فراهم میکنند.
این مدلها با معماری پیشرفتهای از جمله مدلسازی زبانی علیتی، توجه گروهبندی شده، فعالسازی SwiGLU، RMSNorm و RoPE positional encoding طراحی شده و شامل ۳۶ میلیارد پارامتر و پشتیبانی از ۱۵۵ هزار توکن واژگان هستند.
قابلیت ویژه این مدلها، پردازش متنهای طولانی تا ۵۱۲ هزار توکن است که امکان کار با اسناد عظیم و زنجیرههای استدلالی پیچیده را بدون افت عملکرد فراهم میکند.
بنچمارکها نشان دادهاند که نسخه Instruct عملکردی در سطح state-of-the-art در حوزه ریاضیات و کدنویسی ارائه میدهد و نسخههای Base انعطاف لازم برای تحقیقات و توسعه را دارا هستند.
همچنین این مدلها با ابزارهایی مانند Hugging Face Transformers و vLLM سازگار بوده و از کوانتیزاسیون ۴ و ۸ بیتی برای بهینهسازی حافظه پشتیبانی میکنند.