تیک تاک مدل متن‌باز Seed-OSS-36B را با قابلیت پردازش ۵۱۲ هزار توکن عرضه کرد

شرکت بایت‌دنس، مالک تیک تاک ، مدل بزرگ زبانی Seed-OSS-36B را با قابلیت پردازش ۵۱۲ هزار توکن به‌صورت متن‌باز در Hugging Face منتشر کرد.

شرکت بایت‌دنس، مالک پلتفرم محبوب تیک تاک ، مدل بزرگ زبانی جدید خود با نام Seed-OSS-36B را به‌صورت متن‌باز روی وب‌سایت Hugging Face در اختیار توسعه‌دهندگان قرار داد.

این مدل که قادر به پردازش ۵۱۲ هزار توکن در یک تعامل است، برای کاربردهای پیشرفته در زمینه‌های ریاضیات، کدنویسی و استدلال متنی طراحی شده است.

به گزارش VentureBeat، مجموعه Seed-OSS-36B شامل سه نسخه است: نسخه Base با داده مصنوعی، نسخه Base بدون داده مصنوعی و نسخه Instruct که پس از آموزش با داده‌های دستوری بهینه‌سازی شده است.

تمامی نسخه‌ها تحت مجوز Apache-2.0 عرضه شده‌اند و امکان استفاده رایگان در پروژه‌های تحقیقاتی و تجاری را فراهم می‌کنند.

این مدل‌ها با معماری پیشرفته‌ای از جمله مدل‌سازی زبانی علیتی، توجه گروه‌بندی شده، فعال‌سازی SwiGLU، RMSNorm و RoPE positional encoding طراحی شده و شامل ۳۶ میلیارد پارامتر و پشتیبانی از ۱۵۵ هزار توکن واژگان هستند.

قابلیت ویژه این مدل‌ها، پردازش متن‌های طولانی تا ۵۱۲ هزار توکن است که امکان کار با اسناد عظیم و زنجیره‌های استدلالی پیچیده را بدون افت عملکرد فراهم می‌کند.

بنچمارک‌ها نشان داده‌اند که نسخه Instruct عملکردی در سطح state-of-the-art در حوزه ریاضیات و کدنویسی ارائه می‌دهد و نسخه‌های Base انعطاف لازم برای تحقیقات و توسعه را دارا هستند.

همچنین این مدل‌ها با ابزارهایی مانند Hugging Face Transformers و vLLM سازگار بوده و از کوانتیزاسیون ۴ و ۸ بیتی برای بهینه‌سازی حافظه پشتیبانی می‌کنند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *