هوش مصنوعی DeepSeek با همکاری دانشگاه تسینگهوا روشی نوین برای ارتقای توان استدلال مدلهای زبانی بزرگی را توسعه داده است.
استارتآپ چینی DeepSeek با همکاری پژوهشگران دانشگاه تسینگهوا، روشی نوآورانه برای تقویت قدرت استدلال مدلهای زبانی بزرگ (LLM) ارائه داده است؛ روشی که میتواند توان پاسخگویی این مدلها را به سؤالات عمومی بهبود ببخشد و آنها را بیش از پیش با ترجیحات انسانی هماهنگ کند.
این روش دوگانه، شامل مدلسازی پاداش زایشی (Generative Reward Modelling یا GRM) و تنظیم مبتنی بر نقد اصولمحور خودکار است؛ ترکیبی که به گفته پژوهشگران در مقالهای که روز جمعه در پایگاه arXiv منتشر شده، عملکرد مدلهای DeepSeek-GRM را نسبت به روشهای رایج بهطور چشمگیری ارتقا داده و آنها را در سطح رقابتی با مدلهای برتر پاداش عمومی قرار داده است.
مدلسازی پاداش به فرآیندی اطلاق میشود که طی آن تلاش میشود پاسخهای مدلهای زبانی با ترجیحات انسانی همراستا شود. پژوهشگران اعلام کردهاند که قصد دارند مدلهای GRM را در آینده بهصورت متنباز منتشر کنند، اما زمان مشخصی برای این اقدام ارائه نکردهاند.
انتشار این مقاله در حالی صورت گرفته که گمانهزنیها درباره حرکت بعدی هوش مصنوعی DeepSeek بالا گرفته است. این شرکت پیشتر با عرضه مدلهای DeepSeek-V3 و DeepSeek-R1 توجه جامعه جهانی هوش مصنوعی را جلب کرد؛ بهویژه مدل R1 که با عملکرد اقتصادی خود، بسیاری از رقبای پیشرفته را به چالش کشید.
با اینکه شایعاتی درباره انتشار نسخه جدید DeepSeek-R2 تا پایان همین ماه میلادی مطرح شده، شرکت همچنان در قبال این خبر سکوت اختیار کرده است.
با این حال، برخی رسانههای چینی گزارش دادهاند که اکانت خدمات مشتریان DeepSeek در گفتوگویی گروهی با شرکای تجاری این شایعه را رد کرده است.