هوش مصنوعی DeepSeek از روش استدلال جدیدی رونمایی کرد

هوش مصنوعی DeepSeek با همکاری دانشگاه تسینگ‌هوا روشی نوین برای ارتقای توان استدلال مدل‌های زبانی بزرگی را توسعه داده است.

استارت‌آپ چینی DeepSeek با همکاری پژوهشگران دانشگاه تسینگ‌هوا، روشی نوآورانه برای تقویت قدرت استدلال مدل‌های زبانی بزرگ (LLM) ارائه داده است؛ روشی که می‌تواند توان پاسخ‌گویی این مدل‌ها را به سؤالات عمومی بهبود ببخشد و آن‌ها را بیش از پیش با ترجیحات انسانی هماهنگ کند.

این روش دوگانه، شامل مدل‌سازی پاداش زایشی (Generative Reward Modelling یا GRM) و تنظیم مبتنی بر نقد اصول‌محور خودکار است؛ ترکیبی که به گفته پژوهشگران در مقاله‌ای که روز جمعه در پایگاه arXiv منتشر شده، عملکرد مدل‌های DeepSeek-GRM را نسبت به روش‌های رایج به‌طور چشم‌گیری ارتقا داده و آن‌ها را در سطح رقابتی با مدل‌های برتر پاداش عمومی قرار داده است.

مدل‌سازی پاداش به فرآیندی اطلاق می‌شود که طی آن تلاش می‌شود پاسخ‌های مدل‌های زبانی با ترجیحات انسانی هم‌راستا شود. پژوهشگران اعلام کرده‌اند که قصد دارند مدل‌های GRM را در آینده به‌صورت متن‌باز منتشر کنند، اما زمان مشخصی برای این اقدام ارائه نکرده‌اند.

انتشار این مقاله در حالی صورت گرفته که گمانه‌زنی‌ها درباره حرکت بعدی هوش مصنوعی DeepSeek بالا گرفته است. این شرکت پیش‌تر با عرضه مدل‌های DeepSeek-V3 و DeepSeek-R1 توجه جامعه جهانی هوش مصنوعی را جلب کرد؛ به‌ویژه مدل R1 که با عملکرد اقتصادی خود، بسیاری از رقبای پیشرفته را به چالش کشید.

با اینکه شایعاتی درباره انتشار نسخه جدید DeepSeek-R2 تا پایان همین ماه میلادی مطرح شده، شرکت همچنان در قبال این خبر سکوت اختیار کرده است.

با این حال، برخی رسانه‌های چینی گزارش داده‌اند که اکانت خدمات مشتریان DeepSeek در گفت‌و‌گویی گروهی با شرکای تجاری این شایعه را رد کرده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *