پیش‌آموزش مبتنی بر تقویت (RPT): انقلاب جدید در پیش‌آموزش مدل‌های زبانی بزرگ

0
10
Reinforcement Pre-Training
Reinforcement Pre-Training

 

در یادگیری ماشین، مدل‌های زبانی بزرگ (LLM) مانند GPT-4 و Claude توانسته‌اند پاسخ‌های شبیه به انسان را از انبوهی از میلیاردها داده متنی تولید کنند. اما آیا می‌توان قدرت پیش‌بینی مدل‌ها را مؤثرتر از آموزش معمول بهبود بخشید؟ محققان مایکروسافت و دانشگاه پکن با یک راه‌حل جدید به نام پیش‌آموزش تقویتی (RPT) به این سوال پاسخ مثبت داده‌اند.

RPT چیست؟ بازآفرینی آموزش مدل زبانی

مدل‌های زبانی در گذشته آموزش داده می‌شدند تا فقط توکن بعدی (کلمه یا نماد) را پیش‌بینی کنند. RPT این را به یک فرآیند استدلال تبدیل می‌کند. مدل به جای حدس زدن صرف، “فکر می‌کند”، فرضیه می‌سازد و سپس پیش‌بینی توکن بعدی را انجام می‌دهد.

این مدل با استفاده از یادگیری تقویتی با یک تغییر بزرگ آموزش داده می‌شود: پاداش‌ها از خود داده‌های متنی تولید می‌شوند، نه از انسان‌ها یا مدل‌های دیگر.

چرا RPT مهم است؟

پاداش‌های بی‌نقص و سخت: این روش در مواردی که پیش‌بینی تقریباً برابر یا نزدیک به داده‌های واقعی باشد اما دقیقاً مطابق با آن‌ها نباشد، پاداش نمی‌دهد، برخلاف مدل‌های دیگری که می‌توانند با کپی کردن یا شبیه‌سازی پاسخ‌ها، سیستم پاداش را فریب دهند یا دستکاری کنند.

مقیاس‌پذیری بالا: از همان داده‌های متنی استاندارد (مثلاً کتاب‌ها یا ویکی‌پدیا) استفاده می‌کند، اما با تبدیل آن‌ها به “مسائل استدلالی” کیفیت آموزش را بهبود می‌بخشد.

عملکرد پیش‌بینی بهبود یافته: مدل RPT-14B ممکن است در آزمایش‌ها از مدل‌های قدرتمندتر و بزرگ‌تری مانند R1-Qwen-32B بهتر عمل کند.

صلاحیت پاسخ Zero-Shot بهبود یافته: به این معنی که مدل ممکن است به بسیاری از سؤالات مختلف پاسخ دهد، حتی زمانی که در حین آموزش شاهد مثال مشابهی نبوده است.

آزمایش‌های کلیدی

محققان از مجموعه داده‌های ریاضی OmniMATH و معیارهای سختی مانند MMLU-Pro و SuperGPQA برای آزمایش روش RPT استفاده کردند. عملکرد قابل توجه بود:

دقت پیش‌بینی توکن آن در داده‌های سخت تا 3٪ بهتر از مدل‌های پایه بود.

در آزمایش‌های Zero-Shot، مدل RPT حتی تا ۲۲٪ از مدل پایه نوع ۳۲B پیشی گرفت.

چگونه تفکر RPT با روش‌های معمول متفاوت است

یکی از جذاب‌ترین بخش‌های مقاله ای که مبنای این مبحث بوده است، توضیح گرایش‌های «تفکر مدل» RPT بود. به عنوان مثال، مدل RPT نه تنها فرضیه‌ها را تدوین می‌کند، بلکه گرایش‌های «بازنگری»، «استنتاج منطقی» و «تفکر واگرا» را نیز در متن خود نشان می‌دهد.

آینده RPT: فقط آغاز

اگرچه آزمایش‌های اولیه موفقیت‌آمیز بودند، نویسندگان خاطرنشان می‌کنند که جای زیادی برای بهبود در RPT وجود دارد:

شامل داده‌های متنی عمومی‌تر نسبت به داده‌های ریاضی صرف

آزمایش‌هایی با اندازه‌های مدل بزرگتر

ادغام RPT با روش‌های «استدلال ترکیبی»RPT در پایان باید بیان نمود که انقلابی در آموزش مدل‌های زبان طبیعی ایجاد می‌کند. این روش با ورود به استدلال گام به گام در مراحل اولیه آموزش، مدل‌ها را مجبور می‌کند تا عمیق‌تر درک کنند، نه فقط بهتر کپی کنند. اگر نگران آینده هوش مصنوعی هستید، RPT چیزی است که باید در نظر گرفته شود.

منبع: مقاله اصلی در arXiv با شناسه 2506.08007 منتشر شده است.

ثبت یک پاسخ

لطفا نظر خود را وارد کنید
لطفا نام خود را اینجا وارد کنید