علم و فناوری

مدل هوش مصنوعی ارزان و متن‌باز چین، باعث هیجان دانشمندان شده است!

مدل هوش مصنوعی چینی DeepSeek-R1 که یک مدل زبانی بزرگ (LLM) است، در انجام وظایف استدلالی هم‌سطح با مدل o1 شرکت OpenAI عمل می‌کند و به‌صورت متن‌باز در اختیار محققان قرار گرفته است. این مدل که توسط استارت‌آپ DeepSeek در هانگژو چین توسعه یافته، به‌عنوان یک رقیب مقرون‌به‌صرفه و قابل دسترس برای مدل‌های استدلالی مانند o1، توجه دانشمندان را به خود جلب کرده است.

مدل‌هایی مانند R1 و o1 پاسخ‌ها را به‌صورت گام‌به‌گام و مشابه فرآیند استدلال انسان تولید می‌کنند. این ویژگی آن‌ها را در حل مسائل علمی تواناتر از مدل‌های زبانی قدیمی‌تر می‌کند و می‌تواند آن‌ها را برای استفاده در تحقیقات مفید سازد. آزمایش‌های اولیه روی R1 که در ۲۰ ژانویه منتشر شد، نشان می‌دهد که این مدل در برخی وظایف مربوط به شیمی، ریاضیات و برنامه‌نویسی، هم‌سطح با o1 عمل می‌کند. مدل o1 زمانی که در سپتامبر توسط OpenAI منتشر شد، محققان را شگفت‌زده کرد.

الویس ساراویا، محقق هوش مصنوعی و یکی از بنیان‌گذاران شرکت مشاوره‌ای DAIR.AI در بریتانیا، در پستی در X نوشت: «این واقعاً غیرمنتظره و شگفت‌انگیز است.»

یکی دیگر از ویژگی‌های برجسته R1، متن‌باز بودن آن است. شرکت DeepSeek این مدل را به‌صورت open-weight منتشر کرده است، به این معنا که محققان می‌توانند الگوریتم آن را مطالعه کرده و بر اساس آن توسعه ایجاد کنند. این مدل تحت مجوز MIT منتشر شده و می‌تواند به‌صورت آزادانه مورد استفاده مجدد قرار گیرد، اما به‌دلیل عدم انتشار داده‌های آموزشی، کاملاً متن‌باز محسوب نمی‌شود.

ماریو کرن، رهبر آزمایشگاه دانشمند مصنوعی در موسسه ماکس پلانک در آلمان، می‌گوید: «متن‌باز بودن DeepSeek بسیار قابل توجه است.» در مقایسه، مدل‌های o1 و سایر مدل‌های ساخته‌شده توسط OpenAI، از جمله آخرین مدل آن‌ها یعنی o3، به‌صورت «جعبه‌های سیاه» عمل می‌کنند.

شرکت DeepSeek هزینه کامل آموزش R1 را منتشر نکرده است، اما هزینه استفاده از آن برای کاربران حدود یک‌سی‌ام هزینه مدل o1 است. این شرکت همچنین نسخه‌های کوچک‌شده و «تقطیرشده»‌ای از R1 ایجاد کرده است تا محققانی که توان محاسباتی محدودی دارند نیز بتوانند با این مدل کار کنند. کرن می‌گوید: «یک آزمایش که با o1 بیش از ۳۰۰ پوند هزینه داشت، با R1 کمتر از ۱۰ دلار هزینه داشت. این تفاوت چشم‌گیری است که قطعاً در پذیرش آینده آن نقش خواهد داشت.»

چالش‌های مدل‌های زبانی بزرگ

R1 بخشی از رونق مدل‌های زبانی بزرگ (LLM) در چین است. DeepSeek که از یک صندوق سرمایه‌گذاری جدا شده، ماه گذشته با انتشار یک چت‌بات به نام V3 از گمنامی نسبی خارج شد. این چت‌بات با وجود بودجه محدود، از رقبای اصلی خود پیشی گرفت. کارشناسان تخمین می‌زنند که هزینه اجاره سخت‌افزار مورد نیاز برای آموزش این مدل حدود ۶ میلیون دلار بوده است، در حالی که هزینه مدل Llama 3.1 405B شرکت متا بیش از ۶۰ میلیون دلار بوده و ۱۱ برابر منابع محاسباتی بیشتری استفاده کرده است.

بخشی از هیجان حول DeepSeek به این دلیل است که این شرکت موفق به ساخت R1 شده است، علیرغم محدودیت‌های صادراتی ایالات متحده که دسترسی شرکت‌های چینی به بهترین تراشه‌های کامپیوتری طراحی‌شده برای پردازش هوش مصنوعی را محدود می‌کند. فرانسوا شوله، محقق هوش مصنوعی در سیاتل، می‌گوید: «این واقعیت که این مدل از چین آمده است، نشان می‌دهد که استفاده کارآمد از منابع مهم‌تر از مقیاس محاسباتی به‌تنهایی است.»

پیشرفت DeepSeek نشان می‌دهد که «برتری ایالات متحده که زمانی داشت، به‌طور قابل توجهی کاهش یافته است.» آلوین وانگ گرایلین، متخصص فناوری در بلویو، واشنگتن، که در شرکت HTC مستقر در تایوان کار می‌کند، در پستی در X نوشت: «این دو کشور باید به‌جای ادامه رویکرد فعلی مسابقه تسلیحاتی بدون برنده، به سمت یک رویکرد مشارکتی برای ساخت هوش مصنوعی پیشرفته حرکت کنند.»

زنجیره تفکر

مدل‌های زبانی بزرگ بر روی میلیاردها نمونه متن آموزش می‌بینند و آن‌ها را به بخش‌هایی به نام «توکن» تقسیم می‌کنند و الگوهای موجود در داده‌ها را یاد می‌گیرند. این ارتباطات به مدل اجازه می‌دهد تا توکن‌های بعدی در یک جمله را پیش‌بینی کند. اما مدل‌های زبانی بزرگ مستعد اختراع حقایق هستند، پدیده‌ای که به آن «توهم» می‌گویند، و اغلب در استدلال از طریق مشکلات مشکل دارند.

مانند o1، مدل R1 از روش «زنجیره تفکر» برای بهبود توانایی مدل زبانی بزرگ در حل وظایف پیچیده‌تر استفاده می‌کند، که گاهی شامل بازگشت به عقب و ارزیابی رویکرد خود است. DeepSeek با استفاده از یادگیری تقویتی، مدل V3 را بهینه‌سازی کرد تا R1 را ایجاد کند. در این فرآیند، مدل برای رسیدن به پاسخ صحیح و همچنین برای حل مسائل به‌شیوه‌ای که «تفکر» خود را نشان می‌داد، پاداش دریافت می‌کرد.

رقبای هوش مصنوعی

نمودار میله‌ای نتایج آزمایش‌های انجام‌شده توسط DeepSeek را نشان می‌دهد که در آن سه نسخه از مدل‌های زبانی بزرگ این شرکت در مقابل مدل‌های o1 شرکت OpenAI در وظایف ریاضی، برنامه‌نویسی و استدلال مقایسه شده‌اند. مدل DeepSeek-R1 در معیارهای ریاضی و برنامه‌نویسی از o1 پیشی گرفته یا با آن رقابت کرده است.
منبع: DeepSeek

وندا لی، محقق هوش مصنوعی در دانشگاه ادینبورگ، می‌گوید که محدودیت توان محاسباتی این شرکت را به «نوآوری الگوریتمی» سوق داده است. در طول یادگیری تقویتی، تیم پیشرفت مدل را در هر مرحله تخمین زدند، به‌جای اینکه آن را با استفاده از یک شبکه جداگانه ارزیابی کنند. ماتجا جامنیک، دانشمند کامپیوتر در دانشگاه کمبریج، می‌گوید که این کار به کاهش هزینه‌های آموزش و اجرا کمک کرده است. محققان همچنین از معماری «مخلوطی از متخصصان» استفاده کردند که به مدل اجازه می‌دهد تنها بخش‌های مرتبط با هر وظیفه را فعال کند.

در آزمایش‌های معیار که در یک مقاله فنی همراه با مدل گزارش شده است، DeepSeek-R1 در مجموعه مسائل ریاضی MATH-500 ساخته‌شده توسط OpenAI نمره ۹۷.۳٪ کسب کرد و در رقابت Codeforces از ۹۶.۳٪ شرکت‌کنندگان انسانی پیشی گرفت. این نتایج هم‌سطح با توانایی‌های o1 است؛ مدل o3 در این مقایسه‌ها گنجانده نشده است (به بخش «رقبای هوش مصنوعی» مراجعه کنید).

تشخیص اینکه آیا معیارها توانایی واقعی مدل در استدلال یا تعمیم را اندازه‌گیری می‌کنند یا صرفاً توانایی آن در گذراندن این آزمون‌ها را، دشوار است. اما مارکو دوس سانتوس، دانشمند کامپیوتر در دانشگاه کمبریج، می‌گوید که چون R1 متن‌باز است، زنجیره تفکر آن برای محققان قابل دسترسی است. او می‌گوید: «این امر تفسیرپذیری بهتر فرآیندهای استدلالی مدل را ممکن می‌سازد.»

هم‌اکنون دانشمندان در حال آزمایش توانایی‌های R1 هستند. کرن هر دو مدل رقیب را به چالش کشید تا ۳۰۰۰ ایده تحقیقاتی را بر اساس میزان جذابیت آن‌ها مرتب کنند و نتایج را با رتبه‌بندی‌های انسانی مقایسه کردند. در این معیار، R1 عملکرد کمی ضعیف‌تر از o1 داشت. اما کرن می‌گوید که R1 در برخی محاسبات در زمینه اپتیک کوانتومی از o1 پیشی گرفت. او می‌گوید: «این بسیار ناراحت کننده است.»

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا