شایعات حاکی از آن است که DeepSeek V4 در کدنویسی با متن طولانی از ChatGPT و Claude بهتر عمل میکند و وظایف کدنویسی در سطح نخبگان را هدف قرار میدهد. افراد آگاه ادعا میکنند که چشمانداز هوش مصنوعی سیلیکون ولی باید نگران باشد اگر تستهای داخلی به عملکرد مورد انتظار آن پس از عرضه در اواسط فوریه اشاره کند.
شرکت نوآفرین مبتنی بر هوش مصنوعی مستقر در چین، DeepSeek، گزارش شده است که برنامهریزی برای انتشار DeepSeek V4، جدیدترین مدل زبانی بزرگ خود، در 17 فوریه دارد. افراد آشنا با موضوع ادعا میکنند که این مدل آماده است تا سایهای بر مدلهای زبانی بزرگ موجود، مانند ChatGPT سازمان OpenAI و Claude سازمان Anthropic، هنگام مدیریت دستورات و وظایف کد با متن طولانی بیندازد.
توسعه دهنده بازی های ویدئویی انتظار عمیقی برای انتشار DeepSeek V4 ابراز میکنند
شرکت چینی تا زمان نگارش این مطلب هیچ اطلاعاتی درباره انتشار قریبالوقوع را بهطور عمومی فاش نکرده یا شایعات را تأیید نکرده است. توسعه دهنده بازی های ویدئویی در شبکههای اجتماعی مختلف انتظار عمیقی برای این انتشار ابراز کردهاند. Yuchen Jin، توسعهدهنده هوش مصنوعی و بنیانگذار مشترک Hyperbolic Labs، در X نوشت که "شایعه شده است که DeepSeek V4 به زودی منتشر میشود، با کدنویسی قویتر از Claude و GPT."
Subreddit r/DeepSeek نیز داغ شد، با یک کاربر که توضیح داد که وسواس آنها نسبت به مدل قریبالوقوع V4 DeepSeek طبیعی نبود. کاربر گفت که آنها مکرراً "اخبار، شایعات احتمالی را بررسی میکنند، و حتی به خواندن اسناد در وبسایت DS میروند تا هر گونه تغییر یا نشانهای که نشاندهنده بهروزرسانی باشد را جستجو کنند."
انتشارات قبلی DeepSeek تأثیر قابل توجهی بر بازارهای جهانی داشته است. شرکت نوآفرین هوش مصنوعی چینی مدل استدلالی R1 خود را در ژانویه 2025 منتشر کرد، که منجر به فروش تریلیون دلاری شد. این انتشار با مدل 01 OpenAI در معیارهای ریاضی و استدلال مطابقت داشت، علیرغم اینکه هزینه آن به طور قابل توجهی کمتر از آنچه شرکت نوآفرین هوش مصنوعی آمریکایی برای مدل 01 خود صرف کرد، بود.
گزارش شده است که شرکت چینی تنها 6 میلیون دلار برای انتشار مدل خرج کرده است. در همین حال، رقبای جهانی تقریباً 70 برابر بیشتر برای همان خروجی هزینه میکنند. مدل V3 آن نیز امتیاز 90.2٪ را در معیار MATH-500 ثبت کرد، در مقایسه با 78.3٪ Claude. ارتقای اخیرتر V3 DeepSeek (V3.2 Speciale) بهرهوری آن را بیشتر بهبود بخشید.
نقطه فروش مدل V4 آن از تأکید V3 بر استدلال خالص، اثباتهای رسمی و ریاضیات منطقی تکامل یافته است. انتظار میرود که انتشار جدید یک مدل ترکیبی باشد که هم وظایف استدلالی و هم غیر استدلالی را ترکیب میکند. این مدل با پر کردن شکاف موجود که دقت بالا و تولید کد با متن طولانی را طلب میکند، هدف تسخیر بازار توسعهدهندگان را دارد.
Claude Opus 4.5 در حال حاضر ادعای تسلط در معیار SWE را دارد و به دقت 80.9٪ دست یافته است. V4 باید این را شکست دهد تا Claude Opus 4.5 را سرنگون کند. بر اساس موفقیتهای قبلی، مدل ورودی ممکن است از این آستانه فراتر رود و تسلط در معیار را به دست آورد.
DeepSeek پیشگام mHC برای آموزش LLMها
موفقیت DeepSeek بسیاری را در بیاعتقادی حرفهای عمیق قرار داده است. چگونه چنین شرکت کوچکی میتوانست به چنین دستاوردهایی برسد؟ راز میتواند عمیقاً در مقاله تحقیقاتی آن نهفته باشد که در 1 ژانویه منتشر شد. شرکت یک روش آموزشی جدید را شناسایی کرد که به توسعهدهندگان اجازه میدهد به راحتی مدلهای زبانی بزرگ را مقیاسپذیری کنند. Liang Wenfeng، بنیانگذار و مدیر عامل DeepSeek، در تحقیق نوشت که شرکت از Manifold-Constrained Hyper-Connections (mHC) برای آموزش مدلهای مبتنی بر هوش مصنوعی خود استفاده میکند.
این مدیر اجرایی استفاده از mHC را برای رفع مشکلات مواجه شده هنگام آموزش مدلهای زبانی بزرگ توسط توسعهدهندگان پیشنهاد داد. به گفته Wenfeng، mHC ارتقایی از Hyper-Connections (HC) است، چارچوبی که سایر توسعهدهندگان هوش مصنوعی برای آموزش مدلهای زبانی بزرگ خود از آن استفاده میکنند. او توضیح داد که HC و سایر معماریهای سنتی هوش مصنوعی همه دادهها را از طریق یک کانال واحد و باریک مجبور میکنند. در همان زمان، mHC آن مسیر را به کانالهای متعدد گسترش میدهد و انتقال دادهها و اطلاعات را بدون ایجاد فروپاشی آموزشی تسهیل میکند.
Lian Jye Su، تحلیلگر ارشد در Omdia، از مدیر عامل Wenfeng برای انتشار تحقیقات خود تقدیر کرد. Su تأکید کرد که تصمیم DeepSeek برای انتشار روشهای آموزشی خود اعتماد تجدیدشده در بخش هوش مصنوعی چین را دیکته میکند. DeepSeek بر جهان در حال توسعه تسلط پیدا کرده است. مایکروسافت گزارشی را در پنجشنبه منتشر کرد که نشان میدهد DeepSeek 89٪ از بازار هوش مصنوعی چین را در اختیار دارد و در کشورهای در حال توسعه شتاب گرفته است.
میخواهید پروژه خود را در مقابل ذهنهای برتر کریپتو قرار دهید؟ آن را در گزارش صنعتی بعدی ما، جایی که دادهها با تأثیر ملاقات میکنند، نمایش دهید.
Source: https://www.cryptopolitan.com/deepseek-v4-chatgpt-and-claude/



