Se zvonește că DeepSeek V4 va depăși ChatGPT și Claude la codarea în context lung, vizând sarcini de codare de nivel elit. Persoane din interior susțin că peisajul AI din Silicon Valley ar trebui să fie îngrijorat dacă testele interne sugerează performanța așteptată după lansarea din mijlocul lunii februarie.
Start-up-ul AI cu sediul în China, DeepSeek, intenționează să lanseze DeepSeek V4, cel mai recent model de limbaj de mari dimensiuni, pe 17 februarie. Persoane familiarizate cu situația susțin că modelul este pregătit să umbrească modelele de limbaj de mari dimensiuni existente, cum ar fi ChatGPT de la OpenAI și Claude de la Anthropic, atunci când gestionează solicitări și sarcini de cod în context lung.
Dezvoltatorii exprimă o mare anticipare pentru lansarea DeepSeek V4
Compania chineză nu a divulgat public nicio informație despre lansarea iminentă și nici nu a confirmat zvonurile la momentul redactării. Dezvoltatorii din diferite rețele sociale au exprimat o mare anticipare pentru lansare. Yuchen Jin, dezvoltator AI și co-fondator al Hyperbolic Labs, a scris pe X că "Se zvonește că DeepSeek V4 va apărea în curând, cu capabilități de codare mai puternice decât Claude și GPT."
Subreddit-ul r/DeepSeek s-a încins de asemenea, un utilizator explicând că obsesia sa pentru modelul V4 iminent al DeepSeek nu era normală. Utilizatorul a spus că verifică frecvent "știrile, posibilele zvonuri și chiar citesc documentația de pe site-ul DS pentru a căuta orice modificări sau semne care indică o actualizare."
Lansările anterioare ale DeepSeek au avut un impact semnificativ asupra piețelor globale. Start-up-ul AI chinezesc a lansat modelul său de raționament R1 în ianuarie 2025, determinând o vânzare masivă de mii de miliarde de dolari. Lansarea a egalat modelul 01 al OpenAI la testele de referință pentru matematică și raționament, deși a costat semnificativ mai puțin decât a cheltuit start-up-ul AI american pe modelul său 01.
Se raportează că compania chineză a cheltuit doar 6 milioane de dolari pe lansarea modelului. Între timp, concurenții globali cheltuiesc aproape de 70 de ori mai mult pentru același rezultat. Modelul său V3 a înregistrat, de asemenea, un scor de 90,2% la testul de referință MATH-500, comparativ cu 78,3% al Claude. Actualizarea mai recentă V3 a DeepSeek (V3.2 Speciale) a îmbunătățit și mai mult productivitatea sa.
Punctul forte al modelului V4 a evoluat de la accentul pus de V3 pe raționamentul pur, dovezile formale și matematica logică. Noua lansare este așteptată să fie un model hibrid care combină atât sarcini de raționament, cât și non-raționament. Modelul își propune să cucerească piața dezvoltatorilor prin completarea unei lacune existente care necesită precizie ridicată și generare de cod în context lung.
Claude Opus 4.5 deține în prezent dominația în testul de referință SWE, obținând o precizie de 80,9%. V4 trebuie să depășească acest rezultat pentru a înlătura Claude Opus 4.5. Pe baza succeselor anterioare, modelul următor ar putea depăși acest prag și revendica dominația în testul de referință.
DeepSeek pionierează mHC pentru antrenarea LLM-urilor
Succesul DeepSeek a lăsat mulți în profundă neîncredere profesională. Cum ar putea o companie atât de mică să atingă astfel de repere? Secretul ar putea fi profund înrădăcinat în lucrarea sa de cercetare publicată pe 1 ianuarie. Compania a identificat o nouă metodă de antrenament care permite dezvoltatorilor să scaleze cu ușurință modele de limbaj de mari dimensiuni. Liang Wenfeng, fondatorul și CEO-ul DeepSeek, a scris în cercetare că compania utilizează Manifold-Constrained Hyper-Connections (mHC) pentru a antrena modelele sale AI.
Executivul a propus utilizarea mHC pentru a aborda problemele întâlnite când dezvoltatorii antrenează modele de limbaj de mari dimensiuni. Conform lui Wenfeng, mHC este o îmbunătățire a Hyper-Connections (HC), un cadru pe care alți dezvoltatori AI îl folosesc pentru a-și antrena modelele de limbaj de mari dimensiuni. El a explicat că HC și alte arhitecturi AI tradiționale forțează toate datele printr-un singur canal îngust. În același timp, mHC lărgește acea cale în mai multe canale, facilitând transferul de date și informații fără a provoca colapsul antrenamentului.
Lian Jye Su, analist șef la Omdia, l-a lăudat pe CEO-ul Wenfeng pentru publicarea cercetării lor. Su a subliniat că decizia DeepSeek de a-și publica metodele de antrenament dictează o încredere reînnoită în sectorul AI chinezesc. DeepSeek a dominat lumea în curs de dezvoltare. Microsoft a publicat un raport joi, arătând că DeepSeek deține 89% din piața AI a Chinei și a câștigat avânt în țările în curs de dezvoltare.
Vrei ca proiectul tău să fie în fața celor mai importante minți crypto? Prezintă-l în următorul nostru raport de industrie, unde datele întâlnesc impactul.
Sursă: https://www.cryptopolitan.com/deepseek-v4-chatgpt-and-claude/



