DeepSeek V4 ar fi mai performant decât ChatGPT și Claude în programare cu context lung

Se zvonește că DeepSeek V4 va depăși ChatGPT și Claude la codarea în context lung, vizând sarcini de codare de nivel elit. Persoane din interior susțin că peisajul AI din Silicon Valley ar trebui să fie îngrijorat dacă testele interne sugerează performanța așteptată după lansarea din mijlocul lunii februarie.

Start-up-ul AI cu sediul în China, DeepSeek, intenționează să lanseze DeepSeek V4, cel mai recent model de limbaj de mari dimensiuni, pe 17 februarie. Persoane familiarizate cu situația susțin că modelul este pregătit să umbrească modelele de limbaj de mari dimensiuni existente, cum ar fi ChatGPT de la OpenAI și Claude de la Anthropic, atunci când gestionează solicitări și sarcini de cod în context lung.

Dezvoltatorii exprimă o mare anticipare pentru lansarea DeepSeek V4

Compania chineză nu a divulgat public nicio informație despre lansarea iminentă și nici nu a confirmat zvonurile la momentul redactării. Dezvoltatorii din diferite rețele sociale au exprimat o mare anticipare pentru lansare. Yuchen Jin, dezvoltator AI și co-fondator al Hyperbolic Labs, a scris pe X că "Se zvonește că DeepSeek V4 va apărea în curând, cu capabilități de codare mai puternice decât Claude și GPT."

Subreddit-ul r/DeepSeek s-a încins de asemenea, un utilizator explicând că obsesia sa pentru modelul V4 iminent al DeepSeek nu era normală. Utilizatorul a spus că verifică frecvent "știrile, posibilele zvonuri și chiar citesc documentația de pe site-ul DS pentru a căuta orice modificări sau semne care indică o actualizare."

Lansările anterioare ale DeepSeek au avut un impact semnificativ asupra piețelor globale. Start-up-ul AI chinezesc a lansat modelul său de raționament R1 în ianuarie 2025, determinând o vânzare masivă de mii de miliarde de dolari. Lansarea a egalat modelul 01 al OpenAI la testele de referință pentru matematică și raționament, deși a costat semnificativ mai puțin decât a cheltuit start-up-ul AI american pe modelul său 01.

Se raportează că compania chineză a cheltuit doar 6 milioane de dolari pe lansarea modelului. Între timp, concurenții globali cheltuiesc aproape de 70 de ori mai mult pentru același rezultat. Modelul său V3 a înregistrat, de asemenea, un scor de 90,2% la testul de referință MATH-500, comparativ cu 78,3% al Claude. Actualizarea mai recentă V3 a DeepSeek (V3.2 Speciale) a îmbunătățit și mai mult productivitatea sa.

Punctul forte al modelului V4 a evoluat de la accentul pus de V3 pe raționamentul pur, dovezile formale și matematica logică. Noua lansare este așteptată să fie un model hibrid care combină atât sarcini de raționament, cât și non-raționament. Modelul își propune să cucerească piața dezvoltatorilor prin completarea unei lacune existente care necesită precizie ridicată și generare de cod în context lung.

Claude Opus 4.5 deține în prezent dominația în testul de referință SWE, obținând o precizie de 80,9%. V4 trebuie să depășească acest rezultat pentru a înlătura Claude Opus 4.5. Pe baza succeselor anterioare, modelul următor ar putea depăși acest prag și revendica dominația în testul de referință.

DeepSeek pionierează mHC pentru antrenarea LLM-urilor

Succesul DeepSeek a lăsat mulți în profundă neîncredere profesională. Cum ar putea o companie atât de mică să atingă astfel de repere? Secretul ar putea fi profund înrădăcinat în lucrarea sa de cercetare publicată pe 1 ianuarie. Compania a identificat o nouă metodă de antrenament care permite dezvoltatorilor să scaleze cu ușurință modele de limbaj de mari dimensiuni. Liang Wenfeng, fondatorul și CEO-ul DeepSeek, a scris în cercetare că compania utilizează Manifold-Constrained Hyper-Connections (mHC) pentru a antrena modelele sale AI.

Executivul a propus utilizarea mHC pentru a aborda problemele întâlnite când dezvoltatorii antrenează modele de limbaj de mari dimensiuni. Conform lui Wenfeng, mHC este o îmbunătățire a Hyper-Connections (HC), un cadru pe care alți dezvoltatori AI îl folosesc pentru a-și antrena modelele de limbaj de mari dimensiuni. El a explicat că HC și alte arhitecturi AI tradiționale forțează toate datele printr-un singur canal îngust. În același timp, mHC lărgește acea cale în mai multe canale, facilitând transferul de date și informații fără a provoca colapsul antrenamentului.

Lian Jye Su, analist șef la Omdia, l-a lăudat pe CEO-ul Wenfeng pentru publicarea cercetării lor. Su a subliniat că decizia DeepSeek de a-și publica metodele de antrenament dictează o încredere reînnoită în sectorul AI chinezesc. DeepSeek a dominat lumea în curs de dezvoltare. Microsoft a publicat un raport joi, arătând că DeepSeek deține 89% din piața AI a Chinei și a câștigat avânt în țările în curs de dezvoltare.

Vrei ca proiectul tău să fie în fața celor mai importante minți crypto? Prezintă-l în următorul nostru raport de industrie, unde datele întâlnesc impactul.

Sursă: https://www.cryptopolitan.com/deepseek-v4-chatgpt-and-claude/

DeepSeek V4 ar fi mai performant decât ChatGPT și Claude în programare cu context lung

Dezvoltatorii exprimă o mare anticipare pentru lansarea DeepSeek V4

DeepSeek pionierează mHC pentru antrenarea LLM-urilor

Poate îți place și

Alegătorii îl atacă pe președintele „idiot îngâmfat" într-un supercut dureros

Parlamentarii GOP, alarmați când li s-a cerut să elaboreze pe marginea recentei declarații a lui Trump

Experții financiari avertizează că indicatorul economic preferat al lui Trump ar putea lua o întorsătură negativă

Știri în tendințe

Politica oamenilor inteligenți este determinată de portofelul lor — nu de creierul lor: oamenii de știință

XRP Menține Nivelul Cheie, Dar Datele Fluxului Binance Semnalează Scăderea Cererii

NASA tocmai a lansat patru astronauți spre Lună — Iată ce înseamnă asta pentru acțiunile spațiale

Erin Burnett șocată în timp ce Trump este „batjocorit în toată China": „America și-a pierdut îndrăzneala"

Prețul Ethereum Formează un Model Alarmant pe Măsură ce Apar Riscuri Cheie

Știri în timp real 24/7

Prețuri cripto