छवि क्रेडिट: डिकोडर
चीनी फर्म डीपसीक ने एक नया ओपन-सोर्स एआई मॉडल डीपसीक वी3 जारी किया है, जो कई बेंचमार्क पर मौजूदा ओपन-सोर्स मॉडल और ओपनएआई के जीपीटी-4ओ जैसे बंद मॉडल से भी आगे निकल जाता है। यह मॉडल 671 बिलियन मापदंडों से सुसज्जित है और टेक्स्ट, कोड उत्पन्न कर सकता है और संबंधित कार्य कर सकता है। डीपसीक वी3 विशेषज्ञों (एमओई) आर्किटेक्चर के मिश्रण का उपयोग करता है, जो विभिन्न कार्यों के लिए कई तंत्रिका नेटवर्क को अनुकूलित करता है, जो किसी दिए गए प्रॉम्प्ट के लिए केवल प्रासंगिक नेटवर्क को सक्रिय करके हार्डवेयर लागत को कम करने में मदद करता है।
मॉडल का प्रशिक्षण लगभग 2788K H800 GPU घंटों में किया गया, जिसकी अनुमानित लागत $5.57 मिलियन थी। यह अमेरिका में बड़ी तकनीकी कंपनियों की करोड़ों डॉलर की प्रशिक्षण लागत से काफी कम है। एक तकनीकी पेपर के अनुसार, डीपसीक वी3 ने अधिकांश बेंचमार्क में लामा-3.1-405बी और क्वेन 2.5-72बी जैसे ओपन-सोर्स मॉडल से बेहतर प्रदर्शन किया। SimpleQA जैसे बेंचमार्क को छोड़कर, जो अंग्रेजी और FRAMES पर केंद्रित है, इसने GPT-4o को भी पीछे छोड़ दिया। अधिकांश बेंचमार्क में डीपसीक वी3 से बेहतर प्रदर्शन करने वाला एकमात्र मॉडल एंथ्रोपिक का क्लाउड 3.5 सॉनेट था।
DeepSeek V3 का कोड GitHub पर उपलब्ध है, और मॉडल को कंपनी के मॉडल लाइसेंस के तहत एक्सेस किया जा सकता है।
बिजनेस अपटर्न में बीट एडिटर मातृका शुक्ला एक मल्टीमीडिया छात्रा हैं। उन्हें जटिल विषयों पर जांच और रिपोर्टिंग करने का शौक है। राजनीति पर विशेष ध्यान देने के साथ डिजिटल मीडिया में उनकी व्यापक पृष्ठभूमि है।