Apple और वाशिंगटन विश्वविद्यालय ने मिथुन और CHATGPT पर AI एजेंटों का परीक्षण किया, निष्कर्ष: प्रौद्योगिकी अभी तक तैयार नहीं है

इलस्ट्रेटिव इमेज। स्रोत: डल-ई

जब हम सभी सक्रिय रूप से परीक्षण कर रहे हैं कि एआई कैसे निबंध, कोड, या चित्र उत्पन्न कर सकता है, तो Apple और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने बहुत अधिक व्यावहारिक प्रश्न पूछा है: अगर हमने कृत्रिम बुद्धिमत्ता को मोबाइल एप्लिकेशन प्रबंधन के लिए पूरी तरह से पहुंच दी तो क्या होगा? और सबसे महत्वपूर्ण बात, क्या यह अपने कार्यों के परिणामों को समझेगा?

क्या ज्ञात है

IUI 2025 सम्मेलन के लिए प्रकाशित, “इंटरेक्शन फ्रॉम इंटरेक्शन टू इम्पैक्ट: टुवर्ड्स एआई एजेंट्स थ्रू एस्टिंग एंड इवैल्यूट मोबाइल यूआई ऑपरेशन इम्पैक्ट्स” शीर्षक से, वैज्ञानिकों की एक टीम ने एक गंभीर अंतराल की पहचान की है:

आधुनिक बड़े पैमाने पर भाषा मॉडल (एलएलएम) इंटरफेस को समझने में काफी अच्छे हैं, लेकिन वे इन इंटरफेस में अपने स्वयं के कार्यों के परिणामों को समझने में अपर्याप्त रूप से अपर्याप्त हैं।

उदाहरण के लिए, एआई के लिए, “डिलीट अकाउंट” बटन पर क्लिक करना लगभग “लाइक” के समान ही दिखता है। उनके बीच के अंतर को अभी भी इसे समझाया जाना चाहिए। मोबाइल अनुप्रयोगों में कार्यों के महत्व और जोखिमों के बीच अंतर करने के लिए मशीनों को पढ़ाने के लिए, टीम ने एक विशेष वर्गीकरण विकसित किया, जो उपयोगकर्ता, इंटरफ़ेस और अन्य लोगों पर कार्यों के दस मुख्य प्रकार के प्रभाव का वर्णन करता है, और प्रतिवर्तीता, दीर्घकालिक परिणाम, निष्पादन सत्यापन, और यहां तक कि बाहरी संदर्भों (उदाहरण के लिए, भू-भाग या खाता स्थिति) को भी ध्यान में रखता है।

शोधकर्ताओं ने 250 परिदृश्यों का एक अनूठा डेटासेट बनाया, जहां एआई को यह समझना था कि कौन से कार्य सुरक्षित हैं, जिन्हें पुष्टि की आवश्यकता है, और जो बेहतर हैं कि मानव के बिना प्रदर्शन नहीं किया जाए। लोकप्रिय AndroidControl और मोटिफ डेटासेट की तुलना में, नया सेट वास्तविक दुनिया के परिणामों के साथ स्थितियों में बहुत समृद्ध है, खरीदारी और पासवर्ड परिवर्तन से लेकर स्मार्ट होम मैनेजमेंट तक।

प्रतिभागियों के लिए एक वेब इंटरफ़ेस प्रभाव के साथ एक इंटरफ़ेस के एक्शन निशान उत्पन्न करने के लिए, जिसमें एक मोबाइल फोन स्क्रीन (बाएं) और लॉगिन और रिकॉर्डिंग फ़ंक्शन (दाएं) शामिल हैं। चित्रण: सेब

अध्ययन में पांच भाषा मॉडल (एलएलएम) और मल्टीमॉडल मॉडल (एमएलएलएम) का परीक्षण किया गया, अर्थात्:

GPT -4 (पाठ संस्करण) – इंटरफ़ेस छवियों के साथ काम किए बिना एक क्लासिक पाठ संस्करण। GPT-4 मल्टीमॉडल (GPT-4 मिमी) एक मल्टीमॉडल संस्करण है जो न केवल पाठ, बल्कि इंटरफ़ेस छवियों (उदाहरण के लिए, मोबाइल एप्लिकेशन के स्क्रीनशॉट) का भी विश्लेषण कर सकता है। GEMINI 1.5 फ्लैश (पाठ संस्करण) Google का एक मॉडल है जो पाठ डेटा के साथ काम करता है। MM1.5 (MLLM) मेटा (मेटा मल्टीमॉडल 1.5) से एक मल्टीमॉडल मॉडल है जो पाठ और छवियों दोनों का विश्लेषण कर सकता है। फेरेट-यूआई (एमएलएलएम) एक विशेष मल्टीमॉडल मॉडल है जो विशेष रूप से उपयोगकर्ता इंटरफेस के साथ समझने और काम करने के लिए प्रशिक्षित है।

इन मॉडलों का परीक्षण चार मोड में किया गया था:

शून्य -शॉट – कोई अतिरिक्त प्रशिक्षण या उदाहरण नहीं। नॉलेज -एंबेस्टेड प्रॉम्प्टिंग (केएपी) – कार्रवाई के टैक्सोनॉमी के ज्ञान के अलावा प्रॉम्प्ट पर प्रभाव पड़ता है। इन -संदर्भ लर्निंग (ICL) – प्रॉम्प्ट में उदाहरण के साथ। चेन-ऑफ-थॉट (सीओटी)-उन संकेतों के साथ जिसमें चरण-दर-चरण तर्क शामिल हैं।

परीक्षणों ने क्या दिखाया? यहां तक कि जीपीटी -4 मल्टीमॉडल और मिथुन सहित सबसे अच्छे मॉडल, कार्यों के प्रभाव के स्तर को निर्धारित करने में सिर्फ 58% से अधिक की सटीकता प्राप्त करते हैं। सबसे खराब एआई क्रियाओं की प्रतिवर्तीता या उनके दीर्घकालिक प्रभाव के प्रकार की बारीकियों के साथ है।

दिलचस्प बात यह है कि मॉडल जोखिमों को अतिरंजित करते हैं। उदाहरण के लिए, GPT-4 एक महत्वपूर्ण कार्रवाई के रूप में एक खाली कैलकुलेटर के इतिहास को साफ करने के लिए वर्गीकृत कर सकता है। इसी समय, कुछ गंभीर क्रियाएं, जैसे कि एक महत्वपूर्ण संदेश भेजना या वित्तीय डेटा बदलना, मॉडल द्वारा कम करके आंका जा सकता है।

विभिन्न मॉडलों का उपयोग करके प्रभाव के समग्र स्तर की भविष्यवाणी करने की सटीकता। चित्रण: सेब

परिणामों से पता चला कि यहां तक कि जीपीटी -4 मल्टीमॉडल जैसे शीर्ष मॉडल इंटरफ़ेस में कार्यों के प्रभाव के स्तर को वर्गीकृत करने में 60% सटीकता तक नहीं पहुंचते हैं। उनके पास विशेष रूप से कठिन समय है जैसे कि बारीकियों को समझना जैसे कार्यों की वसूली या अन्य उपयोगकर्ताओं पर उनके प्रभाव।

नतीजतन, शोधकर्ताओं ने कई निष्कर्ष निकाले: संदर्भ समझ के लिए पहले, अधिक जटिल और बारीक दृष्टिकोण स्वायत्त एआई एजेंटों को सुरक्षित रूप से संचालित करने के लिए आवश्यक हैं; दूसरा, उपयोगकर्ताओं को भविष्य में अपने एआई के “सावधानी” का स्तर निर्धारित करना होगा – पुष्टि के बिना क्या किया जा सकता है और जो बिल्कुल अनुमति नहीं है।

यह शोध यह सुनिश्चित करने की दिशा में एक महत्वपूर्ण कदम है कि स्मार्टफोन में स्मार्ट एजेंट सिर्फ बटन नहीं देते हैं, बल्कि यह भी समझते हैं कि वे क्या कर रहे हैं और यह कैसे मनुष्यों को प्रभावित कर सकता है।

स्रोत: सेब