AI सिस्टम परीक्षणों में महान है, लेकिन वे वास्तविक जीवन में कैसे प्रदर्शन करते हैं?

Spread the love share


इस महीने की शुरुआत में, जब Openai ने अपने नवीनतम प्रमुख आर्टिफिशियल इंटेलिजेंस (AI) सिस्टम, GPT-5 को जारी किया, तो कंपनी ने कहा कि यह पहले मॉडल की तुलना में “बोर्ड में बहुत अधिक होशियार” था। दावे का समर्थन करते हुए सॉफ्टवेयर कोडिंग, गणित और स्वास्थ्य सेवा जैसे डोमेन का आकलन करने वाले बेंचमार्क परीक्षणों की एक श्रृंखला पर उच्च स्कोर थे।

इस तरह के बेंचमार्क परीक्षण मानक तरीके से बन गए हैं जो हम एआई सिस्टम का आकलन करते हैं – लेकिन वे हमें वास्तविक दुनिया में इन प्रणालियों के वास्तविक प्रदर्शन और प्रभावों के बारे में बहुत कुछ नहीं बताते हैं।

AI मॉडल को मापने के लिए एक बेहतर तरीका क्या होगा? एआई शोधकर्ताओं और मेट्रोलॉजिस्टों के एक समूह – माप के विज्ञान में विशेषज्ञ – हाल ही में एक तरह से आगे बढ़े।

मेट्रोलॉजी यहां महत्वपूर्ण है क्योंकि हमें न केवल एआई सिस्टम की विश्वसनीयता को सुनिश्चित करने के तरीकों की आवश्यकता है, जिस पर हम तेजी से निर्भर हो सकते हैं, बल्कि उनके व्यापक आर्थिक, सांस्कृतिक और सामाजिक प्रभाव के कुछ उपाय भी हैं।

मापने की सुरक्षा

हम उपकरण, उत्पादों, सेवाओं और प्रक्रियाओं को सुनिश्चित करने के लिए मेट्रोलॉजी पर भरोसा करते हैं जो हम उपयोग करते हैं विश्वसनीय हैं।

एक बायोमेडिकल नैतिकतावादी – स्वास्थ्य एआई के रूप में मेरे दिल के करीब कुछ लें। हेल्थकेयर में, एआई निदान और रोगी की निगरानी में सुधार करने, दवा को अधिक व्यक्तिगत बनाने और रोगों को रोकने में मदद करने के साथ -साथ कुछ प्रशासनिक कार्यों को संभालने का वादा करता है।

इन वादों को केवल तभी महसूस किया जाएगा जब हम यह सुनिश्चित कर सकते हैं कि स्वास्थ्य एआई सुरक्षित और प्रभावी हो, और इसका मतलब है कि इसे मापने के लिए विश्वसनीय तरीके खोजना।

उदाहरण के लिए, हमारे पास दवाओं और चिकित्सा उपकरणों की सुरक्षा और प्रभावशीलता को मापने के लिए पहले से ही अच्छी तरह से स्थापित सिस्टम हैं। लेकिन यह अभी तक एआई के लिए मामला नहीं है – स्वास्थ्य सेवा में नहीं, या अन्य डोमेन में जैसे कि शिक्षा, रोजगार, कानून प्रवर्तन, बीमा और बायोमेट्रिक्स।

परीक्षण परिणाम और वास्तविक प्रभाव

वर्तमान में, अत्याधुनिक एआई सिस्टम का अधिकांश मूल्यांकन बेंचमार्क पर निर्भर करता है। ये ऐसे परीक्षण हैं जिनका उद्देश्य उनके आउटपुट के आधार पर AI सिस्टम का आकलन करना है।

वे इस बारे में सवालों के जवाब दे सकते हैं कि सिस्टम की प्रतिक्रियाएं कितनी बार सटीक या प्रासंगिक हैं, या वे मानव विशेषज्ञ से प्रतिक्रियाओं की तुलना कैसे करते हैं।

शाब्दिक रूप से सैकड़ों एआई बेंचमार्क हैं, जो ज्ञान डोमेन की एक विस्तृत श्रृंखला को कवर करते हैं।

हालांकि, बेंचमार्क प्रदर्शन हमें इस बात के बारे में बहुत कम बताता है कि इन मॉडलों का वास्तविक दुनिया की सेटिंग्स में प्रभाव होगा। इसके लिए, हमें उस संदर्भ पर विचार करने की आवश्यकता है जिसमें एक प्रणाली तैनात की जाती है।

बेंचमार्क के साथ समस्या

उत्पाद प्रदर्शन को दिखाने और फंडिंग को आकर्षित करने के लिए वाणिज्यिक एआई डेवलपर्स के लिए बेंचमार्क बहुत महत्वपूर्ण हो गए हैं।

उदाहरण के लिए, इस साल अप्रैल में एक युवा स्टार्टअप नामक एक युवा स्टार्टअप ने एक सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर प्रभावशाली परिणाम पोस्ट किए। इसके तुरंत बाद, कंपनी ने USD175 मिलियन (AUSD270 मिलियन) को एक सौदे में फंडिंग में जुटाया, जिसने इसे USD2 बिलियन (AUSD3.1 बिलियन) में महत्व दिया।

बेंचमार्क भी gamed किया गया है। मेटा ने अपने लामा -4 मॉडल के कुछ संस्करणों को एक प्रमुख चैटबॉट-रैंकिंग साइट पर अपने स्कोर को अनुकूलित करने के लिए समायोजित किया है। Openai के O3 मॉडल ने Frontiermath बेंचमार्क पर अत्यधिक स्कोर करने के बाद, यह पता चला कि कंपनी के पास बेंचमार्क के पीछे डेटासेट तक पहुंच थी, परिणाम के बारे में सवाल उठाते हुए।

ब्रिटिश अर्थशास्त्री चार्ल्स गुडहार्ट के बाद यहां समग्र जोखिम को गुडहार्ट के कानून के रूप में जाना जाता है: “जब कोई उपाय एक लक्ष्य बन जाता है, तो यह एक अच्छा उपाय होना बंद हो जाता है।”

रुम्मन चौधरी के शब्दों में, जिन्होंने एल्गोरिथम नैतिकता के क्षेत्र के विकास को आकार देने में मदद की है, मेट्रिक्स पर बहुत अधिक महत्व रखने से “हेरफेर, गेमिंग, और अल्पकालिक गुणों पर एक मायोपिक फोकस और दीर्घकालिक परिणामों के अपर्याप्त विचार पर ध्यान केंद्रित किया जा सकता है।

बेंचमार्क से परे

तो अगर बेंचमार्क नहीं है, तो क्या? आइए स्वास्थ्य एआई के उदाहरण पर लौटें। हेल्थकेयर में बड़ी भाषा मॉडल (एलएलएम) की उपयोगिता का मूल्यांकन करने के लिए पहले बेंचमार्क ने मेडिकल लाइसेंसिंग परीक्षाओं का उपयोग किया। इनका उपयोग डॉक्टरों की क्षमता और सुरक्षा का आकलन करने के लिए किया जाता है, इससे पहले कि वे विशेष न्यायालयों में अभ्यास करने की अनुमति दें।

अत्याधुनिक मॉडल अब ऐसे बेंचमार्क पर निकट-परिपूर्ण स्कोर प्राप्त करते हैं। हालांकि, वास्तविक दुनिया के नैदानिक ​​अभ्यास की जटिलता और विविधता को पर्याप्त रूप से प्रतिबिंबित नहीं करने के लिए इनकी व्यापक रूप से आलोचना की गई है।

जवाब में, अधिक विविध और यथार्थवादी कार्यों में इन मॉडलों का मूल्यांकन करने के लिए “समग्र” फ्रेमवर्क की एक नई पीढ़ी विकसित की गई है। स्वास्थ्य अनुप्रयोगों के लिए, सबसे परिष्कृत मेडहेलम मूल्यांकन ढांचा है, जिसमें निर्णय लेने और नोट लेने से लेकर संचार और अनुसंधान तक, नैदानिक ​​कार्यों की पांच श्रेणियों में 35 बेंचमार्क शामिल हैं।

बेहतर परीक्षण कैसा दिखेगा

अधिक समग्र मूल्यांकन ढांचे जैसे कि मेडहेल्म का उद्देश्य इन नुकसान से बचने का लक्ष्य है। उन्हें अभ्यास के एक विशेष क्षेत्र की वास्तविक मांगों को प्रतिबिंबित करने के लिए डिज़ाइन किया गया है।

हालांकि, ये फ्रेमवर्क अभी भी उन तरीकों के लिए लेखांकन से कम हो जाते हैं, जो मनुष्य वास्तविक दुनिया में एआई प्रणाली के साथ बातचीत करते हैं। और वे व्यापक आर्थिक, सांस्कृतिक और सामाजिक संदर्भों पर अपने प्रभावों के साथ आना शुरू नहीं करते हैं, जिसमें वे काम करते हैं।

इसके लिए हमें एक नए मूल्यांकन पारिस्थितिकी तंत्र की आवश्यकता होगी। इसे AI सिस्टम का मूल्यांकन करने के लिए कठोर और प्रतिलिपि प्रस्तुत करने योग्य तरीके विकसित करने के उद्देश्य से शिक्षाविद, उद्योग और नागरिक समाज से विशेषज्ञता को आकर्षित करने की आवश्यकता होगी।

इस पर काम पहले ही शुरू हो चुका है। संदर्भों में एआई सिस्टम के वास्तविक दुनिया के प्रभाव का मूल्यांकन करने के तरीके हैं, जिसमें वे तैनात हैं-लाल-टीमिंग (जहां परीक्षक जानबूझकर सिस्टम से अवांछित आउटपुट का उत्पादन करने का प्रयास करते हैं) और फील्ड परीक्षण (जहां एक सिस्टम वास्तविक दुनिया के वातावरण में परीक्षण किया जाता है)। अगला कदम इन विधियों को परिष्कृत और व्यवस्थित करना है, ताकि वास्तव में जो मायने रखता है उसे मज़बूती से मापा जा सके।

यदि AI उस परिवर्तन का एक अंश भी वितरित करता है जो इसे लाने के लिए सम्मोहित है, तो हमें एक माप विज्ञान की आवश्यकता है जो हम सभी के हितों की रक्षा करता है, न कि केवल तकनीकी अभिजात वर्ग के हितों की। (वार्तालाप) आरडी आरडी



Source link


Spread the love share