AI सिस्टम परीक्षणों में महान है, लेकिन वे वास्तविक जीवन में कैसे प्रदर्शन करते हैं?

Spread the love share

इस महीने की शुरुआत में, जब Openai ने अपने नवीनतम प्रमुख आर्टिफिशियल इंटेलिजेंस (AI) सिस्टम, GPT-5 को जारी किया, तो कंपनी ने कहा कि यह पहले मॉडल की तुलना में “बोर्ड में बहुत अधिक होशियार” था। दावे का समर्थन करते हुए सॉफ्टवेयर कोडिंग, गणित और स्वास्थ्य सेवा जैसे डोमेन का आकलन करने वाले बेंचमार्क परीक्षणों की एक श्रृंखला पर उच्च स्कोर थे।

इस तरह के बेंचमार्क परीक्षण मानक तरीके से बन गए हैं जो हम एआई सिस्टम का आकलन करते हैं – लेकिन वे हमें वास्तविक दुनिया में इन प्रणालियों के वास्तविक प्रदर्शन और प्रभावों के बारे में बहुत कुछ नहीं बताते हैं।

AI मॉडल को मापने के लिए एक बेहतर तरीका क्या होगा? एआई शोधकर्ताओं और मेट्रोलॉजिस्टों के एक समूह – माप के विज्ञान में विशेषज्ञ – हाल ही में एक तरह से आगे बढ़े।

मेट्रोलॉजी यहां महत्वपूर्ण है क्योंकि हमें न केवल एआई सिस्टम की विश्वसनीयता को सुनिश्चित करने के तरीकों की आवश्यकता है, जिस पर हम तेजी से निर्भर हो सकते हैं, बल्कि उनके व्यापक आर्थिक, सांस्कृतिक और सामाजिक प्रभाव के कुछ उपाय भी हैं।

मापने की सुरक्षा

हम उपकरण, उत्पादों, सेवाओं और प्रक्रियाओं को सुनिश्चित करने के लिए मेट्रोलॉजी पर भरोसा करते हैं जो हम उपयोग करते हैं विश्वसनीय हैं।

एक बायोमेडिकल नैतिकतावादी – स्वास्थ्य एआई के रूप में मेरे दिल के करीब कुछ लें। हेल्थकेयर में, एआई निदान और रोगी की निगरानी में सुधार करने, दवा को अधिक व्यक्तिगत बनाने और रोगों को रोकने में मदद करने के साथ -साथ कुछ प्रशासनिक कार्यों को संभालने का वादा करता है।

इन वादों को केवल तभी महसूस किया जाएगा जब हम यह सुनिश्चित कर सकते हैं कि स्वास्थ्य एआई सुरक्षित और प्रभावी हो, और इसका मतलब है कि इसे मापने के लिए विश्वसनीय तरीके खोजना।

उदाहरण के लिए, हमारे पास दवाओं और चिकित्सा उपकरणों की सुरक्षा और प्रभावशीलता को मापने के लिए पहले से ही अच्छी तरह से स्थापित सिस्टम हैं। लेकिन यह अभी तक एआई के लिए मामला नहीं है – स्वास्थ्य सेवा में नहीं, या अन्य डोमेन में जैसे कि शिक्षा, रोजगार, कानून प्रवर्तन, बीमा और बायोमेट्रिक्स।

परीक्षण परिणाम और वास्तविक प्रभाव

वर्तमान में, अत्याधुनिक एआई सिस्टम का अधिकांश मूल्यांकन बेंचमार्क पर निर्भर करता है। ये ऐसे परीक्षण हैं जिनका उद्देश्य उनके आउटपुट के आधार पर AI सिस्टम का आकलन करना है।

वे इस बारे में सवालों के जवाब दे सकते हैं कि सिस्टम की प्रतिक्रियाएं कितनी बार सटीक या प्रासंगिक हैं, या वे मानव विशेषज्ञ से प्रतिक्रियाओं की तुलना कैसे करते हैं।

शाब्दिक रूप से सैकड़ों एआई बेंचमार्क हैं, जो ज्ञान डोमेन की एक विस्तृत श्रृंखला को कवर करते हैं।

हालांकि, बेंचमार्क प्रदर्शन हमें इस बात के बारे में बहुत कम बताता है कि इन मॉडलों का वास्तविक दुनिया की सेटिंग्स में प्रभाव होगा। इसके लिए, हमें उस संदर्भ पर विचार करने की आवश्यकता है जिसमें एक प्रणाली तैनात की जाती है।

बेंचमार्क के साथ समस्या

उत्पाद प्रदर्शन को दिखाने और फंडिंग को आकर्षित करने के लिए वाणिज्यिक एआई डेवलपर्स के लिए बेंचमार्क बहुत महत्वपूर्ण हो गए हैं।

उदाहरण के लिए, इस साल अप्रैल में एक युवा स्टार्टअप नामक एक युवा स्टार्टअप ने एक सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर प्रभावशाली परिणाम पोस्ट किए। इसके तुरंत बाद, कंपनी ने USD175 मिलियन (AUSD270 मिलियन) को एक सौदे में फंडिंग में जुटाया, जिसने इसे USD2 बिलियन (AUSD3.1 बिलियन) में महत्व दिया।

बेंचमार्क भी gamed किया गया है। मेटा ने अपने लामा -4 मॉडल के कुछ संस्करणों को एक प्रमुख चैटबॉट-रैंकिंग साइट पर अपने स्कोर को अनुकूलित करने के लिए समायोजित किया है। Openai के O3 मॉडल ने Frontiermath बेंचमार्क पर अत्यधिक स्कोर करने के बाद, यह पता चला कि कंपनी के पास बेंचमार्क के पीछे डेटासेट तक पहुंच थी, परिणाम के बारे में सवाल उठाते हुए।

ब्रिटिश अर्थशास्त्री चार्ल्स गुडहार्ट के बाद यहां समग्र जोखिम को गुडहार्ट के कानून के रूप में जाना जाता है: “जब कोई उपाय एक लक्ष्य बन जाता है, तो यह एक अच्छा उपाय होना बंद हो जाता है।”

रुम्मन चौधरी के शब्दों में, जिन्होंने एल्गोरिथम नैतिकता के क्षेत्र के विकास को आकार देने में मदद की है, मेट्रिक्स पर बहुत अधिक महत्व रखने से “हेरफेर, गेमिंग, और अल्पकालिक गुणों पर एक मायोपिक फोकस और दीर्घकालिक परिणामों के अपर्याप्त विचार पर ध्यान केंद्रित किया जा सकता है।

बेंचमार्क से परे

तो अगर बेंचमार्क नहीं है, तो क्या? आइए स्वास्थ्य एआई के उदाहरण पर लौटें। हेल्थकेयर में बड़ी भाषा मॉडल (एलएलएम) की उपयोगिता का मूल्यांकन करने के लिए पहले बेंचमार्क ने मेडिकल लाइसेंसिंग परीक्षाओं का उपयोग किया। इनका उपयोग डॉक्टरों की क्षमता और सुरक्षा का आकलन करने के लिए किया जाता है, इससे पहले कि वे विशेष न्यायालयों में अभ्यास करने की अनुमति दें।

अत्याधुनिक मॉडल अब ऐसे बेंचमार्क पर निकट-परिपूर्ण स्कोर प्राप्त करते हैं। हालांकि, वास्तविक दुनिया के नैदानिक अभ्यास की जटिलता और विविधता को पर्याप्त रूप से प्रतिबिंबित नहीं करने के लिए इनकी व्यापक रूप से आलोचना की गई है।

जवाब में, अधिक विविध और यथार्थवादी कार्यों में इन मॉडलों का मूल्यांकन करने के लिए “समग्र” फ्रेमवर्क की एक नई पीढ़ी विकसित की गई है। स्वास्थ्य अनुप्रयोगों के लिए, सबसे परिष्कृत मेडहेलम मूल्यांकन ढांचा है, जिसमें निर्णय लेने और नोट लेने से लेकर संचार और अनुसंधान तक, नैदानिक कार्यों की पांच श्रेणियों में 35 बेंचमार्क शामिल हैं।

बेहतर परीक्षण कैसा दिखेगा

अधिक समग्र मूल्यांकन ढांचे जैसे कि मेडहेल्म का उद्देश्य इन नुकसान से बचने का लक्ष्य है। उन्हें अभ्यास के एक विशेष क्षेत्र की वास्तविक मांगों को प्रतिबिंबित करने के लिए डिज़ाइन किया गया है।

हालांकि, ये फ्रेमवर्क अभी भी उन तरीकों के लिए लेखांकन से कम हो जाते हैं, जो मनुष्य वास्तविक दुनिया में एआई प्रणाली के साथ बातचीत करते हैं। और वे व्यापक आर्थिक, सांस्कृतिक और सामाजिक संदर्भों पर अपने प्रभावों के साथ आना शुरू नहीं करते हैं, जिसमें वे काम करते हैं।

इसके लिए हमें एक नए मूल्यांकन पारिस्थितिकी तंत्र की आवश्यकता होगी। इसे AI सिस्टम का मूल्यांकन करने के लिए कठोर और प्रतिलिपि प्रस्तुत करने योग्य तरीके विकसित करने के उद्देश्य से शिक्षाविद, उद्योग और नागरिक समाज से विशेषज्ञता को आकर्षित करने की आवश्यकता होगी।

इस पर काम पहले ही शुरू हो चुका है। संदर्भों में एआई सिस्टम के वास्तविक दुनिया के प्रभाव का मूल्यांकन करने के तरीके हैं, जिसमें वे तैनात हैं-लाल-टीमिंग (जहां परीक्षक जानबूझकर सिस्टम से अवांछित आउटपुट का उत्पादन करने का प्रयास करते हैं) और फील्ड परीक्षण (जहां एक सिस्टम वास्तविक दुनिया के वातावरण में परीक्षण किया जाता है)। अगला कदम इन विधियों को परिष्कृत और व्यवस्थित करना है, ताकि वास्तव में जो मायने रखता है उसे मज़बूती से मापा जा सके।

यदि AI उस परिवर्तन का एक अंश भी वितरित करता है जो इसे लाने के लिए सम्मोहित है, तो हमें एक माप विज्ञान की आवश्यकता है जो हम सभी के हितों की रक्षा करता है, न कि केवल तकनीकी अभिजात वर्ग के हितों की। (वार्तालाप) आरडी आरडी

Source link

Spread the love share

AI सिस्टम परीक्षणों में महान है, लेकिन वे वास्तविक जीवन में कैसे प्रदर्शन करते हैं?

मापने की सुरक्षा

परीक्षण परिणाम और वास्तविक प्रभाव

बेंचमार्क के साथ समस्या

बेंचमार्क से परे

बेहतर परीक्षण कैसा दिखेगा

रणवीर, सना और लवकेश के बीच बेहस बिग बॉस ओटीटी 3 | जियोसिनेमा | नया एपिसोड, रात 9 बजे By Imtiyaz Alam Journalist

Big B ने मनाया अपना जन्मदिन! | Kaun Banega Crorepati Season 14 By Imtiyaz Alam Journalist

Kapil ने इस Fan की Wife को क्यों पकड़ाई तलवार? | Best Of The Kapil Sharma Show | Full Episode By Imtiyaz Alam Journalist

Rahul Gandhi Vs Amit Shah In Lok Sabha LIVE | SIR Storm In Sansad: HM Fires Back At Rahul’s Dare

सफ़ोल्क हॉलिडे फर्मों का कहना है कि ईरान युद्ध के कारण ब्रिटेन में छुट्टियां बढ़ रही हैं

रणवीर, सना और लवकेश के बीच बेहस बिग बॉस ओटीटी 3 | जियोसिनेमा | नया एपिसोड, रात 9 बजे By Imtiyaz Alam Journalist

Big B ने मनाया अपना जन्मदिन! | Kaun Banega Crorepati Season 14 By Imtiyaz Alam Journalist

Kapil ने इस Fan की Wife को क्यों पकड़ाई तलवार? | Best Of The Kapil Sharma Show | Full Episode By Imtiyaz Alam Journalist

Rahul Gandhi Vs Amit Shah In Lok Sabha LIVE | SIR Storm In Sansad: HM Fires Back At Rahul’s Dare

Our Visitors Of Aglivenews

रणवीर, सना और लवकेश के बीच बेहस बिग बॉस ओटीटी 3 | जियोसिनेमा | नया एपिसोड, रात 9 बजे By Imtiyaz Alam Journalist

Big B ने मनाया अपना जन्मदिन! | Kaun Banega Crorepati Season 14 By Imtiyaz Alam Journalist