पेज_बैनर

समाचार

वृहद भाषा मॉडल (एलएलएम) त्वरित शब्दों के आधार पर प्रेरक लेख लिख सकता है, व्यावसायिक दक्षता परीक्षाएँ उत्तीर्ण कर सकता है, और धैर्यवान एवं सहानुभूतिपूर्ण जानकारी लिख सकता है। हालाँकि, एलएलएम में कल्पना, नाज़ुकता और गलत तथ्यों के सुविदित जोखिमों के अलावा, अन्य अनसुलझे मुद्दे भी धीरे-धीरे ध्यान का केंद्र बन रहे हैं, जैसे कि एआई मॉडल जिनके निर्माण और उपयोग में संभावित रूप से भेदभावपूर्ण "मानवीय मूल्य" शामिल हैं, और भले ही एलएलएम अब सामग्री का निर्माण बंद कर दे और स्पष्ट रूप से हानिकारक आउटपुट परिणामों को समाप्त कर दे, फिर भी "एलएलएम मूल्य" मानवीय मूल्यों से विचलित हो सकते हैं।

 

अनगिनत उदाहरण बताते हैं कि कैसे AI मॉडल को प्रशिक्षित करने के लिए इस्तेमाल किया गया डेटा व्यक्तिगत और सामाजिक मूल्यों को एनकोड करता है, जो मॉडल के भीतर ठोस हो सकते हैं। इन उदाहरणों में कई तरह के अनुप्रयोग शामिल हैं, जिनमें छाती के एक्स-रे की स्वचालित व्याख्या, त्वचा रोगों का वर्गीकरण और चिकित्सा संसाधन आवंटन के संबंध में एल्गोरिथम निर्णय लेना शामिल है। जैसा कि हमारी पत्रिका के एक हालिया लेख में बताया गया है, पक्षपाती प्रशिक्षण डेटा समाज में मौजूद मूल्यों और पूर्वाग्रहों को बढ़ा-चढ़ाकर पेश कर सकता है। इसके विपरीत, शोध से यह भी पता चला है कि पूर्वाग्रह को कम करने के लिए AI का इस्तेमाल किया जा सकता है। उदाहरण के लिए, शोधकर्ताओं ने घुटने के एक्स-रे फिल्मों पर डीप लर्निंग मॉडल लागू किए और घुटने के जोड़ के भीतर मानक गंभीरता संकेतकों (रेडियोलॉजिस्ट द्वारा वर्गीकृत) से छूटे हुए कारकों की खोज की, जिससे अश्वेत और श्वेत रोगियों के बीच अस्पष्टीकृत दर्द के अंतर को कम किया जा सका।

हालाँकि अधिक से अधिक लोग एआई मॉडलों में पूर्वाग्रह को महसूस कर रहे हैं, विशेष रूप से प्रशिक्षण डेटा के संदर्भ में, एआई मॉडलों के विकास और परिनियोजन प्रक्रिया में मानवीय मूल्यों के कई अन्य प्रवेश बिंदुओं पर पर्याप्त ध्यान नहीं दिया जाता है। मेडिकल एआई ने हाल ही में प्रभावशाली परिणाम प्राप्त किए हैं, लेकिन काफी हद तक, इसने मानवीय मूल्यों और जोखिम मूल्यांकन एवं संभाव्य तर्क के साथ उनकी अंतःक्रिया पर स्पष्ट रूप से विचार नहीं किया है, न ही इसका मॉडल तैयार किया गया है।

 

इन अमूर्त अवधारणाओं को मूर्त रूप देने के लिए, कल्पना कीजिए कि आप एक एंडोक्रिनोलॉजिस्ट हैं और आपको एक 8 साल के लड़के के लिए, जिसकी उम्र उसकी उम्र के तीसरे प्रतिशत से कम है, पुनः संयोजक मानव वृद्धि हार्मोन निर्धारित करना है। लड़के का उत्तेजित मानव वृद्धि हार्मोन स्तर 2 ng/mL से कम है (संदर्भ मान, >10 ng/mL, संयुक्त राज्य अमेरिका के बाहर कई देशों के लिए संदर्भ मान >7 ng/mL है), और उसके मानव वृद्धि हार्मोन कोडिंग जीन ने दुर्लभ निष्क्रियता उत्परिवर्तनों का पता लगाया है। हमारा मानना ​​है कि इस नैदानिक ​​​​स्थिति में मानव वृद्धि हार्मोन चिकित्सा का अनुप्रयोग स्पष्ट और निर्विवाद है।

निम्नलिखित परिदृश्यों में मानव वृद्धि हार्मोन थेरेपी का अनुप्रयोग विवाद का कारण बन सकता है: एक 14 वर्षीय लड़के की ऊँचाई हमेशा उसके साथियों के 10वें प्रतिशतक में रही है, और उत्तेजना के बाद मानव वृद्धि हार्मोन का अधिकतम स्तर 8 ng/mL है। ऐसे कोई ज्ञात कार्यात्मक उत्परिवर्तन नहीं हैं जो ऊँचाई को प्रभावित कर सकें, न ही छोटे कद के अन्य ज्ञात कारण, और उसकी अस्थि आयु 15 वर्ष है (अर्थात कोई विकासात्मक विलंब नहीं)। विवाद का केवल एक हिस्सा, पृथक वृद्धि हार्मोन की कमी के निदान के लिए उपयोग किए जाने वाले मानव वृद्धि हार्मोन के स्तर पर दर्जनों अध्ययनों के आधार पर विशेषज्ञों द्वारा निर्धारित सीमा मानों में अंतर के कारण है। कम से कम उतना ही विवाद रोगियों, धैर्यवान माता-पिता, स्वास्थ्य सेवा पेशेवरों, दवा कंपनियों और भुगतानकर्ताओं के दृष्टिकोण से मानव वृद्धि हार्मोन थेरेपी के उपयोग के जोखिम-लाभ संतुलन से उत्पन्न होता है। बाल चिकित्सा एंडोक्रिनोलॉजिस्ट 2 वर्षों तक वृद्धि हार्मोन के दैनिक इंजेक्शन के दुर्लभ प्रतिकूल प्रभावों को वर्तमान की तुलना में वयस्क शरीर के आकार में कोई वृद्धि न होने या केवल न्यूनतम वृद्धि की संभावना के साथ तौल सकते हैं। लड़कों का मानना ​​हो सकता है कि भले ही उनकी लंबाई केवल 2 सेमी ही बढ़े, फिर भी ग्रोथ हार्मोन का इंजेक्शन लगाना उचित है, लेकिन भुगतानकर्ता और दवा कंपनी के विचार अलग-अलग हो सकते हैं।

 

हम क्रिएटिनिन आधारित eGFR को एक उदाहरण के रूप में लेते हैं, जो क्रोनिक किडनी रोग के निदान और चरण निर्धारण, किडनी प्रत्यारोपण या दान की शर्तें निर्धारित करने, और कई दवाओं के लिए कमी मानदंड और मतभेद निर्धारित करने के लिए व्यापक रूप से उपयोग किया जाने वाला गुर्दे का कार्य संकेतक है। EGFR एक सरल समाश्रयण समीकरण है जिसका उपयोग मापी गई ग्लोमेरुलर निस्पंदन दर (mGFR) का अनुमान लगाने के लिए किया जाता है, जो एक संदर्भ मानक है, लेकिन मूल्यांकन पद्धति अपेक्षाकृत जटिल है। इस समाश्रयण समीकरण को AI मॉडल नहीं माना जा सकता है, लेकिन यह मानवीय मूल्यों और संभाव्य तर्क के कई सिद्धांतों को दर्शाता है।

ईजीएफआर में मानवीय मूल्यों के प्रवेश का पहला बिंदु फिटिंग समीकरणों के लिए डेटा का चयन करते समय होता है। ईजीएफआर सूत्र को डिज़ाइन करने के लिए उपयोग की जाने वाली मूल कतार में अधिकांशतः अश्वेत और श्वेत प्रतिभागी शामिल थे, और कई अन्य जातीय समूहों पर इसकी प्रयोज्यता स्पष्ट नहीं है। इस सूत्र में मानवीय मूल्यों के प्रवेश के बाद के बिंदुओं में शामिल हैं: गुर्दे के कार्य के मूल्यांकन के लिए प्राथमिक उद्देश्य के रूप में एमजीएफआर सटीकता का चयन, सटीकता का स्वीकार्य स्तर क्या है, सटीकता कैसे मापी जाए, और नैदानिक ​​निर्णय लेने (जैसे कि गुर्दा प्रत्यारोपण या दवा निर्धारित करने की स्थिति निर्धारित करना) को ट्रिगर करने के लिए ईजीएफआर का उपयोग एक सीमा के रूप में करना। अंत में, इनपुट मॉडल की सामग्री का चयन करते समय, मानवीय मूल्य भी इस सूत्र में प्रवेश करेंगे।

उदाहरण के लिए, 2021 से पहले, दिशानिर्देश रोगी की आयु, लिंग और नस्ल (केवल काले या गैर-काले व्यक्तियों के रूप में वर्गीकृत) के आधार पर ईजीएफआर सूत्र में क्रिएटिनिन के स्तर को समायोजित करने का सुझाव देते हैं। नस्ल के आधार पर समायोजन का उद्देश्य एमजीएफआर सूत्र की सटीकता में सुधार करना है, लेकिन 2020 में, प्रमुख अस्पतालों ने प्रत्यारोपण के लिए रोगी की पात्रता में देरी और जैविक अवधारणा के रूप में नस्ल को ठोस बनाने जैसे कारणों का हवाला देते हुए, नस्ल आधारित ईजीएफआर के उपयोग पर सवाल उठाना शुरू कर दिया। शोध से पता चला है कि नस्ल के संदर्भ में ईजीएफआर मॉडल डिजाइन करने से सटीकता और नैदानिक ​​परिणामों पर गहरा और अलग-अलग प्रभाव पड़ सकता है; इसलिए, चुनिंदा रूप से सटीकता पर ध्यान केंद्रित करना या परिणामों के एक हिस्से पर ध्यान केंद्रित करना मूल्य निर्णयों को दर्शाता है और पारदर्शी निर्णय लेने को छिपा सकता है।

अस्पताल में ऑपरेशन रूम में आभासी वास्तविकता के साथ डॉक्टर। सर्जन रोगी के हृदय परीक्षण के परिणाम और तकनीकी डिजिटल भविष्यवादी आभासी इंटरफ़ेस, डिजिटल होलोग्राफिक, विज्ञान और चिकित्सा अवधारणा में अभिनव पर मानव शरीर रचना का विश्लेषण कर रहे हैं।

केवल कुछ ही पूर्वानुमानित संकेतकों वाले नैदानिक ​​​​सूत्रों की तुलना में, LLM में अरबों से लेकर सैकड़ों अरब पैरामीटर (मॉडल वेट) या अधिक शामिल हो सकते हैं, जिससे इसे समझना मुश्किल हो जाता है। हम "समझने में मुश्किल" इसलिए कहते हैं क्योंकि अधिकांश LLM में, पूछताछ के माध्यम से जवाब प्राप्त करने का सटीक तरीका मैप नहीं किया जा सकता है। GPT-4 के लिए मापदंडों की संख्या अभी घोषित नहीं की गई है; इसके पूर्ववर्ती GPT-3 में 175 बिलियन पैरामीटर थे। अधिक पैरामीटर का मतलब जरूरी नहीं कि मजबूत क्षमताएं हों, क्योंकि छोटे मॉडल जिनमें अधिक कम्प्यूटेशनल चक्र शामिल होते हैं (जैसे LLaMA [लार्ज लैंग्वेज मॉडल मेटा AI] मॉडल श्रृंखला) या मॉडल जो मानव प्रतिक्रिया के आधार पर बारीकी से ट्यून किए जाते हैं, बड़े मॉडल की तुलना में बेहतर प्रदर्शन करेंगे। उदाहरण के लिए, मानव मूल्यांकनकर्ताओं के अनुसार, इंस्ट्रूमेंटGPT मॉडल (1.3 बिलियन मापदंडों वाला एक मॉडल

GPT-4 के विशिष्ट प्रशिक्षण विवरण अभी तक सार्वजनिक नहीं किए गए हैं, लेकिन GPT-3, InstrumentGPT और कई अन्य ओपन-सोर्स LLM सहित पिछली पीढ़ी के मॉडलों के विवरण सार्वजनिक कर दिए गए हैं। आजकल, कई AI मॉडल मॉडल कार्ड के साथ आते हैं; GPT-4 का मूल्यांकन और सुरक्षा डेटा मॉडल निर्माण कंपनी OpenAI द्वारा प्रदान किए गए एक समान सिस्टम कार्ड में प्रकाशित किया गया है। LLM के निर्माण को मोटे तौर पर दो चरणों में विभाजित किया जा सकता है: प्रारंभिक पूर्व-प्रशिक्षण चरण और मॉडल आउटपुट परिणामों को अनुकूलित करने के उद्देश्य से फ़ाइन-ट्यूनिंग चरण। पूर्व-प्रशिक्षण चरण में, मॉडल को अगले शब्द की भविष्यवाणी करने हेतु प्रशिक्षित करने हेतु मूल इंटरनेट पाठ सहित एक बड़ा कोष प्रदान किया जाता है। यह प्रतीत होता है कि सरल "स्वचालित पूर्णता" प्रक्रिया एक शक्तिशाली आधारभूत मॉडल का निर्माण करती है, लेकिन यह हानिकारक व्यवहार को भी जन्म दे सकती है। मानवीय मूल्य पूर्व-प्रशिक्षण चरण में प्रवेश करेंगे, जिसमें GPT-4 के लिए पूर्व-प्रशिक्षण डेटा का चयन और पूर्व-प्रशिक्षण डेटा से अश्लील सामग्री जैसी अनुपयुक्त सामग्री को हटाने का निर्णय शामिल है। इन प्रयासों के बावजूद, मूल मॉडल अभी भी न तो उपयोगी हो सकता है और न ही हानिकारक आउटपुट परिणामों को समाहित करने में सक्षम हो सकता है। फाइन-ट्यूनिंग के अगले चरण में, कई उपयोगी और हानिरहित व्यवहार सामने आएंगे।

फ़ाइन-ट्यूनिंग चरण में, भाषा मॉडल के व्यवहार को अक्सर पर्यवेक्षित फ़ाइन-ट्यूनिंग और मानव फ़ीडबैक पर आधारित सुदृढीकरण सीखने के माध्यम से गहराई से बदल दिया जाता है। पर्यवेक्षित फ़ाइन-ट्यूनिंग चरण में, नियोजित ठेकेदार कर्मचारी शीघ्र शब्दों के लिए प्रतिक्रिया उदाहरण लिखेंगे और सीधे मॉडल को प्रशिक्षित करेंगे। मानव फ़ीडबैक पर आधारित सुदृढीकरण सीखने के चरण में, मानव मूल्यांकनकर्ता मॉडल आउटपुट परिणामों को इनपुट सामग्री उदाहरणों के रूप में क्रमबद्ध करेंगे। फिर "इनाम मॉडल" सीखने और सुदृढीकरण सीखने के माध्यम से मॉडल को और बेहतर बनाने के लिए उपरोक्त तुलनात्मक परिणामों को लागू करें। अद्भुत निम्न-स्तरीय मानवीय भागीदारी इन बड़े मॉडलों को ठीक कर सकती है। उदाहरण के लिए, इंस्ट्रूमेंटजीपीटी मॉडल ने क्राउडसोर्सिंग वेबसाइटों से भर्ती किए गए लगभग 40 ठेकेदार कर्मियों की एक टीम का उपयोग किया और एक स्क्रीनिंग टेस्ट पास किया

जैसा कि ये दो चरम उदाहरण, अर्थात् सरल नैदानिक ​​सूत्र [eGFR] और शक्तिशाली LLM [GPT-4], दर्शाते हैं, मानवीय निर्णय लेने की क्षमता और मानवीय मूल्य मॉडल आउटपुट परिणामों को आकार देने में एक अनिवार्य भूमिका निभाते हैं। क्या ये AI मॉडल अपने विविध रोगी और चिकित्सक मूल्यों को समाहित कर सकते हैं? चिकित्सा में AI के अनुप्रयोग को सार्वजनिक रूप से कैसे निर्देशित किया जाए? जैसा कि नीचे बताया गया है, चिकित्सा निर्णय विश्लेषण की पुनः जाँच इन मुद्दों का एक सैद्धांतिक समाधान प्रदान कर सकती है।

 

चिकित्सा निर्णय विश्लेषण कई चिकित्सकों के लिए परिचित नहीं है, लेकिन यह संभाव्यता संबंधी तर्क (निर्णय लेने से संबंधित अनिश्चित परिणामों के लिए, जैसे कि चित्र 1 में दिखाए गए विवादास्पद नैदानिक ​​परिदृश्य में मानव विकास हार्मोन का प्रशासन करना है या नहीं) और विचार कारकों (इन परिणामों से जुड़े व्यक्तिपरक मूल्यों के लिए, जिनके मूल्य को "उपयोगिता" के रूप में निर्धारित किया जाता है, जैसे कि पुरुष की ऊंचाई में 2 सेमी की वृद्धि का मूल्य) के बीच अंतर कर सकता है, जटिल चिकित्सा निर्णयों के लिए व्यवस्थित समाधान प्रदान करता है। निर्णय विश्लेषण में, चिकित्सकों को पहले प्रत्येक परिणाम से जुड़े सभी संभावित निर्णयों और संभावनाओं को निर्धारित करना चाहिए, और फिर सबसे उपयुक्त विकल्प का चयन करने के लिए प्रत्येक परिणाम से जुड़ी रोगी (या अन्य पक्ष) की उपयोगिता को शामिल करना चाहिए। इसलिए, निर्णय विश्लेषण की वैधता इस बात पर निर्भर करती है कि क्या परिणाम सेटिंग व्यापक है, साथ ही साथ उपयोगिता का मापन और संभावना का अनुमान सटीक है। आदर्श रूप से, यह दृष्टिकोण यह सुनिश्चित करने में मदद करता है कि निर्णय साक्ष्य-आधारित हों और रोगी की प्राथमिकताओं के अनुरूप हों, जिससे वस्तुनिष्ठ डेटा और व्यक्तिगत मूल्यों के बीच का अंतर कम हो जाता है। यह विधि कई दशक पहले चिकित्सा क्षेत्र में शुरू की गई थी और इसका प्रयोग व्यक्तिगत रोगी के निर्णय लेने तथा जनसंख्या स्वास्थ्य आकलन में किया गया था, जैसे कि सामान्य जनसंख्या के लिए कोलोरेक्टल कैंसर स्क्रीनिंग के लिए सिफारिशें प्रदान करना।

 

चिकित्सा निर्णय विश्लेषण में, उपयोगिता प्राप्त करने के लिए विभिन्न विधियाँ विकसित की गई हैं। अधिकांश पारंपरिक विधियाँ सीधे व्यक्तिगत रोगियों से मूल्य प्राप्त करती हैं। सबसे सरल विधि एक रेटिंग स्केल का उपयोग करना है, जहाँ रोगी एक डिजिटल स्केल (जैसे 1 से 10 तक का एक रैखिक स्केल) पर किसी निश्चित परिणाम के लिए अपनी वरीयता के स्तर का आकलन करते हैं, जिसमें सबसे चरम स्वास्थ्य परिणाम (जैसे पूर्ण स्वास्थ्य और मृत्यु) दोनों सिरों पर स्थित होते हैं। समय विनिमय विधि एक अन्य सामान्यतः प्रयुक्त विधि है। इस विधि में, रोगियों को यह निर्णय लेना होता है कि वे खराब स्वास्थ्य की अवधि के बदले में कितना स्वस्थ समय व्यतीत करने को तैयार हैं। मानक जुआ विधि उपयोगिता निर्धारित करने के लिए एक अन्य सामान्यतः प्रयुक्त विधि है। इस विधि में, रोगियों से पूछा जाता है कि वे दो विकल्पों में से कौन सा विकल्प पसंद करते हैं: या तो एक विशिष्ट प्रायिकता (p) (t) के साथ सामान्य स्वास्थ्य में एक निश्चित संख्या में वर्ष जीवित रहें, और 1-p प्रायिकता के साथ मृत्यु का जोखिम उठाएँ; या तो विभिन्न स्वास्थ्य स्थितियों में t वर्षों तक जीवित रहना सुनिश्चित करें। रोगियों से विभिन्न p-मानों पर कई बार तब तक पूछें जब तक कि वे किसी भी विकल्प के लिए कोई वरीयता न दिखाएँ, ताकि रोगी की प्रतिक्रियाओं के आधार पर उपयोगिता की गणना की जा सके।
व्यक्तिगत रोगी वरीयताओं को जानने के तरीकों के अलावा, रोगी समूह के लिए उपयोगिता प्राप्त करने के तरीके भी विकसित किए गए हैं। विशेष रूप से फ़ोकस समूह चर्चाएँ (विशिष्ट अनुभवों पर चर्चा के लिए रोगियों को एक साथ लाना) उनके दृष्टिकोणों को समझने में मदद कर सकती हैं। समूह उपयोगिता को प्रभावी ढंग से समेकित करने के लिए, विभिन्न संरचित समूह चर्चा तकनीकों का प्रस्ताव दिया गया है।
व्यवहार में, नैदानिक ​​निदान और उपचार प्रक्रिया में उपयोगिता का प्रत्यक्ष परिचय बहुत समय लेने वाला होता है। एक समाधान के रूप में, जनसंख्या स्तर पर उपयोगिता अंक प्राप्त करने के लिए सर्वेक्षण प्रश्नावली आमतौर पर यादृच्छिक रूप से चुनी गई आबादी में वितरित की जाती हैं। कुछ उदाहरणों में यूरोकॉल 5-आयामी प्रश्नावली, 6-आयामी उपयोगिता भार संक्षिप्त रूप, स्वास्थ्य उपयोगिता सूचकांक और कैंसर विशिष्ट यूरोपीय कैंसर अनुसंधान एवं उपचार संगठन जीवन गुणवत्ता प्रश्नावली कोर 30 उपकरण शामिल हैं।


पोस्ट करने का समय: 01 जून 2024