प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एक प्रकार की कृत्रिम बुद्धिमत्ता है जो मशीनों को विभिन्न प्रकार के अनुप्रयोगों में लिखित और बोले गए वाक्यांशों का उपयोग करने की अनुमति देती है, जैसे कि स्मार्ट सहायक या ईमेल स्वत: सुधार और स्पैम फिल्टर, व्यक्तिगत उपयोगकर्ताओं और कंपनियों के लिए गतिविधियों को स्वचालित और तेज करने में मदद करने के लिए।
हालांकि, इस तकनीक को शक्ति देने वाले एल्गोरिदम अक्सर ऐसी विशेषताओं को प्रदर्शित करते हैं जो विकलांग लोगों के प्रति अपमानजनक या भेदभावपूर्ण हो सकती हैं।
पेन स्टेट कॉलेज ऑफ इंफॉर्मेशन साइंसेज एंड टेक्नोलॉजी (IST) के शोधकर्ताओं द्वारा किया गया एक अध्ययन।
शोधकर्ताओं ने पाया कि उनके द्वारा परीक्षण किए गए सभी एल्गोरिदम और मॉडल में विकलांग लोगों के खिलाफ महत्वपूर्ण निहित पूर्वाग्रह थे।
पूर्व-प्रशिक्षित भाषा मॉडल पर पिछले शोध – जो बड़ी मात्रा में डेटा पर प्रशिक्षित होते हैं जिनमें निहित पूर्वाग्रह हो सकते हैं – में लिंग और नस्लों के खिलाफ समाजशास्त्रीय पूर्वाग्रह पाए गए हैं, लेकिन अब तक विकलांग लोगों के खिलाफ समान पूर्वाग्रहों का व्यापक रूप से पता नहीं चला है।
IST कॉलेज में डॉक्टरेट के छात्र और कम्प्यूटेशनल भाषाविज्ञान पर 29वें अंतर्राष्ट्रीय सम्मेलन में आज (13 अक्टूबर) प्रस्तुत किए गए अध्ययन के पहले लेखक प्रणव वेंकट ने कहा, “हमने जिन 13 मॉडलों की खोज की, वे अत्यधिक उपयोग किए गए हैं और प्रकृति में सार्वजनिक हैं।” कोलिंग)।
“हमें उम्मीद है कि हमारे निष्कर्ष उन डेवलपर्स की मदद करते हैं जो कुछ समूहों की मदद करने के लिए एआई बना रहे हैं – विशेष रूप से विकलांग लोग जो अपनी दिन-प्रतिदिन की गतिविधियों में सहायता के लिए एआई पर भरोसा करते हैं – इन पूर्वाग्रहों से सावधान रहने के लिए।”
अपने अध्ययन में, शोधकर्ताओं ने मशीन लर्निंग मॉडल की जांच की जिन्हें स्रोत डेटा पर प्रशिक्षित किया गया था ताकि समान शब्दों को एक साथ समूहित किया जा सके जिससे कंप्यूटर स्वचालित रूप से शब्दों के अनुक्रम उत्पन्न कर सके।
उन्होंने चार सरल वाक्य टेम्पलेट बनाए जिनमें “पुरुष,” “महिला,” या “व्यक्ति” के लिंग संज्ञा को अलग-अलग रूप से पॉप्युलेट करने के लिए और अंग्रेजी भाषा में 10 सबसे अधिक इस्तेमाल किए जाने वाले विशेषणों में से एक – उदाहरण के लिए, “वे माता-पिता हैं एक अच्छे इंसान की।”
फिर, उन्होंने 600 से अधिक विशेषण उत्पन्न किए जो कि विकलांग या बिना विकलांग लोगों से जुड़े हो सकते हैं – जैसे कि विक्षिप्त या दृष्टिहीन – प्रत्येक वाक्य में विशेषण को बेतरतीब ढंग से बदलने के लिए।
टीम ने विशेषणों के लिए शब्द संघ उत्पन्न करने के लिए प्रत्येक मॉडल में 15,000 से अधिक अद्वितीय वाक्यों का परीक्षण किया।
“उदाहरण के लिए, हमने ‘अच्छा’ शब्द चुना और यह देखना चाहते थे कि यह गैर-विकलांगता और अक्षमता दोनों से संबंधित शब्दों से कैसे जुड़ा है,” वेंकट ने समझाया।
“एक गैर-विकलांगता शब्द के जुड़ने से, ‘अच्छे’ का प्रभाव ‘महान’ हो जाता है।
लेकिन जब ‘अच्छा’ एक विकलांगता-संबंधी शब्द से जुड़ा होता है, तो हमें ‘बुरा’ का परिणाम मिलता है।
इसलिए विशेषण के रूप में यह परिवर्तन ही मॉडल के स्पष्ट पूर्वाग्रह को दर्शाता है।”
हालांकि इस अभ्यास ने मॉडल में मौजूद स्पष्ट पूर्वाग्रह का खुलासा किया, शोधकर्ता प्रत्येक मॉडल को अंतर्निहित पूर्वाग्रह के लिए मापना चाहते थे – लोगों के प्रति दृष्टिकोण या जागरूक ज्ञान के बिना उनके साथ रूढ़िवाद को जोड़ना।
उन्होंने विकलांगता और गैर-विकलांगता समूहों के लिए उत्पन्न विशेषणों की जांच की और प्रत्येक की भावना को मापा – यह मूल्यांकन करने के लिए एक एनएलपी तकनीक है कि पाठ सकारात्मक, नकारात्मक या तटस्थ है या नहीं।
जिन मॉडलों का उन्होंने अध्ययन किया, वे लगातार अक्षमता से जुड़े शब्दों के साथ वाक्यों को बिना उन लोगों की तुलना में अधिक नकारात्मक रूप से बनाते हैं।
एक विशेष मॉडल, जिसे ट्विटर डेटा पर दिखाया गया था, उस समय सकारात्मक से नकारात्मक 86% तक भावना स्कोर फ़्लिप कर गया जब विकलांगता से संबंधित शब्द का उपयोग किया गया था।
वेंकट ने कहा, “जब हम अकेले उस स्कोर को देखते हैं, तो हम देखते हैं कि बातचीत में विकलांगता से संबंधित एक शब्द जोड़ने से पूरे वाक्य का भाव स्कोर गिर जाता है।”
“उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी सोशल मीडिया टिप्पणी या पोस्ट में विकलांगता से संबंधित शब्द शामिल करता है, तो उस पोस्ट के सेंसर या प्रतिबंधित होने की संभावना बढ़ जाती है।”
शोधकर्ताओं ने दो बड़े भाषा मॉडलों में निहित पूर्वाग्रह के लिए भी परीक्षण किया, जिनका उपयोग स्वचालित रूप से लंबे ग्रंथों को उत्पन्न करने के लिए किया जाता है, जैसे कि समाचार लेख, यह देखने के लिए कि वाक्य टेम्पलेट में एक खाली छोड़ दिया गया विशेषण के आधार पर कैसे बदल जाएगा।
इस विश्लेषण में उन्होंने 7,500 वाक्य उत्पन्न किए, फिर से गैर-विकलांगता या अक्षमता से संबंधित विशेषणों को सम्मिलित करते हुए, और यह देखने के लिए परीक्षण किया कि वाक्य टेम्पलेट में एक खाली छोड़ दिया गया विशेषण के आधार पर कैसे बदल जाएगा।
इस मामले में, जब “एक आदमी के पास ‘रिक्त’ का वाक्य दिया जाता है, तो भाषा के मॉडल ने रिक्त शब्द के लिए “बदले” की भविष्यवाणी की।
हालांकि, जब वाक्य में विकलांगता से संबंधित विशेषण जोड़ा गया, जिसके परिणामस्वरूप “एक बधिर व्यक्ति के पास ‘रिक्त’ है,” मॉडल ने रिक्त स्थान के लिए “मृत्यु” की भविष्यवाणी की।
विकलांग लोगों के प्रति मॉडल का निहित पूर्वाग्रह विभिन्न अनुप्रयोगों में स्पष्ट हो सकता है – उदाहरण के लिए, टेक्स्ट संदेशों में जब गलत वर्तनी वाले शब्द या सोशल मीडिया पर स्वत: सुधार लागू करते हैं जहां नियम हैं जो अपमानजनक या परेशान करने वाली पोस्ट को प्रतिबंधित करते हैं।
उत्तरार्द्ध में, क्योंकि मनुष्य बड़ी संख्या में पोस्ट की समीक्षा करने में असमर्थ हैं, कृत्रिम बुद्धि मॉडल इन भावनाओं के स्कोर का उपयोग उन पदों को फ़िल्टर करने के लिए करते हैं जिन्हें प्लेटफॉर्म के उल्लंघन में समझा जाता है