तेलुगु एसएलएम ‘चदामामा कथलू’ के पीछे की कहानी

Firenib

👇खबर सुनने के लिए प्ले बटन दबाएं

कॉल सेंटर सॉफ्टवेयर प्रदाता ओजोनटेल के सहयोग से हैदराबाद स्थित एक गैर-लाभकारी संगठन स्वेचा ने एक विकसित किया है छोटा भाषा मॉडल (एसएलएम) तेलुगु के लिए। शीर्षक ‘चंदामामा कथलू‘ (चंदामामा कहानियाँ), एसएलएम आधिकारिक तौर पर जनवरी के पहले सप्ताह में तेलंगाना के प्रधान आईटी सचिव जयेश रंजन द्वारा लॉन्च किया जाएगा।

इस एसएलएम में 7 से 13 बिलियन पैरामीटर शामिल होंगे। एसएलएम की उत्पत्ति माइक्रोसॉफ्ट के अनुसंधान वैज्ञानिकों के एक पेपर में निहित है जिसका शीर्षक है “टिनीस्टोरीज़: भाषा मॉडल कितने छोटे हो सकते हैं और फिर भी सुसंगत अंग्रेजी बोल सकते हैं।”

उच्च-मूल्य वाले कौशल पाठ्यक्रमों के साथ अपने तकनीकी कौशल को बढ़ाएं

कॉलेज की पेशकश	अवधि	वेबसाइट
आईआईएम कोझिकोड	IIMK वरिष्ठ प्रबंधन कार्यक्रम	मिलने जाना
आईआईटी दिल्ली	डेटा साइंस और मशीन लर्निंग में आईआईटीडी सर्टिफिकेट प्रोग्राम	मिलने जाना
इंडियन स्कूल ऑफ बिजनेस	उत्पाद प्रबंधन में आईएसबी व्यावसायिक प्रमाणपत्र	मिलने जाना

जब ओज़ोनटेल के मुख्य प्रौद्योगिकी अधिकारी चैतन्य चोकारेड्डी के मन में यह लेख आया, तो उनके मन में एक बनाने का विचार आया तेलुगु एसएलएम उसके सिर में आकार ले लिया. उन्होंने एसएलएम बनाने के लिए तेलुगु कहानियों का डेटासेट संकलित करने के लिए स्वेचा तेलंगाना और भारतीय सूचना प्रौद्योगिकी संस्थान, हैदराबाद के साथ सहयोग किया।

कुल मिलाकर, कहानियों के 40,000 पृष्ठों को 30 कॉलेजों के 8,000 छात्रों द्वारा प्रूफरीड और मैन्युअल रूप से ठीक किया गया, जिन्होंने स्वेचा के नेतृत्व में “डेटाथॉन” में भाग लिया था।

वह याद करते हैं, “मैंने फ्री सॉफ्टवेयर मूवमेंट ऑफ इंडिया (जिसका स्वेचा एक हिस्सा है) के सचिव किरण चंद्र यारलागडा से संपर्क किया और उनसे पूछा कि क्या हम एक तेलुगु एसएलएम बना सकते हैं।”

स्वेच्छा के सचिव गणेश कटरापति ने कहा कि उनका उद्देश्य आज के बच्चों को उस तरह की कहानियों तक पहुंच प्रदान करना है जो पत्रिका चंदामामा कथलू में छपी थीं, जो 2012 में प्रिंट से बाहर हो गई थी।

उन कहानियों की खोज करें जिनमें आपकी रुचि है

“उदाहरण के लिए, बच्चे अब विक्रम-बेताल पात्रों के साथ खेल सकते हैं, जो इन पत्रिकाओं का मुख्य आधार थे,” उन्होंने कहा। नवंबर के अंत तक, इंजीनियरिंग स्कूलों में स्वेचा के छात्र स्वयंसेवकों ने एक डेटासेट तैयार किया था और मूल्यांकन किया था कि क्या उन्हें अलग टोकनाइज़र की आवश्यकता है। टोकन टेक्स्ट या कोड की मूल इकाइयाँ हैं जिनका उपयोग भाषा मॉडल भाषा को संसाधित करने और उत्पन्न करने के लिए करता है। टोकन वर्ण, शब्द, उपशब्द या पाठ या कोड के अन्य खंड हो सकते हैं, जो चुने गए टोकननाइजेशन विधि या योजना पर निर्भर करता है।

“माइक्रोसॉफ्ट ने “टिनी स्टोरीज़” नामक एक पेपर प्रकाशित किया जहां उन्होंने 21 मिलियन कहानियों का उपयोग करके एक एसएलएम को प्रशिक्षित किया, और यह सुसंगत पाठ उत्पन्न करने में सक्षम था। यह कहानियाँ उत्पन्न करने में सक्षम था, इसलिए इसने हमें बहुत आशा दी। हमने सोचा: अगर वे ऐसा कर सकते हैं, तो हम क्यों नहीं कर सकते, चोकारेड्डी ने कहा। एक क्लासिक भारतीय मासिक बच्चों की पत्रिका, चंदामामा 1940 से 2012 तक हर भारतीय घर में एक मुख्य आधार थी। इसने लंबी-चौड़ी भारतीय पौराणिक और जादुई कहानियाँ प्रकाशित कीं।

भारत का एसएलएम परिदृश्य
एसएलएम किसी भी बड़े मॉडल के समान पद्धति का उपयोग करके बनाए जाते हैं, लेकिन छोटे तंत्रिका नेटवर्क, कम मापदंडों और कम प्रशिक्षण डेटा पर। हाल ही में घोषित भारतीय भाषाओं में कुछ प्रमुख भाषा मॉडल (एलएलएम) में सर्वम एआई से ओपनहाथी शामिल हैं; मेटा एआई आर्किटेक्चर पर निर्मित हिंदी में एलएलएम, जीपीटी 3.5 जैसा प्रदर्शन का वादा करता है; और ओला का क्रुट्रिम, जो 10 भारतीय भाषाओं को सपोर्ट करेगा और कुल 22 भाषाओं में इनपुट स्वीकार कर सकता है। इसे भारतीय भाषाओं के लिए दो ट्रिलियन से अधिक डेटा टोकन पर प्रशिक्षित किया गया था। AI4भारत का IndicBERT एक बहुभाषी अल्बर्ट मॉडल है जो विशेष रूप से 12 प्रमुख भारतीय भाषाओं पर पूर्व-प्रशिक्षित है। IndicBART एक बहुभाषी, अनुक्रम-दर-अनुक्रम पूर्व-प्रशिक्षित मॉडल है जो भारतीय भाषाओं और अंग्रेजी पर केंद्रित है।

यह वर्तमान में 11 भारतीय भाषाओं को सपोर्ट करता है और mBART आर्किटेक्चर पर आधारित है। IISc, बेंगलुरु और ARTPARK के माध्यम से Google द्वारा वित्त पोषित वाणी परियोजना से भारत के सभी 773 जिलों में लगभग दस लाख लोगों के 150,000 घंटे से अधिक के भाषण और पाठ का डेटा कॉर्पोरा बनाने की उम्मीद है और यह खुला स्रोत होगा।

स्वेचा में, कई विश्वविद्यालयों में जीएलयूजी नामक कई छात्र क्लबों ने 1950 से 1970 के दशक की पत्रिकाओं और कहानियों को इकट्ठा करने की कोशिश करके ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) पर काम करना शुरू किया।

छात्रों ने चंदामामा कहानियों की डिजीटल पीडीएफ फाइलों को भी स्कैन किया। ओसीआर टाइप किए गए, हस्तलिखित या मुद्रित पाठ की छवियों का स्वचालित रूप से एन्कोड किए गए पाठ में इलेक्ट्रॉनिक या यांत्रिक रूपांतरण है, चाहे वह स्कैन किया गया दस्तावेज़ हो, दस्तावेज़ का फोटो हो, दृश्य फोटो हो या छवि पर लगाया गया उपशीर्षक पाठ हो।

“हमने एक ओपन सोर्स ओसीआर टूल से उनकी मदद की और लगभग 70% टेक्स्ट को परिवर्तित किया। डेटाथॉन के दौरान छात्रों ने शेष 30 प्रतिशत टाइप किया। 25 इंजीनियरिंग कॉलेजों के लगभग 8,000 छात्रों ने भाग लिया और चार घंटों में हमारे पास लगभग 45,000 कहानियाँ थीं, ”चोक्कारेड्डी ने कहा।

इसके अलावा, वे बड़ी कहानियाँ थीं, उन्होंने कहा।

उन्होंने कहा, “यह तेलुगु पाठ की लगभग 50-60 पंक्तियाँ थीं, इसलिए हमने पाठ की लगभग पाँच लाख पंक्तियाँ तैयार कीं और फिर इसे खुला स्रोत बना दिया।” उन्होंने कहा कि टूलींग स्वेचा स्वयंसेवकों द्वारा ओसीआर, फ्रंट-एंड और बैकएंड स्टोरेज सहित ओपन सोर्स टूल का उपयोग करके किया गया था।

“फिर हमने इसे हगिंग फेस पर अपलोड किया, ताकि सर्वम.एआई जैसी कंपनियां सैद्धांतिक रूप से इस डेटासेट का उपयोग कर सकें। और जैसा उन्होंने हिंदी के लिए पहले ही किया है, वे कुछ ही दिनों में तेलुगु के लिए भी वैसा ही तैयार कर सकते हैं। हमारा विचार इस डेटासेट को खोलने का था,” उन्होंने कहा।

हगिंग फेस उपयोगकर्ताओं को मशीन लर्निंग मॉडल ब्राउज़र में इंटरैक्टिव डेमो बनाने की अनुमति देता है। इससे उपयोगकर्ताओं के लिए मॉडल प्रस्तुत करना और परीक्षण करना आसान हो जाता है।

आगे क्या?
“हम वर्तमान में यह निर्धारित करने के लिए अपना स्वयं का शोध कर रहे हैं कि किस प्रकार का टोकननाइज़र सबसे अच्छा है और क्या हमें स्क्रैच से एलएलएम बनाना चाहिए और मेटा के LlaMa 2 आर्किटेक्चर का उपयोग नहीं करना चाहिए। इसके लिए, हम IIIT के साथ बातचीत करते हैं, ”उन्होंने कहा। हमने इस डेटासेट को हैदराबाद में सार्वजनिक किया, और IIIT हैदराबाद के प्रोफेसर हमारे पास आए और पूछा कि क्या हम सहयोग कर सकते हैं और प्राकृतिक भाषा प्रसंस्करण का उपयोग करने और अपनी खुद की वास्तुकला बनाने का प्रयास कर सकते हैं, उन्होंने घोषणा की।

“हम एल्प्स जैसे कई स्टार्टअप के साथ भी काम कर रहे हैं, जो एक एआई कंपनी है जिसके पास भारत में निर्मित एल्गोरिदम बनाने के लिए अपना स्वयं का गहन शिक्षण एल्गोरिदम है, और किसी भी खुले स्रोत का उपयोग नहीं करता है,” उन्होंने घोषणा की।

उन्होंने कहा, मुझे लगता है कि हमें अपना एलएलएम हासिल करने में चार या पांच महीने लगेंगे। लेकिन इस बीच, अगले सप्ताह या उसके अगले सप्ताह तक, हम एक ओपन सोर्स LlaMa 2 मॉडल को प्रशिक्षित करना चाहते हैं और तेलुगु कहानियों को पढ़ने या लिखने में सक्षम बनाना चाहते हैं।

“अगले सप्ताह के लिए यह हमारी योजना है,” उन्होंने कहा।

Source link

Author: Firenib

EMPOWER INDEPENDENT JOURNALISM – JOIN US TODAY!

DEAR READER,
We’re committed to unbiased, in-depth journalism that uncovers truth and gives voice to the unheard. To sustain our mission, we need your help. Your contribution, no matter the size, fuels our research, reporting, and impact.
Stand with us in preserving independent journalism’s integrity and transparency. Support free press, diverse perspectives, and informed democracy.
Click [here] to join and be part of this vital endeavour.
Thank you for valuing independent journalism.

WARMLY

Chief Editor Firenib

Poll not found