2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
दृष्टि-भाषाप्रतिरूपाः (VLMs) कृत्रिमबुद्धिप्रतिमानाः सन्ति ये दृश्य (प्रतिबिम्ब) तथा भाषा (पाठ) मोडलसूचनाः एकत्रैव संसाधितुं अवगन्तुं च शक्नुवन्ति एतादृशाः प्रतिमानाः सङ्गणकदृष्टेः प्राकृतिकभाषासंसाधनस्य च तकनीकानां संयोजनं कुर्वन्ति, येन ते दृश्यप्रश्नोत्तरीकरणं, चित्रवर्णनजननं, पाठतः चित्रं च अन्वेषणम् इत्यादिषु जटिलकार्येषु उत्तमं प्रदर्शनं कर्तुं शक्नुवन्ति सङ्गणकदृष्टिक्षेत्रे परिवर्तकवास्तुकलाप्रयोगस्य सफलः प्रकरणः अस्ति । विशेषतः पारम्परिक-सीएनएन-मध्ये वैश्विक-प्रतिबिम्ब-विशेषता-निष्कासनस्य स्थाने ध्यान-तन्त्रं स्थापयति । दृश्यभाषाप्रतिमानैः बहुक्षेत्रेषु महती क्षमता दर्शिता, यत्र चित्रपुनर्प्राप्तिः, जननात्मकः एआइ, चित्रविभाजनं, चिकित्सानिदानं, रोबोटिक्सः च सन्ति एतेषां प्रतिरूपानाम् उद्भवेन न केवलं एआइ-प्रणालीनां कार्यक्षमतायां सुधारः भवति, अपितु चतुरतर-अधिक-कुशल-अनुप्रयोग-विकासाय नूतनाः सम्भावनाः अपि प्राप्यन्ते
विजुअल् ट्रांसफार्मर (ViT) इमेज् इत्यस्य पैच्स् इत्यत्र खण्डयित्वा ततः एतान् पैच्स् ट्रांसफॉर्मर् एन्कोडर इत्यत्र एम्बेड् कृत्वा वैश्विकं इमेज् प्रतिनिधित्वं प्राप्नोति । प्रत्येकं बिम्बपैचः स्वतन्त्रः "शब्दः" इति व्यवह्रियते, आत्म-अवधान-तन्त्रेण च संसाधितः भवति । पारम्परिक-संचालन-तंत्रिका-जालस्य (CNN) तुलने विजन-परिवर्तकः बृहत्-आँकडा-समूहानां उच्च-संकल्प-प्रतिबिम्बानां च संसाधनं कुर्वन् उत्तमं प्रदर्शनं करोति । ते चित्रवर्गीकरणकार्येषु अनेके अत्याधुनिक-सीएनएन-वास्तुकलाभ्यः अधिकं प्रदर्शनं कुर्वन्ति ।
अधः सरलस्य दृश्यरूपान्तरकस्य संरचना अस्ति ।
विपरीतशिक्षणं दत्तांशबिन्दून् तेषां भेदं अवगत्य तेषां शिक्षणस्य एकः तकनीकः अस्ति । एषा पद्धतिः दत्तांशदृष्टान्तानां मध्ये समानतास्कोरस्य गणनां करोति तथा च विपरीतहानिः न्यूनीकर्तुं लक्ष्यते । अर्धनिरीक्षितशिक्षणे इदं सर्वाधिकं उपयोगी भवति, यत्र केवलं कतिपयानि लेबलयुक्तानि नमूनानि अदृष्टदत्तांशबिन्दून् लेबलं कर्तुं अनुकूलनप्रक्रियायाः मार्गदर्शनं कुर्वन्ति ।
यथा - बिडालः कीदृशः इति अवगन्तुं एकः उपायः अस्ति यत् तस्य तुलना समानबिडालप्रतिमाभिः श्वापदबिम्बैः च करणीयम् । विपरीतशिक्षणप्रतिमानाः मुखस्य संरचना, शरीरस्य आकारः, फरः इत्यादीनां विशेषतानां पहिचानेन बिडालस्य श्वानानां च मध्ये भेदं कर्तुं शिक्षन्ति । एते आदर्शाः मूलप्रतिबिम्बस्य ("लंगर" इति उच्यते) कोऽपि चित्रः समीपे अस्ति इति निर्धारयितुं तस्य वर्गस्य पूर्वानुमानं कर्तुं च शक्नुवन्ति । तेषु CLIP मॉडल् विपरीतशिक्षणस्य अनुसारं प्रशिक्षितं विशिष्टं प्रतिरूपम् अस्ति । CLIP मॉडल् पाठस्य चित्रस्य च एम्बेडिंग् इत्येतयोः समानतायाः गणनां कृत्वा शून्य-शॉट् पूर्वानुमानं प्राप्नोति । प्रथमं पाठं प्रतिबिम्बं च एन्कोडरं प्रशिक्षयति, ततः प्रशिक्षणदत्तांशसमूहस्य श्रेणीं कैप्शनरूपेण परिवर्तयति तथा च दत्तस्य निवेशप्रतिबिम्बस्य कृते उत्तमं कैप्शनं अनुमानयति CLIP मॉडलस्य वास्तुकला निम्नलिखितम् अस्ति ।
उपसर्गभाषाप्रतिमानाः पाठस्य भागं (उपसर्गं) गृहीत्वा क्रमे अग्रिमशब्दस्य पूर्वानुमानं कृत्वा पूर्वप्रशिक्षिताः भवन्ति । दृश्यभाषाप्रतिरूपेषु PrefixLM प्रतिरूपं प्रतिबिम्बस्य आधारेण तस्य तत्सम्बद्धस्य उपसर्गस्य च पाठस्य आधारेण शब्दानां अग्रिमक्रमस्य पूर्वानुमानं कर्तुं समर्थं करोति । एतत् चित्रं एक-आयामी-पैच-क्रमे विभक्तुं दृश्य-रूपान्तरकस्य (ViT) उपयोगं करोति, प्रत्येकं अनुक्रमं स्थानीय-प्रतिबिम्ब-क्षेत्रस्य प्रतिनिधित्वं करोति । ततः मॉडल् सन्दर्भयुक्तानि दृश्यनिक्षेपणं जनयितुं संसाधितपैचेषु कन्वोल्यूशनं वा रेखीयप्रोजेक्शनं वा प्रयोजयति । पाठविधायाः कृते, मॉडल् पैच्-सापेक्षं पाठ-उपसर्गं टोकन-एम्बेडिंग्-मध्ये परिवर्तयति । परिवर्तकस्य एन्कोडर-डिकोडर-खण्डः दृश्य-एम्बेडिङ्ग्स्, टोकन-एम्बेडिङ्ग्स् च प्राप्नोति । SimVLM इति लोकप्रियं आर्किटेक्चरं यत् PrefixLM शिक्षणपद्धतेः उपयोगं करोति । अत्र अस्य वास्तुकला अस्ति : १.
जमेन उपसर्गभाषाप्रतिरूपं पूर्वप्रशिक्षितजालस्य उपयोगं केवलं इमेज एन्कोडरस्य मापदण्डान् अद्यतनीकर्तुं च अनुमतिं ददाति । विशिष्टानि उदाहरणानि सन्ति Frozen architecture, Flamingo architecture च । Frozen आर्किटेक्चर इत्यत्र पूर्वप्रशिक्षितभाषाप्रतिमानानाम्, दृश्यसङ्केतकानां च उपयोगः भवति । इमेज एन्कोडरस्य सूक्ष्म-समायोजनेन तस्य बिम्ब-प्रतिपादनं पाठ-एम्बेडिंग्-सहितं संरेखितं भवति । Flamingo आर्किटेक्चर CLIP-सदृशं दृश्य-एन्कोडरं विशाल-भाषा-प्रतिरूपेण (LLM) सह संयोजयति । पाठस्य मध्ये चित्राणि निवेश्य शीघ्रं अनुमानं कुर्वन्तु। निम्नलिखितम् Frozen PrefixLM इत्यस्य विशिष्टं संजाल-आर्किटेक्चरम् अस्ति ।
क्रॉस्-एटेन्शन इति एकः पद्धतिः यः क्रॉस्-मोडल-एटेन्शन-तन्त्रस्य माध्यमेन भिन्न-भिन्न-मोडालिटी-तः (यथा पाठः, चित्राणि, श्रव्यम् इत्यादयः) सूचनां संलययति क्रॉस-एटेन्शन फ्यूजन पद्धतयः क्रॉस्-एटेन्शन-स्तरं योजयित्वा दृश्य-प्रतिपादनं शिक्षन्ति । विशेषतः, एतत् एकस्य दत्तांशप्रकारस्य (पाठादि) विशेषतां अन्यस्य दत्तांशप्रकारस्य (चित्रादि) विशेषतासु केन्द्रीक्रियितुं शक्नोति, येन बहुविधसूचनाः अवगत्य संसाधने च उत्तमं कार्यं कर्तुं शक्नोति एतत् तन्त्रं बहुषु कार्येषु कार्यप्रदर्शने महत्त्वपूर्णतया सुधारं कर्तुं शक्नोति येषु एकत्रैव बहुविधदत्तांशप्रकारस्य संसाधनस्य आवश्यकता भवति । Cross-Attention आर्किटेक्चरस्य योजनाबद्धचित्रं निम्नलिखितम् अस्ति ।
LAION-5B आँकडासंग्रहे CLIP द्वारा उत्पन्नं 5 अरबं तः अधिकानि चित्र-पाठयुग्मानि सन्ति, तस्य उपयोगः बृहत् पूर्व-प्रशिक्षितानां मॉडल्-निर्माणार्थं भवति ।
https://laion.ai/blog/laion-5b/ ८.
पीएमडी-दत्तांशसमूहः बहुभिः बृहत्-दत्तांशसमूहैः निर्मितः अस्ति, यस्मिन् ७ अर्ब-प्रतिबिम्ब-पाठ-युग्मानि सन्ति ।
https://huggingface.co/datasets/facebook/pmd इति वृत्तान्तः
VQA आँकडासमूहस्य उपयोगः दृश्यप्रश्नोत्तरीकरणस्य दृश्यतर्ककार्यस्य च कृते भवति तथा च अत्र 200,000 तः अधिकाः चित्राणि सन्ति, प्रत्येकस्मिन् पञ्च प्रश्नाः तदनुरूपाः उत्तराणि च सन्ति
https://visualqa.org/ इति वृत्तान्तः ।
इमेजनेट् दत्तांशसमूहे १४ मिलियनतः अधिकानि एनोटेटेड् चित्राणि सन्ति तथा च इमेज् वर्गीकरणस्य वस्तुपरिचयकार्यस्य च कृते उपयुक्तम् अस्ति ।
https://www.image-net.org/ इति वृत्तान्तः ।
दृश्यभाषाप्रतिरूपेण उपयोक्तारः भाषावैज्ञानिकप्रश्नानां उपयोगेन प्रासंगिकचित्रं अन्वेष्टुं शक्नुवन्ति ।
जनरेटिव् एआइ उपयोक्तृभ्यः पाठविवरणात् चित्राणि जनयितुं शक्नोति तथा च डिजाइनं सामग्रीनिर्माणम् इत्यादिषु क्षेत्रेषु उपयुज्यते । यथा एसडी इत्यादयः उत्पादाः।
VLMs इत्यस्य उपयोगः उदाहरणार्थं, विहङ्गम-शब्दार्थ-विभाजन-कार्यं, उपयोक्तृ-प्रोम्प्ट्-अवगत्य चित्र-टिप्पणी च कर्तुं शक्यते ।