मंगलवार को हगिंग फेस, एक ओपन सोर्स विजन लैंग्वेज एक्शन (VLA) आर्टिफिशियल इंटेलिजेंस (AI) मॉडल, Smolvla ने जारी किया। बड़े भाषा मॉडल का उद्देश्य रोबोटिक्स वर्कफ़्लोज़ और प्रशिक्षण-संबंधी कार्यों के लिए है। कंपनी का दावा है कि एआई मॉडल एक एकल उपभोक्ता जीपीयू, या मैकबुक के साथ कंप्यूटर पर स्थानीय रूप से चलाने के लिए पर्याप्त छोटा और कुशल है। न्यूयॉर्क, यूएस-आधारित एआई मॉडल रिपॉजिटरी ने यह भी दावा किया कि स्मोल्वला उन मॉडल को बेहतर बना सकता है जो इससे बहुत बड़े हैं। AI मॉडल वर्तमान में डाउनलोड करने के लिए उपलब्ध है।
हगिंग फेस के स्मोल्वला एआई मॉडल स्थानीय रूप से मैकबुक पर चल सकते हैं
हगिंग फेस के अनुसार, एआई अंतरिक्ष में वृद्धि के बावजूद, रोबोटिक्स में प्रगति धीमी रही है। कंपनी का कहना है कि यह एक के कारण है उच्च गुणवत्ता और विविध डेटा की कमीऔर बड़े भाषा मॉडल (LLM) जो रोबोटिक्स वर्कफ़्लोज़ के लिए डिज़ाइन किए गए हैं।
VLAs समस्याओं में से एक के समाधान के रूप में उभरा है, लेकिन Google और NVIDIA जैसी कंपनियों के अधिकांश अग्रणी मॉडल मालिकाना हैं और निजी डेटासेट पर प्रशिक्षित हैं। नतीजतन, बड़ा रोबोटिक्स अनुसंधान समुदाय, जो ओपन-सोर्स डेटा पर निर्भर करता है, इन एआई मॉडल पर प्रजनन या निर्माण में प्रमुख अड़चन का सामना करता है, पोस्ट पर प्रकाश डाला गया।
ये वीएलए मॉडल छवियों, वीडियो या प्रत्यक्ष कैमरा फ़ीड को कैप्चर कर सकते हैं, वास्तविक दुनिया की स्थिति को समझ सकते हैं और फिर रोबोटिक्स हार्डवेयर का उपयोग करके एक त्वरित कार्य को अंजाम दे सकते हैं।
हगिंग फेस का कहना है कि Smolvla रोबोटिक्स रिसर्च कम्युनिटी द्वारा वर्तमान में सामना किए गए दोनों दर्द बिंदुओं को संबोधित करता है-यह एक ओपन-सोर्स रोबोटिक्स-केंद्रित मॉडल है जिसे लेरोबोट समुदाय से एक खुले डेटासेट पर प्रशिक्षित किया जाता है। Smolvla एक 450 मिलियन पैरामीटर AI मॉडल है जो एक एकल संगत GPU के साथ डेस्कटॉप कंप्यूटर पर चला सकता है, या यहां तक कि नए मैकबुक डिवाइसों में से एक भी।
आर्किटेक्चर में आकर, यह कंपनी के वीएलएम मॉडल पर बनाया गया है। इसमें एक सिग्लिप विज़न एनकोडर और एक भाषा डिकोडर (SMOLLM2) शामिल हैं। दृश्य जानकारी को विज़न एनकोडर के माध्यम से कैप्चर और निकाला जाता है, जबकि प्राकृतिक भाषा संकेतों को टोकन और डिकोडर में खिलाया जाता है।
आंदोलनों या भौतिक कार्रवाई (एक रोबोट हार्डवेयर के माध्यम से कार्य को निष्पादित करना) के साथ काम करते समय, सेंसरिमोटर सिग्नल को एक ही टोकन में जोड़ा जाता है। डिकोडर तब इस सभी जानकारी को एक ही स्ट्रीम में जोड़ता है और इसे एक साथ संसाधित करता है। यह मॉडल को वास्तविक दुनिया के डेटा और कार्य को प्रासंगिक रूप से समझने में सक्षम बनाता है, न कि अलग-अलग संस्थाओं के रूप में।
Smolvla ने एक्शन एक्सपर्ट नामक एक अन्य घटक को जो कुछ भी सीखा है, वह सब कुछ भेजता है, जो यह पता लगाता है कि क्या कार्रवाई करनी है। एक्शन विशेषज्ञ 100 मिलियन मापदंडों के साथ एक ट्रांसफार्मर-आधारित वास्तुकला है। यह रोबोट (वॉकिंग स्टेप्स, आर्म मूवमेंट्स, आदि) के लिए भविष्य की चालों की एक श्रृंखला की भविष्यवाणी करता है, जिसे एक्शन चंक्स के रूप में भी जाना जाता है।
जबकि यह एक आला जनसांख्यिकीय पर लागू होता है, रोबोटिक्स के साथ काम करने वाले लोग कर सकते हैं डाउनलोड करना खुले वजन, डेटासेट और प्रशिक्षण व्यंजनों को या तो पुन: पेश करने या Smolvla मॉडल पर निर्माण करने के लिए। इसके अतिरिक्त, रोबोटिक्स उत्साही जिनके पास एक रोबोटिक आर्म या इसी तरह के हार्डवेयर तक पहुंच है, वे भी मॉडल को चलाने और वास्तविक समय के रोबोटिक्स वर्कफ़्लो को आज़माने के लिए इन्हें डाउनलोड कर सकते हैं।