প্রধান টেকওয়ে
- গবেষকরা বলছেন যে তারা ভিডিও দেখে এবং শুনে AI-কে লেবেল করতে শেখাতে পারেন।
- এআই সিস্টেম ভিজ্যুয়াল এবং অডিও ডেটার মধ্যে ভাগ করা ধারণাগুলি ক্যাপচার করতে ডেটা উপস্থাপন করতে শেখে৷
-
এটি AI-কে বোঝানোর একটি প্রচেষ্টার অংশ যা মানুষের শিখতে কোনো সমস্যা হয় না কিন্তু কম্পিউটারের জন্য তা বোঝা কঠিন।
একটি নতুন কৃত্রিম বুদ্ধিমত্তা সিস্টেম (AI) আপনার ভিডিওগুলি দেখতে এবং শুনতে পারে এবং যা ঘটছে তা লেবেল করতে পারে৷
MIT গবেষকরা এমন একটি কৌশল তৈরি করেছেন যা AI কে ভিডিও এবং অডিওর মধ্যে ভাগ করা ক্রিয়া ক্যাপচার করতে শেখায়।উদাহরণস্বরূপ, তাদের পদ্ধতি বুঝতে পারে যে একটি ভিডিওতে একটি শিশুর কান্নাকাটি একটি শব্দ ক্লিপে উচ্চারিত শব্দ "কান্না" এর সাথে সম্পর্কিত। এটি এআইকে শেখানোর একটি প্রচেষ্টার অংশ যে ধারণাগুলি কীভাবে বোঝা যায় যেগুলি শিখতে মানুষের কোনও সমস্যা নেই, তবে কম্পিউটারগুলি উপলব্ধি করা কঠিন৷
"প্রচলিত শিক্ষার দৃষ্টান্ত, তত্ত্বাবধানে শেখা, ভালভাবে কাজ করে যখন আপনার কাছে ভালভাবে বর্ণনা করা এবং সম্পূর্ণ ডেটাসেট থাকে," এআই বিশেষজ্ঞ ফিল উইন্ডার একটি ইমেল সাক্ষাত্কারে লাইফওয়্যারকে বলেছেন। "দুর্ভাগ্যবশত, ডেটাসেটগুলি খুব কমই সম্পূর্ণ হয় কারণ বাস্তব জগতের নতুন পরিস্থিতি উপস্থাপন করার একটি খারাপ অভ্যাস রয়েছে।"
স্মার্ট এআই
কম্পিউটারদের দৈনন্দিন পরিস্থিতি খুঁজে বের করতে অসুবিধা হয় কারণ তাদের মানুষের মতো শব্দ এবং চিত্রের পরিবর্তে ডেটা ক্রাঞ্চ করতে হয়। যখন একটি মেশিন একটি ফটো "দেখে", তখন এটিকে অবশ্যই সেই ফটোটিকে ডেটাতে এনকোড করতে হবে যা এটি একটি চিত্র শ্রেণীবিভাগের মতো একটি কাজ সম্পাদন করতে ব্যবহার করতে পারে। ভিডিও, অডিও ক্লিপ এবং চিত্রের মতো একাধিক ফর্ম্যাটে ইনপুট এলে AI আটকে যেতে পারে।
"এখানে প্রধান চ্যালেঞ্জ হল, কিভাবে একটি মেশিন সেই বিভিন্ন পদ্ধতিকে সারিবদ্ধ করতে পারে? মানুষ হিসাবে, এটি আমাদের জন্য সহজ," আলেকজান্ডার লিউ, একজন এমআইটি গবেষক এবং এই বিষয়ে একটি গবেষণাপত্রের প্রথম লেখক, একটিতে বলেছেন সংবাদ প্রকাশ. "আমরা একটি গাড়ি দেখি এবং তারপরে একটি গাড়ি চালানোর শব্দ শুনতে পাই এবং আমরা জানি যে এগুলি একই জিনিস৷ কিন্তু মেশিন লার্নিংয়ের জন্য, এটি এত সোজা নয়৷"
Liu-এর দল একটি AI কৌশল তৈরি করেছে যা তারা বলে যে ভিজ্যুয়াল এবং অডিও ডেটার মধ্যে শেয়ার করা ধারণাগুলি ক্যাপচার করতে ডেটা উপস্থাপন করতে শেখে। এই জ্ঞান ব্যবহার করে, তাদের মেশিন-লার্নিং মডেল একটি ভিডিওতে একটি নির্দিষ্ট ক্রিয়া কোথায় ঘটছে তা সনাক্ত করতে পারে এবং এটিকে লেবেল করতে পারে৷
নতুন মডেলটি ভিডিও এবং তাদের সংশ্লিষ্ট টেক্সট ক্যাপশনের মতো অপরিশোধিত ডেটা নেয় এবং ভিডিওতে থাকা বস্তু এবং ক্রিয়া সম্পর্কে বৈশিষ্ট্য বা পর্যবেক্ষণগুলি বের করে এনকোড করে৷ এটি তখন একটি গ্রিডে সেই ডেটা পয়েন্টগুলিকে ম্যাপ করে, যা এম্বেডিং স্পেস হিসাবে পরিচিত। মডেলটি গ্রিডের একক পয়েন্ট হিসাবে অনুরূপ ডেটাকে একত্রিত করে; এই প্রতিটি ডেটা পয়েন্ট বা ভেক্টর, একটি পৃথক শব্দ দ্বারা প্রতিনিধিত্ব করা হয়।
উদাহরণস্বরূপ, একজন ব্যক্তির জাগলিং এর একটি ভিডিও ক্লিপ "জাগলিং" লেবেলযুক্ত ভেক্টরে ম্যাপ করা হতে পারে।
গবেষকরা মডেলটি ডিজাইন করেছেন যাতে এটি ভেক্টর লেবেল করার জন্য শুধুমাত্র 1,000 শব্দ ব্যবহার করতে পারে। মডেলটি সিদ্ধান্ত নিতে পারে যে কোন ক্রিয়া বা ধারণাগুলি এটি একটি একক ভেক্টরে এনকোড করতে চায়, তবে এটি শুধুমাত্র 1,000 ভেক্টর ব্যবহার করতে পারে। মডেলটি সেই শব্দগুলি বেছে নেয় যা মনে করে ডেটা উপস্থাপন করে৷
"শূকর সম্পর্কে একটি ভিডিও থাকলে, মডেলটি 1,000 ভেক্টরের একটিতে 'শুয়োর' শব্দটি বরাদ্দ করতে পারে। তারপর, মডেলটি যদি কাউকে একটি অডিও ক্লিপে 'শুয়োর' শব্দটি বলতে শুনতে পান, এটি এনকোড করার জন্য এখনও একই ভেক্টর ব্যবহার করা উচিত, " লিউ ব্যাখ্যা করেছেন৷
আপনার ভিডিও, ডিকোড করা
এমআইটি দ্বারা তৈরি একটির মতো আরও ভাল লেবেলিং সিস্টেম AI-তে পক্ষপাত কমাতে সাহায্য করতে পারে, বায়োমেট্রিক্স ফার্ম ইনোভেট্রিক্সের গবেষণা ও উন্নয়নের প্রধান মারিয়ান বেসজেডেস লাইফওয়্যারকে একটি ইমেল সাক্ষাত্কারে বলেছেন। বেসজেডেস পরামর্শ দিয়েছেন যে ডেটা শিল্প একটি উত্পাদন প্রক্রিয়ার দৃষ্টিকোণ থেকে এআই সিস্টেমগুলি দেখতে পারে।
"সিস্টেমগুলি ইনপুট (কাঁচামাল) হিসাবে কাঁচা ডেটা গ্রহণ করে, এটিকে প্রিপ্রসেস করে, এটি গ্রহণ করে, সিদ্ধান্ত নেয় বা ভবিষ্যদ্বাণী করে এবং আউটপুট বিশ্লেষণ (সমাপ্ত পণ্য), " বেসজেডেস বলেছিলেন। "আমরা এই প্রক্রিয়াটিকে "ডেটা ফ্যাক্টরি" বলে থাকি এবং অন্যান্য উত্পাদন প্রক্রিয়াগুলির মতো এটিও মান নিয়ন্ত্রণের অধীন হওয়া উচিত৷ ডেটা শিল্পের AI পক্ষপাতকে একটি গুণমান সমস্যা হিসাবে বিবেচনা করা দরকার৷
"ভোক্তার দৃষ্টিকোণ থেকে, ভুল লেবেলযুক্ত ডেটা যেমন নির্দিষ্ট ছবি/ভিডিওর জন্য অনলাইন অনুসন্ধান আরও কঠিন করে তোলে," বেসজেডেস যোগ করেছেন। "সঠিকভাবে বিকশিত AI দিয়ে, আপনি ম্যানুয়াল লেবেলিংয়ের চেয়ে স্বয়ংক্রিয়ভাবে লেবেলিং করতে পারেন, অনেক দ্রুত এবং আরও নিরপেক্ষ।"
কিন্তু এমআইটি মডেলের এখনও কিছু সীমাবদ্ধতা রয়েছে। একের জন্য, তাদের গবেষণাটি এক সময়ে দুটি উত্স থেকে ডেটার উপর দৃষ্টি নিবদ্ধ করেছিল, কিন্তু বাস্তব জগতে, মানুষ একই সাথে অনেক ধরণের তথ্যের মুখোমুখি হয়, লিউ বলেছেন
"এবং আমরা জানি 1,000টি শব্দ এই ধরনের ডেটাসেটে কাজ করে, কিন্তু আমরা জানি না যে এটি একটি বাস্তব-বিশ্বের সমস্যায় সাধারণীকরণ করা যায় কিনা," লিউ যোগ করেছেন৷
MIT গবেষকরা বলছেন যে তাদের নতুন কৌশলটি অনেক অনুরূপ মডেলকে ছাড়িয়ে গেছে। যদি AI-কে ভিডিও বোঝার জন্য প্রশিক্ষিত করা যায়, তাহলে আপনি শেষ পর্যন্ত আপনার বন্ধুর অবকাশকালীন ভিডিও দেখা এড়িয়ে যেতে পারবেন এবং পরিবর্তে একটি কম্পিউটার-জেনারেটেড রিপোর্ট পেতে পারবেন।