AI এখন আপনার ভিডিওগুলি দেখে বুঝতে পারে৷

👤 লেখক Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:40.
🖍 সর্বশেষ পরিবর্তিত 2025-01-24 12:03.

প্রধান টেকওয়ে

গবেষকরা বলছেন যে তারা ভিডিও দেখে এবং শুনে AI-কে লেবেল করতে শেখাতে পারেন।
এআই সিস্টেম ভিজ্যুয়াল এবং অডিও ডেটার মধ্যে ভাগ করা ধারণাগুলি ক্যাপচার করতে ডেটা উপস্থাপন করতে শেখে৷
এটি AI-কে বোঝানোর একটি প্রচেষ্টার অংশ যা মানুষের শিখতে কোনো সমস্যা হয় না কিন্তু কম্পিউটারের জন্য তা বোঝা কঠিন।

একটি নতুন কৃত্রিম বুদ্ধিমত্তা সিস্টেম (AI) আপনার ভিডিওগুলি দেখতে এবং শুনতে পারে এবং যা ঘটছে তা লেবেল করতে পারে৷

MIT গবেষকরা এমন একটি কৌশল তৈরি করেছেন যা AI কে ভিডিও এবং অডিওর মধ্যে ভাগ করা ক্রিয়া ক্যাপচার করতে শেখায়।উদাহরণস্বরূপ, তাদের পদ্ধতি বুঝতে পারে যে একটি ভিডিওতে একটি শিশুর কান্নাকাটি একটি শব্দ ক্লিপে উচ্চারিত শব্দ "কান্না" এর সাথে সম্পর্কিত। এটি এআইকে শেখানোর একটি প্রচেষ্টার অংশ যে ধারণাগুলি কীভাবে বোঝা যায় যেগুলি শিখতে মানুষের কোনও সমস্যা নেই, তবে কম্পিউটারগুলি উপলব্ধি করা কঠিন৷

"প্রচলিত শিক্ষার দৃষ্টান্ত, তত্ত্বাবধানে শেখা, ভালভাবে কাজ করে যখন আপনার কাছে ভালভাবে বর্ণনা করা এবং সম্পূর্ণ ডেটাসেট থাকে," এআই বিশেষজ্ঞ ফিল উইন্ডার একটি ইমেল সাক্ষাত্কারে লাইফওয়্যারকে বলেছেন। "দুর্ভাগ্যবশত, ডেটাসেটগুলি খুব কমই সম্পূর্ণ হয় কারণ বাস্তব জগতের নতুন পরিস্থিতি উপস্থাপন করার একটি খারাপ অভ্যাস রয়েছে।"

স্মার্ট এআই

কম্পিউটারদের দৈনন্দিন পরিস্থিতি খুঁজে বের করতে অসুবিধা হয় কারণ তাদের মানুষের মতো শব্দ এবং চিত্রের পরিবর্তে ডেটা ক্রাঞ্চ করতে হয়। যখন একটি মেশিন একটি ফটো "দেখে", তখন এটিকে অবশ্যই সেই ফটোটিকে ডেটাতে এনকোড করতে হবে যা এটি একটি চিত্র শ্রেণীবিভাগের মতো একটি কাজ সম্পাদন করতে ব্যবহার করতে পারে। ভিডিও, অডিও ক্লিপ এবং চিত্রের মতো একাধিক ফর্ম্যাটে ইনপুট এলে AI আটকে যেতে পারে।

"এখানে প্রধান চ্যালেঞ্জ হল, কিভাবে একটি মেশিন সেই বিভিন্ন পদ্ধতিকে সারিবদ্ধ করতে পারে? মানুষ হিসাবে, এটি আমাদের জন্য সহজ," আলেকজান্ডার লিউ, একজন এমআইটি গবেষক এবং এই বিষয়ে একটি গবেষণাপত্রের প্রথম লেখক, একটিতে বলেছেন সংবাদ প্রকাশ. "আমরা একটি গাড়ি দেখি এবং তারপরে একটি গাড়ি চালানোর শব্দ শুনতে পাই এবং আমরা জানি যে এগুলি একই জিনিস৷ কিন্তু মেশিন লার্নিংয়ের জন্য, এটি এত সোজা নয়৷"

Liu-এর দল একটি AI কৌশল তৈরি করেছে যা তারা বলে যে ভিজ্যুয়াল এবং অডিও ডেটার মধ্যে শেয়ার করা ধারণাগুলি ক্যাপচার করতে ডেটা উপস্থাপন করতে শেখে। এই জ্ঞান ব্যবহার করে, তাদের মেশিন-লার্নিং মডেল একটি ভিডিওতে একটি নির্দিষ্ট ক্রিয়া কোথায় ঘটছে তা সনাক্ত করতে পারে এবং এটিকে লেবেল করতে পারে৷

নতুন মডেলটি ভিডিও এবং তাদের সংশ্লিষ্ট টেক্সট ক্যাপশনের মতো অপরিশোধিত ডেটা নেয় এবং ভিডিওতে থাকা বস্তু এবং ক্রিয়া সম্পর্কে বৈশিষ্ট্য বা পর্যবেক্ষণগুলি বের করে এনকোড করে৷ এটি তখন একটি গ্রিডে সেই ডেটা পয়েন্টগুলিকে ম্যাপ করে, যা এম্বেডিং স্পেস হিসাবে পরিচিত। মডেলটি গ্রিডের একক পয়েন্ট হিসাবে অনুরূপ ডেটাকে একত্রিত করে; এই প্রতিটি ডেটা পয়েন্ট বা ভেক্টর, একটি পৃথক শব্দ দ্বারা প্রতিনিধিত্ব করা হয়।

উদাহরণস্বরূপ, একজন ব্যক্তির জাগলিং এর একটি ভিডিও ক্লিপ "জাগলিং" লেবেলযুক্ত ভেক্টরে ম্যাপ করা হতে পারে।

গবেষকরা মডেলটি ডিজাইন করেছেন যাতে এটি ভেক্টর লেবেল করার জন্য শুধুমাত্র 1,000 শব্দ ব্যবহার করতে পারে। মডেলটি সিদ্ধান্ত নিতে পারে যে কোন ক্রিয়া বা ধারণাগুলি এটি একটি একক ভেক্টরে এনকোড করতে চায়, তবে এটি শুধুমাত্র 1,000 ভেক্টর ব্যবহার করতে পারে। মডেলটি সেই শব্দগুলি বেছে নেয় যা মনে করে ডেটা উপস্থাপন করে৷

"শূকর সম্পর্কে একটি ভিডিও থাকলে, মডেলটি 1,000 ভেক্টরের একটিতে 'শুয়োর' শব্দটি বরাদ্দ করতে পারে। তারপর, মডেলটি যদি কাউকে একটি অডিও ক্লিপে 'শুয়োর' শব্দটি বলতে শুনতে পান, এটি এনকোড করার জন্য এখনও একই ভেক্টর ব্যবহার করা উচিত, " লিউ ব্যাখ্যা করেছেন৷

আপনার ভিডিও, ডিকোড করা

এমআইটি দ্বারা তৈরি একটির মতো আরও ভাল লেবেলিং সিস্টেম AI-তে পক্ষপাত কমাতে সাহায্য করতে পারে, বায়োমেট্রিক্স ফার্ম ইনোভেট্রিক্সের গবেষণা ও উন্নয়নের প্রধান মারিয়ান বেসজেডেস লাইফওয়্যারকে একটি ইমেল সাক্ষাত্কারে বলেছেন। বেসজেডেস পরামর্শ দিয়েছেন যে ডেটা শিল্প একটি উত্পাদন প্রক্রিয়ার দৃষ্টিকোণ থেকে এআই সিস্টেমগুলি দেখতে পারে।

"সিস্টেমগুলি ইনপুট (কাঁচামাল) হিসাবে কাঁচা ডেটা গ্রহণ করে, এটিকে প্রিপ্রসেস করে, এটি গ্রহণ করে, সিদ্ধান্ত নেয় বা ভবিষ্যদ্বাণী করে এবং আউটপুট বিশ্লেষণ (সমাপ্ত পণ্য), " বেসজেডেস বলেছিলেন। "আমরা এই প্রক্রিয়াটিকে "ডেটা ফ্যাক্টরি" বলে থাকি এবং অন্যান্য উত্পাদন প্রক্রিয়াগুলির মতো এটিও মান নিয়ন্ত্রণের অধীন হওয়া উচিত৷ ডেটা শিল্পের AI পক্ষপাতকে একটি গুণমান সমস্যা হিসাবে বিবেচনা করা দরকার৷

"ভোক্তার দৃষ্টিকোণ থেকে, ভুল লেবেলযুক্ত ডেটা যেমন নির্দিষ্ট ছবি/ভিডিওর জন্য অনলাইন অনুসন্ধান আরও কঠিন করে তোলে," বেসজেডেস যোগ করেছেন। "সঠিকভাবে বিকশিত AI দিয়ে, আপনি ম্যানুয়াল লেবেলিংয়ের চেয়ে স্বয়ংক্রিয়ভাবে লেবেলিং করতে পারেন, অনেক দ্রুত এবং আরও নিরপেক্ষ।"

কিন্তু এমআইটি মডেলের এখনও কিছু সীমাবদ্ধতা রয়েছে। একের জন্য, তাদের গবেষণাটি এক সময়ে দুটি উত্স থেকে ডেটার উপর দৃষ্টি নিবদ্ধ করেছিল, কিন্তু বাস্তব জগতে, মানুষ একই সাথে অনেক ধরণের তথ্যের মুখোমুখি হয়, লিউ বলেছেন

"এবং আমরা জানি 1,000টি শব্দ এই ধরনের ডেটাসেটে কাজ করে, কিন্তু আমরা জানি না যে এটি একটি বাস্তব-বিশ্বের সমস্যায় সাধারণীকরণ করা যায় কিনা," লিউ যোগ করেছেন৷

MIT গবেষকরা বলছেন যে তাদের নতুন কৌশলটি অনেক অনুরূপ মডেলকে ছাড়িয়ে গেছে। যদি AI-কে ভিডিও বোঝার জন্য প্রশিক্ষিত করা যায়, তাহলে আপনি শেষ পর্যন্ত আপনার বন্ধুর অবকাশকালীন ভিডিও দেখা এড়িয়ে যেতে পারবেন এবং পরিবর্তে একটি কম্পিউটার-জেনারেটেড রিপোর্ট পেতে পারবেন।

প্রস্তাবিত:

AI এখন আপনার ভিডিওগুলি দেখে বুঝতে পারে৷

সুচিপত্র:

প্রধান টেকওয়ে

স্মার্ট এআই

আপনার ভিডিও, ডিকোড করা

প্রস্তাবিত:

আপনার অ্যান্ড্রয়েড ফোন বা ট্যাবলেট থেকে মুছে ফেলা ভিডিওগুলি কীভাবে পুনরুদ্ধার করবেন

আপনার YouTube ভিডিওগুলি কে দেখছে তা কীভাবে খুঁজে বের করবেন৷

আপনার Chromebook ক্যামেরা এখন আরও অনেক কিছু করতে পারে৷

নতুন প্রযুক্তি গ্যাজেটগুলিকে আপনার কথোপকথন বুঝতে দিতে পারে৷

আপনার আইফোনে ভিডিওগুলি কীভাবে সম্পাদনা করবেন

কীভাবে একটি Yandex.Mail অ্যাকাউন্ট মুছবেন

রোবট পোষা প্রাণী কীভাবে আপনার আবেগ বোঝার জন্য AI ব্যবহার করতে পারে

কিভাবে এআই আপনার মস্তিষ্কের তরঙ্গ পড়তে পারে

যেকোন জায়গা থেকে কিভাবে iCloud ইমেল চেক করবেন

কীভাবে এক্সেলে একটি শীট কপি করবেন

9টি সেরা কম্পিউটার মনিটর, লাইফওয়্যার দ্বারা পরীক্ষিত

2022 সালের 5টি সেরা SiriusXM পোর্টেবল স্যাটেলাইট রেডিও

Ricoh Theta SC2 পর্যালোচনা: কমপ্যাক্ট 360-ডিগ্রী ক্যামেরা

আইফোন 11 এ কীভাবে সিরি ব্যবহার করবেন

কিভাবে ম্যাকোস সিয়েরার একটি পরিষ্কার ইনস্টল সম্পাদন করবেন

Apple MacBook Pro 13-ইঞ্চি (2019) পর্যালোচনা: অ্যাপলের সেরা ল্যাপটপ আরও ভাল হয়

একটি নতুন নিন্টেন্ডো কনসোল কি ভক্তদের প্রত্যাশা পূরণ করবে?

LG Ex alt LTE পর্যালোচনা: একটি আধুনিক স্পর্শ সহ একটি ফ্লিপ ফোন৷

2022 সালে স্ট্রিমিংয়ের জন্য 7টি সেরা মাইক্রোফোন

CES 2021: স্ট্রেস কম করুন, আরাম করুন এবং ভালো ঘুমান