প্রধান টেকওয়ে
- মেটা এমন প্রোগ্রাম তৈরি করতে AI ব্যবহার করছে যা বক্তৃতায় আবেগ প্রকাশ করতে পারে।
- কোম্পানীর এআই টিম বলেছে যে এটি বাস্তব সময়ে হাসি, হাঁচি, কান্না এবং "স্বতঃস্ফূর্ত চিট-চ্যাট" এর মতো অভিব্যক্তিপূর্ণ কণ্ঠের মডেলিংয়ে অগ্রগতি করেছে৷
- এআই স্পিচ রিকগনিশনের উন্নতির জন্যও ব্যবহার করা হচ্ছে৷
কৃত্রিম বুদ্ধিমত্তার (AI) শক্তির জন্য আপনি শীঘ্রই আপনার কম্পিউটারের সাথে আরও স্বাভাবিক চ্যাট করতে সক্ষম হবেন।
মেটা বলেছে যে এটি আরও বাস্তবসম্মত এআই-উত্পন্ন স্পিচ সিস্টেম তৈরি করার প্রচেষ্টায় উল্লেখযোগ্য অগ্রগতি করেছে। কোম্পানির এআই টিম বলেছে যে এটি বাস্তব সময়ে "স্বতঃস্ফূর্ত চিট-চ্যাট" ছাড়াও হাসি, হাঁচি এবং কান্নার মতো অভিব্যক্তিপূর্ণ কণ্ঠস্বর মডেল করার ক্ষমতায় অগ্রগতি করেছে৷
"যেকোনো কথোপকথনে, লোকেরা অমৌখিক সংকেতগুলি বিনিময় করে, যেমন স্বর, সংবেদনশীল অভিব্যক্তি, বিরতি, উচ্চারণ, ছন্দ-যা সবই মানুষের মিথস্ক্রিয়ায় গুরুত্বপূর্ণ," দলটি সাম্প্রতিক ব্লগ পোস্টে লিখেছে. "কিন্তু আজকের AI সিস্টেমগুলি এই সমৃদ্ধ, অভিব্যক্তিপূর্ণ সংকেতগুলি ক্যাপচার করতে ব্যর্থ হয় কারণ তারা শুধুমাত্র লিখিত পাঠ্য থেকে শেখে, যা আমরা যা বলি তা ক্যাপচার করে কিন্তু আমরা কীভাবে বলি তা নয়।"
স্মার্ট বক্তৃতা
ব্লগ পোস্টে, মেটা এআই-এর দল বলেছে যে তারা ঐতিহ্যবাহী এআই সিস্টেমের সীমাবদ্ধতাগুলি কাটিয়ে উঠতে কাজ করছে যা বক্তৃতায় অ-মৌখিক সংকেত বুঝতে পারে না, যেমন স্বর, আবেগের অভিব্যক্তি, বিরতি, উচ্চারণ এবং ছন্দ.সিস্টেমগুলিকে আটকে রাখা হয়েছে কারণ তারা শুধুমাত্র লিখিত পাঠ্য থেকে শিখতে পারে৷
কিন্তু মেটার কাজ পূর্ববর্তী প্রচেষ্টা থেকে আলাদা কারণ এর AI মডেলগুলি কথ্য ভাষার সম্পূর্ণ প্রকৃতি ক্যাপচার করতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মডেল ব্যবহার করতে পারে। মেটা গবেষকরা বলছেন যে নতুন মডেলগুলি এআই সিস্টেমগুলিকে তারা যে অনুভূতি প্রকাশ করতে চায় তা প্রকাশ করার অনুমতি দিতে পারে - যেমন একঘেয়েমি বা বিড়ম্বনা৷
"অদূর ভবিষ্যতে, আমরা রিসোর্স-ইনটেনসিভ টেক্সট লেবেল বা স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম (ASR), যেমন প্রশ্নের উত্তর (যেমন, "কেমন হল আবহাওয়া?"), " দলটি ব্লগ পোস্টে লিখেছে। "আমরা বিশ্বাস করি বক্তৃতার প্রসোডি একটি বাক্যকে আরও ভালভাবে পার্স করতে সাহায্য করতে পারে, যার ফলে উদ্দেশ্য বোঝার সুবিধা হয় এবং প্রশ্নের উত্তর দেওয়ার কর্মক্ষমতা উন্নত হয়।"
এআই পাওয়ার কম্প্রিহেনশন
কম্পিউটারগুলি কেবলমাত্র অর্থ যোগাযোগের ক্ষেত্রেই উন্নত হচ্ছে না, তবে AI বক্তৃতা শনাক্তকরণের উন্নতিতেও ব্যবহৃত হচ্ছে৷
কম্পিউটার বিজ্ঞানীরা কমপক্ষে 1952 সাল থেকে কম্পিউটার স্পিচ রিকগনিশন নিয়ে কাজ করছেন, যখন তিনজন বেল ল্যাব গবেষক একটি সিস্টেম তৈরি করেছিলেন যা একক সংখ্যার সংখ্যাকে চিনতে পারে, এআই ডায়নামিক্সের প্রধান প্রযুক্তি কর্মকর্তা রায়ান মনসুরেট একটি ইমেলে বলেছেন লাইফওয়্যার। 1990-এর দশকে, বক্তৃতা শনাক্তকরণ সিস্টেমগুলি বাণিজ্যিকভাবে উপলব্ধ ছিল কিন্তু তবুও একটি ত্রুটির হার ছিল যা স্বাস্থ্যসেবার মতো খুব নির্দিষ্ট অ্যাপ্লিকেশন ডোমেনের বাইরে ব্যবহারকে নিরুৎসাহিত করার জন্য যথেষ্ট ছিল৷
"এখন যেহেতু গভীর শিক্ষার মডেলগুলি এনসেম্বল মডেলগুলিকে (মাইক্রোসফটের মতো) স্পিচ রিকগনিশনে অতিমানবীয় কর্মক্ষমতা অর্জন করতে সক্ষম করেছে, আমাদের কাছে কম্পিউটারের সাথে স্পিকার-স্বাধীন মৌখিক যোগাযোগ সক্ষম করার প্রযুক্তি রয়েছে," মনসুরেট বলেছেন৷ "পরবর্তী ধাপে খরচ কমানো অন্তর্ভুক্ত থাকবে যাতে প্রত্যেকে যারা সিরি বা গুগলের এআই সহকারী ব্যবহার করে তারা এই স্তরের স্পিচ রিকগনিশনে অ্যাক্সেস পাবে।"
AI বক্তৃতা শনাক্তকরণের জন্য দরকারী কারণ এটি শেখার মাধ্যমে সময়ের সাথে সাথে উন্নতি করতে পারে, AI ভয়েস কোম্পানি Verbit.ai-এর প্রধান রাজস্ব কর্মকর্তা এবং জেনারেল ম্যানেজার Ariel Utnik, Lifewire কে একটি ইমেল সাক্ষাত্কারে বলেছেন। উদাহরণ স্বরূপ, Verbit দাবি করে যে এর ইন-হাউস AI প্রযুক্তি ব্যাকগ্রাউন্ডের শব্দ শনাক্ত করে এবং ফিল্টার করে এবং লাইভ এবং রেকর্ড করা ভিডিও এবং অডিও থেকে বিস্তারিত, পেশাদার ট্রান্সক্রিপ্ট এবং ক্যাপশন তৈরি করতে উচ্চারণ নির্বিশেষে স্পিকারকে প্রতিধ্বনিত করে এবং প্রতিলিপি করে৷
কিন্তু ইউটনিক বলেছেন যে বেশিরভাগ বর্তমান স্পিচ রিকগনিশন প্ল্যাটফর্ম মাত্র 75-80% নির্ভুল৷
"এআই কখনই মানুষকে সম্পূর্ণরূপে প্রতিস্থাপন করবে না কারণ ট্রান্সক্রাইবার, প্রুফরিডার এবং সম্পাদকদের দ্বারা ব্যক্তিগত পর্যালোচনা একটি উচ্চ মানের এবং সর্বোচ্চ নির্ভুলতার চূড়ান্ত প্রতিলিপি নিশ্চিত করার জন্য প্রয়োজনীয়।"
হ্যাকারদের প্রতিরোধ করতে আরও ভাল ভয়েস রিকগনিশন ব্যবহার করা যেতে পারে, ভয়েস রিকগনিশন কোম্পানি মাইটেক সিস্টেমের ভাইস প্রেসিডেন্ট গ্লোবাল হেড অব প্রোডাক্ট এবং কর্পোরেট ডেভেলপমেন্ট সঞ্জয় গুপ্তা একটি ইমেলে বলেছেন।গবেষণা ইঙ্গিত করে যে দুই বছরের মধ্যে, সমস্ত সফল অ্যাকাউন্ট টেকওভার আক্রমণের 20 শতাংশ সিন্থেটিক ভয়েস অগমেন্টেশন ব্যবহার করবে, তিনি যোগ করেছেন।
"এর মানে হল যে গভীর নকল প্রযুক্তি আরও পরিশীলিত হয়ে উঠছে, আমাদের একই সাথে উন্নত সুরক্ষা তৈরি করতে হবে যা চিত্র এবং ভিডিও গভীর নকলের পাশাপাশি এই কৌশলগুলির বিরুদ্ধে লড়াই করতে পারে," গুপ্তা বলেছেন৷ "ভয়েস স্পুফিংয়ের বিরুদ্ধে লড়াই করার জন্য প্রাণবন্ততা সনাক্তকরণ প্রযুক্তি প্রয়োজন, যা একটি লাইভ ভয়েস এবং একটি ভয়েসের রেকর্ড করা, সিন্থেটিক বা কম্পিউটার-জেনারেটেড সংস্করণের মধ্যে পার্থক্য করতে সক্ষম।"
সংশোধন 2022-05-04: 9 অনুচ্ছেদে রায়ান মনসুরেটের নামের বানান সংশোধন করা হয়েছে।