আপনার কম্পিউটারের সাথে কথোপকথন আরও বাস্তবসম্মত হতে পারে

👤 লেখক Abigail Brown 📧 [email protected].
⏱ Public 2023-12-17 06:40.
🖍 সর্বশেষ পরিবর্তিত 2025-01-24 12:03.

প্রধান টেকওয়ে

মেটা এমন প্রোগ্রাম তৈরি করতে AI ব্যবহার করছে যা বক্তৃতায় আবেগ প্রকাশ করতে পারে।
কোম্পানীর এআই টিম বলেছে যে এটি বাস্তব সময়ে হাসি, হাঁচি, কান্না এবং "স্বতঃস্ফূর্ত চিট-চ্যাট" এর মতো অভিব্যক্তিপূর্ণ কণ্ঠের মডেলিংয়ে অগ্রগতি করেছে৷
এআই স্পিচ রিকগনিশনের উন্নতির জন্যও ব্যবহার করা হচ্ছে৷

কৃত্রিম বুদ্ধিমত্তার (AI) শক্তির জন্য আপনি শীঘ্রই আপনার কম্পিউটারের সাথে আরও স্বাভাবিক চ্যাট করতে সক্ষম হবেন।

মেটা বলেছে যে এটি আরও বাস্তবসম্মত এআই-উত্পন্ন স্পিচ সিস্টেম তৈরি করার প্রচেষ্টায় উল্লেখযোগ্য অগ্রগতি করেছে। কোম্পানির এআই টিম বলেছে যে এটি বাস্তব সময়ে "স্বতঃস্ফূর্ত চিট-চ্যাট" ছাড়াও হাসি, হাঁচি এবং কান্নার মতো অভিব্যক্তিপূর্ণ কণ্ঠস্বর মডেল করার ক্ষমতায় অগ্রগতি করেছে৷

"যেকোনো কথোপকথনে, লোকেরা অমৌখিক সংকেতগুলি বিনিময় করে, যেমন স্বর, সংবেদনশীল অভিব্যক্তি, বিরতি, উচ্চারণ, ছন্দ-যা সবই মানুষের মিথস্ক্রিয়ায় গুরুত্বপূর্ণ," দলটি সাম্প্রতিক ব্লগ পোস্টে লিখেছে. "কিন্তু আজকের AI সিস্টেমগুলি এই সমৃদ্ধ, অভিব্যক্তিপূর্ণ সংকেতগুলি ক্যাপচার করতে ব্যর্থ হয় কারণ তারা শুধুমাত্র লিখিত পাঠ্য থেকে শেখে, যা আমরা যা বলি তা ক্যাপচার করে কিন্তু আমরা কীভাবে বলি তা নয়।"

স্মার্ট বক্তৃতা

ব্লগ পোস্টে, মেটা এআই-এর দল বলেছে যে তারা ঐতিহ্যবাহী এআই সিস্টেমের সীমাবদ্ধতাগুলি কাটিয়ে উঠতে কাজ করছে যা বক্তৃতায় অ-মৌখিক সংকেত বুঝতে পারে না, যেমন স্বর, আবেগের অভিব্যক্তি, বিরতি, উচ্চারণ এবং ছন্দ.সিস্টেমগুলিকে আটকে রাখা হয়েছে কারণ তারা শুধুমাত্র লিখিত পাঠ্য থেকে শিখতে পারে৷

কিন্তু মেটার কাজ পূর্ববর্তী প্রচেষ্টা থেকে আলাদা কারণ এর AI মডেলগুলি কথ্য ভাষার সম্পূর্ণ প্রকৃতি ক্যাপচার করতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মডেল ব্যবহার করতে পারে। মেটা গবেষকরা বলছেন যে নতুন মডেলগুলি এআই সিস্টেমগুলিকে তারা যে অনুভূতি প্রকাশ করতে চায় তা প্রকাশ করার অনুমতি দিতে পারে - যেমন একঘেয়েমি বা বিড়ম্বনা৷

"অদূর ভবিষ্যতে, আমরা রিসোর্স-ইনটেনসিভ টেক্সট লেবেল বা স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম (ASR), যেমন প্রশ্নের উত্তর (যেমন, "কেমন হল আবহাওয়া?"), " দলটি ব্লগ পোস্টে লিখেছে। "আমরা বিশ্বাস করি বক্তৃতার প্রসোডি একটি বাক্যকে আরও ভালভাবে পার্স করতে সাহায্য করতে পারে, যার ফলে উদ্দেশ্য বোঝার সুবিধা হয় এবং প্রশ্নের উত্তর দেওয়ার কর্মক্ষমতা উন্নত হয়।"

এআই পাওয়ার কম্প্রিহেনশন

কম্পিউটারগুলি কেবলমাত্র অর্থ যোগাযোগের ক্ষেত্রেই উন্নত হচ্ছে না, তবে AI বক্তৃতা শনাক্তকরণের উন্নতিতেও ব্যবহৃত হচ্ছে৷

কম্পিউটার বিজ্ঞানীরা কমপক্ষে 1952 সাল থেকে কম্পিউটার স্পিচ রিকগনিশন নিয়ে কাজ করছেন, যখন তিনজন বেল ল্যাব গবেষক একটি সিস্টেম তৈরি করেছিলেন যা একক সংখ্যার সংখ্যাকে চিনতে পারে, এআই ডায়নামিক্সের প্রধান প্রযুক্তি কর্মকর্তা রায়ান মনসুরেট একটি ইমেলে বলেছেন লাইফওয়্যার। 1990-এর দশকে, বক্তৃতা শনাক্তকরণ সিস্টেমগুলি বাণিজ্যিকভাবে উপলব্ধ ছিল কিন্তু তবুও একটি ত্রুটির হার ছিল যা স্বাস্থ্যসেবার মতো খুব নির্দিষ্ট অ্যাপ্লিকেশন ডোমেনের বাইরে ব্যবহারকে নিরুৎসাহিত করার জন্য যথেষ্ট ছিল৷

"এখন যেহেতু গভীর শিক্ষার মডেলগুলি এনসেম্বল মডেলগুলিকে (মাইক্রোসফটের মতো) স্পিচ রিকগনিশনে অতিমানবীয় কর্মক্ষমতা অর্জন করতে সক্ষম করেছে, আমাদের কাছে কম্পিউটারের সাথে স্পিকার-স্বাধীন মৌখিক যোগাযোগ সক্ষম করার প্রযুক্তি রয়েছে," মনসুরেট বলেছেন৷ "পরবর্তী ধাপে খরচ কমানো অন্তর্ভুক্ত থাকবে যাতে প্রত্যেকে যারা সিরি বা গুগলের এআই সহকারী ব্যবহার করে তারা এই স্তরের স্পিচ রিকগনিশনে অ্যাক্সেস পাবে।"

AI বক্তৃতা শনাক্তকরণের জন্য দরকারী কারণ এটি শেখার মাধ্যমে সময়ের সাথে সাথে উন্নতি করতে পারে, AI ভয়েস কোম্পানি Verbit.ai-এর প্রধান রাজস্ব কর্মকর্তা এবং জেনারেল ম্যানেজার Ariel Utnik, Lifewire কে একটি ইমেল সাক্ষাত্কারে বলেছেন। উদাহরণ স্বরূপ, Verbit দাবি করে যে এর ইন-হাউস AI প্রযুক্তি ব্যাকগ্রাউন্ডের শব্দ শনাক্ত করে এবং ফিল্টার করে এবং লাইভ এবং রেকর্ড করা ভিডিও এবং অডিও থেকে বিস্তারিত, পেশাদার ট্রান্সক্রিপ্ট এবং ক্যাপশন তৈরি করতে উচ্চারণ নির্বিশেষে স্পিকারকে প্রতিধ্বনিত করে এবং প্রতিলিপি করে৷

কিন্তু ইউটনিক বলেছেন যে বেশিরভাগ বর্তমান স্পিচ রিকগনিশন প্ল্যাটফর্ম মাত্র 75-80% নির্ভুল৷

"এআই কখনই মানুষকে সম্পূর্ণরূপে প্রতিস্থাপন করবে না কারণ ট্রান্সক্রাইবার, প্রুফরিডার এবং সম্পাদকদের দ্বারা ব্যক্তিগত পর্যালোচনা একটি উচ্চ মানের এবং সর্বোচ্চ নির্ভুলতার চূড়ান্ত প্রতিলিপি নিশ্চিত করার জন্য প্রয়োজনীয়।"

হ্যাকারদের প্রতিরোধ করতে আরও ভাল ভয়েস রিকগনিশন ব্যবহার করা যেতে পারে, ভয়েস রিকগনিশন কোম্পানি মাইটেক সিস্টেমের ভাইস প্রেসিডেন্ট গ্লোবাল হেড অব প্রোডাক্ট এবং কর্পোরেট ডেভেলপমেন্ট সঞ্জয় গুপ্তা একটি ইমেলে বলেছেন।গবেষণা ইঙ্গিত করে যে দুই বছরের মধ্যে, সমস্ত সফল অ্যাকাউন্ট টেকওভার আক্রমণের 20 শতাংশ সিন্থেটিক ভয়েস অগমেন্টেশন ব্যবহার করবে, তিনি যোগ করেছেন।

"এর মানে হল যে গভীর নকল প্রযুক্তি আরও পরিশীলিত হয়ে উঠছে, আমাদের একই সাথে উন্নত সুরক্ষা তৈরি করতে হবে যা চিত্র এবং ভিডিও গভীর নকলের পাশাপাশি এই কৌশলগুলির বিরুদ্ধে লড়াই করতে পারে," গুপ্তা বলেছেন৷ "ভয়েস স্পুফিংয়ের বিরুদ্ধে লড়াই করার জন্য প্রাণবন্ততা সনাক্তকরণ প্রযুক্তি প্রয়োজন, যা একটি লাইভ ভয়েস এবং একটি ভয়েসের রেকর্ড করা, সিন্থেটিক বা কম্পিউটার-জেনারেটেড সংস্করণের মধ্যে পার্থক্য করতে সক্ষম।"

সংশোধন 2022-05-04: 9 অনুচ্ছেদে রায়ান মনসুরেটের নামের বানান সংশোধন করা হয়েছে।

প্রস্তাবিত:

আপনার কম্পিউটারের সাথে কথোপকথন আরও বাস্তবসম্মত হতে পারে

সুচিপত্র:

প্রধান টেকওয়ে

স্মার্ট বক্তৃতা

এআই পাওয়ার কম্প্রিহেনশন

প্রস্তাবিত:

আপনার নতুন কম্পিউটারের সাথে আপনার প্রথম 5টি জিনিস করা উচিত

AI আপনার কথোপকথন গুপ্তচরবৃত্তি হতে পারে

আপনার আইফোন আপনার কম্পিউটারের সাথে সংযুক্ত না হলে কী করবেন৷

নিউরোচিপস কীভাবে আপনার মস্তিষ্ককে একটি কম্পিউটারের সাথে সংযুক্ত করতে পারে

Windows 10 এর সাথে আপনার কম্পিউটারের সাথে একটি প্রিন্টার কিভাবে সংযুক্ত করবেন

হোম পেজ: তারা কি?

IPhone এর জন্য সেরা 10টি অডিওবুক ডাউনলোড সাইট

বাউন্টি হান্টার জুনিয়র মেটাল ডিটেক্টর পর্যালোচনা: একটি দুর্দান্ত, পরিবার-বান্ধব মেটাল ডিটেক্টর

শীর্ষ 5 আইফোন গেম ডেভেলপার

বাউন্টি হান্টার ট্র্যাকার IV মেটাল ডিটেক্টর পর্যালোচনা: একটি জোরে কিন্তু সঠিক শিক্ষানবিস আবিষ্কারক

কিভাবে 'ইন্টারনেট এক্সপ্লোরার কাজ করা বন্ধ করে দিয়েছে' ত্রুটি ঠিক করবেন

কীভাবে অ্যামাজন ইকো শো সেট আপ করবেন

কিভাবে ইন্টারনেট এক্সপ্লোরারে টেক্সট সাইজ পরিবর্তন করবেন

একটি ওয়েব ব্রাউজার কি?

কিভাবে পিডিএফ সার্চ করবেন

আপনার আউটলুক পাসওয়ার্ড কিভাবে পরিবর্তন করবেন

এনিমেল ক্রসিংয়ে কিভাবে ফুলের প্রজনন করা যায়

ইউটিউব ভিডিও চালাতে Google Home কিভাবে ব্যবহার করবেন

Xbox যেকোনও জায়গায় খেলুন বিগিনারস গাইড

ডিমেট্রিয়াস গ্রে কীভাবে বাড়ির মালিকদের সাহায্য করার জন্য একটি প্রযুক্তি কোম্পানি তৈরি করেছেন৷