প্রধান টেকওয়ে
- কম্পিউটার-জেনারেটেড স্পিচ শব্দকে আরও বাস্তবসম্মত করার উপায় খুঁজতে কোম্পানিগুলি দৌড়াচ্ছে৷
- NVIDIA সম্প্রতি এমন সরঞ্জামগুলি উন্মোচন করেছে যা আপনাকে আপনার নিজের ভয়েস দিয়ে একটি AI প্রশিক্ষণ দেওয়ার মাধ্যমে প্রাকৃতিক বক্তৃতার শব্দ ক্যাপচার করতে পারে৷
- স্বরধ্বনি, আবেগ এবং বাদ্যযন্ত্র এমন বৈশিষ্ট্য যা কম্পিউটারের ভয়েসের এখনও অভাব রয়েছে, একজন বিশেষজ্ঞ বলেছেন।
কম্পিউটার-জেনারেটেড বক্তৃতা শীঘ্রই অনেক বেশি মানবিক শোনাতে পারে।
কম্পিউটার যন্ত্রাংশ নির্মাতা NVIDIA সম্প্রতি এমন সরঞ্জামগুলি উন্মোচন করেছে যা আপনাকে আপনার ভয়েস দিয়ে একটি AI প্রশিক্ষিত করার মাধ্যমে প্রাকৃতিক বক্তৃতার শব্দ ক্যাপচার করতে পারে৷সফ্টওয়্যারটি একজন স্পিকারের শব্দ অন্য ব্যক্তির ভয়েস ব্যবহার করে সরবরাহ করতে পারে। এটি কম্পিউটারের বক্তৃতাকে আরও বাস্তবসম্মত করার জন্য ক্রমবর্ধমান চাপের অংশ৷
"উন্নত ভয়েস এআই প্রযুক্তি ব্যবহারকারীদের স্বাভাবিকভাবে কথা বলার অনুমতি দিচ্ছে, একটি একক বাক্যে অনেক অনুসন্ধানকে একত্রিত করে এবং ক্রমাগত মূল প্রশ্ন থেকে বিশদ পুনরাবৃত্তি করার প্রয়োজনীয়তা দূর করে," মাইকেল জাগোরসেক, স্পিচ রিকগনিশন কোম্পানি সাউন্ডহাউন্ডের প্রধান অপারেটিং অফিসার, লাইফওয়্যারকে একটি ইমেল সাক্ষাত্কারে বলেছেন৷
"এখন বেশির ভাগ ভয়েস এআই প্ল্যাটফর্মে উপলব্ধ একাধিক ভাষার সংযোজন, ডিজিটাল ভয়েস সহকারীকে আরও ভৌগলিক অঞ্চলে এবং আরও জনসংখ্যার জন্য অ্যাক্সেসযোগ্য করে তোলে, " তিনি যোগ করেছেন৷
রোবস্পীচ রাইজিং
Amazon-এর Alexa এবং Apple-এর Siri এক দশক আগের কম্পিউটার স্পিচের চেয়ে অনেক ভালো শোনাচ্ছে, কিন্তু শীঘ্রই যে কোনো সময় তাদের খাঁটি মানুষের কণ্ঠ বলে ভুল করা হবে না।
কৃত্রিম বক্তৃতাকে আরও স্বাভাবিক করার জন্য, NVIDIA-এর টেক্সট-টু-স্পীচ গবেষণা দল একটি RAD-TTS মডেল তৈরি করেছে৷ সিস্টেমটি ব্যক্তিদের তাদের কণ্ঠস্বর দিয়ে একটি পাঠ্য-টু-স্পীচ (TTS) মডেল শেখাতে দেয়, যার মধ্যে গতি, সুর, কাঠি এবং অন্যান্য বিষয় রয়েছে৷
কোম্পানিটি তার I Am AI ভিডিও সিরিজের জন্য আরও কথোপকথন-শব্দযুক্ত ভয়েস বর্ণনা তৈরি করতে তার নতুন মডেল ব্যবহার করেছে৷
"এই ইন্টারফেসের সাহায্যে, আমাদের ভিডিও প্রযোজক নিজেকে ভিডিও স্ক্রিপ্ট পড়ার রেকর্ড করতে পারে এবং তারপরে AI মডেল ব্যবহার করে তার বক্তৃতাকে মহিলা বর্ণনাকারীর কণ্ঠে রূপান্তর করতে পারে৷ এই বেসলাইন বর্ণনা ব্যবহার করে, প্রযোজক তখন AI-কে নির্দেশ করতে পারে ভয়েস অভিনেতা-নির্দিষ্ট শব্দের উপর জোর দেওয়ার জন্য সংশ্লেষিত বক্তৃতাকে টুইক করা এবং ভিডিওর সুরকে আরও ভালভাবে প্রকাশ করার জন্য বর্ণনার গতি পরিবর্তন করা, " NVIDIA তার ওয়েবসাইটে লিখেছে।
এটা শোনার চেয়ে কঠিন
কম্পিউটার-জেনারেটেড বক্তৃতা স্বাভাবিক করা একটি জটিল সমস্যা, বিশেষজ্ঞরা বলছেন।
"এর একটি কম্পিউটার সংস্করণ তৈরি করতে আপনাকে কয়েক ঘন্টার কণ্ঠস্বর রেকর্ড করতে হবে," টেক্সট টু স্পিচ সফ্টওয়্যার কোম্পানি কুকারেল্লার সিইও নাজিম রাগিমভ লাইফওয়্যারকে একটি ইমেল সাক্ষাত্কারে বলেছেন। "এবং রেকর্ডিং অবশ্যই উচ্চ মানের হতে হবে, একটি পেশাদার স্টুডিওতে রেকর্ড করা।গুণমানের বক্তৃতা যত বেশি ঘন্টা লোড এবং প্রক্রিয়া করা হবে, ফলাফল তত ভাল।"
টেক্সট-টু-স্পিচ গেমিং-এ ব্যবহার করা যেতে পারে, কণ্ঠে অক্ষম ব্যক্তিদের সাহায্য করতে, অথবা ব্যবহারকারীদের তাদের নিজস্ব কণ্ঠে ভাষার মধ্যে অনুবাদ করতে সাহায্য করতে।
স্বর, আবেগ এবং সঙ্গীতের বৈশিষ্ট্যগুলি কম্পিউটারের ভয়েসের এখনও অভাব রয়েছে, রাগিমভ বলেছেন৷
যদি AI এই অনুপস্থিত লিঙ্কগুলি যোগ করতে পারে, কম্পিউটার-জেনারেটেড বক্তৃতা হবে "বাস্তব অভিনেতাদের কণ্ঠ থেকে আলাদা করা যায় না," তিনি যোগ করেছেন। "এটি একটি কাজ চলছে। অন্যান্য ভয়েস রেডিও হোস্টদের সাথে প্রতিদ্বন্দ্বিতা করতে সক্ষম হবে। শীঘ্রই আপনি এমন ভয়েসগুলি দেখতে পাবেন যারা গান গাইতে পারে এবং অডিওবুক পড়তে পারে।"
বাক্য প্রযুক্তি ব্যবসার বিস্তৃত পরিসরে আরও জনপ্রিয় হয়ে উঠছে।
"স্বয়ংক্রিয় শিল্প সাম্প্রতিক সময়ে ভয়েস এআই গ্রহণকারী হয়েছে একটি উপায় হিসাবে নিরাপদ এবং আরও সংযুক্ত ড্রাইভিং অভিজ্ঞতা তৈরি করার উপায় হিসাবে," জাগোরসেক বলেছেন৷
"তারপর থেকে, ভয়েস অ্যাসিস্ট্যান্টগুলি ক্রমশ সর্বব্যাপী হয়ে উঠেছে কারণ ব্র্যান্ডগুলি গ্রাহকের অভিজ্ঞতা উন্নত করার উপায় খুঁজছে এবং তাদের পণ্য এবং পরিষেবাগুলির সাথে যোগাযোগের জন্য সহজ, নিরাপদ, আরও সুবিধাজনক, দক্ষ এবং স্বাস্থ্যকর পদ্ধতির চাহিদা মেটাচ্ছে।"
সাধারণত, ভয়েস এআই একটি দ্বি-পদক্ষেপ প্রক্রিয়ায় প্রশ্নগুলিকে প্রতিক্রিয়াগুলিতে রূপান্তরিত করে যা স্বয়ংক্রিয় স্পিচ রিকগনিশন (এএসআর) ব্যবহার করে পাঠ্যে বক্তৃতা প্রতিলিপি করে এবং তারপর সেই পাঠটিকে একটি প্রাকৃতিক ভাষা বোঝার (NLU) মডেলে খাওয়ানোর মাধ্যমে শুরু হয়।
SoundHound-এর পদ্ধতি এই দুটি ধাপকে একটি প্রক্রিয়ার মধ্যে একত্রিত করে রিয়েল-টাইমে বক্তৃতা ট্র্যাক করতে। কোম্পানি দাবি করে যে এই কৌশলটি ভয়েস অ্যাসিস্ট্যান্টদের ব্যবহারকারীর প্রশ্নের অর্থ বুঝতে দেয়, এমনকি ব্যক্তির কথা শেষ হওয়ার আগেই।
কম্পিউটার স্পিচের ভবিষ্যত অগ্রগতি, শুধুমাত্র এম্বেডেড (কোনও ক্লাউড সংযোগের প্রয়োজন নেই) থেকে হাইব্রিড (এম্বেডেড প্লাস ক্লাউড) এবং ক্লাউড-অনলি "সহ বিভিন্ন ধরনের সংযোগ বিকল্পের উপলব্ধতা সহ সমস্ত শিল্প জুড়ে কোম্পানিগুলিকে আরও পছন্দ দেবে খরচ, গোপনীয়তা এবং প্রক্রিয়াকরণ শক্তির প্রাপ্যতার পরিপ্রেক্ষিতে, " জাগোরেস্ক বলেছেন৷
NVIDIA বলেছে যে এর সংবাদ AI মডেলগুলি ভয়েসওভারের কাজকে ছাড়িয়ে যায়৷
"টেক্সট-টু-স্পিচ গেমিং-এ ব্যবহার করা যেতে পারে, কণ্ঠে অক্ষম ব্যক্তিদের সাহায্য করতে, অথবা ব্যবহারকারীদের তাদের নিজস্ব কণ্ঠে ভাষার মধ্যে অনুবাদ করতে সাহায্য করতে," কোম্পানি লিখেছে। "এটি এমনকি আইকনিক গায়কদের পারফরম্যান্সকে পুনরায় তৈরি করতে পারে, শুধুমাত্র একটি গানের সুরের সাথে মেলে না বরং কণ্ঠের পিছনে আবেগের অভিব্যক্তিও।"