প্রধান টেকওয়ে
- সেই দিনটি দ্রুত ঘনিয়ে আসছে যখন আপনি কম্পিউটার-জেনারেটেড স্পিচটি আসল জিনিস থেকে বলতে পারবেন না।
- Google সম্প্রতি LaMDA উন্মোচন করেছে, এমন একটি মডেল যা আরও স্বাভাবিক কথোপকথনের অনুমতি দিতে পারে৷
- মানুষের মতো বক্তৃতা তৈরি করতেও প্রচুর পরিমাণে প্রক্রিয়াকরণ শক্তি লাগে৷
এই মুহুর্তে, আপনি কখন কম্পিউটারে কথা বলছেন তা বলা সহজ, তবে এটি শীঘ্রই AI এর সাম্প্রতিক অগ্রগতির জন্য পরিবর্তন হতে পারে।
Google সম্প্রতি LaMDA উন্মোচন করেছে, একটি পরীক্ষামূলক মডেল যা কোম্পানির দাবি তার কথোপকথনমূলক AI সহকারীর ক্ষমতা বাড়াতে পারে এবং আরও স্বাভাবিক কথোপকথনের অনুমতি দিতে পারে।LaMDA-এর লক্ষ্য শেষ পর্যন্ত কোনো ধরনের পূর্ব প্রশিক্ষণ ছাড়াই প্রায় যেকোনো বিষয়েই কথা বলা।
এটি ক্রমবর্ধমান সংখ্যক AI প্রকল্পগুলির মধ্যে একটি যা আপনাকে ভাবতে পারে যে আপনি কোনও মানুষের সাথে কথা বলছেন কিনা৷
"আমার অনুমান হল যে আগামী 12 মাসের মধ্যে, ব্যবহারকারীরা এই নতুন, আরও আবেগপূর্ণ কণ্ঠস্বরের সংস্পর্শে আসা এবং অভ্যস্ত হতে শুরু করবে," জেমস কাপলান, MeetKai-এর সিইও, একজন কথোপকথনমূলক AI ভার্চুয়াল ভয়েস সহকারী এবং অনুসন্ধান ইঞ্জিন, একটি ইমেল সাক্ষাত্কারে বলেছেন৷
"একবার এটি ঘটলে, আজকের সংশ্লেষিত বক্তৃতা ব্যবহারকারীদের কাছে 2000-এর দশকের প্রথম দিকের বক্তৃতার মতো শোনাবে।"
অক্ষর সহ ভয়েস সহকারী
Google এর LaMDA ট্রান্সফরমারের উপর নির্মিত, একটি নিউরাল নেটওয়ার্ক আর্কিটেকচার যা Google রিসার্চ দ্বারা উদ্ভাবিত হয়েছে। অন্যান্য ভাষার মডেলের বিপরীতে, Google-এর LaMDA বাস্তব সংলাপে প্রশিক্ষিত ছিল।
ন্যাচারাল-সাউন্ডিং এআই স্পিচ তৈরির চ্যালেঞ্জের অংশ হল কথোপকথনের উন্মুক্ত প্রকৃতি, গুগলের এলি কলিন্স একটি ব্লগ পোস্টে লিখেছেন৷
"একটি টিভি অনুষ্ঠান সম্পর্কে বন্ধুর সাথে একটি চ্যাট সেই দেশের সেরা আঞ্চলিক খাবারের বিষয়ে বিতর্কের মীমাংসা করার আগে সেই দেশের সম্পর্কে আলোচনায় বিকশিত হতে পারে যেখানে শোটি চিত্রায়িত হয়েছিল।"
রোবটের বক্তৃতার সাথে জিনিসগুলি দ্রুত এগিয়ে চলেছে৷ Tsingyuan Ventures-এর একজন ম্যানেজিং পার্টনার এরিক রোজেনব্লাম, যেটি কথোপকথনমূলক AI-তে বিনিয়োগ করে, বলেন যে কম্পিউটার-সহায়ক বক্তৃতার কিছু মৌলিক সমস্যা কার্যত সমাধান করা হয়েছে।
উদাহরণস্বরূপ, Otter.ai সফ্টওয়্যার দ্বারা করা ট্রান্সক্রিপশন বা DeepScribe দ্বারা নেওয়া মেডিকেল নোটের মতো পরিষেবাগুলিতে বক্তৃতা বোঝার নির্ভুলতার হার ইতিমধ্যেই অত্যন্ত বেশি৷
"পরবর্তী সীমান্ত, যদিও, অনেক বেশি কঠিন," তিনি যোগ করেছেন।
"প্রসঙ্গ বোঝা ধরে রাখা, যা এমন একটি সমস্যা যা প্রাকৃতিক ভাষা প্রক্রিয়াকরণের বাইরে চলে যায়, এবং সহানুভূতি, যেমন কম্পিউটার মানুষের সাথে যোগাযোগ করে হতাশা, ক্রোধ, অধৈর্যতা ইত্যাদি বুঝতে হবে।এই দুটি বিষয়েই কাজ করা হচ্ছে, কিন্তু উভয়ই সন্তোষজনক থেকে অনেক দূরে।"
নিউরাল নেটওয়ার্ক হল মূল
জীবনের মতো কণ্ঠস্বর তৈরি করার জন্য, কোম্পানিগুলি গভীর নিউরাল নেটওয়ার্কের মতো প্রযুক্তি ব্যবহার করছে, মেশিন লার্নিংয়ের একটি ফর্ম যা স্তরগুলির মাধ্যমে ডেটা শ্রেণীবদ্ধ করে, ম্যাট মুলডুন, রিডস্পিকারের উত্তর আমেরিকার সভাপতি, একটি কোম্পানি যা টেক্সট টু স্পিচ সফ্টওয়্যার বিকাশ করে, একটি ইমেল সাক্ষাত্কারে বলেছেন৷
"এই স্তরগুলি সংকেতকে পরিমার্জিত করে, এটিকে আরও জটিল শ্রেণীবিভাগে বাছাই করে," তিনি যোগ করেছেন। "ফলাফল হল সিন্থেটিক বক্তৃতা যা মানুষের মতো অদ্ভুতভাবে শোনায়।"
বিকাশের অধীনে আরেকটি প্রযুক্তি হল প্রসোডি ট্রান্সফার, যার মধ্যে একটি টেক্সট-টু-স্পিচ ভয়েসের সাথে অন্যটির কথা বলার শৈলীর সংমিশ্রণ জড়িত, মুলডুন বলেন। এছাড়াও রয়েছে ট্রান্সফার লার্নিং, যা একটি নতুন নিউরাল টেক্সট-টু-স্পিচ ভয়েস তৈরি করার জন্য প্রয়োজনীয় প্রশিক্ষণ ডেটার পরিমাণ কমিয়ে দেয়।
কাপলান বলেছেন যে মানুষের মতো বক্তৃতা তৈরি করতেও প্রচুর পরিমাণে প্রক্রিয়াকরণ শক্তি লাগে। কোম্পানিগুলি নিউরাল এক্সিলারেটর চিপ তৈরি করছে, যা কাস্টম মডিউল যা নিয়মিত প্রসেসরের সাথে একত্রে কাজ করে।
"এর পরবর্তী পর্যায়ে এই চিপগুলিকে ছোট হার্ডওয়্যারে স্থাপন করা হবে, কারণ বর্তমানে এটি ক্যামেরার জন্য করা হয়েছে যখন দৃষ্টিশক্তির জন্য AI প্রয়োজন হয়," তিনি যোগ করেছেন। "এই ধরণের কম্পিউটিং ক্ষমতা হেডফোনগুলিতে উপলব্ধ হতে বেশি সময় লাগবে না।"
AI-চালিত বক্তৃতা বিকাশের জন্য একটি চ্যালেঞ্জ হল যে প্রত্যেকে আলাদাভাবে কথা বলে, তাই কম্পিউটারের আমাদের বুঝতে অসুবিধা হয়।
"ভাবুন জর্জিয়া বনাম বোস্টন বনাম নর্থ ডাকোটা উচ্চারণ, এবং ইংরেজি আপনার প্রাথমিক ভাষা কি না," মনিকা ডেমা, যিনি MDinc-তে ভয়েস অনুসন্ধান বিশ্লেষণে কাজ করেন, একটি ইমেলে বলেছেন৷ "বিশ্বব্যাপী চিন্তা করলে, জার্মানি, চীন এবং ভারতের সমস্ত অঞ্চলের জন্য এটি করা ব্যয়বহুল, তবে এর অর্থ এই নয় যে এটি করা যাবে না বা করা যাবে না।"