শীঘ্রই, আপনি হয়তো জানেন না আপনি একটি কম্পিউটারের সাথে কথা বলছেন

2025 লেখক: Abigail Brown | [email protected]. সর্বশেষ পরিবর্তিত: 2025-01-24 12:03

প্রধান টেকওয়ে

সেই দিনটি দ্রুত ঘনিয়ে আসছে যখন আপনি কম্পিউটার-জেনারেটেড স্পিচটি আসল জিনিস থেকে বলতে পারবেন না।
Google সম্প্রতি LaMDA উন্মোচন করেছে, এমন একটি মডেল যা আরও স্বাভাবিক কথোপকথনের অনুমতি দিতে পারে৷
মানুষের মতো বক্তৃতা তৈরি করতেও প্রচুর পরিমাণে প্রক্রিয়াকরণ শক্তি লাগে৷

এই মুহুর্তে, আপনি কখন কম্পিউটারে কথা বলছেন তা বলা সহজ, তবে এটি শীঘ্রই AI এর সাম্প্রতিক অগ্রগতির জন্য পরিবর্তন হতে পারে।

Google সম্প্রতি LaMDA উন্মোচন করেছে, একটি পরীক্ষামূলক মডেল যা কোম্পানির দাবি তার কথোপকথনমূলক AI সহকারীর ক্ষমতা বাড়াতে পারে এবং আরও স্বাভাবিক কথোপকথনের অনুমতি দিতে পারে।LaMDA-এর লক্ষ্য শেষ পর্যন্ত কোনো ধরনের পূর্ব প্রশিক্ষণ ছাড়াই প্রায় যেকোনো বিষয়েই কথা বলা।

এটি ক্রমবর্ধমান সংখ্যক AI প্রকল্পগুলির মধ্যে একটি যা আপনাকে ভাবতে পারে যে আপনি কোনও মানুষের সাথে কথা বলছেন কিনা৷

"আমার অনুমান হল যে আগামী 12 মাসের মধ্যে, ব্যবহারকারীরা এই নতুন, আরও আবেগপূর্ণ কণ্ঠস্বরের সংস্পর্শে আসা এবং অভ্যস্ত হতে শুরু করবে," জেমস কাপলান, MeetKai-এর সিইও, একজন কথোপকথনমূলক AI ভার্চুয়াল ভয়েস সহকারী এবং অনুসন্ধান ইঞ্জিন, একটি ইমেল সাক্ষাত্কারে বলেছেন৷

"একবার এটি ঘটলে, আজকের সংশ্লেষিত বক্তৃতা ব্যবহারকারীদের কাছে 2000-এর দশকের প্রথম দিকের বক্তৃতার মতো শোনাবে।"

অক্ষর সহ ভয়েস সহকারী

Google এর LaMDA ট্রান্সফরমারের উপর নির্মিত, একটি নিউরাল নেটওয়ার্ক আর্কিটেকচার যা Google রিসার্চ দ্বারা উদ্ভাবিত হয়েছে। অন্যান্য ভাষার মডেলের বিপরীতে, Google-এর LaMDA বাস্তব সংলাপে প্রশিক্ষিত ছিল।

ন্যাচারাল-সাউন্ডিং এআই স্পিচ তৈরির চ্যালেঞ্জের অংশ হল কথোপকথনের উন্মুক্ত প্রকৃতি, গুগলের এলি কলিন্স একটি ব্লগ পোস্টে লিখেছেন৷

"একটি টিভি অনুষ্ঠান সম্পর্কে বন্ধুর সাথে একটি চ্যাট সেই দেশের সেরা আঞ্চলিক খাবারের বিষয়ে বিতর্কের মীমাংসা করার আগে সেই দেশের সম্পর্কে আলোচনায় বিকশিত হতে পারে যেখানে শোটি চিত্রায়িত হয়েছিল।"

রোবটের বক্তৃতার সাথে জিনিসগুলি দ্রুত এগিয়ে চলেছে৷ Tsingyuan Ventures-এর একজন ম্যানেজিং পার্টনার এরিক রোজেনব্লাম, যেটি কথোপকথনমূলক AI-তে বিনিয়োগ করে, বলেন যে কম্পিউটার-সহায়ক বক্তৃতার কিছু মৌলিক সমস্যা কার্যত সমাধান করা হয়েছে।

উদাহরণস্বরূপ, Otter.ai সফ্টওয়্যার দ্বারা করা ট্রান্সক্রিপশন বা DeepScribe দ্বারা নেওয়া মেডিকেল নোটের মতো পরিষেবাগুলিতে বক্তৃতা বোঝার নির্ভুলতার হার ইতিমধ্যেই অত্যন্ত বেশি৷

"পরবর্তী সীমান্ত, যদিও, অনেক বেশি কঠিন," তিনি যোগ করেছেন।

"প্রসঙ্গ বোঝা ধরে রাখা, যা এমন একটি সমস্যা যা প্রাকৃতিক ভাষা প্রক্রিয়াকরণের বাইরে চলে যায়, এবং সহানুভূতি, যেমন কম্পিউটার মানুষের সাথে যোগাযোগ করে হতাশা, ক্রোধ, অধৈর্যতা ইত্যাদি বুঝতে হবে।এই দুটি বিষয়েই কাজ করা হচ্ছে, কিন্তু উভয়ই সন্তোষজনক থেকে অনেক দূরে।"

নিউরাল নেটওয়ার্ক হল মূল

জীবনের মতো কণ্ঠস্বর তৈরি করার জন্য, কোম্পানিগুলি গভীর নিউরাল নেটওয়ার্কের মতো প্রযুক্তি ব্যবহার করছে, মেশিন লার্নিংয়ের একটি ফর্ম যা স্তরগুলির মাধ্যমে ডেটা শ্রেণীবদ্ধ করে, ম্যাট মুলডুন, রিডস্পিকারের উত্তর আমেরিকার সভাপতি, একটি কোম্পানি যা টেক্সট টু স্পিচ সফ্টওয়্যার বিকাশ করে, একটি ইমেল সাক্ষাত্কারে বলেছেন৷

"এই স্তরগুলি সংকেতকে পরিমার্জিত করে, এটিকে আরও জটিল শ্রেণীবিভাগে বাছাই করে," তিনি যোগ করেছেন। "ফলাফল হল সিন্থেটিক বক্তৃতা যা মানুষের মতো অদ্ভুতভাবে শোনায়।"

বিকাশের অধীনে আরেকটি প্রযুক্তি হল প্রসোডি ট্রান্সফার, যার মধ্যে একটি টেক্সট-টু-স্পিচ ভয়েসের সাথে অন্যটির কথা বলার শৈলীর সংমিশ্রণ জড়িত, মুলডুন বলেন। এছাড়াও রয়েছে ট্রান্সফার লার্নিং, যা একটি নতুন নিউরাল টেক্সট-টু-স্পিচ ভয়েস তৈরি করার জন্য প্রয়োজনীয় প্রশিক্ষণ ডেটার পরিমাণ কমিয়ে দেয়।

কাপলান বলেছেন যে মানুষের মতো বক্তৃতা তৈরি করতেও প্রচুর পরিমাণে প্রক্রিয়াকরণ শক্তি লাগে। কোম্পানিগুলি নিউরাল এক্সিলারেটর চিপ তৈরি করছে, যা কাস্টম মডিউল যা নিয়মিত প্রসেসরের সাথে একত্রে কাজ করে।

"এর পরবর্তী পর্যায়ে এই চিপগুলিকে ছোট হার্ডওয়্যারে স্থাপন করা হবে, কারণ বর্তমানে এটি ক্যামেরার জন্য করা হয়েছে যখন দৃষ্টিশক্তির জন্য AI প্রয়োজন হয়," তিনি যোগ করেছেন। "এই ধরণের কম্পিউটিং ক্ষমতা হেডফোনগুলিতে উপলব্ধ হতে বেশি সময় লাগবে না।"

AI-চালিত বক্তৃতা বিকাশের জন্য একটি চ্যালেঞ্জ হল যে প্রত্যেকে আলাদাভাবে কথা বলে, তাই কম্পিউটারের আমাদের বুঝতে অসুবিধা হয়।

"ভাবুন জর্জিয়া বনাম বোস্টন বনাম নর্থ ডাকোটা উচ্চারণ, এবং ইংরেজি আপনার প্রাথমিক ভাষা কি না," মনিকা ডেমা, যিনি MDinc-তে ভয়েস অনুসন্ধান বিশ্লেষণে কাজ করেন, একটি ইমেলে বলেছেন৷ "বিশ্বব্যাপী চিন্তা করলে, জার্মানি, চীন এবং ভারতের সমস্ত অঞ্চলের জন্য এটি করা ব্যয়বহুল, তবে এর অর্থ এই নয় যে এটি করা যাবে না বা করা যাবে না।"

প্রস্তাবিত:

শীঘ্রই, আপনি হয়তো জানেন না আপনি একটি কম্পিউটারের সাথে কথা বলছেন

সুচিপত্র:

প্রধান টেকওয়ে

অক্ষর সহ ভয়েস সহকারী

নিউরাল নেটওয়ার্ক হল মূল

প্রস্তাবিত:

আপনি হয়তো শীঘ্রই অ্যান্ড্রয়েড ডিভাইসগুলির মধ্যে অ্যাপগুলিকে জাগল করা আরও সহজ খুঁজে পেতে পারেন

Windows 10 এর সাথে আপনার কম্পিউটারের সাথে একটি প্রিন্টার কিভাবে সংযুক্ত করবেন

10টি জিনিস যা আপনি জানেন না আপনি DuckDuckGo দিয়ে করতে পারেন

হোম থিয়েটার সম্পর্কে কিছু জিনিস যা আপনি হয়তো জানেন না

আইফোনের সেরা অঙ্গভঙ্গি যা আপনি হয়তো জানেন না

আপনি যখন একটি আইফোন কল পান তখন কীভাবে অন্যান্য ডিভাইস রিং হওয়া বন্ধ করবেন

কীভাবে স্ন্যাপচ্যাট ভিডিও সংরক্ষণ করবেন

আইমুভিতে একটি ভিডিও ক্লিপ কীভাবে বিভক্ত করবেন

একটি ম্যাজিক মাউস ট্র্যাকিং সমস্যার জন্য একটি সহজ সমাধান৷

কীভাবে ইকো এবং অ্যালেক্সাকে ওয়াই-ফাইতে সংযুক্ত করবেন

M2V ফাইল (এটি কী & কীভাবে একটি খুলবেন)

আপনার Chromecast এর নাম কীভাবে পরিবর্তন করবেন

Google ম্যাপে কীভাবে রাস্তার দৃশ্য পাবেন

একচেটিয়া পরিষেবার জন্য ডেল্টা এয়ারলাইন্সের সাথে Spotify অংশীদারিত্ব

SFM ফাইল (এটি কী & কীভাবে একটি খুলবেন)

ফায়ারফক্স গোপনীয়তা & সুরক্ষা পছন্দগুলি কীভাবে ব্যবহার করবেন

Apple এর মেল ব্যবহার করে আপনার AOL ইমেল অ্যাক্সেস করুন৷

ডিস্ক ম্যানেজমেন্ট কী & এটি কী করে?

আইফোন এবং আইপ্যাডের জন্য নোটে কীভাবে স্কেচ তৈরি করবেন

কীভাবে একটি মাইক্রোসফ্ট টিম ক্যালেন্ডার ব্যবহার করবেন