১৫ সেকেন্ডের অডিও দিয়ে মানুষের কণ্ঠ নকল করতে পারবে ওপেনএআইয়ের নতুন টুল 

অনলাইন ডেস্ক
প্রকাশ : ৩১ মার্চ ২০২৪, ১০: ২১
আপডেট : ৩১ মার্চ ২০২৪, ১০: ৫১

সাম্প্রতিক বছরগুলোতে ডিপফেক প্রযুক্তির মাধ্যমে বিশ্বব্যাপী বিখ্যাত ব্যক্তি ও তারকারা পর্নোগ্রাফির শিকার হয়েছেন। এই উদ্বেগের মধ্যেই মানুষের কণ্ঠ নকল করার ‘ভয়েস ইঞ্জিন’ অডিও টুল নিয়ে এল চ্যাটজিপিটির প্রস্তুতকারক ওপেনএআই। এটি একটি টেক্সট টু স্পিচ মডেল। এর মাধ্যমে মাত্র ১৫ সেকেন্ডের অডিও ব্যবহার করে নির্দিষ্ট ব্যক্তির কণ্ঠ নকল করে নতুন কনটেন্ট তৈরি করে দিতে পারবে। 

টুলটি এখন খুব অল্প পরিসরে উন্মোচন করা হয়েছে। মাত্র ১০ জন ডেভেলপারের সঙ্গে টুলটি শেয়ার করা হয়েছে। তবে শিগগিরই ফিচারটি সবার জন্য আরও বড় পরিসরে উন্মুক্ত করা হবে বলে ধারণা করা হচ্ছে। 

ওপেনএআইয়ের মুখপাত্র বলেন, নীতিনির্ধারক, শিল্প বিশেষজ্ঞ, শিক্ষাবিদ ও সৃজনশীলদের মতো অংশীদারদারদের কাছ থেকে প্রতিক্রিয়া পাওয়ার পরে কোম্পানিটি অল্প পরিসরে টুলটি উন্মোচনের সিদ্ধান্ত নিয়েছে। প্রাথমিকভাবে একটি অ্যাপ্লিকেশন প্রক্রিয়ার মাধ্যমে ১০০ জনের মতো ডেভেলপারের কাছে টুলটি প্রকাশ করার পরিকল্পনা করেছিল কোম্পানিটি। 

গত শুক্রবার এক ব্লগ পোস্টে কোম্পানিটি বলেছে, ‘আমরা স্বীকার করি যে, জনগণের কণ্ঠস্বরের সঙ্গে সাদৃশ্যপূর্ণ ভয়েস তৈরিতে গুরুতর ঝুঁকি রয়েছে। বিশেষ করে একটি নির্বাচনী বছরে এই ঝুঁকি আরও বেশি। আমরা সরকার, মিডিয়া, বিনোদন, শিক্ষা, সুশীল সমাজ ও এর বাইরে থেকে মার্কিন এবং আন্তর্জাতিক অংশীদারদের সঙ্গে কাজ করছি যাতে আমরা প্রযুক্তিটি বিকাশের সঙ্গে সঙ্গে তাদের প্রতিক্রিয়া জানতে পারি।’ 

অন্যান্য এআই প্রযুক্তিতে ইতিমধ্যে নকল কণ্ঠস্বর ব্যবহারের সুবিধা রয়েছে। গত জানুয়ারিতে যুক্তরাষ্ট্রের প্রেসিডেন্ট জো বাইডেনের নকল কণ্ঠ দিয়ে একটি ফোন কলের রেকর্ড তৈরি করা হয়। এই নকল ফোন কলের মাধ্যমে যুক্তরাষ্ট্রের নিউ হ্যাম্পশায়ারের ভোটারদের প্রাথমিক ভোট না দেওয়ার জন্য উৎসাহিত করা হয়েছিল। যুক্তরাষ্ট্রের নির্বাচনের আগে এ ধরনের ঘটনা এআই নিয়ে মানুষের মধ্যে উদ্বেগ সৃষ্টি করেছে। 

ওপেনএআই অডিও কনটেন্ট তৈরির ফিচার এর আগেও তৈরি করেছিল। তবে ভয়েস ইঞ্জিন এমন স্পিচ তৈরি করতে পারে, যা কোনো মানুষের হুবহু কণ্ঠের সঙ্গে মিলে যায়। এই কাজের জন্য সফটওয়্যারটির নির্দিষ্ট ব্যক্তির মাত্র ১৫ সেকেন্ডের রেকর্ড করা অডিও প্রয়োজন। 

ব্লুমবার্গ বলছে, টুলটির প্রদর্শনের সময় ওপেনএআইয়ের প্রধান নির্বাহী কর্মকর্তা স্যাম অল্টম্যানের একটি ক্লিপ শোনানো হয়, যা তার প্রকৃত কণ্ঠস্বর থেকে আলাদা করা যায় না। তবে এই ক্লিপ সম্পূর্ণরূপে এআই তৈরি করেছিল। 

ওপেনএআইয়ের প্রোডাক্ট লিড জেফ হ্যারিস বলেন, ‘যদি আপনার সঠিক অডিও সেটআপ থাকে, তবে এটি মূলত একটি মানব উৎপাদিত ভয়েস বলে মনে হবে। এটি একটি চমৎকার প্রযুক্তি।’ 

তিনি আরও বলেন, মানুষের কণ্ঠ সঠিকভাবে অনুকরণ করার ক্ষমতা ক্ষেত্রে নিরাপত্তার উদ্বেগেও সম্পর্কিত।’ 

ওপেনএআইয়ের বর্তমান ডেভেলপার অংশীদারদের মধ্যে রয়েছে অলাভজনক স্বাস্থ্যব্যবস্থা নরম্যান প্রিন্স নিউরোসায়েন্সেস ইনস্টিটিউট। রোগীদের ভয়েস পুনরুদ্ধার করতে সহায়তা করার জন্য টুলটি ব্যবহার করেছে এই প্রতিষ্ঠান। কোম্পানিটির ব্লগ পোস্টে বলা হয়, এই টুল একটি অল্পবয়স্ক রোগীর কণ্ঠস্বর পুনরুদ্ধার করতে ব্যবহৃত হয়েছিল। এই রোগী মস্তিষ্কের টিউমারের কারণে স্পষ্টভাবে কথা বলার ক্ষমতা হারিয়ে ফেলেন। একটি স্কুল প্রকল্পের জন্য তৈরি করা আগের রেকর্ডিং থেকে এই রোগীর বক্তৃতার প্রতিলিপি করা হয়। 

ওপেনএআইয়ের কাস্টম স্পিচ মডেল বিভিন্ন ভাষায় তৈরি করা অডিওকে অনুবাদ করতে পারে। স্পটিফাই টেকনোলজি এসএর মতো অডিও ব্যবসার কোম্পানিগুলোর জন্য এই মডেল কার্যকর। স্পটিফাই ইতিমধ্যেই লেক্স ফ্রিডম্যানের মতো জনপ্রিয় হোস্টদের পডকাস্ট অনুবাদ করতে নিজস্ব পাইলট বা পরীক্ষামূলক প্রোগ্রামে এই প্রযুক্তি ব্যবহার করেছে। ওপেনএআই প্রযুক্তির অন্যান্য উপকারী কাজে ব্যবহার করা যেতে পারে বলে কোম্পানিটি জানিয়েছে। যেমন–শিশুদের শিক্ষামূলক কনটেন্টের জন্য ভয়েসের একটি বিস্তৃত পরিসর তৈরি করা যাবে। 

টেস্টিং প্রোগ্রামে ওপেনএআইয়ের ভয়েস ব্যবহার নীতির সঙ্গে তার অংশীদারদের সম্মত হতে হবে। তাদের ভয়েস ব্যবহার করার আগে মূল বক্তার কাছ থেকে সম্মতি নিতে হবে এবং শ্রোতাদের কাছে জানাতে হবে যে তারা যে ভয়েসগুলো শুনছে তা এআই দিয়ে তৈরি। কোম্পানিটি একটি অডিও ওয়াটারমার্কও তৈরি করছে, যার মাধ্যমে বোঝা যাবে কনটেন্টটি এআই দিয়ে তৈরি কি না। 

টুলটি আরও বিস্তৃতভাবে উন্মোচন করার আগে ওপেনএআই কোম্পানির বাইরের বিশেষজ্ঞদের কাছ থেকেও প্রতিক্রিয়া চাইছে। কোম্পানি ব্লগ পোস্টে বলেছে, এই প্রযুক্তি কোথায় যাচ্ছে তা বিশ্বের সব মানুষের জানতে পারা খুবই জরুরি। শেষ পর্যন্ত এই টুলকে ব্যাপকভাবে উন্মোচন করা হবে কি না, তা এসব প্রতিক্রিয়ার ওপর নির্ভর করে। 

ওপেনএআই বলছে, উন্নত এআই প্রযুক্তির মাধ্যমে তৈরি নতুন চ্যালেঞ্জগুলোর বিরুদ্ধে সামাজিক স্থিতিস্থাপকতা বৃদ্ধির প্রয়োজনীয়তাকে অনুপ্রাণিত করবে এই সফটওয়্যার। উদাহরণস্বরূপ, ব্যাংক অ্যাকাউন্ট এবং এর সংবেদনশীল তথ্য অ্যাকসেস বন্ধে ব্যাংকগুলোর ভয়েস অথেনটিকেশনের সুরক্ষা ব্যবস্থাটি পর্যায়ক্রমে বন্ধ করার আহ্বান জানিয়েছে কোম্পানিটি। এটি প্রতারণামূলক এআই কনটেন্ট সম্পর্কে জনগণকে সচেতনতা বৃদ্ধি বাড়ানোর প্রয়োজনীয়তা তুলে ধরে। এ ছাড়া এআই দিয়ে তৈরি অডিও কনটেন্ট শনাক্ত করার জন্য কৌশলগুলোর আরও বিকাশ চাইছে ওপেনএআই। 

তথ্যসূত্র: গ্যাজেটস ৩৬০

সর্বশেষ খবর পেতে Google News ফিড ফলো করুন

এলাকার খবর
খুঁজুন

সম্পর্কিত