অনলাইন ডেস্ক
বেশ কয়েক বছর ধরেই এআই বা কৃত্রিম বুদ্ধিমত্তাভিত্তিক নতুন নতুন ধারণা ও মডেল নিয়ে আসছে গুগলের গবেষকেরা। এবার ‘ভ্লগার এআই’ নামের নতুন এক প্রযুক্তি নিয়ে এসেছেন তাঁরা। শুধু একটি ছবির মাধ্যমে বাস্তবসম্মত অ্যাভাটার বা অবতার তৈরি করে দেবে এই মডেল। আর অবতারটি নিজের কন্ঠের মাধ্যমে নিয়ন্ত্রণ করা যাবে।
ভ্লগার এআই কি
বর্তমানে ভ্লগার এআই কতগুলো মজার ভিডিওর উদাহরণসহ শুধু একটি গবেষণা প্রকল্প। তবে মডেলটি উন্মোচন করা হলে তা যোগাযোগের জন্য একটি অনন্য পণ্য হবে।
এআই মডেলটির মাধ্যমে শুধু একটি ছবি থেকে অ্যানিমেটেড অ্যাভাটার তৈরি করা যাবে এবং এটি খুবই বাস্তবসম্মত হবে। অর্থাৎ আসল ব্যক্তির সঙ্গে অবতারটির মিল থাকবে। এই অবতার দিয়ে একটি ভিডিও তৈরি করা যাবে। ভিডিওটি বাস্তবসম্মত হবে।
মডেলটির সঙ্গে অডিও ফাইল যুক্ত করা হবে। ফলে অবতারটি মানুষের মতো কথা বলতে পারবে ও ওই ব্যক্তির মতো অঙ্গভঙ্গি ও ঠোঁটের নড়াচড়া করতে পারবে। এসব অঙ্গভঙ্গির মধ্যে রয়েছে মাথা নাড়ানো, চেহারার অভিব্যক্তি, চোখের চাহনি, পলক ফেলা, হাত নাড়ানো ও শরীরে ওপরের অংশ নাড়ানো। এসব অঙ্গভঙ্গির জন্য ছবি ও অডিও ছাড়া আলাদা কোনো রেফারেন্স দিতে হবে না।
ভ্লগার এআই যেভাবে কাজ করে
ডিফিউশন মডেলের ওপর ভিত্তি করে কাজ করে ভ্লগার এআই। যেসব ডেটার ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয় সেগুলোর অনুরূপ ডেটা তৈরি করতে পারে এই ডিফিউশন মডেল। এই প্রযুক্তি সাধারণত মিডজার্নি ও রানওয়ে মডেলের মতো টেক্সট টু ইমেজ ও ৩ডি মডেলে ব্যবহার করা হয়। তবে ভ্লগার এআইকে এসব মডেলের চেয়ে বেশি নিয়ন্ত্রণ করা যাবে।
কয়েকটি ধাপে অবতার তৈরি করে ভ্লগার এআই। প্রথমে এটি অডিও ও ছবিকে ইনপুট হিসেবে গ্রহণ করে। এসব ডেটাকে ৩ডি মোশন জেনারেশনের মাধ্যমে প্রক্রিয়াকরণ করা হয়। এটি ‘টেম্পরাল ডিফিউশন’ মডেল ব্যবহার করে অবতারের নড়াচড়া নির্ধারণ করে। সবশেষে অবতারটিতে চূড়ান্ত করা হয়।
মডেলটি একটি নিউরাল নেটওয়ার্কের মাধ্যমে মুখ, শরীর, অঙ্গভঙ্গি, অভিব্যক্তি ও চাহনি ইত্যাদি অনুমান করে। ভিডিওর প্রথম ফ্রেমের জন্য ছবি ও অবতারটি কী কী করবে তার জন্য অডিও ডেটা ব্যবহার করবে।
এআই মডেলকে প্রশিক্ষণের জন্য মাল্টিমিডিয়া ডেটা সেট ‘মেনটর’ ব্যবহার করা হয়েছে। এতে মানুষের একে অপরের সঙ্গে কথা বলার প্রায় ৮০ হাজার ভিডিও রয়েছে। এসব ভিডিওতে মানুষের মুখ ও শরীর লেবেল করা হয়েছে।
ভ্লগার এআইয়ের সীমাবদ্ধতা
যদিও এই মডেল বাস্তবসম্মত অঙ্গভঙ্গি করতে পারে, তবে প্রতিটি ক্ষেত্রে এটি একই রকম ফলাফল দেখায় না। মুখের কথার সঙ্গে অনেক সময় অবতারের অঙ্গভঙ্গি মিলতে নাও পারে। যেহেতু এটি মূলত একটি ডিফিউশন মডেল তাই এটি মাঝে মধ্যে এর আচরণ উদ্ভট হতে পারে।
গবেষক দল বলেন, মডেলটি বিস্তৃত আচরণ ও সব পরিবেশের ক্ষেত্রে কাজ করে না। আর এর মাধ্যমে শুধু ছোট দৈর্ঘ্যের ভিডিও বানানো যাবে।
যেসব ক্ষেত্রে ভ্লগার এআই ব্যবহার করা যাবে
ভ্লগার এআই ব্যবহারের প্রাথমিক উপায় হলো এটি ভিডিও অনুবাদের জন্য ব্যবহার করা। এই মডেল ভার্চুয়াল অ্যাসিস্ট্যান্ট, চ্যাটবট ও গেমিংয়ের ক্ষেত্রে ভার্চুয়াল চরিত্রের জন্য ব্যবহার করা যায়।
সিনথেসিয়ার মতো মডেলে এই ধরনের টুল আছে। এর মাধ্যমে বিভিন্ন কোম্পানির অফিসে ভার্চুয়াল অবতার তৈরি করা হয়। এসব অবতার প্রেজেন্টেশনে ব্যবহার করা হয়। তবে গুগলের নতুন মডেলটি এই প্রক্রিয়া আরও সহজ করবে।
যেসব জায়গায় দুর্বল নেটওয়ার্কের জন্য ভিডিও যোগাযোগের বিঘ্ন হয় সেখানে মডেলটি কাজে লাগবে। ছবি থেকে অ্যাভাটার তৈরি করে ভিডিও চ্যাটেও সাহায্য করতে পারবে নতুন সংস্করণের এই মডেল।
এ ছাড়া ভার্চুয়াল রিয়্যালিটি প্রযুক্তির জন্যও এই ভিডিও কাজে লাগবে। যেমন, মেটা কোয়েস্ট বা অ্যাপল ভিশন প্রো হেডসেটের জন্য নিজের অবতার তৈরিতে এই মডেল ব্যবহার করা যাবে।
তবে মডেলটি এখনো পরীক্ষা–নিরীক্ষামূলক পর্যায়ে রয়েছে। তাই সাধারণ গ্রাহকেরা ব্যবহার জন্য উন্মুক্ত করতে আরও সময়ের প্রয়োজন।
তথ্যসূত্র: টমস গাইড
প্রযুক্তি সম্পর্কিত আরও পড়ুন:
বেশ কয়েক বছর ধরেই এআই বা কৃত্রিম বুদ্ধিমত্তাভিত্তিক নতুন নতুন ধারণা ও মডেল নিয়ে আসছে গুগলের গবেষকেরা। এবার ‘ভ্লগার এআই’ নামের নতুন এক প্রযুক্তি নিয়ে এসেছেন তাঁরা। শুধু একটি ছবির মাধ্যমে বাস্তবসম্মত অ্যাভাটার বা অবতার তৈরি করে দেবে এই মডেল। আর অবতারটি নিজের কন্ঠের মাধ্যমে নিয়ন্ত্রণ করা যাবে।
ভ্লগার এআই কি
বর্তমানে ভ্লগার এআই কতগুলো মজার ভিডিওর উদাহরণসহ শুধু একটি গবেষণা প্রকল্প। তবে মডেলটি উন্মোচন করা হলে তা যোগাযোগের জন্য একটি অনন্য পণ্য হবে।
এআই মডেলটির মাধ্যমে শুধু একটি ছবি থেকে অ্যানিমেটেড অ্যাভাটার তৈরি করা যাবে এবং এটি খুবই বাস্তবসম্মত হবে। অর্থাৎ আসল ব্যক্তির সঙ্গে অবতারটির মিল থাকবে। এই অবতার দিয়ে একটি ভিডিও তৈরি করা যাবে। ভিডিওটি বাস্তবসম্মত হবে।
মডেলটির সঙ্গে অডিও ফাইল যুক্ত করা হবে। ফলে অবতারটি মানুষের মতো কথা বলতে পারবে ও ওই ব্যক্তির মতো অঙ্গভঙ্গি ও ঠোঁটের নড়াচড়া করতে পারবে। এসব অঙ্গভঙ্গির মধ্যে রয়েছে মাথা নাড়ানো, চেহারার অভিব্যক্তি, চোখের চাহনি, পলক ফেলা, হাত নাড়ানো ও শরীরে ওপরের অংশ নাড়ানো। এসব অঙ্গভঙ্গির জন্য ছবি ও অডিও ছাড়া আলাদা কোনো রেফারেন্স দিতে হবে না।
ভ্লগার এআই যেভাবে কাজ করে
ডিফিউশন মডেলের ওপর ভিত্তি করে কাজ করে ভ্লগার এআই। যেসব ডেটার ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয় সেগুলোর অনুরূপ ডেটা তৈরি করতে পারে এই ডিফিউশন মডেল। এই প্রযুক্তি সাধারণত মিডজার্নি ও রানওয়ে মডেলের মতো টেক্সট টু ইমেজ ও ৩ডি মডেলে ব্যবহার করা হয়। তবে ভ্লগার এআইকে এসব মডেলের চেয়ে বেশি নিয়ন্ত্রণ করা যাবে।
কয়েকটি ধাপে অবতার তৈরি করে ভ্লগার এআই। প্রথমে এটি অডিও ও ছবিকে ইনপুট হিসেবে গ্রহণ করে। এসব ডেটাকে ৩ডি মোশন জেনারেশনের মাধ্যমে প্রক্রিয়াকরণ করা হয়। এটি ‘টেম্পরাল ডিফিউশন’ মডেল ব্যবহার করে অবতারের নড়াচড়া নির্ধারণ করে। সবশেষে অবতারটিতে চূড়ান্ত করা হয়।
মডেলটি একটি নিউরাল নেটওয়ার্কের মাধ্যমে মুখ, শরীর, অঙ্গভঙ্গি, অভিব্যক্তি ও চাহনি ইত্যাদি অনুমান করে। ভিডিওর প্রথম ফ্রেমের জন্য ছবি ও অবতারটি কী কী করবে তার জন্য অডিও ডেটা ব্যবহার করবে।
এআই মডেলকে প্রশিক্ষণের জন্য মাল্টিমিডিয়া ডেটা সেট ‘মেনটর’ ব্যবহার করা হয়েছে। এতে মানুষের একে অপরের সঙ্গে কথা বলার প্রায় ৮০ হাজার ভিডিও রয়েছে। এসব ভিডিওতে মানুষের মুখ ও শরীর লেবেল করা হয়েছে।
ভ্লগার এআইয়ের সীমাবদ্ধতা
যদিও এই মডেল বাস্তবসম্মত অঙ্গভঙ্গি করতে পারে, তবে প্রতিটি ক্ষেত্রে এটি একই রকম ফলাফল দেখায় না। মুখের কথার সঙ্গে অনেক সময় অবতারের অঙ্গভঙ্গি মিলতে নাও পারে। যেহেতু এটি মূলত একটি ডিফিউশন মডেল তাই এটি মাঝে মধ্যে এর আচরণ উদ্ভট হতে পারে।
গবেষক দল বলেন, মডেলটি বিস্তৃত আচরণ ও সব পরিবেশের ক্ষেত্রে কাজ করে না। আর এর মাধ্যমে শুধু ছোট দৈর্ঘ্যের ভিডিও বানানো যাবে।
যেসব ক্ষেত্রে ভ্লগার এআই ব্যবহার করা যাবে
ভ্লগার এআই ব্যবহারের প্রাথমিক উপায় হলো এটি ভিডিও অনুবাদের জন্য ব্যবহার করা। এই মডেল ভার্চুয়াল অ্যাসিস্ট্যান্ট, চ্যাটবট ও গেমিংয়ের ক্ষেত্রে ভার্চুয়াল চরিত্রের জন্য ব্যবহার করা যায়।
সিনথেসিয়ার মতো মডেলে এই ধরনের টুল আছে। এর মাধ্যমে বিভিন্ন কোম্পানির অফিসে ভার্চুয়াল অবতার তৈরি করা হয়। এসব অবতার প্রেজেন্টেশনে ব্যবহার করা হয়। তবে গুগলের নতুন মডেলটি এই প্রক্রিয়া আরও সহজ করবে।
যেসব জায়গায় দুর্বল নেটওয়ার্কের জন্য ভিডিও যোগাযোগের বিঘ্ন হয় সেখানে মডেলটি কাজে লাগবে। ছবি থেকে অ্যাভাটার তৈরি করে ভিডিও চ্যাটেও সাহায্য করতে পারবে নতুন সংস্করণের এই মডেল।
এ ছাড়া ভার্চুয়াল রিয়্যালিটি প্রযুক্তির জন্যও এই ভিডিও কাজে লাগবে। যেমন, মেটা কোয়েস্ট বা অ্যাপল ভিশন প্রো হেডসেটের জন্য নিজের অবতার তৈরিতে এই মডেল ব্যবহার করা যাবে।
তবে মডেলটি এখনো পরীক্ষা–নিরীক্ষামূলক পর্যায়ে রয়েছে। তাই সাধারণ গ্রাহকেরা ব্যবহার জন্য উন্মুক্ত করতে আরও সময়ের প্রয়োজন।
তথ্যসূত্র: টমস গাইড
প্রযুক্তি সম্পর্কিত আরও পড়ুন:
যুক্তরাষ্ট্রের ক্যালিফোর্নিয়ার সানি ভ্যালে শহরে অত্যাধুনিক ও পরিবেশবান্ধব পাঁচতলা অফিস ভবন তৈরি করেছে টেক জায়ান্ট গুগল। এই ভবনের বিশেষত্ব হলো—এটি তৈরিতে প্রথমবারের মতো ‘মাস টিম্বার’ ব্যবহার করেছে কোম্পানিটি। কাঠ বিভিন্নভাবে প্রক্রিয়াকরণের মাধ্যমে মাস টিম্বার তৈরি করা হয়। তাই ভবনটি...
১০ ঘণ্টা আগেপাশ্চাত্যে উৎসবের মৌসুমে বা নতুন বছর আসার আগে প্রায় সবাই ছুটি উপভোগ করেন। এই সময়টিতে পরিবার এবং বন্ধুদের সঙ্গে সময় কাটানো, বিশ্রাম নেওয়া এবং গত বছরের কঠিন কাজের চাপ থেকে মুক্তি পাওয়া একটি সাধারণ বিষয়। অনেক কোম্পানি এসময় কর্মীদের ছুটি দেয়, যাতে তারা শারীরিক এবং মানসিকভাবে পুনরুজ্জীবিত হতে পারে। তবে এ
১২ ঘণ্টা আগেদৈনন্দিন জীবনে ব্যবহারে জন্য টেকসই স্মার্টফোনের চাহিদা অনেক বেশি। এজন্য মিড রেঞ্জের টেকসই স্মার্টফোন ‘অনার এক্স ৯ সি’ উন্মোচন করেছে অনার। এই মডেল গত অক্টোবর মাসে লঞ্চ হওয়া এক্স ৯ বি–এর উত্তরসূরি। ফোনটি হাত থেকে পড়ে গেলেও অক্ষত থাকবে বলে কোম্পানিটি দাবি করছে। ফোনটির ব্যাটারি চার্জ ২ শতাংশে নেমে আসে ত
১৩ ঘণ্টা আগেইলন মাস্কের মাইক্রোব্লগিং প্ল্যাটফর্ম এক্স–এর মতো কৃত্রিম বুদ্ধিমত্তা বা এআইভিত্তিক ফিচার নিয়ে পরীক্ষা নিয়ে করছে মেটার থ্রেডস। ফিচারটি এআই ব্যবহার করে ট্রেন্ডিং বিষয়গুলো সারসংক্ষেপ তৈরি করে দেবে।
১৬ ঘণ্টা আগে