বাজারে নতুন জেনারেটিভ এআই বা সৃষ্টিশীল কৃত্রিম বুদ্ধিমত্তা এনেছে ফেসবুকের মাতৃপ্রতিষ্ঠান মেটা।
প্রতিষ্ঠানটির নতুন এই জেনারেটিভ এআইয়ের নাম রাখা হয়েছে ‘সিএম৩লিয়ন’ যার উচ্চারণ অনেকটা ইংরেজি শব্দ ক্যামেলিয়নের মতো।
নতুন এই জেনারেটিভ এআই টেক্সট বা শব্দ থেকে ছবি কিং বা ছবিকে শব্দে রূপান্তর করতে পারে।
শুক্রবার (১৪ জুলাই) এক ব্লগপোস্টে মেটা জানিয়েছে,
ক্যামেলিয়ন হচ্ছে প্রথম মাল্টিমডাল মডেলের জেনারেটিভ এআই, যা তৈরি করা হয়েছে মূলত টেক্সট অনলি ল্যাঙ্গুয়েজ মডেলের ওপর ভিত্তি করে।
এটির ইমেজ জেনারেশন টুলগুলো আরও সুসংগত ছবি তৈরি করতে পারে বলে জানিয়েছে কোম্পানিটি।
সাধারণত জেনারেটিভ এআই বলা হয় এমন ধরনের বিশেষ কৃত্রিম বুদ্ধিমত্তাকে,
যেটিকে শব্দে নির্দেশনা দিলে সেই অনুসারে ছবি তৈরি করতে পারে কিংবা কোনো ছবি দিয়ে সেটিকে টেক্সট বা শব্দে রূপান্তরিত করতে বলা হলে সেটিও করতে পারে।
মেটা বলছে,
এই জেনারেটিভ এআইয়ের জন্য আগের সব ট্রান্সফরমারভিত্তিক পদ্ধতির তুলনায় পাঁচ গুণ কম কম্পিউটিং শক্তি এবং একটি ছোট প্রশিক্ষণ ডেটাসেটের প্রয়োজন হয়।
বহুলব্যবহত ইমেজ জেনারেশন বেঞ্চমার্ক (জিরে-শট এমএস-সিওসিও) তুলনায় ক্যামেলিয়ন একটি এফআইডি স্কোর অর্জন করেছে।
প্রসঙ্গত,
ফ্রেচেট ইনসেপশন ডিসটেন্স (এফআইডি) হলো একটি মেট্রিক,
যা একটি জেনারেটিভ মডেল দিয়ে তৈরি ছবির গুণমান মূল্যায়ন করতে ব্যবহৃত হয়।
কাজেই এটি ইমেজ জেনারেশন এতটাই অত্যাধুনিক যে এটি গুগলের টেক্সট টু ইমেজ মডেল পারটিকেও ছাড়িয়ে গেছে।
এমনকি ক্যামিলিয়ন ভিজুয়াল প্রশ্ন-উত্তরে এবং লং ফর্ম ক্যাপশনিংয়ের মতো বিস্তৃত ভাষাভিত্তিক কাজগুলো দক্ষতার সঙ্গে করতে পারে বলে দাবি করছে মেটা।
ব্লগপোস্টে মেটা জানিয়েছে,
উচ্চ মানের জেনারেটিভ মডেল তৈরির লক্ষ্যে উচ্চমানের ছবি তৈরিতে এবং তা বোঝার জন্য বিভিন্ন ধরনের কাজে ক্যামেলিয়নের কর্মক্ষমতা হচ্ছে আমাদের একটি পদক্ষেপ।
আরও পড়ুন :