Prompt Engineering Md. Nazmul Hossain 2 মিনিট 9

Chain of Thought Prompting: AI-কে স্মার্ট করার সহজ কৌশল

Chain of Thought Prompting: AI-কে স্মার্ট করার সহজ কৌশল

তুমি কি কখনো লক্ষ্য করেছ, একই প্রশ্ন দুইভাবে করলে এআই দুইরকম উত্তর দেয়? একবার সংক্ষিপ্ত, একবার বিস্তারিত। একবার ভুল, একবার একদম ঠিক। পার্থক্যটা প্রশ্নের মধ্যে — প্রম্পটের মধ্যে।

চেইন অফ থট (Chain of Thought বা CoT) প্রম্পটিং হলো সেই কৌশল যেটা এআই-কে একলাফে উত্তর দেওয়ার বদলে, ধীরে ধীরে চিন্তা করতে বাধ্য করে। ২০২২ সালে Google-এর গবেষকরা প্রথম দেখান যে এই সহজ পরিবর্তনটা এআই-এর যুক্তির মান নাটকীয়ভাবে বাড়িয়ে দেয়।

এই লেখায় শিখবে CoT ঠিক কীভাবে কাজ করে, Zero-Shot ও Few-Shot পদ্ধতির পার্থক্য, Tree of Thought এবং Self-Consistency কী, এবং GPT-4, Claude ও Gemini-তে কীভাবে পরীক্ষা করবে। উদাহরণ বাস্তব, ভাষা সহজ।

ছোটবেলায় একবার বাবা আমাকে একটা অঙ্ক করতে দিয়েছিলেন। আমি সরাসরি উত্তর লিখে দিলাম। বাবা বললেন, “উত্তর ঠিক আছে, কিন্তু কাজ কোথায়?” আমি অবাক হয়ে বললাম, “মাথায় করেছি।” বাবা হাসলেন। বললেন, “মাথায় যা করেছ, সেটা কাগজে লিখলে ভুল কোথায় হয় সেটা নিজেই ধরতে পারতে।”

সেদিন বুঝিনি। আজ বুঝি। এআই-এর দুনিয়ায় এই কথাটার দাম অনেক বেশি।

আমরা যখন ChatGPT বা Claude-কে কিছু জিজ্ঞেস করি, সে সরাসরি উত্তর দেয়। কিন্তু সেই উত্তর কি সবসময় ঠিক হয়? না। কখনো কখনো এআই এত দ্রুত উত্তর দেয় যে সে নিজেই বুঝতে পারে না সে ভুল করছে। ঠিক যেমন আমি বাবার অঙ্কে করেছিলাম।

এই সমস্যার সমাধান হলো চেইন অফ থট, সংক্ষেপে CoT। এটা একটা প্রম্পটিং কৌশল যেটা এআই-কে বাধ্য করে ধাপে ধাপে চিন্তা করতে। এক লাফে সমুদ্র পার না হয়ে, পুল বেয়ে উঠতে।

চেইন অফ থট আসলে কী?

সহজ করে বলি। ধরো তুমি একজন বন্ধুকে জিজ্ঞেস করলে, “এই সপ্তাহে আমার কতটাকা খরচ হবে?” সে যদি সরাসরি বলে “৩,০০০ টাকা”, তুমি বিশ্বাস করবে? না। কিন্তু সে যদি বলে, “সোমবার বাজার ৮০০, বুধবার রিকশা ২০০, শুক্রবার বন্ধুর বিয়েতে উপহার ১,৫০০, আর মাসিক ইন্টারনেট ৫০০, মোট ৩,০০০ টাকা”—তাহলে তুমি বুঝতেও পারবে, যাচাইও করতে পারবে।

চেইন অফ থট এটাই করে। এআই-কে বলা হয়, “শুধু উত্তর দিও না, কীভাবে উত্তরে পৌঁছালে সেটাও দেখাও।”

২০২২ সালে Google-এর গবেষকরা প্রথম এই কৌশলের কথা একটি পেপারে লেখেন। তারা দেখালেন যে বড় ভাষা মডেলগুলো (LLM) যখন মধ্যবর্তী চিন্তার ধাপ দেখায়, তখন তাদের যুক্তির মান অনেক বেড়ে যায়। বিশেষত গণিত, বিজ্ঞান, এবং যুক্তিভিত্তিক সমস্যায়।

আমাদের LLM কী এবং কীভাবে কাজ করে সেই লেখাটা যদি পড়ে থাকো, তাহলে জানো যে এআই মূলত টোকেন প্রেডিক্ট করে। চেইন অফ থট এই প্রেডিকশনকে একটা সুশৃঙ্খল পথে নিয়ে যায়।

একটা সহজ উদাহরণ দিয়ে শুরু করি

ধরো তুমি এআই-কে জিজ্ঞেস করলে:

“করিম ৫টা আপেল কিনল। রহিম তার কাছ থেকে ২টা নিল। তারপর করিম বাজার থেকে আরও ৩টা কিনল। এখন করিমের কাছে কতটা আপেল আছে?”

সাধারণ প্রম্পটে এআই বলতে পারে: ৬টা।

Zero-Shot Few-Shot তুলনা
Zero-Shot Few-Shot তুলনা

চেইন অফ থট প্রম্পটে:

“ধাপে ধাপে চিন্তা করো। প্রথমে করিমের কাছে ৫টা আপেল ছিল। রহিম ২টা নিল, তাই এখন ৫ – ২ = ৩টা। তারপর করিম আরও ৩টা কিনল, তাই ৩ + ৩ = ৬টা। উত্তর: ৬টা।”

উত্তর একই। কিন্তু পথটা দেখা যাচ্ছে। এখন যদি ভুল হয়, কোথায় হলো সেটা ধরা যাবে।

CoT কীভাবে ব্যবহার করবে?

দুটো প্রধান উপায় আছে।

প্রথমটা হলো Zero-Shot CoT। মানে তুমি শুধু প্রম্পটের শেষে লিখে দাও: “ধাপে ধাপে চিন্তা করো” বা ইংরেজিতে “Let’s think step by step।” এটুকুই যথেষ্ট। এআই নিজে থেকেই তার যুক্তির পথ দেখাতে শুরু করে।

দ্বিতীয়টা হলো Few-Shot CoT। এখানে তুমি আগে একটা বা দুটো উদাহরণ দাও যেখানে ধাপগুলো দেখানো আছে। তারপর আসল প্রশ্নটা করো। এআই সেই প্যাটার্ন ধরে সামনে এগোয়। এই বিষয়ে আরও বিস্তারিত জানতে আমাদের Zero-Shot বনাম Few-Shot প্রম্পটিং লেখাটা দেখো।

আমি নিজে পরীক্ষা করে দেখেছি, শুধু “ধাপে ধাপে চিন্তা করো” যোগ করলে অনেক ক্ষেত্রে উত্তরের মান ২০ থেকে ৩০ শতাংশ পর্যন্ত ভালো হয়। বিশেষত বাংলায় জটিল প্রশ্ন করলে।

CoT কোথায় সবচেয়ে কাজের?

সব জায়গায় CoT লাগে না। কাউকে যদি জিজ্ঞেস করো “বাংলাদেশের রাজধানী কোথায়?”, সে যদি ধাপে ধাপে চিন্তা করতে বসে, সেটা মজার হবে, দরকারি না।

CoT সবচেয়ে ভালো কাজ করে যেখানে যুক্তির একাধিক ধাপ আছে। গণিতের সমস্যায়, আইনি বিশ্লেষণে, কোড ডিবাগিংয়ে, মেডিকেল ডায়াগনোসিসে, বা এমন কোনো সিদ্ধান্তে যেখানে অনেকগুলো শর্ত একসাথে ধরতে হয়।

ধরো তুমি একটা ব্যবসায়িক সিদ্ধান্ত নিতে এআই-এর সাহায্য নিচ্ছো। সরাসরি জিজ্ঞেস করলে সে হয়তো একটা উত্তর দেবে। কিন্তু যদি বলো, “প্রতিটি ফ্যাক্টর আলাদা আলাদা বিশ্লেষণ করো, তারপর সিদ্ধান্তে পৌঁছাও”, তাহলে পাবে একটা সুচিন্তিত, স্তরে স্তরে সাজানো বিশ্লেষণ।

একটু গভীরে যাই: এআই আসলে কীভাবে “চিন্তা” করে?

রবীন্দ্রনাথ লিখেছিলেন, “আলো আমার আলো ওগো, আলো ভুবন-ভরা।” আমরা যখন এআই-এর চিন্তার আলোর কথা বলি, সেটা একটু অন্যরকম। সে আলোটা বাইরে থেকে আসে না, প্রম্পট থেকে আসে।

এআই হলো একটা অদ্ভুত আয়না। তুমি যেভাবে প্রশ্ন করো, সে সেইভাবেই প্রতিফলিত হয়। তুমি যদি এলোমেলো প্রশ্ন করো, সে এলোমেলো উত্তর দেয়। তুমি যদি সুশৃঙ্খলভাবে প্রশ্ন করো, সে সুশৃঙ্খল উত্তর দেয়।

টেকনিক্যালি বললে, LLM প্রতিটি টোকেনের পরে পরের সবচেয়ে সম্ভাব্য টোকেনটি বেছে নেয়। CoT-এর সুবিধা হলো, যখন এআই মধ্যবর্তী ধাপগুলো লেখে, সেই ধাপগুলো নিজেই পরের ধাপের জন্য প্রসঙ্গ তৈরি করে। ফলে চূড়ান্ত উত্তরটা আরো নিখুঁত হয়।

এটা অনেকটা একটা গোয়েন্দার মতো। শার্লক হোমস যদি সরাসরি অনুমান করে বলতেন “হত্যাকারী সে”, সেটা শুনতে ভালো লাগত না। কিন্তু যখন সে বলেন, “তার জুতায় নীল মাটি, এই মাটি শুধু উত্তর বন্দরে পাওয়া যায়, সে গতকাল বন্দরে গিয়েছিল, অতএব…”, তখন আমরা বুঝতে পারি এবং বিশ্বাস করতে পারি।

Tree-of-Thought: CoT-এর উন্নত সংস্করণ

Tree of Thought Diagram
Tree of Thought Diagram

CoT হলো একটা সরল পথে হাঁটা। কিন্তু কখনো কখনো একটাই সরল পথ থাকে না। তখন দরকার হয় Tree of Thought (ToT)

ToT-এ এআই একাধিক সম্ভাব্য পথ একই সাথে অন্বেষণ করে। প্রতিটি ধাপে সে নিজে মূল্যায়ন করে, কোন পথে এগোনো বেশি কার্যকর। দুর্বল পথ ফেলে দেয়, শক্তিশালী পথে এগিয়ে যায়।

একটা দাবা খেলোয়াড়ের মতো। সে একটা চাল দেওয়ার আগে অনেকগুলো সম্ভাব্য চাল মাথায় ভাবে। প্রতিটির পরিণতি বিবেচনা করে। তারপর সেরাটা বেছে নেয়।

জটিল সমস্যা, যেমন কোড অপ্টিমাইজেশন বা দীর্ঘমেয়াদী পরিকল্পনা, এই পদ্ধতিতে অনেক ভালো ফলাফল দেয়।

Self-Consistency: একটা উত্তর নয়, বরং ভোটাভুটি

আরেকটা চমৎকার কৌশল হলো Self-Consistency। এখানে এআই একই প্রশ্নে বহুবার CoT চালায়, বিভিন্ন পথে। তারপর সবচেয়ে বেশি পুনরাবৃত্তি হওয়া উত্তরটাকে চূড়ান্ত ধরে।

মানে একটা গ্রামের সালিশের মতো। একজন নয়, অনেকজন বিচার করে। যে মতে সবাই একমত, সেটাই রায়।

এটা বিশেষত তখন কাজের যখন প্রশ্নের উত্তর একটু অনিশ্চিত বা কয়েকভাবে ব্যাখ্যা করা যায়।

CoT এবং মাল্টিমোডাল এআই

এখনকার এআই শুধু টেক্সট পড়ে না। ছবি দেখে, অডিও বিশ্লেষণ করে, এমনকি ভিডিও বোঝার চেষ্টা করে। এই সব ইনপুট একসাথে প্রসেস করাকে বলে মাল্টিমোডাল সিন্থেসিস।

CoT এই ক্ষেত্রেও কাজে লাগে। ধরো তুমি একটা ছবি দিয়ে জিজ্ঞেস করলে, “এই রোগীর এক্স-রে দেখে কী মনে হচ্ছে?” সরাসরি উত্তর চাইলে সে একটা রায় দেবে। কিন্তু যদি বলো, “প্রথমে হাড়ের গঠন দেখো, তারপর কোনো অস্বাভাবিকতা আছে কিনা চেক করো, তারপর সম্ভাব্য কারণগুলো তালিকা করো, শেষে মতামত দাও”—তাহলে পাবে একটা পদ্ধতিগত বিশ্লেষণ।

প্রম্পট কীভাবে সাজাবে: Prompt Templete

আমাদের প্রম্পটের অ্যানাটমি সম্পর্কে বিস্তারিত লেখা আছে। সেটার সাথে CoT মিলিয়ে একটা কার্যকর টেমপ্লেট দিচ্ছি।

ভূমিকা দিয়ে শুরু করো। যেমন, “তুমি একজন অভিজ্ঞ ব্যবসায়িক বিশ্লেষক।” তারপর প্রসঙ্গ দাও। তারপর কাজটা বলো। তারপর স্পষ্ট করো যে তুমি ধাপে ধাপে চিন্তা চাও। শেষে বলো আউটপুট কেমন হবে।

উদাহরণ:

“তুমি একজন অভিজ্ঞ মার্কেটিং বিশ্লেষক। আমার একটি ছোট চায়ের দোকান আছে ঢাকায়, মাসিক বিক্রি ৫০,০০০ টাকা। আমি অনলাইনে যেতে চাই। ধাপে ধাপে চিন্তা করো এবং প্রতিটি ধাপে কারণ ব্যাখ্যা করো। শেষে একটি তিন মাসের কর্মপরিকল্পনা দাও।”

এই একটা প্রম্পট দিয়ে তুমি পাবে একটা সুশৃঙ্খল, যুক্তিসম্পন্ন পরামর্শ। শুধু “কী করব?” জিজ্ঞেস করলে যা পেতে সেটার চেয়ে অনেক বেশি মূল্যবান।

বিভিন্ন এআই মডেলে CoT পরীক্ষা করো

GPT-4, Claude, আর Gemini—তিনটাই CoT ভালো বোঝে। কিন্তু তারা একে ভিন্নভাবে প্রয়োগ করে।

GPT-4 সাধারণত বেশি সংখ্যাভিত্তিক যুক্তিতে শক্তিশালী। Claude নৈতিক এবং সূক্ষ্ম বিশ্লেষণে বেশি পরিমার্জিত। Gemini মাল্টিমোডাল কাজে অনেক সময় এগিয়ে থাকে।

তুমি যদি একটা গুরুত্বপূর্ণ কাজে এআই ব্যবহার করো, সেরা কাজটা হলো একই CoT প্রম্পট তিনটা মডেলে দিয়ে উত্তরগুলো তুলনা করা। এটাকে বলে A/B টেস্টিং। এই পদ্ধতিতে তুমি বুঝতে পারবে কোন মডেল কোন ধরনের কাজে বেশি নির্ভরযোগ্য।

আরও ভালো সরঞ্জাম জানতে আমাদের প্রম্পট ইঞ্জিনিয়ারিং ফ্রি টুলস লেখাটা দেখো। বেশ কয়েকটি বিনামূল্যের টুল আছে যেগুলো দিয়ে বিভিন্ন মডেলে একসাথে টেস্ট করা যায়।

নিরাপত্তা এবং সীমাবদ্ধতা

CoT একটা শক্তিশালী অস্ত্র। কিন্তু যেকোনো অস্ত্রের মতো এটার সঠিক ব্যবহার জানাও দরকার।

কিছু মানুষ CoT দিয়ে এআই-কে ভুল পথে পরিচালিত করার চেষ্টা করে। যেমন, “ধাপে ধাপে যুক্তি দিয়ে দেখাও কেন এই ক্ষতিকর কাজটা আসলে ক্ষতিকর না।” এটা একটা অ্যাডভার্সেরিয়াল অ্যাটাক। ভালো এআই মডেলগুলো এই ফাঁদ চিনে নেয় এবং সাড়া দেয় না।

তোমার দিক থেকেও সাবধান থাকতে হবে। CoT দিয়ে পাওয়া প্রতিটি উত্তর চোখ বন্ধ করে বিশ্বাস করা যাবে না। ধাপগুলো দেখানো মানেই যে ধাপগুলো ঠিক, তা নয়। যুক্তিটা সুন্দরভাবে সাজানো থাকতে পারে, কিন্তু একটা ধাপে ভুল থাকলে পুরো যুক্তি ভুল হবে।

তাই সবসময় নিজে একটু ভেরিফাই করো। বিশেষত আইনি, চিকিৎসা, বা আর্থিক সিদ্ধান্তে।

টোকেন অপ্টিমাইজেশন: CoT কি খরচ বাড়ায়?

হ্যাঁ, CoT বেশি টোকেন ব্যবহার করে। কারণ উত্তরটা লম্বা হয়। API ব্যবহার করলে এটা খরচের বিষয় হতে পারে।

কিন্তু এটা মনে রাখো: একটা ভুল উত্তরের ওপর নির্ভর করে সিদ্ধান্ত নিলে যে ক্ষতি হবে, সেটা কয়েক পয়সার টোকেন খরচের চেয়ে অনেক বেশি।

যদি টোকেন বাঁচাতে চাও, তাহলে শুধু জটিল কাজে CoT ব্যবহার করো। সহজ প্রশ্নে সরাসরি জিজ্ঞেস করো।

LSI Keywords এবং SEO

প্রম্পট ইঞ্জিনিয়ারিং এখন একটা বড় দক্ষতা। প্রম্পট ইঞ্জিনিয়ারিং কী সেটা যদি এখনো পরিষ্কার না হয়, সেই লেখাটা দিয়ে শুরু করো। CoT সেই দক্ষতারই একটা উন্নত স্তর।

বড় ভাষা মডেল, এআই রিজনিং, স্টেপ-বাই-স্টেপ প্রম্পটিং, কগনিটিভ চেইনিং, লজিক্যাল ডিডাকশন—এই সব বিষয় CoT-এর চারপাশে ঘোরে। এই কৌশলটা শিখলে তুমি শুধু ভালো উত্তর পাবে না, এআই-কে একটা সত্যিকারের চিন্তার অংশীদার বানাতে পারবে।

শেষ কথা

কাজী নজরুল ইসলাম লিখেছিলেন, “বল বীর— বল উন্নত মম শির!” সেই উন্নত শির শুধু যুদ্ধে নয়, চিন্তাতেও চাই। এআই-এর সাথে কাজ করতে গেলে শুধু প্রশ্ন করলেই হয় না, সঠিকভাবে চিন্তা করতে শেখাতে হয়।

চেইন অফ থট সেই সেতু। এটা এআই-এর চিন্তাকে দৃশ্যমান করে। ভুলকে ধরার সুযোগ দেয়। আর সত্যিকারের জটিল সমস্যার সত্যিকারের সমাধান দেয়।

পরের বার যখন এআই-এর কাছে গুরুত্বপূর্ণ কিছু জিজ্ঞেস করবে, শেষে তিনটা শব্দ যোগ করো: “ধাপে ধাপে চিন্তা করো।”

ফলাফল দেখে নিজেই অবাক হবে।

প্রম্পট ইঞ্জিনিয়ারিং FAQs

কিভাবে Chain of Thought (CoT) এআই-এর ভুলের হার কমায়? +
CoT পদ্ধতিতে এআই প্রতিটি ধাপে নিজের যুক্তি পরীক্ষা করে এগোয়। সরাসরি উত্তর দেওয়ার সময় এআই অনেক সময় তথ্যের ভুল সমন্বয় করে ফেলে, কিন্তু ধাপে ধাপে চিন্তা করার সময় কোনো একটি ধাপে ভুল হলে তা পরবর্তী ধাপে ধরা পড়ার সম্ভাবনা বাড়ে, ফলে চূড়ান্ত ফলাফল অনেক বেশি সঠিক হয়।
আমি কি সব প্রম্পটে “Let’s think step by step” যোগ করব? +
প্রয়োজন নেই। সাধারণ তথ্য খোঁজা বা সৃজনশীল লেখা (যেমন কবিতা বা গল্প) তৈরির জন্য এটি না দিলেও চলে। তবে গণিত সমাধান, কোডিং এর লজিক বোঝা বা কোনো জটিল বিষয়ের গভীর বিশ্লেষণের ক্ষেত্রে এই বাক্যটি যোগ করলে এআই অনেক উন্নত মানের আউটপুট দেয়।
Few-Shot CoT ব্যবহারের সঠিক নিয়ম কী? +
এর সঠিক নিয়ম হলো- প্রথমে একটি প্রশ্ন দেওয়া, তারপর সেই প্রশ্নের উত্তরটি কিভাবে ধাপে ধাপে বের করতে হয় তার একটি উদাহরণ এআই-কে দেখানো। এভাবে ১-২টি উদাহরণ দেওয়ার পর মূল প্রশ্নটি করলে এআই ওই উদাহরণের স্টাইল অনুসরণ করে নির্ভুল উত্তর দেবে।
Tree of Thought (ToT) কি সাধারণ ব্যবহারকারীদের জন্য জটিল? +
হ্যাঁ, ToT কিছুটা উন্নত পর্যায়ের কৌশল। এটি সাধারণত যখন একটি সমস্যার একাধিক সমাধান সম্ভব এবং প্রতিটি পথ যাচাই করা প্রয়োজন, তখন ব্যবহার করা হয়। সাধারণ চ্যাট বা কাজের জন্য CoT-ই যথেষ্ট এবং ব্যবহার করা সহজ।
বাংলা প্রম্পটে কি CoT ইংরেজি প্রম্পটের মতো কার্যকর? +
আধুনিক মডেল যেমন GPT-4 বা Claude 3.5 Sonnet-এ বাংলা CoT চমৎকার কাজ করে। তবে মনে রাখবেন, এআই-এর অভ্যন্তরীণ প্রসেসিং ইংরেজিতে ভালো হয়, তাই খুব জটিল লজিক্যাল সমস্যার ক্ষেত্রে ইংরেজিতে প্রম্পট দিয়ে উত্তর বাংলায় চাইলে অনেক সময় বেশি ভালো ফলাফল পাওয়া যায়।