কোর্সের মূলপাতা | কোর্সের নিবন্ধন ফর্ম
বিবর্তনীয় বিশ্লেষণ বায়োইনফরমেটিক্সের খুব উল্লেখযোগ্য একটা দিক। এই বিশ্লেষণ করার জন্য কিছু মৌলিক জ্ঞান থাকা প্রয়োজন। সেই জানার শুরুটা হতে পারে শিক্ষক.কমে বায়োইনফরমেটিক্স পরিচিতির এই লেকচার দিয়ে। লেকচার চার দুইটি ভাগে আলোচনা করবো। প্রথমটিতে একেবারে গোড়ার কিছু ধারণা নিয়ে কথাবার্তা বলবো আমরা। দ্বিতীয়টিতে বিবর্তনীয় বিশ্লেষণের একটি কেসস্টাডি করবো। প্রথম লেকচারটিতে একটু তাত্ত্বিক আলাপন বেশি থাকবে, একটু খটোমটো লাগতে পারে অনেকের কাছে। খুব ভালো হয় এখানের ধারণাগুলো ইন্টারনেটে গুগলিঙ করে করে বুঝে নিলে।
———————————————————————————————–
ধরা যাক, আমাদের হাতে দুটি কাল্পনিক ডিএনএ অনুক্রম এসে পড়েছে, ক্রম–১ ও ক্রম–২। আমরা প্রথমে অনুক্রম সারিবন্ধকরণ বা সিকোয়েন্স এলাইনমেন্ট করে দেখলাম। অনুক্রম সারিবদ্ধকরণের অ–আ–ক–খ লেকচার তিনে আলোচনা করা হয়েছে। আপনাদের হয়তো খেয়াল আছে অনুক্রম সারিবদ্ধকরণের মাধ্যমে দুইটি ডিএনএ অনুক্রমের মধ্যে মিল কতটুুকু তা বের করা হয়। তো অনুক্রম সারিবদ্ধকরণের পর আমরা দেখলাম যে ক্রম–১ আর ক্রম–২ এর মধ্যে বেশিরভাগই মিলে যাচ্ছে — অর্থাৎ অনুক্রম দুইটি হোমোলগাস বা একই রকম। তবে কিছু কিছু জায়গায় সামান্য অমিল আছে। অমিলগুলো এতোটাই কম যে আমরা ধরে নিলাম ডিএনএ অনুক্রম দুইটি আসলে একই প্রজাতির দুইটি সদস্য থেকে পাওয়া। তারপর আমরা ঠিক করলাম এই অনুক্রম দুইটির মধ্যে পার্থক্য আসলে কতটুকু তা বের করবো। এই জায়গাতেই বর্তমান লেকচারের শুরু।
প্রকরণ কোথ্থেকে আসে?
প্রতিটি মানুষ একে অপরের চেয়ে ভিন্ন। এ ভিন্নতা হতেপারে চেহারা, গায়ের বর্ণ, চুলের প্রকৃতি, চোখের রঙ ইত্যাদি অজস্র বিভিন্ন বিষয়ে। এমনকি একই পিতামাতার সন্তানদের মধ্যে অনেক ভিন্নতা থাকে। এইসব প্রকাশিত বৈশিষ্ট্য (বা ফেনোটাইপ) মূলত নির্ভর করে মানুষের বংশগতীয় উপাদানের রকমফেরের (জেনোটাইপ) উপর। বংশগতীয় উপাদান মানে শেষ পর্যন্ত ডিএনএ অনুক্রম (সিকোয়েন্স) – জীবনের নীল–নকশা।এমনকি একই ভ্রুণ থেকে জন্ম নেয়া জমজদের জিনোম অনুক্রমেও কিছু ভিন্নতা পরিলক্ষিত হয় [১]। পৃথিবীর যেকোন দুইজন মানুষের জিনোমে ০.১ – ০.৪% বংশগতীয় পার্থক্য দেখা যায় [১]। ০.১% বংশগতীয় পার্থক্যের মানে হলো প্রতি ১০০০ বেসপেয়ারে ১টি করে বেসের পার্থক্য থাকবে। প্রশ্ন হলো, এই পার্থক্যগুলোর উৎস কি?
এক কথায় এই প্রশ্নের উত্তর হলো মিউটেশন বা পরিব্যাক্তি। কোষের ভেতর যখন ডিএনএ–কে নকলীকরণ (রেপ্লিকেশন) করে নতুন ডিএনএ তৈরি করা হয়, তখন কিছু না কিছু ভুল হয়ে যায়। এই ভুল ঠিক করার জন্য কোষে সাধারণত প্রুফরিডিঙের ব্যবস্থা থাকে। তারপরেও কিছু ভুল শোধরানো যায় না। এছাড়াও অতিবেগুণী রশ্মি কিংবা বিভিন্ন ক্ষতিকর রাসায়নিকের প্রভাবেও এই ভুলের পরিমাণ বেড়ে যায়। তাই মূল এবং নতুন তৈরি ডিএনএ–র মধ্যে কিছু কিছু পার্থক্য সুচিত হয়।
সাদাচোখে জীবদেহের কোষগুলোকে আমরা দুই ভাগে ভাগ করি। দেহ কোষ এবং জনন কোষ। দেহ কোষে পরিব্যাক্তির প্রভাব প্রজননের মাধ্যমে পরবর্তী প্রজন্মে যায় না। তবে জনন কোষে মিউটেশনের ফলে পরিবর্তিত ডিএনএ চলে যায় পরবর্তী প্রজন্মে। বেশিরভাগ মিউটেশন নিরপেক্ষ। তবে কিছু কিছু মিউটেশন জীবের জন্য বেশ ক্ষতিকর। আর সামান্য কিছু মিউটেশন হয়তো জীবের জন্য ভালো হয়। এই ভালো মিউটেশন জীবকে পরিবেশে টিকে থাকার জন্য সহযোগিতা করে [২]। বেশিরভাগ সময় এই মিউটেশনগুলো ডিএনএ অনুক্রমের একটিমাত্র নিউক্লিওটাইডে হয়। এজন্য এদেরকে বলে একক মিউটেশন (পয়েন্ট মিউটেশন)। একক মিউটেশনে িডএনএ অনুক্রমের একটি নিউক্লিওটাইড বেসকে সরিয়ে দিয়ে অন্য বেস বসে যায় (যেমন A এর জায়গায় T)। এজন্য একক মিউটেশনকে অনেক সময় বেস প্রতিস্থাপন (সাবস্টিটিউশন) মিউটেশন বলে।
একটি জনপুঞ্জ বা পপুলেশন বিবেচনা করা যাক। এই জনপুঞ্জ হতে পারে পদ্মার ইলিশ মাছের। ইলিশ মাছের অমৃতসম–স্বাদের কথা মনে পড়ছে? আশা করি বাংলাদেশের ভাবী কোন বিজ্ঞানী ইলিশ মাছের এই অমৃতসম–স্বাদের জন্য দায়ী জিনটি বের করে ফেলবেন। ধরে নেই, আমাদের এই অনুকল্পীয় (হাইপোথেটিকাল) জিনের নাম ক্রম–ই। এই ক্রম–ই আসলে যে একটি ডিএনএ অনুক্রম তা পাঠক ধরে ফেলেছেন নিশ্চয়ই। পদ্মার ইলিশ জনপুঞ্জে বিভিন্ন ইলিশের বিভিন্ন ক্রম–ই ডিএনএ অনুক্রমে কিছুটা পার্থক্য পাওয়া যাবে। এই বিভিন্নতাকে আমরা বলবো পলিমর্ফিজম। ক্রম–ইর যদি দশ ধরনের পলিমর্ফিজম থাকে, তাহলে একেক ধরনকে বলবো একেকটি অ্যালিল। এই বিভিন্নতার কারণে জনপুঞ্জের বিভিন্ন সদস্যের মাঝে যে পার্থক্য তাকেই বলছি প্রকরণ বা ভ্যারাইটি।
একই প্রজাতীর মধ্যে এসব একক মিউটেশনকে একটা সাধারণ নামে ডাকা হয়, তা হলো SNP বা একক–নিউক্লিউটাইড–বিভিন্নতা (সিঙ্গল নিউক্লিওটাইড পলিমর্ফিজম)। এই SNP-র উচ্চারণ হলো ‘স্নিপ‘ । দুইটি মানুষের জিনোম অনুক্রমে যে সামগ্রীক পার্থক্য, তার মধ্যে এই স্নিপের পরিমাণ বেশ বড়ই বলা চলে।
চলুন নিচের উদাহরণটা দেখা যাক:
ক্রম–১: GTCCTTCAATCATCACGGGACT
ক্রম–২: AACCTTCAACCATCTCCGGACC
স্নিপ ম্যাপ: XX————–X——-X—X——-X
উপরের উদাহরণে দুইটি ডিএনএ অনুক্রমকে সারিবদ্ধকরণ করা হয়েছে। দুইটি অনুক্রমের মাঝে ছয়টি অঞ্চল পাওয়া যায়, যেখানে বিভিন্নতা বা পলিমর্ফিজম উপস্থিত। একদম নিচের লাইনটি খুব সরল একটি SNP ম্যাপ হিসেবে কাজ করছে। ওই লাইনে দিয়ে বোঝা যাচ্ছে যে ডিএনএ–র কোন কোন অঞ্চলে বিভিন্নতা বিদ্যমান।
তবে মিউটেশনই কিন্তু প্রকরণ সৃষ্টির একমাত্র পদ্ধতি নয়। প্রকরণের উদ্ভব হতে পারে রিকম্বিনেশন, ইনসার্শন, ডিলিশন, সর্ট ট্যান্ডেম রিপিট (STR) ইত্যাদি কারণে। জটিলতা এড়ানোর জন্য এদের নিয়ে আমরা এইমুহুর্তে আলোচনা করবো না।
প্রতিস্হাপন হার
একক মিউটেশন নিয়ে যেহেতু বেশ কিছুক্ষণ কথাবার্তা আমরা বলেছি, এটি নিয়ে কিছু হিসেব–নিকেশের পদ্ধতি চলুন জেনে নেই। আমরা জানি কোন জীবে সবসময় মিউটেশন হচ্ছে। এই মিউটেশনগুলো হারিয়ে যাবে যদি কিনা ওই জীবটি আর বংশবৃদ্ধি না করে। অবশ্য মিউটেশন জনন কোষে তৈরি না হলেও মিউটেশন হারিয়ে যাবে। ‘হারিয়ে যাওয়ার‘ অর্থ হলো মিউটেশনটি ওই প্রজাতির মধ্যে আর ছড়াবে না। ওই জীবটি বংশবৃদ্ধি করলে মিউটেশনবাহী সদস্যের সংখ্যা ওই প্রজাতিতে বাড়বে। বংশধররা আরো বংশবৃদ্ধির সাথে সাথে নির্দিষ্ট সময়ের পর দেখা যাবে হয়তো ওই জীবের সমগ্র প্রজাতির মধ্যে মিউটেশনটি ছড়িয়ে গেছে। অর্থাৎ ওই প্রজাতির জন্য মিউটেশনটি উপকারী ছিলো। বংশানুক্রমে মিউটেশনের ছড়িয়ে যাওয়া মানে একধরনের স্থায়ীত্ব পাওয়া। প্রতিস্থাপন হার হলো কোন প্রজাতির ডিএনএ–র একটি নির্দিষ্ট অঞ্চলে সময়ের সাথে কতগুলো স্থায়ী মিউটেশন (ফিক্সড মিউটেশন) জড়ো হয় তার হিসেব। যদি মিউটেশনগুলো নিরপেক্ষ হয়, মানে এই মিউটেশনের কারণে জীবের কোন ক্ষতিও হয় না, লাভও হয় না তাহলে মিউটেশন হার আর প্রতিস্থাপন হারের মাঝে একটা দারুণ সম্পর্ক দেখা যায় – দুটোই সমান হয়ে যায়। আমরা এই লেকচার বড় করবো না বলে আরো গভীরে ঢুকছি না এখন। চলুন সামনে এগিয়ে যাই।
বংশগতীয় দূরত্ব
এই লেকচারটা শুরু করেছিলাম কাল্পনিক দুইটি ডিএনএ অনুক্রমের উদাহরণ দিয়ে। তাদের কথা আবার বিবেচনা করা যাক। ক্রম–১ ও ক্রম–২ দুজনের মাঝে পার্থক্য সামান্য, বেশিরভাগই মিলে যায়। বিবর্তনীয় তত্ত্ব অনুযায়ী ডিএনএ–র এই দুইটি ক্রমের উদ্ভব একটি সাধারণ আদি–ডিএনএ অনুক্রম থেকে। সাধারণ আদি–অনুক্রম থেকে উদ্ভবের সময় তাদের মধ্যে এলোমেলো (ড়্যান্ডম) প্রতিস্থাপন মিউটেশন হয়েছে। এই মিউটেশনের কারণেই তাদের মধ্যে এখন সামান্য পার্থক্য। আমরা যদি ক্রম–১ ও ক্রম–২ এর মধ্যে মিউটেশনগুলো গুনে ফেলি তাহলে একটা হিসেব পাবো যে এদের মধ্যে পার্থক্য কতটুকু। ডিএনএ–র দুটো কাছাকাছি অনুক্রমের মধ্যে পার্থক্য কতটুকু তার হিসেবই হলো জেনেটিক ডিস্ট্যান্স বা বংশগতীয় দূরত্ব। আগে দেখেছি ক্রম–১ ও ক্রম–২ এর মধ্যে পার্থক্য হলো ছয় জায়গায়। দুইটি অনুক্রমেরই দৈর্ঘ্য হলো ২২ বেসপেয়ার। তার মানে দুইটির মধ্যে বংশগতীয় দূরত্বের হার হলো বাইশের মধ্যে ছয়, ৬/২২।
কিন্তু না, বংশগতীয় দূরত্ব হিসেব করাটা এতো সহজ না আসলে। ঘটনা আরো জটিল। দুইটি অনুক্রম বাইরে থেকে দেখে আমাদের মনে হচ্ছে যে এদের মধ্যে পার্থক্য মাত্র ৬। কিন্তু প্রকৃত বংশগতীয় পার্থক্য আরো বেশিও হতে পারে। নিচের উদাহরণটা দেখুন। একটি ডিএনএ অনুক্রম পরপর সাতটি প্রজন্ম কিভাবে বিবর্তিত হয়েছে তা দেখানো হয়েছে। একই অনুক্রমে মাত্র সাতটি প্রজন্মে মিউটেশন হয়েছে ৬টি। কিন্তু আমি যদি কেবল প্রথম ও শেষেরটা তুলনা করি তাহলে আপাত দৃশ্যমান মিউটেশন ৩টি। পাঠক খেয়াল করুন, প্রথম উদাহরণের একটি আদি–ডিএনএ অনুক্রম থেকে উদ্ভব হওয়া ক্রম–১ ও ক্রম–২ এর মধ্যে কতগুলো প্রজন্ম চলে গেছে সেটা কিন্তু আমরা জানি না। মধ্যবর্তী প্রজন্মের সংখ্যা বেশি হলে প্রকৃত মিউটেশন বেশি হবে। প্রজন্মের সংখ্যা কম হলে মিউটেশন কম হবে। প্রতিস্থাপনীয় হারের সুবিধাটা হলো প্রজন্ম থেকে প্রজন্মান্তরে এই হারটি মোটামুটি নির্দিষ্ট থাকে। মানে প্রতিটি প্রজন্মে নির্দিষ্ট কিছু প্রতিস্থাপনীয় মিউটেশন জড়ো হবেই। দুইটি অনুক্রমের মধ্যে আপাত দৃশ্যমান পার্থক্য কম হলে প্রকৃত পার্থক্য সামান্য বেশি হবে। কিন্তু আপাত দৃশ্যমান পার্থক্য বেশি হলে প্রকৃত পার্থক্য আরো বেশি হবে বলে আমরা আশা করতে পারি। কারণ মধ্যবর্তী প্রজন্মগুলোতে কিছু মিউটেশন হয়ে গেছে যেগুলো হয়তো এখন আর পর্যবেক্ষণ করা যাবে না।

আপাত ও প্রকৃত বংশগতীয় দূরত্বের হিসাব-নিকাশ। ছবিটি নেয়া হয়েছে Introduction to Computational Genomics: A Case Study Approach বইটি থেকে।
বংশগতীয় দূরত্ব নিয়ে কাজ করার সময় আমরা সবসময় প্রকৃত পার্থক্যটাই হিসেব করতে চাইবো।আমরা জানি না দুইটি অনুক্রমের মধ্যে কতগুলো প্রজন্ম পেরিয়ে গেছে। কিন্তু একটা গাণিতিক মডেল দাঁড় করানো যেতে পারে। আমরা যদি ধরে নেই যে এই মিউটেশনগুলো এলোমেলো, তাহলে সম্ভাবনার গণিত (প্রোবাবিলিটি) এক্ষেত্রে ব্যাবহার করা যায়। এজন্য অনেকগুলো প্রতিষ্ঠিত গাণিতিক এলগরিদম রয়েছে। আমরা শুরু করার জন্য জুকস–ক্যান্টর মডেলটি নিয়ে একটুখানি আলোচনা করবো।
প্রজন্ম থেকে প্রজন্মে একটি অনুক্রম কিভাবে পরিবর্তিত হয় তা একটি মার্কভীয় পদ্ধতি হিসেবে বিবেচনা করা যায়। মার্কভীয় পদ্ধতি অনুযায়ী একটি প্রজন্মে কোন অনুক্রমে কি কি মিউটেশন যুক্ত হতে পারে সেই সম্ভাবনা কেবল পূর্ববর্তী প্রজন্মে অনুক্রমটি কেমন ছিলো তার উপরেই নির্ভর করবে।লেকচারের প্রথম উদাহরণে কিন্তু আমরা জানি না যে মধ্যবর্তী প্রজন্মগুলোতে অনুক্রমটি কেমন ছিলো। তারমানে এখানে অজানা অবস্থায় মার্কভের নীতি বা হিডেন মার্কভ মডেল ব্যাবহার করে প্রকৃত বংশগতীয় দূরত্ব হিসেব করা সম্ভব।
জুকস–ক্যান্টর মডেল ধরে নেয় যে যাবতীয় প্রতিস্থাপনের সম্ভাবনা সমান। মানে একটি অনুক্রমে A>T (মানে A এর জায়গায় T), A>G, A>C, T>A, T>G, T>C, G>A, G>T, G>C, C>A, C>G, C>T ইত্যাদি প্রতিস্থাপন সমান সম্ভাবনায় এলোমেলো ভাবে হবে। প্রকৃতপক্ষে আমরা জানি যে ট্রানজিশন মিউটেশন ট্রান্সভার্সনের চাইতে বেশি হয়ে থাকে। ট্রানজিশন ও ট্রান্সভার্সন মিউটেশন নিয়ে জানার জন্য এখানে দেখতে পারেন।
কোন গাণিতিক ব্যাখ্যায় না গিয়ে বলা যায়, দুইটি ডিএনএ অনুক্রমের মধ্যে আপাত বংশগতীয় দুরত্বের হার d হলে প্রকৃত বংশগতীয় দূরত্বের হার হবে K। এই K খুঁজে বের করা যায় নিচের সমীকরণ দিয়ে:
K = (-3/4)*ln{1 – (4d/3)}
এই লেকচার প্রস্তুত করার আগে বায়ো–বায়ো–১ গ্রুপস্টাডি সেশনের জন্য পাইথনে একটি প্রোগ্রাম লিখেছিলাম জুক–ক্যান্টর সিমুলেশনের জন্য। সিমুলেশনের শর্তগুলো এরকম:
১. একটি ডিএনএ অনুক্রম, যার দৈর্ঘ্য ১০০০ বেস পেয়ার।
২. ধরে নেই প্রতিটি প্রজন্মে এক হাজারের মধ্যে একটি বেসে এলোমেলো মিউটেশন হবেই। তারমানে মিউটেশনের হার ০.১%।
৩. এবারে ২০০০ প্রজন্ম পর্যন্ত ডিএনএ অনুক্রমটির এলোমেলো মিউটেশনগুলো তৈরি করা হয়।
৪. প্রতি দশ প্রজন্ম অন্তর অন্তর পাওয়া বিবর্তিত ডিএনএ অনুক্রমটির সাথে মূল অনুক্রমের মিউটেশন কতগুলো তা হিসেব করা হয়। অর্থাৎ আপাত দৃশ্যমান বংশগতীয় দূরত্ব (d) হিসেব করা হয়।
৫. পাশাপাশি প্রতি দশ প্রজন্ম অন্তর অন্তর আপাত বংশগতীয় দূরত্বগুলোকে জুকস–ক্যান্টর মডেল অনুসারে ঠিক (K) করে নেয়া হয়।

চিত্র: জুকস-ক্যান্টর সিমুলেশন প্রোগ্রামের আউটপুট
এই সিমুলেশনের আউটপুট হিসেবে দুইটি লেখচিত্র দেখা যাচ্ছে। উপরেরটি খেয়াল করুন। সেখানে X অক্ষে প্রকৃত প্রতিস্থাপন দেখানো হয়েছে। আর Yঅক্ষে আপাত মিউটেশনের হিসেব দেখানো হয়েছে। এটা নিশ্চয়ই বোঝা যাচ্ছে যে আপাত হিসেব, প্রকৃতের চাইতে অনেক কম। যেমন যেখানে প্রকৃত প্রতিস্থাপন হলো ১০০০, সেখানে আপাত প্রতিস্থাপন হলো ৫০০–৬০০র মাঝামাঝি।
নিচের লেখচিত্রে Y-অক্ষে আপাত মিউটেশনকে জুকস–ক্যান্টরিয় সমীকরণের মধ্যে ফেলে প্রকৃত দূরত্ব অনুমান করা হয়েছে। এই লেখটিতে ১০০০তম প্রজন্মে মোটামুটি ১০০০ এর কাছাকাছি–ই হিসেব দেখাচ্ছে।
আমাদের তাত্ত্বিক আলাপন আজকের মতো এখানেই শেষ। ইন্টারনেটে সম্পর্কিত একটি পাওয়ারপয়েন্ট প্রেজেন্টেশন দেখে ভালো লাগলো। সেটি স্লাইডশেয়ারে যুক্ত করে দিলাম। এখানে উপরের আলোচিত কথাবার্তা ছাড়াও বিষয় সম্পর্কিত আরো আলোচনা আছে। আশা করি আপনাদের সহায়ক হবে।
এই লেকচারের যাবতীয় তাত্ত্বিক আলোচনা করার সময় সাহায্য নিয়েছি Introduction to Computational Genomics: A Case Study Approach বইটির। লেকচারের প্রথম খন্ড শেষ। আগামী পর্বে আলোচনা করবো নিয়নডার্থাল মানুষের উপর একটি কেসস্টাডি নিয়ে।
রেফারেন্স:
১. http://en.wikipedia.org/wiki/Human_genetic_variation
২. http://en.wikipedia.org/wiki/Mutation
আরো দেখুন:
১. হিডেন মার্কভ মডেল বায়োইনফরমেটিক্সে প্রায়ই ব্যবহৃত হয়
২. ডিএনএ বিবর্তন ব্যাখ্যা করার ক্ষেত্রে কিভাবে মার্কভের নীতি কাজে লাগে
৩. নানা রকম মিউটেশনের মাধ্যমে কিভাবে ডিএনএর বিবর্তন হয়
বায়োইনফরমেটিক্স পরিচিতি – লেকচার ৪.১ শিক্ষক পরিচয়
আমি আরাফাত রহমান। ঢাকা বিশ্ববিদ্যালয়ে অণুজীববিজ্ঞান চতুর্থবর্ষের ছাত্র। বায়ো-বায়ো-১ এ বায়োইনফরমেটিক্স শেখা এবং চর্চা। একটি ভাইরাসের জিনোটাইপিং টুল ডেভলপ করছি। অনুসন্ধিৎসু চক্রের সদস্য। বিজ্ঞান বিষয়ক গ্রুপব্লগ চালাই, বিজ্ঞানব্লগ.কম। রাত্রিসঙ্গী বাঁশি।