Sequence Alignment
আজ আমরা অন্য রকম একটা গল্প দিয়ে আমাদের যাত্রা শুরু করব। আমরা সবাই জানি কবিগুরু রবীন্দ্রনাথ ঠাকুরের নোবেল প্রাইজ মেডেলটা চুরি হয়ে গেছে। ধরুন সেটা খুঁজে পাওয়া গেল। খুঁজে পাওয়া মেডেলটা আসলেই হারানো মেডেল কিনা সেটা আমরা বুঝব কিভাবে? খুব ভালো উপায় হল, যদি সেটা অন্য একটা নোবেল মেডেলের মিলিয়ে দেখা হয় তবে খুব সহজেই বুঝতে পারা যাবে। যেই মেডেলটার সাথে আমরা মিলিয়ে দেখব সেটাকে আমরা রেফারেন্স মেডেল ধরে খুঁজে পাওয়া মেডেলটাকে নিয়ে পরিক্ষা নিরীক্ষা করলে তখন নিম্নের যে কোন একটা সিধান্ত উপনীত হতে পারবঃ
১। আসল মেডেল (১০০% মিল আছে)
১। নকল মেডেল (কোন মিল নেই)
৩। আসল নাকি নকল সেটা বুঝা যাচ্ছে না (মেডেলটা যেহেতু অনেক হাত ঘুরে এসেছে, তাই হয়ত তার রঙটা একটু ফিকে হয়ে গেছে বা দুই একটা স্থানে ট্যাব খেয়ে গেছে)। এক্ষেত্রে দেখতে হবে, মিল নাকি অমিল – কোনটার দিক বেশি ভারী।গল্প থেকে আসি একটু অন্য দিকে।
আমরা এমনিতেই জৈব ডেটার (biological data) সমুদ্রে হাবুডুবু খাচ্ছি। উপরন্তু প্রতিদিন নূতন নূতন ডেটা তৈরি হচ্ছে। ধরুন, আপনি ল্যাবে কিছু ব্যাকটেরিয়ার ডি.এন.এ সিকুএন্সিং (সিকুএন্সিং করা মানে হল, A,T, C, G এই চারটা বর্ণমালা কিভাবে ক্রমসোমে সাজানো আছে সেটা নির্ণয় করা)করেছেন কিন্তু এইগুলো আসলে কোন ধরনের ব্যাকটেরিয়া তা আপনি জানেন না। মানে হল, তাদের পরিচয় আপনি জানেন না। সেটা জানার উপায় হল, যদি সেইগুলোর সিকুয়েন্সকে এমন কিছু ব্যাকটেরিয়ার সিকুয়েন্সের সাথে তুলনা করেন যাদের পরিচয় আমাদের জানা। যাদের পরিচয় আমরা জানি, তাদেরকে আমরা রেফারেন্স হিসেবে ধরে নিচ্ছি। ধরুন,
রেফারেন্স সিকুয়েন্সঃ “ATGCGTACGTGTCATACTGACGTACGTTGAGTA”
ল্যাব থেকে পাওয়া একটা সিকুয়েন্সঃ “ATGCGAACCATTCATACACGCTT”
উপরের গল্পের মত এখন মিলিয়ে দেখতে হবে, কোন মিল আছে নাকি? যদি মিল থাকলে, তবে কতটুকু মিল আছে, কোন কোন জায়গায় মিল আছে। মিল খুঁজে বের করার প্রক্রিয়াকে ক্রম প্রান্তিকরণ (Sequence Alignment ) বলা হয়। সুতরাং, ক্রম প্রান্তিকরণ (Sequence Alignment ) হচ্ছে একটা প্রক্রিয়া যার মাধ্যমে ডি.এন.এ বা আর.এন.এ বা প্রোটিনের দুই বা ততোধিক ক্রম বা সিকুয়েন্স (sequence) এর মধ্যে কোন মিল/সাদৃশ্য আছে কিনা সেটা দেখা হয়। ক্রমান্বয়ে সাজানোর উদ্দেশ্য হলঃ
সিকুয়েন্সগুলোর মধ্যে গাঠনিক (structural) বা কার্যগত (functional) মিল আছে কিনা। এমনও তো হতে পারে যে, দুইটা সিকুয়েন্স এর সৃষ্টির সময় একই রকম ছিল কিন্তু সময়ের সাথে সাথে সেটা পরিবর্তন হয়ে দুইটা ভিন্ন চেহারা ধারণ করেছে। যাকে আমরা বলি বিবর্তন (evolution)। সেটা খুঁজে বের করার জন্যও এলাইন করা হয়।
আসুন, আমরা একটু প্রোটিন সম্পর্কে জেনে নেই। মানবদেহের প্রায় তিন চতুর্থাংশ প্রোটিন দিয়ে তৈরি। প্রোটিন আবার ২০টি বর্ণমালা দিয়ে গঠিত যাদের আমরা অ্যামিনো অ্যাসিড নামে চিনি। নিচের ছবিতে শিম্পাঞ্জি, ঘোড়া, ইঁদুর (mouse) আর মানুষের প্রোটিনের মিল খোঁজার চেষ্টা করা হয়েছেঃ
ছবি ১: চিত্রে চার প্রজাতি থেকে পাওয়া একটি প্রোটিনের 1 হতে 148 পর্যন্ত অ্যামিনো অ্যাসিড সিকুয়েন্স এলাইন (প্রান্তিকরণ)করা হয়েছে। মিলে যাওয়া পজিশনগুলোকে একই রং দিয়ে দেখান হয়েছে। “-“ দ্বারা গ্যাপ বুঝানো হয়েছে অর্থাৎ সেই পজিশনের অ্যামিনো অ্যাসিডটা কালের বিবর্তনে হারায়ে গেছে বা যোগ হয়েছে। এলাইন করার পর সেইগুলোকে বার ডায়াগ্রাম () দ্বারা দেখানো হয়েছে।
সিকুয়েন্স প্রান্তিকরণের ধরণ (Types of Sequence Alignment):
১। স্থানীয় সারিবদ্ধকরণ (Local Alignment)
২। সামগ্রিক সারিবদ্ধকরণ (Global Alignment)
স্থানীয় সারিবদ্ধকরণ (Local Alignment):
ধরুন, ল্যাব থেকে আমরা ছোট্ট একটা সিকুয়েন্স পেলামঃ LS = “ACGT” আর রেফারেন্স সিকুয়েন্স হলঃ RS =”AACACGTGTCT”
এটাকে এখন রেফারেন্স সিকুয়েন্সের সাথে এলাইন করতে হবে। কিন্তু কিভাবে করব? দুইটা তো দুই দৈর্ঘ্যের সিকুয়েন্স। আমরা যদি দেখি, LS টা RS এর কোন অংশের সাথে মিলছে কিনা?
LS = – – – ACGT – – – –
RS= AACACGTGTCT
এখানে বড় ক্রম কনটেক্স এর মধ্যে ছোট ক্রম কনটেক্স এর সাদৃশ্য বা অনুরুপক্রম খুঁজে বের করা হয়েছে। এই ধরনের সারিবদ্ধকরণকে স্থানীয় সারিবদ্ধকরণ (Local alignment) বলা হয়। এককথায় বলা যায়, স্থানীয় সারিবদ্ধকরণ হলো সিকোয়েন্সগুলোর মধ্যে ছোট ছোট অংশের মধ্যে মিল খুঁজে বের করা। স্থানীয় সারিবদ্ধকরণ পদ্ধতিটি Smith Waterman Algorithm এর উপর প্রতিষ্ঠিত।
ভিডিওঃ সাময়িক অসুবিধার জন্য ভিডিও আপাতত দেখতে পারবেন না বলে আমরা দুঃখিত। দুই-এক দিন এর মধ্যেই ভিডিও এর লিঙ্ক পেয়ে যাবেন বলে আশা করি।
সামগ্রিক সারিবদ্ধকরণ (Global Alignment):
LS = A-C–GT – – – |
RS= AACACGTGTCT
বা
LS = A-C–G–T–
RS= AACACGTGTCT
বা
LS = A-C–G—- T
RS= AACACGTGTCT
বা আরও অনেক কিছু
যে প্রক্রিয়ায় পুরো sequence এর মধ্যে মিল খুঁজে বের করা হয় তাকে সামগ্রিক সারিবদ্ধকরণ বলা হয়। তবে যদি দুটি সিকুয়েন্স প্রায় একই দৈর্ঘ্যের হয় তবে সেক্ষেত্রে সামগ্রিক সারিবদ্ধকরণ করা হয়।
যদি দুটো সিকোয়েন্স এর দৈর্ঘ্য যথাক্রমে m এবং n হয় তবে আমরা একটি Matrix define করতে পারি যার Dimension হবে m+1 এবং n+1। সামগ্রিক সারিবদ্ধকরণ পদ্ধতিটি Needleman-wunsch Algorithm এর উপর প্রতিষ্ঠিত, যা আমরা ভিডিও এর মাধ্যমে তুলে ধরার চেষ্টা করব।
ভিডিওঃ সাময়িক অসুবিধার জন্য ভিডিও আপাতত দেখতে পারবেন না বলে আমরা দুঃখিত। দুই-এক দিন এর মধ্যেই ভিডিও এর লিঙ্ক পেয়ে যাবেন বলে আশা করি।
লোকাল আর গ্লোবাল এলাইনমেন্ট এর মধ্যে পার্থক্যঃ লোকাল এলাইনমেন্টঃ বড় সিকুয়েন্সের মধ্যে ছোট সিকুয়েন্স এর বেস্ট সাদৃশ্য খুঁজে বের করা।
গ্লোবাল এলাইনমেন্টঃ পুরো সিকুয়েন্সের মধ্যে সাদৃশ্য খুঁজে বের করা। |
আবার, একসাথে কতকগুলো সিকোয়েন্সকে এলাইন তার উপর ভিত্তি করে এর উপর ভিত্তি করে এলাইনমেন্টকে দুই ভাগে ভাগ করা যায়ঃ
১। জোড়ায় জোড়ায় সারিবদ্ধকরণ /Pariwise Alignment
২। অনেকগুলো একসাথে সারিবদ্ধকরণ / Multiple Sequence Alignment
জোড়ায় জোড়ায় সারিবদ্ধকরণ (Pairwise Alignment):
যখন শুধুমাত্র দুটি সিকোয়েন্সের মধ্যে এলাইনমেন্ট করা হয়, তখন তাকে Pairwise Alignment বলে। এখানে একইসাথে Global এলাইনমেন্টও চালানো যায়।যার ফলে সিকোয়েন্স দুটির মধ্যে gapped regionও খুঁজে বের করা সম্ভব হয়।
ছবি ২: জোড়ায় জোড়ায় সারিবদ্ধকরণ
অনেকগুলো একসাথে সারিবদ্ধকরণ (Multiple Sequence alignment):
যখন তিন বা তার চেয়ে বেশি সিকোয়েন্সের মধ্যে এলাইনমেন্ট করা হয় , তখন তাকে Multiple Sequence Alignment বলে। এখানে একইসাথে Global এলাইনমেন্টও করা যায়।যার ফলে সিকোয়েন্স দুটির মধ্যে gapped and ungapped region গুলো বের করা সম্ভব হয়।
ছবি ৩: এখানে ৩৫টি সিকুয়েন্স এলাইন করা হয়েছে।
BLAST tutorial: সাময়িক অসুবিধার জন্য ভিডিও আপাতত দেখতে পারবেন না বলে আমরা দুঃখিত। দুই-এক দিন এর মধ্যেই ভিডিও এর লিঙ্ক পেয়ে যাবেন বলে আশা করি।
লেখক পরিচিতিঃ
আমি রবিউল ইসলাম। ঢাকা বিশ্ববিদ্যালয় এর কম্পিউটার সায়েন্স এন্ড ইঞ্জিনিয়ারিং বিভাগের চতুর্থ বর্ষের ছাত্র।
Bio-Bio-1 এর সাথে গত এক বছর যাবত কাজ করে যাচ্ছি। পাশাপাশি Software developer হিসেবে একটা Software industry তে কাজ করছি।
এই লেকচার তৈরিতে সাহায্য করার জন্য ফারজানা খাতুন আপুকে অশেষ ধন্যবাদ।