«

»

অক্টো. 15

বায়োইনফরমেটিক্স পরিচিতি: লেকচার-৩: ক্রমবিন্যাসকে সারিবদ্ধকরণ/ সাজানো (Sequence alignment)

­

কোর্সের মূল পাতা

Sequence Alignment

আজ আমরা অন্য রকম একটা গল্প দিয়ে আমাদের যাত্রা শুরু করব। আমরা সবাই জানি কবিগুরু রবীন্দ্রনাথ ঠাকুরের নোবেল প্রাইজ মেডেলটা চুরি হয়ে গেছে। ধরুন সেটা খুঁজে পাওয়া গেল। খুঁজে পাওয়া মেডেলটা আসলেই হারানো মেডেল কিনা সেটা আমরা বুঝব কিভাবে? খুব ভালো উপায় হল, যদি সেটা অন্য একটা নোবেল মেডেলের মিলিয়ে দেখা হয় তবে খুব সহজেই বুঝতে পারা যাবে। যেই মেডেলটার সাথে আমরা মিলিয়ে দেখব সেটাকে আমরা রেফারেন্স মেডেল ধরে খুঁজে পাওয়া মেডেলটাকে নিয়ে পরিক্ষা নিরীক্ষা করলে তখন নিম্নের যে কোন একটা সিধান্ত উপনীত হতে পারবঃ

১। আসল মেডেল (১০০% মিল আছে)

১। নকল মেডেল (কোন মিল নেই)

৩। আসল নাকি নকল সেটা বুঝা যাচ্ছে না (মেডেলটা যেহেতু অনেক হাত ঘুরে এসেছে, তাই হয়ত তার রঙটা একটু ফিকে হয়ে গেছে বা দুই একটা স্থানে ট্যাব খেয়ে গেছে)। এক্ষেত্রে দেখতে হবে, মিল নাকি অমিল – কোনটার দিক বেশি ভারী।গল্প থেকে আসি একটু অন্য দিকে।

আমরা এমনিতেই জৈব ডেটার (biological data) সমুদ্রে হাবুডুবু খাচ্ছি। উপরন্তু প্রতিদিন নূতন নূতন ডেটা তৈরি হচ্ছে। ধরুন, আপনি ল্যাবে কিছু ব্যাকটেরিয়ার ডি.এন.এ সিকুএন্সিং (সিকুএন্সিং করা মানে হল, A,T, C, G এই চারটা বর্ণমালা কিভাবে ক্রমসোমে সাজানো আছে সেটা নির্ণয় করা)করেছেন কিন্তু এইগুলো আসলে কোন ধরনের ব্যাকটেরিয়া তা আপনি জানেন না। মানে হল, তাদের পরিচয় আপনি জানেন না। সেটা জানার উপায় হল, যদি সেইগুলোর সিকুয়েন্সকে এমন কিছু ব্যাকটেরিয়ার সিকুয়েন্সের সাথে তুলনা করেন যাদের পরিচয় আমাদের জানা। যাদের পরিচয় আমরা জানি, তাদেরকে আমরা রেফারেন্স হিসেবে ধরে নিচ্ছি। ধরুন,

রেফারেন্স সিকুয়েন্সঃ                   “ATGCGTACGTGTCATACTGACGTACGTTGAGTA

ল্যাব থেকে পাওয়া একটা সিকুয়েন্সঃ        “ATGCGAACCATTCATACACGCTT

উপরের গল্পের মত এখন মিলিয়ে দেখতে হবে, কোন মিল আছে নাকি? যদি মিল থাকলে, তবে কতটুকু মিল আছে, কোন কোন জায়গায় মিল আছে। মিল খুঁজে বের করার প্রক্রিয়াকে ক্রম প্রান্তিকরণ (Sequence Alignment ) বলা হয়। সুতরাং, ক্রম প্রান্তিকরণ (Sequence Alignment ) হচ্ছে একটা প্রক্রিয়া যার মাধ্যমে ডি.এন.এ বা আর.এন.এ বা প্রোটিনের দুই বা ততোধিক ক্রম বা সিকুয়েন্স (sequence) এর মধ্যে কোন মিল/সাদৃশ্য আছে কিনা সেটা দেখা হয়। ক্রমান্বয়ে সাজানোর উদ্দেশ্য হলঃ

সিকুয়েন্সগুলোর মধ্যে গাঠনিক (structural) বা কার্যগত (functional) মিল আছে কিনা। এমনও তো হতে পারে যে, দুইটা সিকুয়েন্স এর সৃষ্টির সময় একই রকম ছিল কিন্তু সময়ের সাথে সাথে সেটা পরিবর্তন হয়ে দুইটা ভিন্ন চেহারা ধারণ করেছে। যাকে আমরা বলি বিবর্তন (evolution)। সেটা খুঁজে বের করার জন্যও এলাইন করা হয়।

আসুন, আমরা একটু প্রোটিন সম্পর্কে জেনে নেই। মানবদেহের প্রায় তিন চতুর্থাংশ প্রোটিন দিয়ে তৈরি। প্রোটিন আবার ২০টি বর্ণমালা দিয়ে গঠিত যাদের আমরা অ্যামিনো অ্যাসিড নামে চিনি। নিচের ছবিতে শিম্পাঞ্জি, ঘোড়া, ইঁদুর (mouse) আর মানুষের প্রোটিনের মিল খোঁজার চেষ্টা করা হয়েছেঃ

ছবি ১: চিত্রে চার প্রজাতি থেকে পাওয়া একটি প্রোটিনের 1 হতে 148  পর্যন্ত অ্যামিনো অ্যাসিড সিকুয়েন্স এলাইন (প্রান্তিকরণ)করা হয়েছে। মিলে যাওয়া পজিশনগুলোকে একই রং দিয়ে দেখান হয়েছে। “-“ দ্বারা গ্যাপ বুঝানো হয়েছে অর্থাৎ সেই পজিশনের অ্যামিনো অ্যাসিডটা কালের বিবর্তনে হারায়ে গেছে বা যোগ হয়েছে। এলাইন করার পর সেইগুলোকে বার ডায়াগ্রাম () দ্বারা দেখানো হয়েছে।

সিকুয়েন্স প্রান্তিকরণের ধরণ (Types of Sequence Alignment):

১। স্থানীয় সারিবদ্ধকরণ (Local Alignment)

২। সামগ্রিক সারিবদ্ধকরণ (Global Alignment)

 

স্থানীয় সারিবদ্ধকরণ (Local Alignment):

ধরুন, ল্যাব থেকে আমরা ছোট্ট একটা সিকুয়েন্স পেলামঃ LS = “ACGT” আর রেফারেন্স সিকুয়েন্স হলঃ RS =”AACACGTGTCT”

এটাকে এখন রেফারেন্স সিকুয়েন্সের সাথে এলাইন করতে হবে। কিন্তু কিভাবে করব? দুইটা তো দুই দৈর্ঘ্যের সিকুয়েন্স। আমরা যদি দেখি, LS টা RS এর কোন অংশের সাথে মিলছে কিনা?

LS =        – – – ACGT – – – –

RS=        AACACGTGTCT

এখানে বড় ক্রম কনটেক্স এর মধ্যে ছোট ক্রম কনটেক্স এর সাদৃশ্য বা অনুরুপক্রম খুঁজে বের করা হয়েছে। এই ধরনের সারিবদ্ধকরণকে স্থানীয় সারিবদ্ধকরণ (Local alignment) বলা হয়। এককথায় বলা যায়, স্থানীয় সারিবদ্ধকরণ হলো সিকোয়েন্সগুলোর মধ্যে ছোট ছোট অংশের মধ্যে মিল খুঁজে বের করা। স্থানীয় সারিবদ্ধকরণ পদ্ধতিটি Smith Waterman Algorithm এর উপর প্রতিষ্ঠিত।

ভিডিওঃ  সাময়িক অসুবিধার জন্য ভিডিও আপাতত দেখতে পারবেন না বলে আমরা দুঃখিত। দুই-এক দিন এর মধ্যেই ভিডিও এর লিঙ্ক পেয়ে যাবেন বলে আশা করি।

সামগ্রিক সারিবদ্ধকরণ (Global Alignment):

 

LS =       A-C–GT – – –

RS=        AACACGTGTCT

বা

LS =       A-C–G–T–

RS=        AACACGTGTCT

বা

LS =    A-C–G—- T

RS=    AACACGTGTCT

বা আরও অনেক কিছু

 

 

যে প্রক্রিয়ায় পুরো sequence এর মধ্যে মিল খুঁজে বের করা হয় তাকে সামগ্রিক সারিবদ্ধকরণ বলা হয়। তবে যদি দুটি সিকুয়েন্স প্রায় একই  দৈর্ঘ্যের হয় তবে সেক্ষেত্রে সামগ্রিক সারিবদ্ধকরণ  করা হয়।

যদি দুটো সিকোয়েন্স এর দৈর্ঘ্য  যথাক্রমে m এবং  n  হয় তবে আমরা একটি  Matrix define  করতে পারি যার  Dimension হবে  m+1 এবং n+1।  সামগ্রিক সারিবদ্ধকরণ পদ্ধতিটি Needleman-wunsch Algorithm  এর উপর প্রতিষ্ঠিত, যা আমরা ভিডিও এর মাধ্যমে তুলে ধরার চেষ্টা করব।

ভিডিওঃ  সাময়িক অসুবিধার জন্য ভিডিও আপাতত দেখতে পারবেন না বলে আমরা দুঃখিত। দুই-এক দিন এর মধ্যেই ভিডিও এর লিঙ্ক পেয়ে যাবেন বলে আশা করি।

 

লোকাল আর গ্লোবাল এলাইনমেন্ট এর মধ্যে পার্থক্যঃ

লোকাল এলাইনমেন্টঃ বড় সিকুয়েন্সের মধ্যে ছোট সিকুয়েন্স এর বেস্ট সাদৃশ্য খুঁজে বের করা।

 

গ্লোবাল এলাইনমেন্টঃ পুরো সিকুয়েন্সের মধ্যে সাদৃশ্য খুঁজে বের করা।

 

আবার, একসাথে কতকগুলো সিকোয়েন্সকে এলাইন তার উপর ভিত্তি করে এর উপর ভিত্তি করে এলাইনমেন্টকে দুই ভাগে ভাগ করা যায়ঃ

১। জোড়ায় জোড়ায় সারিবদ্ধকরণ /Pariwise Alignment

২। অনেকগুলো একসাথে সারিবদ্ধকরণ / Multiple Sequence Alignment

 

জোড়ায় জোড়ায় সারিবদ্ধকরণ (Pairwise Alignment):

যখন শুধুমাত্র দুটি সিকোয়েন্সের মধ্যে এলাইনমেন্ট করা হয়, তখন তাকে Pairwise Alignment বলে। এখানে একইসাথে Global এলাইনমেন্টও চালানো যায়।যার ফলে সিকোয়েন্স দুটির মধ্যে gapped regionও খুঁজে বের করা সম্ভব হয়।

ছবি ২: জোড়ায় জোড়ায় সারিবদ্ধকরণ

 

অনেকগুলো একসাথে সারিবদ্ধকরণ (Multiple Sequence alignment):

যখন  তিন বা তার চেয়ে বেশি সিকোয়েন্সের মধ্যে এলাইনমেন্ট করা হয় , তখন তাকে Multiple Sequence Alignment বলে। এখানে একইসাথে Global এলাইনমেন্টও করা যায়।যার ফলে সিকোয়েন্স দুটির মধ্যে gapped and ungapped region গুলো বের করা সম্ভব হয়।

ছবি ৩: এখানে ৩৫টি সিকুয়েন্স এলাইন করা হয়েছে।

 BLAST tutorial: সাময়িক অসুবিধার জন্য ভিডিও আপাতত দেখতে পারবেন না বলে আমরা দুঃখিত। দুই-এক দিন এর মধ্যেই ভিডিও এর লিঙ্ক পেয়ে যাবেন বলে আশা করি।

লেখক পরিচিতিঃ

আমি রবিউল ইসলাম। ঢাকা বিশ্ববিদ্যালয় এর কম্পিউটার সায়েন্স এন্ড ইঞ্জিনিয়ারিং  বিভাগের চতুর্থ বর্ষের ছাত্র।

Bio-Bio-1 এর সাথে গত এক বছর যাবত কাজ করে যাচ্ছি। পাশাপাশি Software developer হিসেবে একটা Software industry তে কাজ করছি।

এই লেকচার তৈরিতে সাহায্য করার জন্য ফারজানা খাতুন আপুকে অশেষ ধন্যবাদ।

 

 

 

Comments

comments

About the author

বায়ো-বায়ো-১ রিসার্চ ফাউন্ডেশন

বায়ো-বায়ো-১ এর যাত্রা শুরু ২০০৮ সালের শেষের দিকে কয়েকজন বায়োইনফরমেটিকস উৎসাহী নিয়ে। জীববিজ্ঞান, কম্পিউটারবিদ্যা, গণিত সহ বিভিন্ন বিভাগের শিক্ষার্থী এবং কর্মজীবিদের মাঝে পাঠচক্রের মাধ্যমে বায়োইনফরমেটিকস শেখা, চর্চা এবং সত্যিকারের কাজ করা বায়ো-বায়ো-১ এর লক্ষ্য। বায়োইনফরমেটিকসের জ্ঞান ছড়িয়ে দেয়ার জন্য ২০১২ সালের শুরু থেকে ঢাকা বিশ্ববিদ্যালয়ের অণুপ্রাণ ও প্রাণরসায়ন বিভাগে প্রতি সপ্তাহেই একটি উন্মুক্ত আলোচনা ও প্রশিক্ষণ সভা বসে বায়ো-বায়ো-১ এর আয়োজনে। বর্তমানে ঢাকা বিশ্ববিদ্যালয়ের অণুপ্রাণ ও প্রাণরসায়ন বিভাগ এবং অনুজীববিজ্ঞান বিভাগের সাথে আমাদের সহযোগী গবেষণা প্রকল্প চলছে। আমাদের উইকি ঠিকানা । যোগ দিন আমাদের ফেসবুক গ্রুপে

Leave a Reply