[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]
তুলনামূলক অবস্থান ও z-score (Relative standing and z-score)
এনায়েতুর রহীম
এ পর্বে যা থাকছে
আজকের আলোচনার বিষয় z-score. এর মাধ্যমে ড্যাটার কোন একটি সংখ্যার তুলনামুলক অবস্থান নির্ণয় করা যায়। z-score বের করে ড্যাটাকে স্ট্যান্ডারডাইজ করা হয়।
পূর্বালোচনা
গত পর্বে আমরা ভ্যারিয়েশন ও তার পরিমাপ সম্পর্কে জেনেছিলাম। ভেদের পরিমাপ হিসেবে আমরা ভ্যারিয়্যান্স, স্ট্যান্ডার্ড ডেভিয়েশন ও রেঞ্জ সম্পর্কে আলোচনা করেছিলাম।
তুলনামূলক অবস্থান কী?
কেন্দ্রীয় প্রবণতার পরিমাপ হিসেবে আমরা গড় কি তা জানি। আবার ভেদের পরিমাপ হিসেবে ভ্যারিয়্যান্স এবং পরিমিত ব্যবধান বা Standard deviation সম্পর্কেও জানি। গড় কোন ড্যাটার কেন্দ্র কোথায় তা নির্দেশ করে। পরিমিত ব্যবধানের মাধ্যমে কোন ড্যাটায় সংখ্যাগুলো কেন্দ্রীয় সংখ্যা (গড়) থেক গড়ে কত দূরে অবস্থান করছে সেটা আমরা জানতে পারি। এই দুটি পরিমাপ জানা থাকলে কোন ড্যাটা সম্পর্কে আমরা আরো বেশি তথ্য বের করে আনতে পারি। কিভাবে সেটা করা যায় এ পর্বে সেটা নিয়ে আলোচনা করবো।
প্রথমেই একটি উদাহরণ চিন্তা করি।
ধরা যাক একজন ছাত্রের ফাইনাল পরীক্ষায় দুটি বিষয়ের প্রাপ্ত নম্বর এরকম।
গণিত ৮০
ইংরেজী ৭০
প্রতিটি বিষয়ের মোট নম্বর ১০০. আমরা যদি জানতে চাই ছাত্রটি কোন বিষয়ে তুলনামূলকভাবে ভালো করেছে তাহলে সেটা কিভাবে আমরা জানতে পারবো? সাধারণত আমরা এ ক্ষেত্রে যেটা করি তা হলো ছাত্রটির প্রাপ্ত নম্বরকে প্রতিটি বিষয়ের সর্বোচ্চ নাম্বারের সাথে তুলনা করি। অর্থাৎ ছাত্রটি সর্বোচ্চ নম্বরের কত কাছে বা দূরে আছে তার ভিত্তিতে বলতে পারি সে প্রতিটি বিষয়ে কেমন করেছে।
আরেকটি ভাবে আমরা তুলনাটি করতে পারি। সেটি হলো ছাত্রটি প্রতিটি বিষয়ের গড় নম্বর থেকে কত উপরে বা নিচে আছে সেটা বের করতে পারি। অর্থাৎ বিষয়ভিত্তিক গড় নম্বরের সাথে তার প্রাপ্ত নম্বরের একটা তুলনার মাধ্যমে তার পারফরমেন্স আমরা নির্ণয় করতে পারি। নিচের সারণি দেখুন।
প্রাপ্ত নম্বর | গড় নম্বর | সিদ্ধান্ত |
গণিত ৮০ | ৮৫ | গড় থেকে ৫ নম্বর কম (ভালো করেছে) |
ইংরেজী ৭০ | ৭৬ | গড় থেকে ৬ নম্বর কম |
এভাবে তুলনা করে আমরা ছাত্রটির পারফরমেন্সের তুলনামূলক একটা চিত্র পাই, কিন্তু পুরোপুরি ধারণা পাই না। কেননা প্রতিটি বিষয়ের প্রাপ্ত নম্বরের মধ্যে ভ্যারিয়েশন কেমন সেটা একটা গুরুত্বপূর্ণ বিষয় (এ বিষয়ে আমরা গত পর্বে জেনেছি). লক্ষ্য করলে দেখতে পাই তিনটি বিষয়ের প্রতিটির মোট নম্বর ১০০ হলেও তাদের গড় কিন্তু এক নয়। তাই এভাবে গড়ের সাথে তুলনা করে ছাত্রটি গণিতে বেশী ভালো করেছে নাকি ইংরেজীতে বেশী ভালো করেছে তা সঠিকভাবে বলা যাবে না।
গড়ের সাথে তুলনার এই সমস্যা থেকে পরিত্রাণের জন্য আমরা তুলনার সময় পরিমিত ব্যবধানকেও ব্যবহার করব। আমরা প্রতিটি নম্বর সেই বিষয়ের গড় থেকে কত দূরে আছে তা বের করে পরিমিত ব্যবধান দিয়ে ভাগ করব। এর ফলে আমরা যে দূরত্ব পাবো তার একক হবে পরিমিত ব্যবধান। অর্থাৎ প্রতি পরিমিত ব্যবধানে ছাত্রটি গড় থেকে কত দূরে অবস্থান করছে সেটা অনেক ভালো একটি পরিমাপ। ব্যাপারটা ভালোভাবে বোঝার জন্য নিচের উদাহরণটি লক্ষ্য করি।
ধরি গণিতের গড় ৮৫ এবং পরিমিত ব্যবধান (standard deviation) ২.৫. তাহলে ছাত্রটি গড় থেকে (৮০-৮৫= -৫) পাঁচ নম্বর নিচে অবস্থান করছে। এটিকে যদি পরিমিত ব্যবধান (২.৫) দিয়ে ভাগ দেই তাহলে আমরা দেখি যে ছাত্রটি গড় থেকে ২ পরিমিত ব্যবধান নিচে অবস্থান করছে। গড়ের সাথে তুলনা করে পরিমিত ব্যবধানের ইউনিটে প্রকাশ করার এই প্রক্রিয়াকে তুলনামূলক অবস্থান বা relative standing বলে। আর এভাবে প্রাপ্ত তুলনামূলক অবস্থানকে জেড-স্কোর (z-score) (আমেরিকায় জি-স্কোর) বলে।
z-score বের করার সূত্রটি হলো:
অর্থাৎ ছাত্রাটির গণিতের z-score হলো
(৮০-৮৫)/২.৫ = -৫/২.৫ = -২ (নেগেটিভ ২)
অর্থাৎ ছাত্রটি গড় থেকে ২ পরিমিত ব্যবধান নিচে অবস্থান করছে।
এখন আমরা নিচের সারণিতে পরিমিত ব্যবধান বিবেচনা করে দুটি বিষয়ের প্রাপ্ত নম্বরের z-score বের করে দেখবো ছাত্রটি আসলে কোনটিতে কেমন করেছে।
প্রাপ্ত নম্বর | গড় নম্বর | পরিমিত ব্যবধান (Standard deviation) | জেড-স্কোর (z-score) | আগের সিদ্ধান্ত | নতুন সিদ্ধান্ত |
গণিত ৮০ | ৮৫ | ২.৫ | -২ | গড় থেকে ৫ নম্বর কম (ভালো করেছে) | গড় থেকে ২ পরিমিত ব্যবধান নিচে |
ইংরেজী ৭০ | ৭৬ | ৬ | -১ | গড় থেকে ৬ নম্বর কম | গড় থেকে ১ পরিমিত ব্যবধান নিচে (ভালো করেছে) |
তাহলে আমরা দেখলাম গণিতে গড় থেকে ৫ নম্বর কম এবং ইংরেজীতে গড় থেকে ৬ নম্বর কম পেলেও ছাত্রটি তুলনামুলক ভাবে ইংরেজীতে বেশী ভালো করেছে। কারণ পরিমিত ব্যবধানের বিবেচনায় ছাত্রটি ইংরেজীতে মাত্র ১ ইউনিট নিচে আছে। অন্যদিকে গণিতের ক্ষেত্রে সে ২ ইউনিট নিচে অবস্থান করছে।
তাহলে আমরা দেখলাম ছাত্রটি তুলনামূলকভাবে গণিতের তুলনায় ইংরেজীতে বেশি ভালো করেছে।
z-score ও standardization
z-score বের করার এই পদ্ধতি যখন ড্যাটার সবগুলো সংখ্যার উপর প্রয়োগ করা হয় তখন আমরা একটা নতুন ড্যাটা পাই। এই নতুন ড্যাটাকে স্ট্যান্ডারডাইজড (standardized) ড্যাটা বলে। স্ট্যান্ডারডাইজেশনের মাধ্যমে প্রাপ্ত ড্যাটাকে অন্য আরেকটি স্ট্যান্ডারডাইজড ড্যাটার সাথে তুলনা করা যায়। নিচের উদাহরণের মাধ্যমে আমরা তুলনার ব্যাপারটা বোঝার চেষ্টা করি।
ধরা যাক আপনি বাংলাদেশের একটি খ্যাতনামা বিশ্ববিদ্যালয়ের ‘ঞ’ বিষয় থেকে পড়াশুনা শেষ করেছেন। আপনার বন্ধুটি আরেকটি খ্যাতনামা বিশ্ববিদ্যালয়ের ‘ঙ’ বিষয় থেকে পড়াশুনা শেষ করেছেন। এরপর কর্মক্ষেত্রে দুজনই বেশ সাফল্য অর্জন করেছেন। দুজনের পড়াশুনার বিষয় ভিন্ন ভিন্ন। বাৎসরিক আয়ের পরিমানও ভিন্ন। নিচের সারণিতে আপনাদের দুজনের বাৎসরিক আয়ের পরিমান, প্রতিটি ফিল্ডের পেশার গড় বাৎসরিক আয় ও স্ট্যান্ডার্ড ডেভিয়েশন দেয়া হল।
বিষয় | বাৎসরিক আয় | গড় | স্ট্যান্ডার্ড ডেভিয়েশন |
ঞ (আপনি) | ২৪ লাখ | ২০ লাখ | ৫.০ লাখ |
ঙ (বন্ধু) | ২০ লাখ | ১৮ লাখ | ১.৫ লাখ |
আমাদের উদ্দেশ্য হলো আপনাদের দুজনের আয়ের তুলনা করা।
প্রথমেই লক্ষ্য করুন যে দুজনের বিষয় আলাদা আর তাই সরাসরি তুলনা করাটা সঠিক হবে না। আমরা যেহেতু দুধরনের পেশার জন্য বাৎসরিক গড় আয় ও তার স্ট্যান্ডার্ড ডেভিয়েশন জানি, সেজন্য দুজনের আয়ের তুলনা করতে আমরা z-score ব্যবহার করতে পারি।
নিচের সারণিতে আমরা দুজনের আয়ের তুলনামূলক অবস্থান দেখি।
বিষয় | বাৎসরিক আয় | পেশায় গড় আয় | স্ট্যান্ডার্ড ডেভিয়েশন | z-score |
ঞ (আপনি) | ২৪ লাখ | ২০ লাখ | ৫.০ লাখ | (২৪-২০)/৫ = ০.৮ |
ঙ (বন্ধু) | ২০ লাখ | ১৮ লাখ | ১.৫ লাখ | (২০-১৮)/১.৫ = ১.৩ |
আমরা দেখতে পেলাম আপনি বন্ধুর চেয়ে বছরে ৪ লাখ বেশি আয় করলেও তুলনামুলক বিচারে আপনি তার থেকে নিচে অবস্থান করছেন। অর্থাৎ আপনার ফিল্ডে আপনি অন্যদের তুলনায় অনেক কম আয় করছেন। অপরদিকে আপনার বন্ধু তার ফিল্ডে তুলনামুলকভাবে অনেক বেশী আয় করছেন।
z-score ও বালির ঢিবি
পরিসংখ্যানে এই z-score এর গুরুত্ব অপরিসীম। সেটা আমরা আস্তে আস্তে বুঝতে পারবো। বিশেষ করে যখন হাইপোথিসিস টেস্ট করব তখন।
z-score প্রায় সব ধরনের ড্যাটার ক্ষেত্রেই ব্যবহার করা যায়। তবে বালির ঢিবির আকৃতির ড্যাটা যেটি প্রায় প্রতিসম (symmetric) সেরকম ড্যাটার জন্য এটি সবচেয়ে কার্যকর। z-score এর মান নেগেটিভ অসীম থেকে পজিটিভ অসীম পর্যন্ত হতে পারে। অর্থাৎ z-score = – ১০ হতে পারে আবার z-score = ৫ হতে পারে। কোন ড্যাটা ডিস্ট্রিবিউশনের শেইপ যদি প্রতিসম এবং বালির ঢিবির আকৃতির হয় তাহলে সেই ড্যাটার প্রায় ৬৮% সংখ্যার z-score -১ থেকে +১ এর মধ্যে হয়, ৯৫% সংখ্যার z-score -২ থেকে +২ এর মধ্যে হয়, আর প্রায় ৯৯% সংখ্যার z-score হয় -৩ থেকে + ৩ এর মধ্যে।
z-score ও Empirical Rule
z-score এর ধারণা ব্যবহার করে আমরা কোন ড্যাটার সংখ্যাগুলো সম্পর্কে একটা ধারণা করতে পারি। ড্যাটার শেইপ যদি বালির ঢিবি আকৃতির এবং প্রতিসম হয় তাহলে সেই ড্যাটার গড় এবং স্ট্যান্ডার্ড ডেভিয়েশন ব্যবহার করে আমরা Empirical Rule ব্যবহার করে এটা করতে পারি। Empirical Rule হল:
ড্যাটার শেইপ যদি বালির ঢিবির মত হয় আর সেটি যদি প্রায় প্রতিসম হয় (প্রতিসম হলে খুবই ভাল) তাহলে—
১) প্রায় ৬৮% সংখ্যা (গড় – ১ স্ট্যান্ডার্ড ডেভিয়েশন) থেকে (গড় + ১ স্ট্যান্ডার্ড ডেভিয়েশন) এই ইন্টারভালের মধ্যে থাকে।
২) প্রায় ৯৫% সংখ্যা (গড় – ২ স্ট্যান্ডার্ড ডেভিয়েশন) থেকে (গড় + ২ স্ট্যান্ডার্ড ডেভিয়েশন) এই ইন্টারভালের মধ্যে থাকে।
১) প্রায় ৯৯.৭% সংখ্যা (গড় – ৩ স্ট্যান্ডার্ড ডেভিয়েশন) থেকে (গড় + ৩ স্ট্যান্ডার্ড ডেভিয়েশন) এই ইন্টারভালের মধ্যে থাকে।
উদাহরণ
বাংলাদেশের ২৫-৪৯ বছর বয়সি মেয়েদের গড় উচ্চতা প্রায় ৫৯ ইঞ্চি[1]। ধরা যাক এই উচ্চতার স্ট্যান্ডার্ড ডেভিয়েশন ২ ইঞ্চি। তাহলে এমপিরিক্যাল নিয়ম ব্যবহার করে আমরা বলতে পারি—
যত স্ট্যান্ডার্ড ডেভিয়েশন | ইন্টারভাল | এই উচ্চাতার মেয়েদের শতকরা সংখ্যা |
১ | (৫৯ – ১×২, ৫৯ + ১×২) = (৫৭, ৬১) | ৬৮% |
২ | (৫৯ – ২×২, ৫৯ + ২×২) = (৫৫, ৬৩) | ৯৫% |
৩ | (৫৯ – ৩×২, ৫৯ + ৩×২) = (৫৩, ৬৫) | ৯৯.৭% |
২৫-৪৯ বছর বয়সী প্রায় ৬৮% মেয়েদের উচ্চতা ৫৭ ইঞ্চি থেকে ৬১ ইঞ্চির মধ্যে; প্রায় ৯৫% মেয়েদের উচ্চতা ৫৫ থেকে ৬৩ ইঞ্চির মধ্যে; আর প্রায় ৯৯.৭% মেয়েদের উচ্চতা ৫৩ থেকে ৬৫ ইঞ্চির মধ্যে।
আগের লেকচার-এর লিংক
লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা
লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)
লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ
লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ
লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ
1 ping
পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events
জুন 2, 2013 at 3:48 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৭ – তুলনামূলক অবস্থান ও z-score […]