[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]
কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ
এনায়েতুর রহীম
এ পর্বে যা থাকছে
কোন ড্যাটাকে একটি সংখ্যা বা সামারি স্ট্যাটিসটিকের (summary statistic) মাধ্যমে প্রকাশ করতে পারলে বেশ সুবিধা। ড্যাটাকে আমরা যদি চিত্রের মাধ্যমে দেখাই (যেমন হিস্টোগ্রাম) তাহলে দেখতে পাই যে সংখ্যাগুলো কোন একটি বিশেষ সংখ্যার দিকে ঝুঁকে পড়ে। ড্যাটার এই বৈশিষ্ট্যকে কেন্দ্রীয় প্রবণতা (Central tendency) বলে। কেন্দ্রীয় প্রবণতার পরিমাপগুলো হচ্ছে গড় (Mean), মধ্যক (Median) ও প্রচুরক (Mode)। এ পর্বে আমরা এসব নিয়ে আলোচনা করবো।
পূর্বালোচনা
গত পর্বে সংখ্যাবাচক চলক বা কোয়ান্টিটেটিভ ভ্যারিয়েবল (Quantitative variable) নিয়ে কাজ করেছিলাম। সংখ্যাবাচক চলকের ক্ষেত্রে সামারি স্ট্যাটিসটিক্স কিভাবে বের করে সেটা দেখিয়েছিলাম। মূলত হিস্টোগ্রাম আঁকা শিখেছিলাম এবং ড্যাটার শেইপ নিয়ে আলোচনা করেছিলাম। বলেছিলাম যে শেইপের ধারণাটি খুবই গুরুত্বপূর্ণ।
বালির ঢিবি দেখতে কেমন?
বালির ঢিবি দেখেছেন তো? দেখতে কেমন ভাবুন তো? পর্বতের মত, তাই তো? পর্বতের শেইপ বা আকার কেমন? আচ্ছা একটা ছবি দেখা যাক। নিচের ছবিটি মাউন্ট ফুজি’র।
সূত্র: উইকিমিডিয়া কমন্স। (ক্রপ করা হয়েছে)
ছবি থেকে আমরা পর্বতটির আকার জানতে পারছি। গত পর্বে আমরা ড্যাটা ডিস্ট্রিবিউশনের শেইপ নিয়ে কিছুটা আলোকপাত করেছিলাম। তা থেকে আমরা জানি মাউন্ট ফুজির শেইপ হল সিমেট্রিক বা প্রতিসম। আরেকটু ভালো ভাবে বোঝার জন্য ছবিটিকে আরেকটু পরিবর্তন করে দেই
বালির ঢিবির কথা বলছিলাম। আপনি যদি মুঠো মুঠো কিংবা বস্তা বস্তা বালি এনে ধীরে ধীরে এক জায়গায় ঢেলে দেন তাহলে একটা বালির ঢিবি তৈরী হবে। এবং সেই ঢিবিটির আকার দেখতে অনেকটা মাউন্ট ফুজি’র মত হবে।
কেন্দ্রীয় প্রবণতা (Central Tendency)
বালির ঢিবি বা মাউন্ট ফুজি’র আকার থেকে একটা বিষয় আমরা বুঝতে পারছি—সেটা হলো উভয়ই প্রতিসম। অর্থাৎ উভয়ের ছবি যদি কাগজে এঁকে ছবির মাঝ বরাবর কাল্পনিক একটি রেখা টানা হয় তাহলে দেখা যাবে প্রায় অর্ধেক অংশ রেখাটির বাম পাশে আর বাকি অর্ধেক রেখাটির ডান দিকে অবস্থান করছে। বালির ঢিবির ক্ষেত্রে প্রায় অর্ধেক বালি মাঝখানের কাল্পনিক রেখার একপাশে আর বাকি অর্ধেক বালি রেখাটির ডান পাশে থাকবে।
এখন প্রত্যেকটি বালু কণাকে যদি আমরা একেকটি ড্যাটা পয়েন্ট বা মেজারমেন্ট মনে করি (যেমন, বয়স), তাহলে আমরা দেখি যে অধিকাংশ ড্যাটা পয়েন্ট বা মেজারমেন্ট বালির ঢিবির মাঝখানে বা কেন্দ্রের কাছাকাছি অব্স্থান করছে। সে কারণেই বালির ঢিবিটি টেবিলের উপরিতলের মত সমতল না হয়ে মাঝখানে উঁচু হয়েছে। (মাউন্ট ফুজি’র ক্ষেত্রেও একই)।
এই যে বালুকণার বা মাউন্ট ফুজি’র ক্ষেত্রে শিলা খন্ডগুলোর মাঝ বরাবর জড়ো হওয়ার প্রবণতা একেই বলে কেন্দ্রীয় প্রবণতা বা সেন্ট্রাল টেন্ডেন্সি।
তো এই কেন্দ্রীয় প্রবণতাকে পরিমাপ করে এর মাধ্যমে আমরা কোন ড্যাটাকে সামারাইজ করতে পারি। কেন্দ্রীয় প্রবণতাকে সংখ্যার মাধ্যমে প্রকাশের জন্য পরিসংখ্যানে কিছু পরিমাপ বা measure ব্যবহার করা হয়। সেগুলো হচ্ছে –
- গড় বা গাণিতিক গড় (mean, arithmetic mean) (সবাইকে সমান ভাগে ভাগ করে দেয়া)
- মধ্যক (Median) (যেটি একেবারে মাঝখানে)
- প্রচুরক (Mode) (যেটি প্রচুর পরিমানে আছে অর্থাৎ যেটির ঘটন সংখ্যা সবচেয়ে বেশী)
এবারে আমরা এই মেজারগুলো আলোচনা করবো এবং কোথায় এগুলি ব্যবহার করা যায় সেটাও দেখবো।
গড় (Mean)
গড় আমরা প্রতিনিয়তই ব্যবহার করছি। যেমন আমরা প্রায়ই শুনি—গড়ে কত জন পাশ করেছে, বাংলাদেশের মানুষের গড় আয়ু কত বছর, আমাদের মাথাপিছু গড় আয় কত, ইত্যাদি। গড়ের ইংরেজী শব্দটাও আমরা ব্যবহার করি—যেমন, ছেলেটা একটা এ্যভারেজ ছাত্র। কিংবা বলি মেয়েটি এবাভ এ্যাভারেজ। এই যে “গড়” এবং “এ্যাভারেজ” শব্দ দুটি আমরা ব্যবহার করছি এর দ্বারা আমরা আসলে কী বোঝাতে চাইছি?
দেখা যাচ্ছে গড় এবং/বা এ্যাভারেজ শব্দ দুটিকে আমরা এক ধরনের সামারি বা সারাংশ হিসেবে ব্যবহার করছি। যখনই বলছি গড় আয়ু ৭০ বছর তখনই আমরা বুঝে নিচ্ছি এই “৭০” সংখ্যাটি একটি প্রতিনিধিত্বমূলক সংখ্যা যা দিয়ে আমরা জানতে পারছি যে বাংলাদেশের মানুষ কম বেশী ৭০ বছর বাঁচে। এর মানে হল কেউ ৬০ বছর বাঁচে আবার কেউ ৮০ বছর বাঁচে। আবার কেউ সত্তরের আশে পাশে বাঁচে। তাহলে গড়ে ৭০ বছর মানে কী দাঁড়াল? এটি একটি সংখ্যা যা দিয়ে আমরা এমন একটি বয়স বোঝাচ্ছি যে কেউ যদি অল্প বয়সে না মারা যেত আবার কেউ যদি ১০০ বছর বেঁচে না থাকতো তাহলে মোটামুটি তারা ৭০বছর বেঁচে থাকতো।
ব্যাপারটা সহজে বোঝা যাচ্ছে না। কিন্তু একটা বিষয় বোঝা যাচ্ছে যে এই একটি মাত্র সংখ্যা (৭০) যার মাধ্যমে আমরা বাংলাদেশের মানুষের আয়ু সম্পর্কে একটা ধারণা পাচ্ছি।
গড় মানে সবাইকে সমান ভাগে ভাগ করে দেয়া।
নিচের উদাহরণটি দেখুন। আমরা জানতে চাইছি আপনার চার বন্ধুর পকেটে গড়ে কত টাকা আছে।
প্রকৃত টাকার পরিমান | যেভাবে বন্টন করবেন | গড় টাকার পরিমান |
বন্ধু-১: ৩৫০ টাকা | বন্ধু-৪ থেকে ১৫০ টাকা নিন | ৫০০ টাকা |
বন্ধু-২: ২৫০ টাকা | বন্ধু-৪ থেকে ২৫০টাকা নিন | ৫০০ টাকা |
বন্ধু-৩: ৪০০ টাকা | বন্ধু-৪ থেকে ১০০ টাকা নিন | ৫০০ টাকা |
বন্ধু-৪: ১০০০ টাকা | বন্ধু-১, ২ ও ৩ কে যথাক্রমে ১৫০, ২৫০ ও ১০০ টাকা দিন | ৫০০ টাকা |
এই উদাহরণ থেকে আমরা দেখলাম গড় মানে হল (কাল্পনিক ভাবে) সবাইকে সমান ভাগে ভাগ করে দেয়া। গড় টাকার পরিমাণ হলো সমান ভাবে টাকা বন্টন করা হলে প্রত্যেকের কাছে যে পরিমাণ টাকা থাকতো সেটি। এখানে আপনার চার বন্ধুর প্রত্যেকের কাছে গড় টাকার পরিমাণ ৫০০ টাকা।
গড় কিভাবে বের করে
গড় বের করার জন্য সংখ্যাগুলোকে যোগ করে যত গুলো সংখ্যা আছে তা দিয়ে ভাগ দিতে হয়। বন্ধুদের কাছে গড় টাকার পরিমান বের করার জন্য প্রথমে চার জনের টাকা যোগ দেই: ৩৫০+২৫০+৪০০+১০০০ = ২০০০ টাকা। এর পর এটিকে ৪ দিয়ে ভাগ দেই: ২০০০/৪ = ৫০০ টাকা। ৪ দিয়ে ভাগ দিয়েছি কারণ চার জনের টাকার গড় বের করছি। যদি প্রথম তিন জনের টাকার গড় বের করতাম তাহলে আমরা প্রথম তিন জনের টাকার পরিমান যোগ করে তাকে ৩ দিয়ে ভাগ দিতাম। সেক্ষেত্রে গড় দাঁড়াতো: ৩৫০+২৫০+৪০০ = ১০০০ ভাগ ৩ = ৩৩৩.৩৩ টাকা।
গড় কোথায় ব্যবহার করবেন
গড় সম্পর্কে আমরা জানলাম। এবার দেখবো কোথায় গড় ব্যবহার করা যাবে। সেটি বোঝার জন্য আমরা কয়েকটি উদাহরণ কল্পণা করি।
উদাহরণ ১
ধরা যাক কোন একটি ঝিলের আটটি (৮) স্থানে গভীরতা মেপে ঝিলের গভীরতা পাওয়া গেল গড়ে প্রায় সাড়ে চার ফুট। ধরা যাক একজন পূর্ণবয়স্ক পুরুষের উচ্চতা সাড়ে পাঁচ ফুট। উনি সাঁতার জানেন না কিন্ত কিন্তু গড় সম্পর্কে জানেন। তো উনি ঠিক করলেন ঝিলের গড় গভীরতা যেহেতু তার উচ্চতার চেয়ে কম সেহেতু সাঁতার না জানলেও উনি নিরাপদে ঝিল পার হতে পারবেন। এবার নিচের চিত্রটি দেখুন। উনি কি ঝিল পার হতে পারবেন?
কুইজ:
ধরা যাক বাংলাদেশের পূর্ণ বয়স্ক মেয়েদের পায়ের গড় সাইজ ৫.৫. বাটা সু কোম্পানির প্রোডাকশন ম্যানেজার ঠিক করলেন তারা ৫.৫ সাইজের জুতা বেশী করে তৈরী করবেন। বলুন তো কেন এই আইডিয়াটি ব্যবসা সফল হবে না? (উত্তর পাবেন আরেকটু পরে।)
উদাহরণ ২
ধরুন তিন বন্ধু রেস্টুরেন্টে খেতে এসেছে। তিনজনই মোটামুটি ভাবে প্রতিষ্ঠিত এবং প্রত্যেকের মাসিক আয় ১ লাখ থেকে ২ লাখের মধ্যে। ধরা যাক তাদের মাসিক আয় গড়ে দেড় লাখ। তাদের আরেক বন্ধুর বাবা একটি ফার্মা কোম্পানির প্রধান। তার মাসিক আয় আনুমানিক ১০ লাখ। সেই বন্ধুর বাবাও সেদিন হঠাৎ করেই একই রেস্টুরেন্টে খেতে এসেছেন। ছেলের ব্ন্ধুদের দেখে উনিও টেবিলের এক পাশে বসে পড়লেন। বন্ধুর বাবা সহকারে চার জনের মাসিক গড় আয় এখন প্রায় সাড়ে তিন লাখ।
অর্থাৎ গড় আয় ১.৫ লাখ থেকে বন্ধুর বাবার আয় সহকারে সেটি ৩.৫ লাগে গিয়ে দাঁড়াল। প্রশ্ন হল, এখানে গড় সংখ্যাটি (সাড়ে তিন লাখ) কি এই চার জনের আয়ের প্রতিনিধিত্বমূলক (representative)? উত্তর হচ্ছে– না।
উদাহরণ ২ থেকে আমরা দেখলাম ড্যাটার মধ্যে যদি এক্সট্রিম সংখ্যা থাকে (Extreme value) তাহলে গড় সেই এক্সট্রিম সংখ্যা দ্বারা প্রভাবিত হয়। এক্সট্রিম সংখ্যা হলো ড্যাটার অন্য সংখ্যাগুলোর তুলনায় খুব বড় বা খুব ছোট সংখ্যা। এখানে বন্ধুর বাবার মাসিক আয় অন্য তিন জনের মাসিক আয়ের তুলনায় অনেক বেশী। এক্ষেত্রে এটি একটি এক্সট্রিম সংখ্যা। এক্সট্রিম সংখ্যাটি গড়কে এতটাই প্রভাবিত করেছে যে গড় আয় (৩.৫ লাখ) এই চার জনের মাসিক আয়কে প্রতিনিধিত্ব করতে (represent) পারছে না।
মধ্যক (Median)
গড়ের মতই কেন্দ্রীয় প্রবণতার আরেকটি পরিমাপ হল মধ্যক বা মিডিয়ান। মিডিয়ানের সুবিধ হচ্ছে এটি এক্সট্রিম সংখ্যা দ্বারা প্রভাবিত হয় না।
নাম থেকেই বুঝতে পারছি ড্যাটার একেবারে মাঝের মানটি মধ্যক। কিন্তু কোনটি মাঝের সংখ্যা সেটা বুঝবো কী করে? ড্যাটাকে ছোট থেকে বড় সাজিয়ে আমরা এটা করতে পারি। তাহলে মধ্যক বের করার জন্য প্রথমে ড্যাটাকে ছোট থেকে বড় সাজাতে হবে।
একটা উদাহরণ দেখা যাক। উদাহরণ ২ এর তিন বন্ধুর মাসিক আয় ধরা যাক নিম্নরূপ:
১ লাখ, ১.৫ লাখ, ২ লাখ
আমারা মধ্যক বের করবো। ড্যাটা ছোট থেকে বড় করে সাজানোই রয়েছে। আমাদের শুধু বের করতে হবে একেবারে মাঝের সংখ্যাটি কত।
তিনটি সংখ্যার মাঝের সংখ্যাটি হল দ্বিতীয় সংখ্যা। অর্থাৎ মধ্যক হল ১.৫ লাখ। স্মরণ করা যেতে পারে, এই তিন জনের মাসিক আয়ের গড়ও ছিল ১.৫ লাখ।
এবারে বন্ধুর বাবার মাসিক আয় সহকারে চার জনের আয়ের মধ্যক বের করি। এই চার জনের আয় –
১ লাখ, ১.৫ লাখ, ২ লাখ, ১০ লাখ।
লক্ষ্য করুন উপরের ড্যাটায় চারটি সংখ্যা রয়েছে। আর চার যেহেতু জোর সংখ্যা, তাই চারটি সংখ্যার মধ্যক বের করতে হলে আমাদের আসলে মাঝখানের দুটি সংখ্যার গড় করতে হবে।
অর্থাৎ ২য় এবং ৩য় সংখ্যাদ্বয়ের গড় বের করতে হবে। যা হচ্ছে ১.৫+২ = ৩.৫ ভাগ ২ = ১.৭৫ লাখ।
উল্লেখ্য যে এই চার জনের মাসিক আয়ের গড় ১+১.৫+২+১০ = ১৪.৫ ভাগ ৪ = ৩.৬ লাখ।
১.৭৫ লাখ সংখ্যাটি এই চার জনের মাসিক আয়ের প্রতিনিধিত্বমূলক সংখ্যা। কিন্তু ৩.৬ লাখ সংখ্যাটি ঐ চার জনের আয়ের প্রতিনিধিত্বমূলক সংখ্যা নয়।
তাহলে আমরা দেখতে পাচ্ছি যে গড় যদিও এক্সিট্রিম সংখ্যা দ্বারা প্রভাবিত হয়, মধ্যক তা হয় না। এজন্য আয়ের ড্যাটার ক্ষেত্রে আমরা গড়ের বদলে মধ্যক বের করে থাকি। আয়ের ড্যাটায় যেমন থাকতে পারে খুব গরীব মানুষের আয়, তেমনি থাকতে খুব বিত্তবান মানুষের আয়। অর্থাৎ আয়ের ড্যাটায় এক্সট্রিম মান বেশী থাকে। তাই এক্ষেত্রে গড় ভাল কোন পরিমাপ নয়, বরং মধ্যক কার্যকর।
প্রচুরক (Mode)
কেন্দ্রীয় প্রবণতার তৃতীয় পরিমাপ হল Mode বা প্রচুরক। নাম থেকেই বুঝতে পারছি ড্যাটার মধ্যে যে সংখ্যাটি সর্বাধিক বা প্রচুর পরিমানে আছে সেটিই প্রচুরক। সব ড্যাটার ক্ষেত্রে প্রচুরক থাকে না। ড্যাটার মধ্যে সেই সংখ্যাটি প্রচুরক যেটির ঘটনসংখ্যা সর্বাধিক।
উদাহরণ ২ এর ড্যাটাতে কোন প্রচুরক নেই। কারণ প্রত্যেকের মাসিক আয় আলাদা আলাদা। প্রচুরকের উদাহরণ খুব একটা দেখা যায় না। তবে নিচের উদাহরণটি থেকে প্রচুরকের ব্যবহার সম্পর্কে আমরা ধারণা পেতে পারি।
উপরে একটা কুইজ দিয়েছিলাম। সেটি ছিল—
ধরা যাক বাংলাদেশের পূর্ণ বয়স্ক মেয়েদের জুতার গড় সাইজ ৫.৫. বাটা সু কোম্পানির প্রোডাকশন ম্যানেজার ঠিক করলেন তারা ৫.৫ সাইজের জুতা বেশী করে তৈরী করবেন। বলুন তো কেন এই আইডিয়াটি ব্যবসা সফল হবে না?
আইডিয়াটি কেন ব্যবসা সফল হবে না তা বোঝার জন্য আমরা কাল্পনিক ড্যাটার কথা চিন্তা করি। ধরি বাংলাদেশের পূর্ণ বয়স্ক মেয়েদের জুতার মাপ জানার জন্য ১০০০ জনের কাছ থেকে জরিপের মাধ্যমে ড্যাটা সংগ্রহ করা হলো এবং সেখান থেকে এরকম একটি সারণি পাওয়া গেল:
জুতার মাপ | ঘটন সংখ্যা | শতকরা = (ঘটন সংখ্যা ভাগ ১০০০) গুনন ১০০ |
৪ | ১৫০ | ১৫ |
৫ | ৩০০ | ৩০ |
৬ | ৪০০ | ৪০ |
৭ | ১৫০ | ১৫ |
মোট | ১০০০ | ১০০ |
সারণির তথ্যকে আমরা নিচের চিত্রের মাধ্যমে দেখাতে পারি।
এই সারণি থেকে গড় জুতার মাপ বের করার জন্য আমাদের নিচের সুত্র ব্যবহার করতে হবে।
গড় জুতার মাপ = (জুতার মাপ x ঘটন সংখ্যা) ভাগ ১০০০ = ৫.৫ (আনুমানিক)
এখন আপনিই বলুন ৫.৫ সাইজের জুতা বানালে সে জুতা কে কিনবে? প্রায় ৭০ ভাগ সম্ভাব্য ক্রেতাই সেই জুতা কিনতে পারবে না। কারণ যাদের পায়ের সাইজ ৫ কিংবা ৬ তাদের পায়ে ৫.৫ সাইজের জুতা ঠিক মত লাগবে না।
এক্ষেত্রে প্রোডাকশন ম্যানেজারের সঠিক স্ট্যাটেজি হবে প্রচুরক কে বিবেচনায় আনা। এই ড্যাটার প্রচুরক ৬, কারণ ৬ সাইজের জুতার ঘটন সংখ্যা সবচেয়ে বেশী। সবচেয়ে ভালো স্ট্র্যাটেজি হবে ৬ এবং ৫ সাইজের জুতা বাজারজাত করা। কোন ভাবেই গড় জুতার মাপ এক্ষেত্রে বিবেচনায় আনা যাবে না।
সারাংশ
এ পর্বে আমরা গড়, মধ্যক ও প্রচুরক সম্পর্কে জেনেছি। এগুলো কেন্দ্রীয় প্রবণতার পরিমাপক। আমরা আরো জেনেছি কোন পরিমাপটি কোন ক্ষেত্রে প্রয়োগ করতে হবে। পরিসংখ্যানের টুলগুলো শুধু জানলেই হবে না, সেগুলো যথাযথভাবে প্রয়োগ করাও শিখতে হবে।
আজ এ পর্যন্তই থাক। কোন প্রশ্ন বা পরামর্শ থাকলে ইমেইল করতে ভুলবেন না।
সবাইকে সাথে থাকার জন্য ধন্যবাদ।
[জুতার সাইজের ক্ষেত্রে প্রচুরকের ব্যবহারের এই উদাহরণটি শ্রদ্ধেয় ড. হুমায়ূন কবীর স্যারের কাছ থেকে পাওয়া।]
আগের লেকচার-এর লিংক
লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা
লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)
লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ
4 pings
পরিসংখ্যান পরিবিতি: ভেদ ও এর পরিমাপসমূহ (Variability and its measures)
ফেব্রুয়ারী 21, 2013 at 11:08 অপরাহ্ন (UTC -5) Link to this comment
[…] গত পর্বে আমরা কেন্দ্রীয় প্রবণতা ও এর পরিমাপসমূহ নিয়ে আলোচনা করেছিলাম। কেন্দ্রীয় প্রবণতার পরিমাপগুলো ছিল গড় (Mean), মধ্যক (Median) ও প্রচুরক (Mode)। ড্যাটাকে সামারাইজ করার জন্য কেন্দ্রীয় প্রবণতার এই পরিমাপগুলোকে ব্যবহার করা হয়। […]
পরিসংখ্যান পরিচিতি – লেকচার ৮ – সম্ভাবনার খুঁটি – Foundation of Probability
মার্চ 7, 2013 at 10:34 পূর্বাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পর… […]
পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events
জুন 2, 2013 at 3:48 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পর… […]
পরিসংখ্যান পরিচিতি – লেকচার ১৭ – নিরূপণ (Estimation)
নভেম্বর 9, 2013 at 10:54 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পর… […]