«

»

নভে. 09

পরিসংখ্যান পরিচিতি – লেকচার ১৭ – নিরূপণ (Estimation)

ভূমিকা

এ পর্বে বর্তমানে বহুল আলোচিত একটি বিষয়ের উপর আলোচনা করা হয়েছে। ১৬কোটি মানুষের মতামত মাত্র দুই-আড়াই হাজার মানুষের কাছ থেকে পাওয়া সম্ভব কিনা? সহজ উত্তর হলো হ্যাঁ, এরচেয়ে কম মানুষের কাছ থেকে মতামত নিয়েই ১৬ কোটির মতামত জানা সম্ভব। অন্তত পরিসংখ্যানের তত্ত্ব তাই বলে। আসুন নিজেই পরীক্ষা করে দেখুন।

Estimation মানে কোন কিছু এস্টিমেট করা। এর বাংলা প্রতিশব্দ নিরূপণ। আমাদের অবস্থা এমন যে বাংলার চেয়ে আমরা ইংরেজি শব্দটির সাথে বেশি পরিচিত। তাই ইংরেজি শব্দই আমাদের কাছে বেশী অর্থবহ। বাস্তব জীবনের নানা ক্ষেত্রে আমাদের নিরূপণ করা দরকার হয়। যেমন, আমরা জানতে চাই

  • সুন্দরবনে মোট বাঘের সংখ্যা কতটি?
  • বাংলাদেশের পোশাক শিল্পে কর্মরত শ্রমিকদের মাসিক আয়ের মধ্যক (median) কত?
  • কত শতাংশ মানুষ নির্বাচন পরিচালনার জন্য তত্ত্বাবধায়ক সরকারের ধারণাকে সমর্থন করে?

এরকম নানা প্রশ্নের মাধ্যমে আমরা মূল জনগোষ্ঠির একটি বিশেষ  বৈশিষ্ট্য সম্পর্কে জানতে চাইছি। এই বিশেষ বৈশিষ্ট্যকে ইংরেজিতে বলে প্যারামিটার (Parameter), বাংলায় আমরা বলবো পরামান। ধরা যাক আপনার পরিবারে সদস্য সংখ্যা পাঁচ। আপনি যদি জানতে চান পরিবারের কত শতাংশ সদস্য তত্ত্বাবধায়ক সরকার পদ্ধতির সমর্থক, আপনি তাদের কাছে প্রশ্ন করে উত্তর জেনে নিয়ে শতাংশ বের করতে পারেন।

আপনার প্রশ্নটি হবে এরকম:

আপনি কি নির্বাচন পরিচালনার জন্য তত্ত্বাবধায়ক সরকার পদ্ধতি সমর্থন করেন? উত্তরে হ্যাঁ বা না বলুন।

ধরা যাক পাঁচ জনের মধ্যে তিন জন তত্ত্বাবধায়ক সরকার পদ্ধতি সমর্থন করে আর দুই জন সমর্থন করে না। তাহলে আপনার পরিবারের সদস্যদের ৩/৫ = ০.৬  বা ৬০শতাংশ সদস্য তত্ত্বাবধায়ক পদ্ধতি সমর্থন করে।

একইভাবে বাংলাদেশের কত শতাংশ মানুষ তত্ত্বাবধায়ক পদ্ধতি সমর্থন করে সেটি যদি জানতে চাই তাহলে একই পদ্ধতি অনুসরণ করতে পারি। কিন্ত দেশের সকল মানুষকে এই প্রশ্ন করে উত্তর সংগ্রহ করা বাস্তবসম্মত নয়। তর্কের খাতিরে যদি ধরেও নেই আমরা সবার মতামত নিতে  চাই, সেটি হবে অত্যন্ত সময় সাপেক্ষ এবং চরম ব্যয়বহুল।

নমুনা জরিপ

এই সমস্যা থেকে উত্তরণের জন্য পরিসংখ্যানবিদগণ পরিসংখ্যানিক কিছু পদ্ধতি ব্যবহার করেন। সংক্ষেপে ব্যাপারটা এরকম—আপনি মূল জনগোষ্ঠি থেকে প্রতিনিধিত্বমূলক নমুনা সংগ্রহ করবেন এবং সেই নমুনার ভিত্তিতে মূল জনগোষ্ঠির উপর একটি সিদ্ধান্তে পোঁছুবেন। এভাবে একটি প্রতিনিধিত্বমূলক নমুনা থেকে মূল জনগোষ্ঠির কোন বৈশিষ্ট্যকে (পরামান) এস্টিমেট বা নিরূপণ করা হয়।

আমরা অনুমান করতে পারি ভাত রান্নার সময় আমাদের মা-খালারা যেমন কয়েকটি ভাত টিপে রান্না হয়েছে কিনা সে সম্পর্কে ধারণা করতেন, তেমনি জনগোষ্ঠির কত শতাংশ মানুষ একটি বিষয়ে হ্যাঁ বা না বলছে সেটি জনগোষ্ঠির একটি প্রতিনিধিত্বমূলক নমুনা থেকে বলা যেতে পারে। একটি বিষয় উল্লেখ্য যে নমুনাটিকে প্রতিনিধিত্বমূলক হতে হবে।

নিরূপণ

এতক্ষণে আমরা নিরূপণের ধারণাটি বুঝতে পেরেছি। সহজভাবে বল যায় নিরূপণ হল জনগোষ্ঠির পরামান কে (বা বৈশিষ্ট্যকে) নমুনা-তথ্যভিত্তিকভাবে অনুমান করা।

নিরূপণ দুই ভাবে করা যায়। উদাহরণের মাধ্যমে বোঝার চেষ্টা করা যাক।

ধরা যাক আমরা জানতে চাই সুন্দরবনে কতগুলো বাঘ আছে। এক্ষেত্রে জনগোষ্ঠি হল সুন্দরবনের বাঘ। আর জনগোষ্ঠির যে বৈশিষ্ট্য সম্পর্কে আমরা জানতে চাই সেটি হল বাঘের মোট সংখ্যা। এখানে মোট বাঘের সংখ্যা হল পরামান।

যেহেতু সুন্দরবনে কতটি বাঘ আছে সেটি জানার বাস্তবিক কোন উপায় নেই তাই আমাদের বাঘের সংখ্যাকে নিরূপণ করতে হবে। এই নিরূপণ আমরা একটি নির্দিষ্ট মান দিয়ে করতে পারি অর্থাৎ আমরা বলতে পারি সুন্দরবনের বাঘের নিরূপিত মোট সংখ্যা ৪৮০. এভাবে একটি নির্দিষ্ট মান দিয়ে নিরূপণ করাকে বলে পয়েন্ট এস্টিমেশন (Point Estimation) বা বিন্দু নিরূপন

বিন্দু নিরূপণের সমস্যা হলো এটি একটিমাত্র মান নির্দেশ করে যা সত্যি হতেও পারে আবার নাও হতে পারে।

অপর নিরূপণ পদ্ধতিটি একটু সুবিধাজনক যেখানে জনগোষ্ঠির পরামানকে একটি ব্যবধানের মাধ্যমে প্রকাশ করা হয়। যেমন, আমরা বলতে পারি সুন্দরবনের মোট বাঘের সংখ্যা ৪৮০ থেকে ৫২০ এর মধ্যে। দুটি সংখ্যার ব্যবধান দিয়ে জনগোষ্ঠির বৈশিষ্ট্যের পরামানকে প্রকাশ করার পদ্ধতিকে ইন্টারভাল এস্টিমেশন (Interval Estimation) বা ব্যাপ্তি নিরূপণ বলে।

আমাদের ইনটুইশান থেকে হয়তো বুঝতে পারছি ব্যাপ্তি নিরূপণ বেশি সুবিধাজনক।

নিরূপণ ও নমুনা বিন্যাসের সম্পর্ক

জনগোষ্ঠির পরামানকে আমরা যেহেতু নমুনা থেকে নিরূপণ করি সেহেতু পরামানের সাথে নিরূপিত মানের সম্পর্ক থাকাই স্বাভাবিক। এই সম্পর্কটি স্হাপিত হয় নমুনা বিন্যাসের মাধ্যমে। গত পর্বে আমরা কেন্দ্রীয় সীমা তত্ত্বের (Central Limit Theorem) কথা বলেছিলাম। জনগোষ্ঠির বিন্যাস জানা না থাকলেও কেন্দ্রীয় সীমা তত্ত্বের মাধ্যমে আমরা নিরূপকের সম্ভাবনা বিন্যাস জানতে পারি। যদি নমুনার সংখ্যা বেশী হয় তাহলে নিরূপক বা  এস্টিমেটর এর নমুনা বিন্যাস নরমাল বিন্যাস অনুসরণ করে।

জনগোষ্ঠির কোন বৈশিষ্ট্যের পরামান যদি আমরা নিরূপণ করতে চাই তাহলে নিরূপক-এর নমুনা বিন্যাস থেকে সেটি বের করতে পারি। যেমন আমরা যদি জানতে চাই দেশের কত শতাংশ মানুষ তত্তাবধায়ক পদ্ধতি সমর্থন করে তাহলে দৈব চয়নের মাধ্যমে সংগ্রহকৃত নমুনা থেকে এই অনুপাতের (proportion) মান নিরূপণ করতে পারি। আগের পর্বেই দেখিয়েছিলাম নমুনা অনুপাত (Sample Proportion বা p-hat) এর সম্ভাবনা বিন্যাস প্রায় নরমাল, যার গড় এবং ভেদাংক নিচের মত হবে।

16_sample_proportion_sampling_dist_2

এই বিন্যাস দেখতে স্তুপাকার (চিত্র – ক) দেখুন।

17_standard_normal_95_CI

নমুনা বিন্যাস জানা থাকায় আমরা অতি সহজেই ব্যাপ্তি নিরূপণ (Interval Estimate) করতে পারি। ব্যাপ্তি নিরূপণের জন্য বিন্যাসের গড় এবং পরিমিত ব্যবধান (Standard error বা Standard deviation) জানা দরকার যা আমরা নিরূপকের সম্ভাবনা বিন্যাস থেকে পাই। এ নিয়ে আগের লেকচারে বিস্তারিত আলোচনা করা হয়েছে। এ দুটি জানা থাকায় আমরা 100(1-alpha)% আস্হার ব্যবধান উপরের (চিত্র-খ) সূত্রের মাধ্যমে বের করতে পারি। এখানে আলফা হলো পরামান নিরূপণে কত শতাংশ ভুল আমরা গ্রহণ করবো সেটি। এই মান সাধারণত ৫% ধরা হয়। আমরা ইচ্ছে করলে ১% বা ২% বা অন্য কোন মান ধরতে পারি। ৫% ভুলের হার ধরে ৯৫% আস্হার ব্যবধানের সূত্রটি নিম্নরূপ।

16_95_ci_proportion_2

লক্ষ্যণীয় যে উপরের সূত্রে পরামান (p)-কে আমরা নিরূপিত মান (p-hat) দিয়ে প্রতিস্হাপিত করেছি। কারণ বাস্তবক্ষেত্রে পরামান জানা থাকে না।

মনে আছে হয়তো, আস্থার ব্যবধান বের করার সাধারণ সূত্রটি হলো—

নিরূপিত মান +- (ধ্রবকx নিরূপকের পরিমিত ব্যবধান)

নমুনা সংগ্রহ করার পদ্ধতিসমূহ

পরিসংখ্যানের তত্ত্ব ব্যবহার করতে হলে নমুনাকে প্রতিনিধিত্বমূলক হতে হবে। সেইসাথে নমুনাগুলিকে আলাদা-আলাদা-ভাবে (Independent of each other) সংগ্রহ করতে হবে। নমুনা সংগ্রহের তিনটি প্রধান পদ্ধতি নিচে সংক্ষেপে দেয়া হলো।

সাধারণ দৈব চয়ন বা দৈব নমুনায়ন (Simple Random Sampling)

এই পদ্ধতিতে জনগোষ্ঠির প্রতিটি উপাদানের তালিকা থেকে দৈব চয়নের মাধ্যমে নমুনা নেয়া হয়। ধরা যাক বাংলাদেশের সেলফোন ব্যবহারকারীদের একটা নমুনা নেয়া দরকার। এই পদ্ধতিতে সকল সেলফোন ব্যবহারকারীর তালিকা আগে তৈরী করতে হবে। তারপর সেখান থেকে নমুনা চয়ন করা হবে।

দৈব চয়ন বললে আমরা সাধারণ দৈব চয়নকেই বুঝি। এই পদ্ধিতিটি বোঝা সহজ কিন্তু অধিকাংশক্ষেত্রেই কোন জনগোষ্ঠির সব সদস্যের তালিকা তৈরী করা সম্ভব হয় না।

স্তরীভূত নমুনায়ন (Stratified Random Sampling)

এই পদ্ধতিতে জনগোষ্ঠিকে প্রথমে কতগুলো স্তরে ভাগ করে নেয়া হয়। স্তরগুলোকে এমনভাবে নির্ধারণ করা হয় যাতে একটি স্তর (Stratum) থেকে আরেকটি স্তর সম্পূর্ণ ভিন্নধর্মী হয়। উদাহরণ হিসেবে বলা যায় শহুরে এলাকার মানুষ এবং পল্লী এলাকার মানুষদের স্তর। কিংবা পুরুষ এবং মহিলাদের স্তর; চাকুরীজীবি, কৃষিজীবি,এবং ব্যবসায়ীদের স্তর। এভাবে জনগোষ্ঠিকে প্রয়োজনমতো নানা স্তরে ভাগ করে নমুনা সংগ্রহের পদ্ধতিকে স্তরীভূত নমুনায়ন বলে।

স্তরীভূত নমুনায়নে প্রতিটি স্তর থেকেই নমুনা সংগ্রহ করা হয়।

গুচ্ছ নমুনায়ন (Cluster Sampling)

গুচ্ছ নমুনায়নে জনোগোষ্ঠিকে একই রকম কতগুলো গুচ্ছে (Cluster) ভাগ করা হয়। সাধারণত গুচ্ছগুলির ভিতরে জনগোষ্ঠীর বৈশিষ্ট্যের রকমফের হয় কিন্তু গুচ্ছগুলো পরস্পর একই রকম। এটি স্তরীভূত নমুনায়নের ঠিক উল্টো। বাংলাদেশের বড় বড় জরীপগুলো অনেক ধাপে গুচ্ছ নমুনায়নের (Multistage Cluster Sampling) মাধ্যমে করা হয়ে থাকে। গুচ্ছ নমুনায়নের ক্ষেত্রে জনগোষ্ঠিকে প্রথমে কতগুলো গুচ্ছে ভাগ করা হয়। তার পর কয়েকটি গুচ্ছ দৈব চয়নের মাধ্যমে নির্বাচন করা হয়।

গুচ্ছ নমুনায়ন কিংবা স্তরীভূত নমুনায়ন যেটিই করা হোক না কেন স্তর কিংবা গুচ্ছ নির্ধারণ করার পর এর ভেতর থেকে দৈব চয়নের মাধ্যমে নমুনা সংগ্রহ করা হয়।

মনে রাখতে হবে বিন্দু নিরূপণ এবং এর পরিমিত ব্যবধান বের করার সূত্র নমুনা পদ্ধতির উপর নির্ভর করে। উপরে যে বিন্দু নিরূপণ ও পরিমিত ব্যবধানের সূত্র দেয়া হয়েছে তা সাধারণ দৈব চয়নের জন্য প্রযোজ্য। তবে আস্থার ব্যবধানের মূল সূত্রটি অপরিবর্তিত থাকবে। শুধু বিন্দু নিরূপক এবং এর পরিমিত ব্যবধানের অংশটির পরিবর্তন করতে হবে।

ষোল কোটি জনতার মতামত জানতে দুই বা আড়াই হাজার নমুনা যথেষ্ট কিনা

অল্প কথায় বললে উত্তর হবে হ্যাঁ। তবে পরিসংখ্যানের যেকোন তত্ত্বের ব্যবহার সঠিক হবে যদি নমুনাগুলো দৈব চয়নের মাধ্যমে সংগ্রহ করা হয়। ইচ্ছেমত নমুনা নিয়ে সেখানে পরিসংখ্যানের তত্ত্ব ব্যবহার করা যাবে না। সেই ফলাফলকেও জেনারেলাইজ করা যাবে না।

দুই বা আড়াই হাজার নমুনা যথেষ্ট কিনা এর উত্তর জানতে আমরা কম্পিউটারে একটি পরীক্ষা সেটআপ করবো। আমি পরিসংখ্যানের সফটওয়্যার R দিয়ে প্রোগ্রামটি লিখব। তবে তার আগে আমি পরীক্ষণের ধাপগুলো তালিকাকারে দিচ্ছি। এতে করে আপনার পছন্দের প্রোগ্রাম যেমন জাভা, সি, ফোরট্রান, ম্যাটল্যাব বা অন্য সুবিধাজনক কোন ভাষা/প্যাকেজ দিয়ে পরীক্ষাটি করতে পারবেন।

পরীক্ষার ধাপ সমূহ (Steps of Simulation Study)

১) একটি জনগোষ্ঠি তৈরী করুন যেখানে N সংখ্যক উপাদান থাকবে। ধরা যাক N=1000. ধরুন আপনার জানা আছে যে এই ১ হাজার মানুষের মধ্যে ৭০০ জন তত্বাবধায়ক সরকার পদ্ধতি সমর্থন করে। তাহলে p=700/1000 = 0.7. আপনি আপনার ইচ্ছেমত এই মান ঠিক করতে পারেন।

২)  এখন জনগোষ্ঠির উপাদানগুলোকে “হ্যাঁ”র জন্য  1 এবং “না”র জন্য 0 –এ পরিবর্তন করে দিব। অর্থাৎ আমাদের জনগোষ্ঠিতে ৭০০টি 1 এবং ৩০০টি শুন্য আছে।

৩) এখন সাধারণ দৈব চয়ন পদ্ধতি অনুসরণ করে ১হাজার মানুষের মধ্যে থেকে ৫০ জনকে নির্বাচন করুন। কম্পিউটার প্যাকেজ বা প্রোগ্রামিংএর মাধ্যমে আপনি ৫০ জনকে randomly select করতে পারবেন।

৪) ৩ নং ধাপে প্রাপ্ত নমুনা থেকে কতজন “হ্যাঁ” নির্বাচিত হয়েছে তার অনুপাত বের করুন। যেমন, ৫০ জনের মধ্যে যদি ৩০টি 1 এসে থাকে তাহলে হ্যাঁ = ৩০/৫০ = ০.৬ বা ৬০ শতাংশ। এই p-hat = ০.৬ হল জনগোষ্ঠির পরামানের (যেটি আমরা জানি ০.৭) এর নিরূপিত মান। এই নমুনা জরিপ থেকে আমরা বলবো জনগোষ্ঠির ৬০ শতাংশ মানুষ হ্যাঁ বলেছে।

৫) এবারে আস্থার ব্যবধান বের করুন। p-hat = .6 ধরে আস্থার ব্যবধান হবে sqrt[(.6)(1-.6)/50] = 0.06928. আর  ৯৫% আস্হার ব্যবধান বের করতে ধ্রুবকটি হল ১.৯৬. তাহলে জনগোষ্ঠির পরামানের ৯৫% আস্থার ব্যবধান

= (0.6 – 1.96* 0.06928,    0.6 + 1.96* 0.06928)

= (0.4642, 0.7358)

এই আস্থার ব্যবধানের অর্থ হলো আমরা ৯৫% কনফিডেন্ট যে জনগোষ্ঠিতে প্রকৃত “হ্যাঁ”র অনুপাত ০.৪৬ থেকে ০.৭৩ এর মধ্যে হবে।

৬) লক্ষ্য করুন আমাদের ৯৫% আস্থার ব্যবধানটি জনগোষ্ঠির পরামান (.৭) কে ধারণ করেছে। অর্থাৎ জনগোষ্ঠিতে  প্রকৃত হ্যাঁর অনুপাত  এই আস্থার ব্যবধানের মধ্যে পড়েছে।

৭) এবারে ৩-৫ নম্বর ধাপগুলো আপনি অসংখ্যবার রিপিট করুন। ধরা যাক আপনি ১০০ বার রিপিট করলেন। তাহলে ১০০টি আস্থার ব্যবধান বের হবে। আপনি গুনে দেখবেন এই ১০০টির মধ্যে কতটি আস্থার ব্যবধান প্রকৃত পরামানকে ধারণ করেছে। যদি পরীক্ষণটি আপনি অসংখ্যবার করেন, ধরুন ১০০০ বার, তাহলে দেখবেন প্রায় ৯৫% আস্থার ব্যবধানের মধ্যে প্রকৃত পরামানটি ধরা পড়েছে। ১০০ বার করলে হয়তো দেখবেন ৯৩ বার কিংবা ৯৫ বার কিংবা ৯৬ বারই পরামানটি গণনাকৃত আস্থার ব্যবধানের মধ্যে ধরা পড়েছে।

আপনার নমুনার সংখ্যা যত বেশী হবে আস্থার ব্যবধান তত ছোট হবে। অর্থাৎ নিরূপণটি তত বেশী প্রিসাইস হবে। অন্যভাবে বলা যায়, নমুনার সংখ্যা বেশী হলে নিরূপকের পরিমিত ব্যবধান কম হবে। তার মানে হলো এক নমুনা থেকে প্রাপ্ত নিরূপকের মান আরেক নমুনা থেকে প্রাপ্ত নিরূপকের মানের মধ্যে ব্যবধান কম হবে।

R কোড

নিচের কোড দিয়ে আমরা একটি বাস্তব অব্স্থাকে কাল্পনিকভাবে স্টাডি করব এবং দেখবো পরিসংখ্যানের তত্ত্ব কতটা সঠিকভাবে কাজ করে।

নিচে আমি কোড দিয়ে দিলাম। আপনারা ইচ্ছেমতো মান বসিয়ে চালিয়ে দেখুন। এখানে N হলো জনগোষ্ঠির সাইজ। আর p এর মান আমি ধরেছি .৭. আপনি অর্থবহ  যে কোন মান বসিয়ে দেখুন কতগুলো আস্থার ব্যবধান এই মানকে ক্যাপচার করতে পারে। কোডে হ্যাশ চিহ্নিত লাইনগুলো ‘কমেন্ট’, অর্থাৎ কম্পিটার ঐ লাইনগুলো প্রসেস করবে না।

 

# number of elements in the population

N <- 160000000

# Population parameter. Proportion of individuals responding “YES”.

p <- .7 # Change the value as you wish.

 

# Generating population data

# Number of YES, i.e., 1s = N * .7

# Number of NO i.e., 0s = N * .3

 

pop <- c(rep(1, N * p), rep(0, N * (1 – p) ))

 

# Copy and paste on your R workspace.

# Internal function to compute 95% confidence Intervals;

 

conf<- function(x)

{

# counting the number of ones

ones <- as.vector(as.matrix(table(x))[2,1])

# Calculating sample proportion

phat <- ones/length(x)

# standard error of sample proportion

phat.sd <- sqrt(phat*(1-phat)/length(x))

# 95% confidence interval for population proportion

interval <- c((mean(x) – 1.96 * phat.sd), (mean(x)+ 1.96 * phat.sd))

#returns the interval

interval

}

 

# Copy and paste on your R workspace.

# Function to calculate coverage probability

 

coverage <- function (n, P = pop, R)

{

sample.data <- matrix(sample(P, n * R), nrow = n, ncol = R)

phat <- apply(sample.data, 2, conf)

phat

}

 

# How many intervals would include the true value of the

# population proportion if we sample repeatedly (say, 1000 times)?

 

# Fixing the random seed ensures that the results are reproducible.

# Setting the seed to 10.

 

set.seed(10)

 

# Draw 1000 random sample each of size 100

# Compute 95% confidence intervals based on each sample generated.

 

out <- coverage(n = 100, R = 1000)

 

# Lower confidence limit

lcl <- out[1,]

 

# Upper confidence limit

ucl <- out[2,]

 

# How many of these intervals include the true value, p ?

table(lcl <= p & ucl >= p)

Results

> table(lcl <= p & ucl >= p)

 

FALSE  TRUE

51   949

 

উপরের ফলাফলে দেখতে পারছি আমরা যদি ১০০ টি নমুনা নিয়ে আস্থার ব্যবধান বের করি এবং এভাবে যদি ১০০০ বার আমরা নমুনা নিয়ে ১০০০টি আস্থার ব্যবধান বের করতাম তাহলে  ৯৪.৯% আস্থার ব্যবধান প্যারামিটিারকে ধারণ করতো। এ থেকে বুঝতে পারছি পরিসংখ্যানের ত্ত্ত্ব কাজ করছে!

কতগুলো নমুনা নিতে হবে?

সেটা নির্ভর করবে আপনার নিরূপকের প্রিসিশন কতটা চান তার উপর। আপনি যদি নিরূপকের পরিমিত ব্যবধান কম চান অর্থাৎ আপনি ছোট আস্হার ব্যবধান চাইলে স্বাভাবিকভাবেই বেশী নমুনা নিতে হবে। নমুনা যত বেশী হবে আমাদের এস্টিমেট (estimate) তত বেশী প্রিসাইস (precise) হবে। নমুনার সংখ্যার সাথে নিরূপকের প্রিসিসনের সম্পর্কটি আরেকটি ছোট পরীক্ষার মাধ্যমে দেখে নেয়া যাক।

এখানে আমরা জনগোষ্ঠি থেকে ৫০, ১০০, ৫০০, ১০০০, ৩০০০ এবং ৫০০০ টি আলাদা আলাদা নমুনা নিয়ে পরামানকে নিরূপণ করবো। মনে রাখা ভালো যে আমাদের পরামান ০.৭. প্রতিটি নমুনায়ন আমরা ১০০০ বার পুনরাবৃত্ত করবো যা থেকে আমরা ১০০০টি নিরূপিত মান পাব। ১০০০ বার করার কারণ হলো আমরা যদি বাস্তবিকভাবে জরিপটি ১ হাজার বার করতে পারতাম তাহলে নিরূপকের সম্ভাবনা বিন্যাস কেমন হতো এবং সেই বিন্যাসের গড় এবং বিস্তার কেমন হতো তা কম্পিউটারের মাধ্যমে পর্যবেক্ষণ করা।

# Drawing R random samples each of size n

# from the population of N individuals,

# and plotting the sample proportions.

# Also returning the 5th and 95th percentile values.

 

nsim <- function (n, P = pop, R = 1000, ci = .95, histogram = FALSE) {

sample.data <- matrix(sample(P, n * R), nrow = n, ncol = R)

phat <- apply(sample.data, 2, mean)

if(histogram) {

hist(phat, xlim=c(.1, .9), main=bquote(n==.(n)), xlab=expression(hat(p)))

}

phat.sorted <- sort(phat)

alpha <- (1 – ci) * .5

obs.ci <- c(phat.sorted[R * alpha], phat.sorted[R * (1 – alpha) ])

list (ci = obs.ci)

}

 

# Plotting the sample proportions

par(mfrow=c(3,2))

set.seed(1)

nsim(50, R = 1000, hist = T)

nsim(100, R = 1000,  hist = T)

nsim(500, R = 1000,  hist = T)

nsim(1000, R = 1000,  hist = T)

nsim(3000, R = 1000,  hist = T)

nsim(5000, R = 1000,  hist = T)

 

উপরে কোডটুকু চালালে আমরা যা পাই তা চিত্রে দেখানো হলো।

17_histogram_phat_diff_n

এখানে নিরূপকের সম্ভাবনা বিন্যাস আমরা হিস্টোগ্রামের মাধ্যমে প্রকাশ করেছি। দেখতে পাচ্ছি যে নমুনা সংখ্যা ৫০ হলে বিন্যাসটির গড় প্রায় ০.৭ এর কাছাকাছি কিন্তু এর বিস্তার অপেক্ষাকৃত বেশী। তাছাড়া বিন্যাসটি স্তুপাকার হলেও পুরোপুরি নরমাল নয়।

আরো দেখতে পাচ্ছি যে নমুনা সংখ্যা বাড়ার সাথে সাথে বিন্যাসটির আকার নরমাল বিন্যাসের মতো আকার ধারণ করছে, এবং n =1000 এর সময় বিন্যাসটি পারফেক্ট নরমাল এবং পারফেক্ট প্রতিসম দেখাচ্ছে। এখানে উল্লেখযোগ্য বিষয় হলো নমুনা সংখ্যা বাড়ার সাথে সাথে নিরূপকের সম্ভাবনা বিন্যাসটি চাপা থেকে বেশী চাপা দেখাচ্ছে। অর্থাৎ বিন্যাসটির ভেদাংক কমে যাচ্ছে। এর অর্থ হলো নমুনার সংখ্যা বাড়ার সাথে সাথে আমার নিরূপিত মানটি প্রকৃত পরামানের খুবই কাছাকাছি চলে যাচ্ছে।

শেষ কথা

পরিসংখ্যান নিয়ে অনেকের মাঝেই ভীতি কাজ করে। এই ভীতি থেকেই আসে পরিসংখ্যানের প্রতি অনাস্থা। শিক্ষিত মেধাবী লোকজনও আজকাল প্রশ্ন তোলে ১৬ কোটি থেকে ৩০০০ জনকে নিয়ে জরিপ করলে সেটা ১৬ কোটির মতামতকে প্রতিফলিত করে কিভাবে। এই প্রশ্নের সরাসরি উত্তর না দিয়ে দেখানোর চেষ্টা করেছি কিভাবে আপনি নিজেই এই প্রশ্নের উত্তর বের করতে পারেন।

পরিশেষে বলতে চাই থিউরেটিক্যালি ১ হাজারের সামান্য কিছু বেশী নমুনা নিয়েই জনগোষ্ঠির কোন বৈশিষ্ট্যৈর পরামানকে নিরূপণ করা সম্ভব। কিন্তু বাস্তবতা যেহেতু ভিন্ন তাই যত বেশী নমুনা নেয়া যাবে পরামানকে তত সূচারুভাবে নিরূপণ করা সম্ভব হবে। যেমনটা আগেই বলেছি, পরিসংখ্যান ভ্যালিড হবে তখনই যখন নমুনা নেয়া হবে দৈব চয়নের মাধ্যমে। স্তুরীভূত নমুনায়ন বা গুচ্ছ পদ্ধতিতে নমুনা চয়ন করলে তদনুযায়ী সূত্র ব্যবহার করে বিন্দু নিরূপক এবং তার পরিমিত ব্যবধান বের করতে হবে। তারপর আস্থার ব্যবধান বের করে আমরা পরামানকে যথেষ্ট আস্থা সহকারে নিরূপণ করতে সক্ষম হবো।

ডাউনলোড

R কোড ফাইলটি ডাউনলোড করুন (17_RCode.txt) (270 downloads)

তথ্যসূত্র

নমুনায়নে পদ্ধতি সম্পর্কে আরো জানতে চাইলে গুগল করতে পারেন। আমি কতগুলি লিংক দিচ্ছি।

১. গুচ্ছ নমুনায়ন

http://www.stat.purdue.edu/~jennings/stat522/notes/topic5.pdf

http://www.fao.org/docrep/009/a0198e/a0198e07.htm

http://ocw.jhsph.edu/courses/statmethodsforsamplesurveys/PDFs/Lecture5.pdf

২. স্তরীভূত নমুনায়ন

http://ocw.jhsph.edu/courses/statmethodsforsamplesurveys/PDFs/Lecture4.pdf

http://www4.ncsu.edu/~pollock/pdfs/ST%20432%20Stratified%20Random%20Sampling.pdf

৩. সব ধরনের নমুনায়ন নিয়ে লেকচার নোটস

http://www.ssc.wisc.edu/~oliver/SOC357/Lectures%20and%20Notes/SamplingBigSlides.pdf

 

আগের লেকচার-এর লিংক

ভূমিকা

লেকচার ১ – উপাত্ত সংগ্রহ

লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা

লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)

লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ

লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ

লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ 

লেকচার ৭ – তুলনামূলক অবস্থান ও z-score

লেকচার ৮ – সম্ভাবনার খুঁটি 

লেকচার ৯ – গণনার পদ্ধতিসমূহ

লেকচার ১০ – সম্ভাবনা

লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা

লেকচার ১২ – দৈব চলক ও তার সম্ভাবনা বিন্যাস

লেকচার ১৩ – দ্বিপদ বিন্যাস

লেকচার ১৪ – পয়সোঁ বিন্যাস

লেকচার ১৫ – নরমাল বিন্যাস

লেকচার ১৬ – নমুনা নিবেশন

কোর্সের সূচনা পাতা

Comments

comments

About the author

এনায়েতুর রহীম

পরিসংখ্যান নিয়ে আছি প্রায় দুই দশক -- এখনো শিখছি--পড়ে এবং পড়ানোর মাধ্যমে। ঢাকা বিশ্ববিদ্যালয় থেকে ফলিত পরিসংখ্যানে ব্যাচেলরস, মাস্টার্স। গবেষণা মূলত গাণিতিক পরিসংখ্যান নিয়ে। বিশেষভাবে কাজ করি রিগ্রেশন মডেলে Shrinkage and Absolute Penalty Estimation নিয়ে। আরো কাজ করি পরিসংখ্যান বিষয়ক সফটওয়্যার, মন্টি কারলো, রিস্যাম্পলিং, জনস্বাস্থ্য ও এপিডেমিওলজি, এবং পরিবেশ বিষয়ক পরিসংখ্যানে। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে ইউনিভার্সিটি অব নর্দার্ন কলোরাডো তে ফলিত পরিসংখ্যানের সহকারী অধ্যাপক হিসেবে কর্মরত। ব্যক্তিগত সাইট

Leave a Reply