নভে. 09

পরিসংখ্যান পরিচিতি – লেকচার ১৭ – নিরূপণ (Estimation)

Categories:

কোর্স

by এনায়েতুর রহীম

PDF

ভূমিকা

এ পর্বে বর্তমানে বহুল আলোচিত একটি বিষয়ের উপর আলোচনা করা হয়েছে। ১৬কোটি মানুষের মতামত মাত্র দুই-আড়াই হাজার মানুষের কাছ থেকে পাওয়া সম্ভব কিনা? সহজ উত্তর হলো হ্যাঁ, এরচেয়ে কম মানুষের কাছ থেকে মতামত নিয়েই ১৬ কোটির মতামত জানা সম্ভব। অন্তত পরিসংখ্যানের তত্ত্ব তাই বলে। আসুন নিজেই পরীক্ষা করে দেখুন।

Estimation মানে কোন কিছু এস্টিমেট করা। এর বাংলা প্রতিশব্দ নিরূপণ। আমাদের অবস্থা এমন যে বাংলার চেয়ে আমরা ইংরেজি শব্দটির সাথে বেশি পরিচিত। তাই ইংরেজি শব্দই আমাদের কাছে বেশী অর্থবহ। বাস্তব জীবনের নানা ক্ষেত্রে আমাদের নিরূপণ করা দরকার হয়। যেমন, আমরা জানতে চাই

সুন্দরবনে মোট বাঘের সংখ্যা কতটি?
বাংলাদেশের পোশাক শিল্পে কর্মরত শ্রমিকদের মাসিক আয়ের মধ্যক (median) কত?
কত শতাংশ মানুষ নির্বাচন পরিচালনার জন্য তত্ত্বাবধায়ক সরকারের ধারণাকে সমর্থন করে?

এরকম নানা প্রশ্নের মাধ্যমে আমরা মূল জনগোষ্ঠির একটি বিশেষ বৈশিষ্ট্য সম্পর্কে জানতে চাইছি। এই বিশেষ বৈশিষ্ট্যকে ইংরেজিতে বলে প্যারামিটার (Parameter), বাংলায় আমরা বলবো পরামান। ধরা যাক আপনার পরিবারে সদস্য সংখ্যা পাঁচ। আপনি যদি জানতে চান পরিবারের কত শতাংশ সদস্য তত্ত্বাবধায়ক সরকার পদ্ধতির সমর্থক, আপনি তাদের কাছে প্রশ্ন করে উত্তর জেনে নিয়ে শতাংশ বের করতে পারেন।

আপনার প্রশ্নটি হবে এরকম:

আপনি কি নির্বাচন পরিচালনার জন্য তত্ত্বাবধায়ক সরকার পদ্ধতি সমর্থন করেন? উত্তরে হ্যাঁ বা না বলুন।

ধরা যাক পাঁচ জনের মধ্যে তিন জন তত্ত্বাবধায়ক সরকার পদ্ধতি সমর্থন করে আর দুই জন সমর্থন করে না। তাহলে আপনার পরিবারের সদস্যদের ৩/৫ = ০.৬ বা ৬০শতাংশ সদস্য তত্ত্বাবধায়ক পদ্ধতি সমর্থন করে।

একইভাবে বাংলাদেশের কত শতাংশ মানুষ তত্ত্বাবধায়ক পদ্ধতি সমর্থন করে সেটি যদি জানতে চাই তাহলে একই পদ্ধতি অনুসরণ করতে পারি। কিন্ত দেশের সকল মানুষকে এই প্রশ্ন করে উত্তর সংগ্রহ করা বাস্তবসম্মত নয়। তর্কের খাতিরে যদি ধরেও নেই আমরা সবার মতামত নিতে চাই, সেটি হবে অত্যন্ত সময় সাপেক্ষ এবং চরম ব্যয়বহুল।

নমুনা জরিপ

এই সমস্যা থেকে উত্তরণের জন্য পরিসংখ্যানবিদগণ পরিসংখ্যানিক কিছু পদ্ধতি ব্যবহার করেন। সংক্ষেপে ব্যাপারটা এরকম—আপনি মূল জনগোষ্ঠি থেকে প্রতিনিধিত্বমূলক নমুনা সংগ্রহ করবেন এবং সেই নমুনার ভিত্তিতে মূল জনগোষ্ঠির উপর একটি সিদ্ধান্তে পোঁছুবেন। এভাবে একটি প্রতিনিধিত্বমূলক নমুনা থেকে মূল জনগোষ্ঠির কোন বৈশিষ্ট্যকে (পরামান) এস্টিমেট বা নিরূপণ করা হয়।

আমরা অনুমান করতে পারি ভাত রান্নার সময় আমাদের মা-খালারা যেমন কয়েকটি ভাত টিপে রান্না হয়েছে কিনা সে সম্পর্কে ধারণা করতেন, তেমনি জনগোষ্ঠির কত শতাংশ মানুষ একটি বিষয়ে হ্যাঁ বা না বলছে সেটি জনগোষ্ঠির একটি প্রতিনিধিত্বমূলক নমুনা থেকে বলা যেতে পারে। একটি বিষয় উল্লেখ্য যে নমুনাটিকে প্রতিনিধিত্বমূলক হতে হবে।

নিরূপণ

এতক্ষণে আমরা নিরূপণের ধারণাটি বুঝতে পেরেছি। সহজভাবে বল যায় নিরূপণ হল জনগোষ্ঠির পরামান কে (বা বৈশিষ্ট্যকে) নমুনা-তথ্যভিত্তিকভাবে অনুমান করা।

নিরূপণ দুই ভাবে করা যায়। উদাহরণের মাধ্যমে বোঝার চেষ্টা করা যাক।

ধরা যাক আমরা জানতে চাই সুন্দরবনে কতগুলো বাঘ আছে। এক্ষেত্রে জনগোষ্ঠি হল সুন্দরবনের বাঘ। আর জনগোষ্ঠির যে বৈশিষ্ট্য সম্পর্কে আমরা জানতে চাই সেটি হল বাঘের মোট সংখ্যা। এখানে মোট বাঘের সংখ্যা হল পরামান।

যেহেতু সুন্দরবনে কতটি বাঘ আছে সেটি জানার বাস্তবিক কোন উপায় নেই তাই আমাদের বাঘের সংখ্যাকে নিরূপণ করতে হবে। এই নিরূপণ আমরা একটি নির্দিষ্ট মান দিয়ে করতে পারি অর্থাৎ আমরা বলতে পারি সুন্দরবনের বাঘের নিরূপিত মোট সংখ্যা ৪৮০. এভাবে একটি নির্দিষ্ট মান দিয়ে নিরূপণ করাকে বলে পয়েন্ট এস্টিমেশন (Point Estimation) বা বিন্দু নিরূপন।

বিন্দু নিরূপণের সমস্যা হলো এটি একটিমাত্র মান নির্দেশ করে যা সত্যি হতেও পারে আবার নাও হতে পারে।

অপর নিরূপণ পদ্ধতিটি একটু সুবিধাজনক যেখানে জনগোষ্ঠির পরামানকে একটি ব্যবধানের মাধ্যমে প্রকাশ করা হয়। যেমন, আমরা বলতে পারি সুন্দরবনের মোট বাঘের সংখ্যা ৪৮০ থেকে ৫২০ এর মধ্যে। দুটি সংখ্যার ব্যবধান দিয়ে জনগোষ্ঠির বৈশিষ্ট্যের পরামানকে প্রকাশ করার পদ্ধতিকে ইন্টারভাল এস্টিমেশন (Interval Estimation) বা ব্যাপ্তি নিরূপণ বলে।

আমাদের ইনটুইশান থেকে হয়তো বুঝতে পারছি ব্যাপ্তি নিরূপণ বেশি সুবিধাজনক।

নিরূপণ ও নমুনা বিন্যাসের সম্পর্ক

জনগোষ্ঠির পরামানকে আমরা যেহেতু নমুনা থেকে নিরূপণ করি সেহেতু পরামানের সাথে নিরূপিত মানের সম্পর্ক থাকাই স্বাভাবিক। এই সম্পর্কটি স্হাপিত হয় নমুনা বিন্যাসের মাধ্যমে। গত পর্বে আমরা কেন্দ্রীয় সীমা তত্ত্বের (Central Limit Theorem) কথা বলেছিলাম। জনগোষ্ঠির বিন্যাস জানা না থাকলেও কেন্দ্রীয় সীমা তত্ত্বের মাধ্যমে আমরা নিরূপকের সম্ভাবনা বিন্যাস জানতে পারি। যদি নমুনার সংখ্যা বেশী হয় তাহলে নিরূপক বা এস্টিমেটর এর নমুনা বিন্যাস নরমাল বিন্যাস অনুসরণ করে।

জনগোষ্ঠির কোন বৈশিষ্ট্যের পরামান যদি আমরা নিরূপণ করতে চাই তাহলে নিরূপক-এর নমুনা বিন্যাস থেকে সেটি বের করতে পারি। যেমন আমরা যদি জানতে চাই দেশের কত শতাংশ মানুষ তত্তাবধায়ক পদ্ধতি সমর্থন করে তাহলে দৈব চয়নের মাধ্যমে সংগ্রহকৃত নমুনা থেকে এই অনুপাতের (proportion) মান নিরূপণ করতে পারি। আগের পর্বেই দেখিয়েছিলাম নমুনা অনুপাত (Sample Proportion বা p-hat) এর সম্ভাবনা বিন্যাস প্রায় নরমাল, যার গড় এবং ভেদাংক নিচের মত হবে।

এই বিন্যাস দেখতে স্তুপাকার (চিত্র – ক) দেখুন।

নমুনা বিন্যাস জানা থাকায় আমরা অতি সহজেই ব্যাপ্তি নিরূপণ (Interval Estimate) করতে পারি। ব্যাপ্তি নিরূপণের জন্য বিন্যাসের গড় এবং পরিমিত ব্যবধান (Standard error বা Standard deviation) জানা দরকার যা আমরা নিরূপকের সম্ভাবনা বিন্যাস থেকে পাই। এ নিয়ে আগের লেকচারে বিস্তারিত আলোচনা করা হয়েছে। এ দুটি জানা থাকায় আমরা 100(1-alpha)% আস্হার ব্যবধান উপরের (চিত্র-খ) সূত্রের মাধ্যমে বের করতে পারি। এখানে আলফা হলো পরামান নিরূপণে কত শতাংশ ভুল আমরা গ্রহণ করবো সেটি। এই মান সাধারণত ৫% ধরা হয়। আমরা ইচ্ছে করলে ১% বা ২% বা অন্য কোন মান ধরতে পারি। ৫% ভুলের হার ধরে ৯৫% আস্হার ব্যবধানের সূত্রটি নিম্নরূপ।

লক্ষ্যণীয় যে উপরের সূত্রে পরামান (p)-কে আমরা নিরূপিত মান (p-hat) দিয়ে প্রতিস্হাপিত করেছি। কারণ বাস্তবক্ষেত্রে পরামান জানা থাকে না।

মনে আছে হয়তো, আস্থার ব্যবধান বের করার সাধারণ সূত্রটি হলো—

নিরূপিত মান +- (ধ্রবকx নিরূপকের পরিমিত ব্যবধান)

নমুনা সংগ্রহ করার পদ্ধতিসমূহ

পরিসংখ্যানের তত্ত্ব ব্যবহার করতে হলে নমুনাকে প্রতিনিধিত্বমূলক হতে হবে। সেইসাথে নমুনাগুলিকে আলাদা-আলাদা-ভাবে (Independent of each other) সংগ্রহ করতে হবে। নমুনা সংগ্রহের তিনটি প্রধান পদ্ধতি নিচে সংক্ষেপে দেয়া হলো।

সাধারণ দৈব চয়ন বা দৈব নমুনায়ন (Simple Random Sampling)

এই পদ্ধতিতে জনগোষ্ঠির প্রতিটি উপাদানের তালিকা থেকে দৈব চয়নের মাধ্যমে নমুনা নেয়া হয়। ধরা যাক বাংলাদেশের সেলফোন ব্যবহারকারীদের একটা নমুনা নেয়া দরকার। এই পদ্ধতিতে সকল সেলফোন ব্যবহারকারীর তালিকা আগে তৈরী করতে হবে। তারপর সেখান থেকে নমুনা চয়ন করা হবে।

দৈব চয়ন বললে আমরা সাধারণ দৈব চয়নকেই বুঝি। এই পদ্ধিতিটি বোঝা সহজ কিন্তু অধিকাংশক্ষেত্রেই কোন জনগোষ্ঠির সব সদস্যের তালিকা তৈরী করা সম্ভব হয় না।

স্তরীভূত নমুনায়ন (Stratified Random Sampling)

এই পদ্ধতিতে জনগোষ্ঠিকে প্রথমে কতগুলো স্তরে ভাগ করে নেয়া হয়। স্তরগুলোকে এমনভাবে নির্ধারণ করা হয় যাতে একটি স্তর (Stratum) থেকে আরেকটি স্তর সম্পূর্ণ ভিন্নধর্মী হয়। উদাহরণ হিসেবে বলা যায় শহুরে এলাকার মানুষ এবং পল্লী এলাকার মানুষদের স্তর। কিংবা পুরুষ এবং মহিলাদের স্তর; চাকুরীজীবি, কৃষিজীবি,এবং ব্যবসায়ীদের স্তর। এভাবে জনগোষ্ঠিকে প্রয়োজনমতো নানা স্তরে ভাগ করে নমুনা সংগ্রহের পদ্ধতিকে স্তরীভূত নমুনায়ন বলে।

স্তরীভূত নমুনায়নে প্রতিটি স্তর থেকেই নমুনা সংগ্রহ করা হয়।

গুচ্ছ নমুনায়ন (Cluster Sampling)

গুচ্ছ নমুনায়নে জনোগোষ্ঠিকে একই রকম কতগুলো গুচ্ছে (Cluster) ভাগ করা হয়। সাধারণত গুচ্ছগুলির ভিতরে জনগোষ্ঠীর বৈশিষ্ট্যের রকমফের হয় কিন্তু গুচ্ছগুলো পরস্পর একই রকম। এটি স্তরীভূত নমুনায়নের ঠিক উল্টো। বাংলাদেশের বড় বড় জরীপগুলো অনেক ধাপে গুচ্ছ নমুনায়নের (Multistage Cluster Sampling) মাধ্যমে করা হয়ে থাকে। গুচ্ছ নমুনায়নের ক্ষেত্রে জনগোষ্ঠিকে প্রথমে কতগুলো গুচ্ছে ভাগ করা হয়। তার পর কয়েকটি গুচ্ছ দৈব চয়নের মাধ্যমে নির্বাচন করা হয়।

গুচ্ছ নমুনায়ন কিংবা স্তরীভূত নমুনায়ন যেটিই করা হোক না কেন স্তর কিংবা গুচ্ছ নির্ধারণ করার পর এর ভেতর থেকে দৈব চয়নের মাধ্যমে নমুনা সংগ্রহ করা হয়।

মনে রাখতে হবে বিন্দু নিরূপণ এবং এর পরিমিত ব্যবধান বের করার সূত্র নমুনা পদ্ধতির উপর নির্ভর করে। উপরে যে বিন্দু নিরূপণ ও পরিমিত ব্যবধানের সূত্র দেয়া হয়েছে তা সাধারণ দৈব চয়নের জন্য প্রযোজ্য। তবে আস্থার ব্যবধানের মূল সূত্রটি অপরিবর্তিত থাকবে। শুধু বিন্দু নিরূপক এবং এর পরিমিত ব্যবধানের অংশটির পরিবর্তন করতে হবে।

ষোল কোটি জনতার মতামত জানতে দুই বা আড়াই হাজার নমুনা যথেষ্ট কিনা

অল্প কথায় বললে উত্তর হবে হ্যাঁ। তবে পরিসংখ্যানের যেকোন তত্ত্বের ব্যবহার সঠিক হবে যদি নমুনাগুলো দৈব চয়নের মাধ্যমে সংগ্রহ করা হয়। ইচ্ছেমত নমুনা নিয়ে সেখানে পরিসংখ্যানের তত্ত্ব ব্যবহার করা যাবে না। সেই ফলাফলকেও জেনারেলাইজ করা যাবে না।

দুই বা আড়াই হাজার নমুনা যথেষ্ট কিনা এর উত্তর জানতে আমরা কম্পিউটারে একটি পরীক্ষা সেটআপ করবো। আমি পরিসংখ্যানের সফটওয়্যার R দিয়ে প্রোগ্রামটি লিখব। তবে তার আগে আমি পরীক্ষণের ধাপগুলো তালিকাকারে দিচ্ছি। এতে করে আপনার পছন্দের প্রোগ্রাম যেমন জাভা, সি, ফোরট্রান, ম্যাটল্যাব বা অন্য সুবিধাজনক কোন ভাষা/প্যাকেজ দিয়ে পরীক্ষাটি করতে পারবেন।

পরীক্ষার ধাপ সমূহ (Steps of Simulation Study)

১) একটি জনগোষ্ঠি তৈরী করুন যেখানে N সংখ্যক উপাদান থাকবে। ধরা যাক N=1000. ধরুন আপনার জানা আছে যে এই ১ হাজার মানুষের মধ্যে ৭০০ জন তত্বাবধায়ক সরকার পদ্ধতি সমর্থন করে। তাহলে p=700/1000 = 0.7. আপনি আপনার ইচ্ছেমত এই মান ঠিক করতে পারেন।

২) এখন জনগোষ্ঠির উপাদানগুলোকে “হ্যাঁ”র জন্য 1 এবং “না”র জন্য 0 –এ পরিবর্তন করে দিব। অর্থাৎ আমাদের জনগোষ্ঠিতে ৭০০টি 1 এবং ৩০০টি শুন্য আছে।

৩) এখন সাধারণ দৈব চয়ন পদ্ধতি অনুসরণ করে ১হাজার মানুষের মধ্যে থেকে ৫০ জনকে নির্বাচন করুন। কম্পিউটার প্যাকেজ বা প্রোগ্রামিংএর মাধ্যমে আপনি ৫০ জনকে randomly select করতে পারবেন।

৪) ৩ নং ধাপে প্রাপ্ত নমুনা থেকে কতজন “হ্যাঁ” নির্বাচিত হয়েছে তার অনুপাত বের করুন। যেমন, ৫০ জনের মধ্যে যদি ৩০টি 1 এসে থাকে তাহলে হ্যাঁ = ৩০/৫০ = ০.৬ বা ৬০ শতাংশ। এই p-hat = ০.৬ হল জনগোষ্ঠির পরামানের (যেটি আমরা জানি ০.৭) এর নিরূপিত মান। এই নমুনা জরিপ থেকে আমরা বলবো জনগোষ্ঠির ৬০ শতাংশ মানুষ হ্যাঁ বলেছে।

৫) এবারে আস্থার ব্যবধান বের করুন। p-hat = .6 ধরে আস্থার ব্যবধান হবে sqrt[(.6)(1-.6)/50] = 0.06928. আর ৯৫% আস্হার ব্যবধান বের করতে ধ্রুবকটি হল ১.৯৬. তাহলে জনগোষ্ঠির পরামানের ৯৫% আস্থার ব্যবধান

= (0.6 – 1.96* 0.06928, 0.6 + 1.96* 0.06928)

= (0.4642, 0.7358)

এই আস্থার ব্যবধানের অর্থ হলো আমরা ৯৫% কনফিডেন্ট যে জনগোষ্ঠিতে প্রকৃত “হ্যাঁ”র অনুপাত ০.৪৬ থেকে ০.৭৩ এর মধ্যে হবে।

৬) লক্ষ্য করুন আমাদের ৯৫% আস্থার ব্যবধানটি জনগোষ্ঠির পরামান (.৭) কে ধারণ করেছে। অর্থাৎ জনগোষ্ঠিতে প্রকৃত হ্যাঁর অনুপাত এই আস্থার ব্যবধানের মধ্যে পড়েছে।

৭) এবারে ৩-৫ নম্বর ধাপগুলো আপনি অসংখ্যবার রিপিট করুন। ধরা যাক আপনি ১০০ বার রিপিট করলেন। তাহলে ১০০টি আস্থার ব্যবধান বের হবে। আপনি গুনে দেখবেন এই ১০০টির মধ্যে কতটি আস্থার ব্যবধান প্রকৃত পরামানকে ধারণ করেছে। যদি পরীক্ষণটি আপনি অসংখ্যবার করেন, ধরুন ১০০০ বার, তাহলে দেখবেন প্রায় ৯৫% আস্থার ব্যবধানের মধ্যে প্রকৃত পরামানটি ধরা পড়েছে। ১০০ বার করলে হয়তো দেখবেন ৯৩ বার কিংবা ৯৫ বার কিংবা ৯৬ বারই পরামানটি গণনাকৃত আস্থার ব্যবধানের মধ্যে ধরা পড়েছে।

আপনার নমুনার সংখ্যা যত বেশী হবে আস্থার ব্যবধান তত ছোট হবে। অর্থাৎ নিরূপণটি তত বেশী প্রিসাইস হবে। অন্যভাবে বলা যায়, নমুনার সংখ্যা বেশী হলে নিরূপকের পরিমিত ব্যবধান কম হবে। তার মানে হলো এক নমুনা থেকে প্রাপ্ত নিরূপকের মান আরেক নমুনা থেকে প্রাপ্ত নিরূপকের মানের মধ্যে ব্যবধান কম হবে।

R কোড

নিচের কোড দিয়ে আমরা একটি বাস্তব অব্স্থাকে কাল্পনিকভাবে স্টাডি করব এবং দেখবো পরিসংখ্যানের তত্ত্ব কতটা সঠিকভাবে কাজ করে।

নিচে আমি কোড দিয়ে দিলাম। আপনারা ইচ্ছেমতো মান বসিয়ে চালিয়ে দেখুন। এখানে N হলো জনগোষ্ঠির সাইজ। আর p এর মান আমি ধরেছি .৭. আপনি অর্থবহ যে কোন মান বসিয়ে দেখুন কতগুলো আস্থার ব্যবধান এই মানকে ক্যাপচার করতে পারে। কোডে হ্যাশ চিহ্নিত লাইনগুলো ‘কমেন্ট’, অর্থাৎ কম্পিটার ঐ লাইনগুলো প্রসেস করবে না।

# number of elements in the population

N <- 160000000

# Population parameter. Proportion of individuals responding “YES”.

p <- .7 # Change the value as you wish.

# Generating population data

# Number of YES, i.e., 1s = N * .7

# Number of NO i.e., 0s = N * .3

pop <- c(rep(1, N * p), rep(0, N * (1 – p) ))

# Copy and paste on your R workspace.

# Internal function to compute 95% confidence Intervals;

conf<- function(x)

{

# counting the number of ones

ones <- as.vector(as.matrix(table(x))[2,1])

# Calculating sample proportion

phat <- ones/length(x)

# standard error of sample proportion

phat.sd <- sqrt(phat*(1-phat)/length(x))

# 95% confidence interval for population proportion

interval <- c((mean(x) – 1.96 * phat.sd), (mean(x)+ 1.96 * phat.sd))

#returns the interval

interval

}

# Copy and paste on your R workspace.

# Function to calculate coverage probability

coverage <- function (n, P = pop, R)

{

sample.data <- matrix(sample(P, n * R), nrow = n, ncol = R)

phat <- apply(sample.data, 2, conf)

phat

}

# How many intervals would include the true value of the

# population proportion if we sample repeatedly (say, 1000 times)?

# Fixing the random seed ensures that the results are reproducible.

# Setting the seed to 10.

set.seed(10)

# Draw 1000 random sample each of size 100

# Compute 95% confidence intervals based on each sample generated.

out <- coverage(n = 100, R = 1000)

# Lower confidence limit

lcl <- out[1,]

# Upper confidence limit

ucl <- out[2,]

# How many of these intervals include the true value, p ?

table(lcl <= p & ucl >= p)

Results

> table(lcl <= p & ucl >= p)

FALSE TRUE

51 949

উপরের ফলাফলে দেখতে পারছি আমরা যদি ১০০ টি নমুনা নিয়ে আস্থার ব্যবধান বের করি এবং এভাবে যদি ১০০০ বার আমরা নমুনা নিয়ে ১০০০টি আস্থার ব্যবধান বের করতাম তাহলে ৯৪.৯% আস্থার ব্যবধান প্যারামিটিারকে ধারণ করতো। এ থেকে বুঝতে পারছি পরিসংখ্যানের ত্ত্ত্ব কাজ করছে!

কতগুলো নমুনা নিতে হবে?

সেটা নির্ভর করবে আপনার নিরূপকের প্রিসিশন কতটা চান তার উপর। আপনি যদি নিরূপকের পরিমিত ব্যবধান কম চান অর্থাৎ আপনি ছোট আস্হার ব্যবধান চাইলে স্বাভাবিকভাবেই বেশী নমুনা নিতে হবে। নমুনা যত বেশী হবে আমাদের এস্টিমেট (estimate) তত বেশী প্রিসাইস (precise) হবে। নমুনার সংখ্যার সাথে নিরূপকের প্রিসিসনের সম্পর্কটি আরেকটি ছোট পরীক্ষার মাধ্যমে দেখে নেয়া যাক।

এখানে আমরা জনগোষ্ঠি থেকে ৫০, ১০০, ৫০০, ১০০০, ৩০০০ এবং ৫০০০ টি আলাদা আলাদা নমুনা নিয়ে পরামানকে নিরূপণ করবো। মনে রাখা ভালো যে আমাদের পরামান ০.৭. প্রতিটি নমুনায়ন আমরা ১০০০ বার পুনরাবৃত্ত করবো যা থেকে আমরা ১০০০টি নিরূপিত মান পাব। ১০০০ বার করার কারণ হলো আমরা যদি বাস্তবিকভাবে জরিপটি ১ হাজার বার করতে পারতাম তাহলে নিরূপকের সম্ভাবনা বিন্যাস কেমন হতো এবং সেই বিন্যাসের গড় এবং বিস্তার কেমন হতো তা কম্পিউটারের মাধ্যমে পর্যবেক্ষণ করা।

# Drawing R random samples each of size n

# from the population of N individuals,

# and plotting the sample proportions.

# Also returning the 5th and 95th percentile values.

nsim <- function (n, P = pop, R = 1000, ci = .95, histogram = FALSE) {

sample.data <- matrix(sample(P, n * R), nrow = n, ncol = R)

phat <- apply(sample.data, 2, mean)

if(histogram) {

hist(phat, xlim=c(.1, .9), main=bquote(n==.(n)), xlab=expression(hat(p)))

}

phat.sorted <- sort(phat)

alpha <- (1 – ci) * .5

obs.ci <- c(phat.sorted[R * alpha], phat.sorted[R * (1 – alpha) ])

list (ci = obs.ci)

}

# Plotting the sample proportions

par(mfrow=c(3,2))

set.seed(1)

nsim(50, R = 1000, hist = T)

nsim(100, R = 1000, hist = T)

nsim(500, R = 1000, hist = T)

nsim(1000, R = 1000, hist = T)

nsim(3000, R = 1000, hist = T)

nsim(5000, R = 1000, hist = T)

উপরে কোডটুকু চালালে আমরা যা পাই তা চিত্রে দেখানো হলো।

এখানে নিরূপকের সম্ভাবনা বিন্যাস আমরা হিস্টোগ্রামের মাধ্যমে প্রকাশ করেছি। দেখতে পাচ্ছি যে নমুনা সংখ্যা ৫০ হলে বিন্যাসটির গড় প্রায় ০.৭ এর কাছাকাছি কিন্তু এর বিস্তার অপেক্ষাকৃত বেশী। তাছাড়া বিন্যাসটি স্তুপাকার হলেও পুরোপুরি নরমাল নয়।

আরো দেখতে পাচ্ছি যে নমুনা সংখ্যা বাড়ার সাথে সাথে বিন্যাসটির আকার নরমাল বিন্যাসের মতো আকার ধারণ করছে, এবং n =1000 এর সময় বিন্যাসটি পারফেক্ট নরমাল এবং পারফেক্ট প্রতিসম দেখাচ্ছে। এখানে উল্লেখযোগ্য বিষয় হলো নমুনা সংখ্যা বাড়ার সাথে সাথে নিরূপকের সম্ভাবনা বিন্যাসটি চাপা থেকে বেশী চাপা দেখাচ্ছে। অর্থাৎ বিন্যাসটির ভেদাংক কমে যাচ্ছে। এর অর্থ হলো নমুনার সংখ্যা বাড়ার সাথে সাথে আমার নিরূপিত মানটি প্রকৃত পরামানের খুবই কাছাকাছি চলে যাচ্ছে।

শেষ কথা

পরিসংখ্যান নিয়ে অনেকের মাঝেই ভীতি কাজ করে। এই ভীতি থেকেই আসে পরিসংখ্যানের প্রতি অনাস্থা। শিক্ষিত মেধাবী লোকজনও আজকাল প্রশ্ন তোলে ১৬ কোটি থেকে ৩০০০ জনকে নিয়ে জরিপ করলে সেটা ১৬ কোটির মতামতকে প্রতিফলিত করে কিভাবে। এই প্রশ্নের সরাসরি উত্তর না দিয়ে দেখানোর চেষ্টা করেছি কিভাবে আপনি নিজেই এই প্রশ্নের উত্তর বের করতে পারেন।

পরিশেষে বলতে চাই থিউরেটিক্যালি ১ হাজারের সামান্য কিছু বেশী নমুনা নিয়েই জনগোষ্ঠির কোন বৈশিষ্ট্যৈর পরামানকে নিরূপণ করা সম্ভব। কিন্তু বাস্তবতা যেহেতু ভিন্ন তাই যত বেশী নমুনা নেয়া যাবে পরামানকে তত সূচারুভাবে নিরূপণ করা সম্ভব হবে। যেমনটা আগেই বলেছি, পরিসংখ্যান ভ্যালিড হবে তখনই যখন নমুনা নেয়া হবে দৈব চয়নের মাধ্যমে। স্তুরীভূত নমুনায়ন বা গুচ্ছ পদ্ধতিতে নমুনা চয়ন করলে তদনুযায়ী সূত্র ব্যবহার করে বিন্দু নিরূপক এবং তার পরিমিত ব্যবধান বের করতে হবে। তারপর আস্থার ব্যবধান বের করে আমরা পরামানকে যথেষ্ট আস্থা সহকারে নিরূপণ করতে সক্ষম হবো।

ডাউনলোড

R কোড ফাইলটি ডাউনলোড করুন (17_RCode.txt) (973 downloads)

তথ্যসূত্র

নমুনায়নে পদ্ধতি সম্পর্কে আরো জানতে চাইলে গুগল করতে পারেন। আমি কতগুলি লিংক দিচ্ছি।

১. গুচ্ছ নমুনায়ন

http://www.stat.purdue.edu/~jennings/stat522/notes/topic5.pdf

http://www.fao.org/docrep/009/a0198e/a0198e07.htm

http://ocw.jhsph.edu/courses/statmethodsforsamplesurveys/PDFs/Lecture5.pdf

২. স্তরীভূত নমুনায়ন

http://ocw.jhsph.edu/courses/statmethodsforsamplesurveys/PDFs/Lecture4.pdf

http://www4.ncsu.edu/~pollock/pdfs/ST%20432%20Stratified%20Random%20Sampling.pdf

৩. সব ধরনের নমুনায়ন নিয়ে লেকচার নোটস

http://www.ssc.wisc.edu/~oliver/SOC357/Lectures%20and%20Notes/SamplingBigSlides.pdf

আগের লেকচার-এর লিংক

ভূমিকা

লেকচার ১ – উপাত্ত সংগ্রহ

লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা

লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)

লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ

লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ

লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ

লেকচার ৭ – তুলনামূলক অবস্থান ও z-score

লেকচার ৮ – সম্ভাবনার খুঁটি

লেকচার ৯ – গণনার পদ্ধতিসমূহ

লেকচার ১০ – সম্ভাবনা

লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা

লেকচার ১২ – দৈব চলক ও তার সম্ভাবনা বিন্যাস

লেকচার ১৩ – দ্বিপদ বিন্যাস

লেকচার ১৪ – পয়সোঁ বিন্যাস

লেকচার ১৫ – নরমাল বিন্যাস

লেকচার ১৬ – নমুনা নিবেশন

কোর্সের সূচনা পাতা

Comments

comments

Tags: নমুনা নিবেশন, পরিসংখ্যান পরিচিতি, সিমুলেশন

About the author

এনায়েতুর রহীম

পরিসংখ্যান নিয়ে আছি প্রায় দুই দশক -- এখনো শিখছি--পড়ে এবং পড়ানোর মাধ্যমে। ঢাকা বিশ্ববিদ্যালয় থেকে ফলিত পরিসংখ্যানে ব্যাচেলরস, মাস্টার্স। গবেষণা মূলত গাণিতিক পরিসংখ্যান নিয়ে। বিশেষভাবে কাজ করি রিগ্রেশন মডেলে Shrinkage and Absolute Penalty Estimation নিয়ে। আরো কাজ করি পরিসংখ্যান বিষয়ক সফটওয়্যার, মন্টি কারলো, রিস্যাম্পলিং, জনস্বাস্থ্য ও এপিডেমিওলজি, এবং পরিবেশ বিষয়ক পরিসংখ্যানে। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে ইউনিভার্সিটি অব নর্দার্ন কলোরাডো তে ফলিত পরিসংখ্যানের সহকারী অধ্যাপক হিসেবে কর্মরত। ব্যক্তিগত সাইট।

পরিসংখ্যান পরিচিতি – লেকচার ১৭ – নিরূপণ (Estimation)

ভূমিকা

নমুনা জরিপ

নিরূপণ

নিরূপণ ও নমুনা বিন্যাসের সম্পর্ক

নমুনা সংগ্রহ করার পদ্ধতিসমূহ

সাধারণ দৈব চয়ন বা দৈব নমুনায়ন (Simple Random Sampling)

স্তরীভূত নমুনায়ন (Stratified Random Sampling)

গুচ্ছ নমুনায়ন (Cluster Sampling)

ষোল কোটি জনতার মতামত জানতে দুই বা আড়াই হাজার নমুনা যথেষ্ট কিনা

পরীক্ষার ধাপ সমূহ (Steps of Simulation Study)

R কোড

Results

কতগুলো নমুনা নিতে হবে?

শেষ কথা

ডাউনলোড

তথ্যসূত্র

আগের লেকচার-এর লিংক

Related

Comments

About the author

Leave a Reply Cancel reply

পুরস্কার

গ্রাহক হন

কোর্স তালিকা

সাম্প্রতিক লেকচার

গত ২৪ ঘণ্টার জনপ্রিয় ৫

পুরানো লেকচার

বিভাগসমূহ

ফেইসবুকে ..।

যন্ত্রগণক ডট কমে কম্পিউটার বিজ্ঞান শিক্ষা

জনপ্রিয় পোস্ট

Copyright

পরিসংখ্যান পরিচিতি – লেকচার ১৭ – নিরূপণ (Estimation)

ভূমিকা

নমুনা জরিপ

নিরূপণ

নিরূপণ ও নমুনা বিন্যাসের সম্পর্ক

নমুনা সংগ্রহ করার পদ্ধতিসমূহ

সাধারণ দৈব চয়ন বা দৈব নমুনায়ন (Simple Random Sampling)

স্তরীভূত নমুনায়ন (Stratified Random Sampling)

গুচ্ছ নমুনায়ন (Cluster Sampling)

ষোল কোটি জনতার মতামত জানতে দুই বা আড়াই হাজার নমুনা যথেষ্ট কিনা

পরীক্ষার ধাপ সমূহ (Steps of Simulation Study)

R কোড

Results

কতগুলো নমুনা নিতে হবে?

শেষ কথা

ডাউনলোড

তথ্যসূত্র

আগের লেকচার-এর লিংক

Related

Comments

About the author

Leave a Reply Cancel reply

পুরস্কার

গ্রাহক হন

কোর্স তালিকা

সাম্প্রতিক লেকচার

পাঠকপ্রিয় লেখা

গত ২৪ ঘণ্টার জনপ্রিয় ৫

পুরানো লেকচার

বিভাগসমূহ

ফেইসবুকে ..।

ট্যাগ মেঘমালা

যন্ত্রগণক ডট কমে কম্পিউটার বিজ্ঞান শিক্ষা

জনপ্রিয় পোস্ট

Copyright