Warning: count(): Parameter must be an array or an object that implements Countable in /homepages/19/d650279470/htdocs/app653499953/wp-includes/post-template.php on line 284

Warning: count(): Parameter must be an array or an object that implements Countable in /homepages/19/d650279470/htdocs/app653499953/wp-includes/post-template.php on line 284

Warning: count(): Parameter must be an array or an object that implements Countable in /homepages/19/d650279470/htdocs/app653499953/wp-includes/post-template.php on line 284

Warning: count(): Parameter must be an array or an object that implements Countable in /homepages/19/d650279470/htdocs/app653499953/wp-includes/post-template.php on line 284

«

»

জুন 22

R পরিচিতি – লেকচার ৩.১: ডেস্কৃপটিভ স্ট্যাটিসটিকস

লেকচার সারসংক্ষেপ

কোন ড্যাটা বা ভ্যারিয়েবলের ডেসক্রিপটিভ স্ট্যাটিসটিকস গণনা করতে আমরা R এর সাথে থাকা datasets প্যাকেজটির mtcars ড্যাটাটি ব্যবহার করবো। প্রথমে এটি দিয়ে একটি object তৈরি করে নেই যেটার নাম দিচ্ছি data1.

# Sample dataset
data1 <- mtcars

খুব সাধারণ সামারি স্টাটিসটিক্স দেখতে গেলে আমাদের সামারি কমান্ডটি ব্যবহার করতে হবে,

# Summary statistics
summary(data1)

এভাবে সবগুলো স্ট্যাটিসটিক একসাথে না দেখে ভ্যারিয়েবলগুলোর আলাদা আলাদ গণনা করা সম্ভব। যেমন, mean বা গড় গণনা করতে আমাদের mean কমান্ডটি ব্যবহার করতে হবে।

# Mean
mean(data1)

বা, colMeans বা sapply কমান্ডটি দিয়েও এটি ক্যালকুলেট করা যায়,

colMeans(data1)
sapply(data1, mean)

কোন ড্যাটা অবজেক্টের ভেতরে সবগুলো ভ্যারিয়েবলের ওপর কমান্ড প্রয়োগ না করে একটি নির্দিষ্ট ভ্যারিয়েবলের গড় বের করতে আমাদের $ চিহ্নটি ব্যবহার করে অবজেক্টের ভ্যারিয়েবলটিতে এ্যাক্সেস করতে হবে।

# Mean of a variable inside a dataset/object
mean(data1$mpg)

বিকল্প হিসেবে ড্যাটা অবজেক্টটিকে attach করে নিলে কাজটা আরো সহজ হয়,

attach(data1)
mean(mpg)

কাজ শেষে ড্যাটা ডিটাচ করে নিতে,

detach(data1)

কোন ড্যাটা অবজেক্টের জন্য Mean বা গড়ের মতো কোন অবজেক্টের median বা মধ্যক সরাসরি ক্যালকুলেট করা যায় না। যেমন,

# Median
median(data1)

এই কমান্ডটি কাজ করবে না। এটা কাজ করবে ভ্যারিয়েবল লেভেলে।

median(data1$mpg)

স্ট্যান্ডার্ড ডিভিয়েশন ক্যালকুলেট করতে,

# Standard deviation
sd(data1)
sapply(data1, sd)

ভ্যারিয়্যান্স ক্যালকুলেট করতে আমরা স্ট্যান্ডার্ড ডিভিয়েশন স্কোয়ার করে নিতে পারি,

# Variance
(sapply(data1,sd))^2

অথবা ভ্যারিয়্যান্স কোভ্যারিয়েন্স ম্যাট্রিক্স ক্যালকুলেট করে সেখান থেকে দরকারি তথ্যগুলো পেতে পারি,

# Variance covarinace matrix
# sd(x)* sd(x) * correlation(x, x) = var(x)
var(data1)

স্কিউনেস এবং কার্টোসিস গণনা করতে e1071টি ব্যবহার করতে পারেন,

# Skewness and kurtosis using e1071 library
# install.packages("e1071", dependencies=TRUE)
library(e1071)
skewness(data1)
kurtosis(data1)

এছাড়া আরো ভালোভাবে একত্রে সবকিছুর ব্যবহার করতে pastecs বা psych প্যাকেজ দুটি ব্যবহার করা যেতে পারে। যেমন pastecs প্যাকেজে stat.desc কমান্ড ও psych প্যাকেজে describe কমান্ডের মাধ্যমে ডেস্কৃপ্টিভ স্ট্যাটিসটিক্স আরোও ভালোভাবে গণনা করে নেয়া যায়।

# Descriptive statistics using pastecs package
# install.packages("pastecs", dependencies=TRUE)
library(pastecs)
stat.desc(data1)

# # Descriptive statistics using psych package
# install.packages("psych", dependencies=TRUE)
library(psych)
describe(data1)

psych প্যাকেজে কোন একটি গ্রুপিং ভ্যারিয়েবলের ওপর নির্ভর করে আলাদা আলাদাভাবে বিভিন্ন গ্রুপের ডেস্কৃপ্টিভ স্ট্যাটিসটিক্স বের কার সম্ভব। এজন্য describeBy কমান্ডটি ব্যবহার করতে হবে।

describeBy(data1, data1$cyl)

লিংক

১. লেকচার ভিডিও ডাউনলোড লিংক
২. R স্কৃপ্ট ডাউনলোড লিংক
৩. স্লাইড ডাউনলোড লিংক
৩. কোর্স পেইজ

Comments

comments

About the author

হাসিব মাহমুদ

ব্লগার,
সচলায়তন.কম
নীড়পাতা.কম

Leave a Reply