লেকচার সারসংক্ষেপ
কোন ড্যাটা বা ভ্যারিয়েবলের ডেসক্রিপটিভ স্ট্যাটিসটিকস গণনা করতে আমরা R এর সাথে থাকা datasets প্যাকেজটির mtcars ড্যাটাটি ব্যবহার করবো। প্রথমে এটি দিয়ে একটি object তৈরি করে নেই যেটার নাম দিচ্ছি data1.
# Sample dataset data1 <- mtcars
খুব সাধারণ সামারি স্টাটিসটিক্স দেখতে গেলে আমাদের সামারি কমান্ডটি ব্যবহার করতে হবে,
# Summary statistics summary(data1)
এভাবে সবগুলো স্ট্যাটিসটিক একসাথে না দেখে ভ্যারিয়েবলগুলোর আলাদা আলাদ গণনা করা সম্ভব। যেমন, mean
বা গড় গণনা করতে আমাদের mean কমান্ডটি ব্যবহার করতে হবে।
# Mean mean(data1)
বা, colMeans
বা sapply
কমান্ডটি দিয়েও এটি ক্যালকুলেট করা যায়,
colMeans(data1) sapply(data1, mean)
কোন ড্যাটা অবজেক্টের ভেতরে সবগুলো ভ্যারিয়েবলের ওপর কমান্ড প্রয়োগ না করে একটি নির্দিষ্ট ভ্যারিয়েবলের গড় বের করতে আমাদের $ চিহ্নটি ব্যবহার করে অবজেক্টের ভ্যারিয়েবলটিতে এ্যাক্সেস করতে হবে।
# Mean of a variable inside a dataset/object mean(data1$mpg)
বিকল্প হিসেবে ড্যাটা অবজেক্টটিকে attach করে নিলে কাজটা আরো সহজ হয়,
attach(data1) mean(mpg)
কাজ শেষে ড্যাটা ডিটাচ করে নিতে,
detach(data1)
কোন ড্যাটা অবজেক্টের জন্য Mean বা গড়ের মতো কোন অবজেক্টের median বা মধ্যক সরাসরি ক্যালকুলেট করা যায় না। যেমন,
# Median median(data1)
এই কমান্ডটি কাজ করবে না। এটা কাজ করবে ভ্যারিয়েবল লেভেলে।
median(data1$mpg)
স্ট্যান্ডার্ড ডিভিয়েশন ক্যালকুলেট করতে,
# Standard deviation sd(data1) sapply(data1, sd)
ভ্যারিয়্যান্স ক্যালকুলেট করতে আমরা স্ট্যান্ডার্ড ডিভিয়েশন স্কোয়ার করে নিতে পারি,
# Variance (sapply(data1,sd))^2
অথবা ভ্যারিয়্যান্স কোভ্যারিয়েন্স ম্যাট্রিক্স ক্যালকুলেট করে সেখান থেকে দরকারি তথ্যগুলো পেতে পারি,
# Variance covarinace matrix # sd(x)* sd(x) * correlation(x, x) = var(x) var(data1)
স্কিউনেস এবং কার্টোসিস গণনা করতে e1071টি ব্যবহার করতে পারেন,
# Skewness and kurtosis using e1071 library # install.packages("e1071", dependencies=TRUE) library(e1071) skewness(data1) kurtosis(data1)
এছাড়া আরো ভালোভাবে একত্রে সবকিছুর ব্যবহার করতে pastecs বা psych প্যাকেজ দুটি ব্যবহার করা যেতে পারে। যেমন pastecs প্যাকেজে stat.desc কমান্ড ও psych প্যাকেজে describe কমান্ডের মাধ্যমে ডেস্কৃপ্টিভ স্ট্যাটিসটিক্স আরোও ভালোভাবে গণনা করে নেয়া যায়।
# Descriptive statistics using pastecs package # install.packages("pastecs", dependencies=TRUE) library(pastecs) stat.desc(data1) # # Descriptive statistics using psych package # install.packages("psych", dependencies=TRUE) library(psych) describe(data1)
psych প্যাকেজে কোন একটি গ্রুপিং ভ্যারিয়েবলের ওপর নির্ভর করে আলাদা আলাদাভাবে বিভিন্ন গ্রুপের ডেস্কৃপ্টিভ স্ট্যাটিসটিক্স বের কার সম্ভব। এজন্য describeBy কমান্ডটি ব্যবহার করতে হবে।
describeBy(data1, data1$cyl)
লিংক
১. লেকচার ভিডিও ডাউনলোড লিংক
২. R স্কৃপ্ট ডাউনলোড লিংক
৩. স্লাইড ডাউনলোড লিংক
৩. কোর্স পেইজ