Ubuntu 20.04.1 install

カイ二乗検定

統計は最強の姉妹本を見てたら、A/Bテストの話が出てた。A/BだけじゃなくてA/B/Cでも、A/Bと称するのが習わしとか。

で、著者が某EC企業で講習をやった時、受講生からA/Bテストをやってて、0.1%の差が出たけど、これって意義が有るのでしょうかと質問を受けたそうな。

先生はすかさず、こういう場合カイ二乗検定をやるといいですよとレクチャー。その場で計算して見せたそうな。して、結果はp値が20%だから、そんなの当たり前に起きる事ですねって回答したそうな。

詳しい説明が無かったので、調べてみたよ。

カイ二乗検定のわかりやすいまとめ

カイ二乗検定

Rで実践する統計的検定の初歩

Ubuntu 20.04.1 server install

久びりにウブが新しくなったというので Ubuntu 20.04 LTS インストール を参考にvboxに入れた。何処かの国用になってたので、

sudo timedatectl set-timezone Asia/Tokyo

日本用に切り替え。

named-serial接続したかったので、下記で設定。

$ sudo systemctl enable serial-getty@ttyS0.service
$ sudo systemctl start serial-getty@ttyS0.service

octaveは、最新版の5.2.0になってた。octave-io,octave-staticsを入れると、octaveを含めて勝手に入る。

octave:1> pkg list
Package Name  | Version | Installation directory
--------------+---------+-----------------------
          io  |  2.4.13 | /usr/share/octave/packages/io-2.4.13
  statistics  |   1.4.1 | /usr/share/octave/packages/statistics-1.4.1

pkg load statistic とかやると使えるようになる。

libreoffice

上記のウブで、octave系を充実させていたら、何やらlibreoffice common なんてのが付いてきた。それから、DeskTopの一部も入ってきて、お馴染みのGUIの一部も完成した。余計な物いらないんだけどなーー。まあ、入ってしまったらしょうがない。

libeofficeを起動したら、枠と言うか、総合のセレクターは出てくるようになってたけど、個別のCalcとかは選べない状況。ここまで来て中途半端はいかんぜよ。libreofficeを完成させた。

sakae@ub:~$ libreoffice --version
LibreOffice 6.4.5.2 40(Build:2)

古いんだか新しいんだか、知らないけど、取り合えずWindowsの神器っぽい状況にはなったな。

図書館で統計って本を探したら、EXCELで何とかって本しか無かった。しょうがないので、それを借りてきた。サンプルをDL出来たんで確認してみると、

C:\Users\sakae\Downloads\excel-smpl\1章 統計学のための資料整理>dir
 ドライブ C のボリューム ラベルは Windows です
 ボリューム シリアル番号は CA62-1A17 です

 C:\Users\sakae\Downloads\excel-smpl\1章 統計学のための資料整理 のディレクトリ

2020/08/27  06:21    <DIR>          .
2020/08/27  06:21    <DIR>          ..
2010/11/13  12:41            37,376 実習01.xls
2010/11/13  12:41            42,496 実習02.xls

ゴテゴテのWindows文字でファイル名が示されていた。Libreofficeの有る所に持って行っても、文字化けする事が分かっているんで、

zipの解凍&圧縮時にファイル名が文字化けする原因と解決方法

を見て7zipで変換するも駄目。unzipのオプションで逃げられるかと思ったら、そんなオプションはウブに無いと言う。調べた限りでは、赤帽さんとこのunzipには有るようだ。ビジネス寄りに設定されてるのね。こんな手製のunzip.pyを使うと、展開出来た。

sakae@ub:/tmp/z$ cat unzip.py
#! /usr/bin/env python3

import sys
from zipfile import ZipFile
from getpass import getpass

with ZipFile(sys.argv[1]) as z:
    for zinfo in z.infolist():
        if zinfo.flag_bits & 0x1:
            password = getpass('PASSWORD: ')
            z.setpassword(password.encode('utf-8'))
        if not zinfo.flag_bits & 0x800:
            try:
                name = zinfo.filename.encode('cp437').decode('cp932')
            except:
                name = zinfo.filename.encode('cp437').decode('utf-8')
            zinfo.filename = name
        print("Extracting", zinfo.filename)
        z.extract(zinfo)

ヘルプって無いかしら?

Statistics Functions

こんなのが公開されてた。calcって、データを常にモニターしながら操作できるのね。どうもオイラーには馴染まないな。ああ、そうそう、libreofficeのネイティブなフォーマットは、 k01.ods なのね。知らんかったわい。

Libreofficeって正確にEXCELの(統計)Bugまで再現しているのだろうか? もっと致命的なEXCELのBUGが有るよってのは、どうでもいいけどね。あの方のページを見ていたら、 Python 基本統計量 なんてのを発見したよ。パンダはRに近いとな。

setup R

どうもRはWindowsから使う人が多いようで、GUIな環境の説明ばかりが眼に付く。オイラーは、Windowsな人ではないので、 apt install elpa-ess して入れたよ。勿論emacs用ね。詳しい使い方が、 How to use ESS に出てた。

OSお任せコースなので、何処に入ったか確認すると、 /usr/share/emacs/site-lisp/elpa-src/ess-18.10.2 こんな所に居た。じっくり見ておk。

Rのライブラリィーは、Rの対話環境の中からインストールする例が多い。けど、それだと、その場でFortranが走ったりして嫌。OS備え付けのパッケージから入れるのが楽と言う、堕落した生活。それもこれも暑くて脳が回転しないから。

そして入れたライブラリーは、起動直後から使いたい。そんな時には

sakae@ub:~$ cat .Rprofile
library(ggplot2)

設定ファイルに書いておくのが楽。何処かのpythonみたいに、いちいちimportなんてやってられるかい。やりたい事に集中出来るのは良い環境だと思うぞ。

Rのまとめサイト

から、面白そうなものをぴっくあっぷ

R言語 標準データセットの私的まとめ は、統計データがRには沢山付属してるので、それをまとめてくだすっています。

R言語で決定木分析 で、タイタニック号の分析。

R言語でもディープラーニングがしたい! pythonに喧嘩売ってみましたってか?

R言語でクラスタリングしてみた

IRISデータを決定木で描いて遊んでみた

コロナウィルスデータを解析してみよう 今流行りのやつですね

インフラ屋さんのためのR言語: プログラミング編

R、R言語、R環境・・・・・・ 超真面目に勉強するなら、ここですね。

install pkg

rpartはOS備え付けのやつを入れてみたんだけど、plotは無かった。一般ユーザーで下記のように入れようとしたら、禁止領域だよと言われた。

> install.packages("rpart.plot")
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
Warning in install.packages("rpart.plot") :
  'lib = "/usr/local/lib/R/site-library"' is not writable
Would you like to use a personal library instead? (yes/No/cancel) cancel
Error in install.packages("rpart.plot") : unable to install packages

しょうがないので、sudo R した環境で実行

help

> library(help=rpart.plot)
   :
prp                     Plot an rpart model.
ptitanic                Titanic data with passenger names and other
                        details removed.
rpart.plot              Plot an rpart model. A simplified interface to
                        the prp function.
rpart.plot.version1     Plot an rpart model (old version).
rpart.predict           Extended version of predict.rpart
rpart.rules             Print an rpart model as a set of rules.
show.prp.palettes       Show the built-in prp palettes.

使える関数を調べる。

> help(prp)
prp                 package:rpart.plot                 R Documentation

Plot an rpart model.
 :

詳細確認。色々ぐちゃぐちゃ出て来るな。 例を付ける事になってるので、百聞は一見に如かずですよ。

> example(prp)
prp> data(ptitanic)
prp> tree <- rpart(survived ~ ., data = ptitanic, cp = .02)
  :

例が実行されて図が表示された。デモなんで特徴を良く出しているな。


This year's Index

Home