Ubuntu 20.04.1 install
カイ二乗検定
統計は最強の姉妹本を見てたら、A/Bテストの話が出てた。A/BだけじゃなくてA/B/Cでも、A/Bと称するのが習わしとか。
で、著者が某EC企業で講習をやった時、受講生からA/Bテストをやってて、0.1%の差が出たけど、これって意義が有るのでしょうかと質問を受けたそうな。
先生はすかさず、こういう場合カイ二乗検定をやるといいですよとレクチャー。その場で計算して見せたそうな。して、結果はp値が20%だから、そんなの当たり前に起きる事ですねって回答したそうな。
詳しい説明が無かったので、調べてみたよ。
Ubuntu 20.04.1 server install
久びりにウブが新しくなったというので Ubuntu 20.04 LTS インストール を参考にvboxに入れた。何処かの国用になってたので、
sudo timedatectl set-timezone Asia/Tokyo
日本用に切り替え。
named-serial接続したかったので、下記で設定。
$ sudo systemctl enable serial-getty@ttyS0.service $ sudo systemctl start serial-getty@ttyS0.service
octaveは、最新版の5.2.0になってた。octave-io,octave-staticsを入れると、octaveを含めて勝手に入る。
octave:1> pkg list Package Name | Version | Installation directory --------------+---------+----------------------- io | 2.4.13 | /usr/share/octave/packages/io-2.4.13 statistics | 1.4.1 | /usr/share/octave/packages/statistics-1.4.1
pkg load statistic とかやると使えるようになる。
libreoffice
上記のウブで、octave系を充実させていたら、何やらlibreoffice common なんてのが付いてきた。それから、DeskTopの一部も入ってきて、お馴染みのGUIの一部も完成した。余計な物いらないんだけどなーー。まあ、入ってしまったらしょうがない。
libeofficeを起動したら、枠と言うか、総合のセレクターは出てくるようになってたけど、個別のCalcとかは選べない状況。ここまで来て中途半端はいかんぜよ。libreofficeを完成させた。
sakae@ub:~$ libreoffice --version LibreOffice 6.4.5.2 40(Build:2)
古いんだか新しいんだか、知らないけど、取り合えずWindowsの神器っぽい状況にはなったな。
図書館で統計って本を探したら、EXCELで何とかって本しか無かった。しょうがないので、それを借りてきた。サンプルをDL出来たんで確認してみると、
C:\Users\sakae\Downloads\excel-smpl\1章 統計学のための資料整理>dir ドライブ C のボリューム ラベルは Windows です ボリューム シリアル番号は CA62-1A17 です C:\Users\sakae\Downloads\excel-smpl\1章 統計学のための資料整理 のディレクトリ 2020/08/27 06:21 <DIR> . 2020/08/27 06:21 <DIR> .. 2010/11/13 12:41 37,376 実習01.xls 2010/11/13 12:41 42,496 実習02.xls
ゴテゴテのWindows文字でファイル名が示されていた。Libreofficeの有る所に持って行っても、文字化けする事が分かっているんで、
zipの解凍&圧縮時にファイル名が文字化けする原因と解決方法
を見て7zipで変換するも駄目。unzipのオプションで逃げられるかと思ったら、そんなオプションはウブに無いと言う。調べた限りでは、赤帽さんとこのunzipには有るようだ。ビジネス寄りに設定されてるのね。こんな手製のunzip.pyを使うと、展開出来た。
sakae@ub:/tmp/z$ cat unzip.py #! /usr/bin/env python3 import sys from zipfile import ZipFile from getpass import getpass with ZipFile(sys.argv[1]) as z: for zinfo in z.infolist(): if zinfo.flag_bits & 0x1: password = getpass('PASSWORD: ') z.setpassword(password.encode('utf-8')) if not zinfo.flag_bits & 0x800: try: name = zinfo.filename.encode('cp437').decode('cp932') except: name = zinfo.filename.encode('cp437').decode('utf-8') zinfo.filename = name print("Extracting", zinfo.filename) z.extract(zinfo)
ヘルプって無いかしら?
こんなのが公開されてた。calcって、データを常にモニターしながら操作できるのね。どうもオイラーには馴染まないな。ああ、そうそう、libreofficeのネイティブなフォーマットは、 k01.ods なのね。知らんかったわい。
Libreofficeって正確にEXCELの(統計)Bugまで再現しているのだろうか? もっと致命的なEXCELのBUGが有るよってのは、どうでもいいけどね。あの方のページを見ていたら、 Python 基本統計量 なんてのを発見したよ。パンダはRに近いとな。
setup R
どうもRはWindowsから使う人が多いようで、GUIな環境の説明ばかりが眼に付く。オイラーは、Windowsな人ではないので、 apt install elpa-ess して入れたよ。勿論emacs用ね。詳しい使い方が、 How to use ESS に出てた。
OSお任せコースなので、何処に入ったか確認すると、 /usr/share/emacs/site-lisp/elpa-src/ess-18.10.2 こんな所に居た。じっくり見ておk。
Rのライブラリィーは、Rの対話環境の中からインストールする例が多い。けど、それだと、その場でFortranが走ったりして嫌。OS備え付けのパッケージから入れるのが楽と言う、堕落した生活。それもこれも暑くて脳が回転しないから。
そして入れたライブラリーは、起動直後から使いたい。そんな時には
sakae@ub:~$ cat .Rprofile library(ggplot2)
設定ファイルに書いておくのが楽。何処かのpythonみたいに、いちいちimportなんてやってられるかい。やりたい事に集中出来るのは良い環境だと思うぞ。
Rのまとめサイト
から、面白そうなものをぴっくあっぷ
R言語 標準データセットの私的まとめ は、統計データがRには沢山付属してるので、それをまとめてくだすっています。
R言語で決定木分析 で、タイタニック号の分析。
R言語でもディープラーニングがしたい! pythonに喧嘩売ってみましたってか?
コロナウィルスデータを解析してみよう 今流行りのやつですね
R、R言語、R環境・・・・・・ 超真面目に勉強するなら、ここですね。
install pkg
rpartはOS備え付けのやつを入れてみたんだけど、plotは無かった。一般ユーザーで下記のように入れようとしたら、禁止領域だよと言われた。
> install.packages("rpart.plot") Installing package into ‘/usr/local/lib/R/site-library’ (as ‘lib’ is unspecified) Warning in install.packages("rpart.plot") : 'lib = "/usr/local/lib/R/site-library"' is not writable Would you like to use a personal library instead? (yes/No/cancel) cancel Error in install.packages("rpart.plot") : unable to install packages
しょうがないので、sudo R した環境で実行
help
> library(help=rpart.plot) : prp Plot an rpart model. ptitanic Titanic data with passenger names and other details removed. rpart.plot Plot an rpart model. A simplified interface to the prp function. rpart.plot.version1 Plot an rpart model (old version). rpart.predict Extended version of predict.rpart rpart.rules Print an rpart model as a set of rules. show.prp.palettes Show the built-in prp palettes.
使える関数を調べる。
> help(prp) prp package:rpart.plot R Documentation Plot an rpart model. :
詳細確認。色々ぐちゃぐちゃ出て来るな。 例を付ける事になってるので、百聞は一見に如かずですよ。
> example(prp) prp> data(ptitanic) prp> tree <- rpart(survived ~ ., data = ptitanic, cp = .02) :
例が実行されて図が表示された。デモなんで特徴を良く出しているな。