2018-09-10

mecabのインストール

分かち書きまでの手順

mecabの公式サイトからダウンロードしてビルド
mecabの公式サイトから辞書をダウンロードしてビルド
拡張版辞書をダウンロード
ビルド
bash(シェル)にパスを書く

その他. neologdでエラーを吐いたら。

1.mecabの公式サイトからダウンロード

こちらから http://taku910.github.io/mecab/#download

ビルド方法

cd mecab-*
./configure
make
make check
sudo make install

make checkをするとどうやらチェックができるらしい。

これができれば、mecabは動く。しかし辞書がないと使い物にならない。

2.mecabの公式サイトから辞書をダウンロードしてビルド

ipadicは辞書。拡張版辞書(neologd)もある。

上記公式サイトダウンロードしてきて、mecabと同一ディレクトリに配置して、同じコマンドでビルドできる。

3. 拡張版辞書をダウンロード

neologdとは、ipadicより更新頻度が高い辞書。新語などがある。

https://github.com/neologd/mecab-ipadic-neologd

これをいれるには、上記の方法ではできない。githubにインストール方法はある。

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n

この後、インストールするかをy/nで答え、権限を付与すれば終わり。

エラーを吐いたら

param.cpp(69) [ifs] no such file or directory: /usr/local/lib/mecab/dic/mecab-ipadic-neologd/dicrc
‘''

このようなエラーを吐くことがあるかもしれません。


これはおそらくはanacondaのpyenvのpathをよしなにしてくれるライブラリと干渉しているのかもしれません。よくわかってはいません。

‘'’
pyenv local system
‘''

これで解決しました。




## 4. bash(シェル)にパスを書く
bash,zshなどシェルにパスを追加する。

mecab

export PATH=/usr/local/bin/mecab:$PATH

source .zshrc

# 参考,引用元
https://www.udemy.com/tensorflow_rnn/learn/v4/t/lecture/7895510?start=15
http://taku910.github.io/mecab/#download
https://qiita.com/n-fujimoto/items/dd1ea3a781b59c6b5979

2018-07-18

Kaggle挑戦の下調べ

やる気

Kaggleに挑戦

Kaggleに挑戦したくなったので下調べ. 大学院受験があるので2018/8/26あたりから始めたい.

解説サイト

動画での解説

Kaggle入門動画をつくった - tkm2261's blog

Kaggle メルカリコンペの優勝コードを眺める - YouTube

10%に入った人のブログ

Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感 - mirandora.commirandora.com

2018-07-18

CNNの理解の一区切り

CNNの勉強は一区切りついた.

シンプルなCNNの勉強はここで一区切りつけたい.

参考になった文献,サイト,書籍

ニューラルネットワークと深層学習

ここではニューロンの一つ一つの集まりがなぜ線形な関数を表現できるかなどを解決できるかを動かしながら理解できる.

ゼロから作るDeepLearning

言わずもがなである.

Python 機械学習プログラミング

Amazon CAPTCHA

thinkit.co.jp

数式では理解できるが,コードに落とし込む際に省略される計算過程などが丁寧に書かれている.

難しいが,ところどころ堅苦しく書いてくれていて辞書的に使うと助かる.(最近はネットでも書かれているのかもだが)

2018-06-11

ゼロから作るDeep Learning ~L2正規化~

ゼロから作るDeep Learning

L2正規化

L2正規化について,あまり詳しく書かれていなかったので

6.4.2 Weight decay

Weight decay 荷重減衰とは学習の過程において、大きな重みを持つことに対してペナルティを課すことで、過学習を抑制すること.

L2正則化,L1正規化とは

機械学習でよく用いられる正則化には、L1正則化とL2正則化がある

ノルムとは

n 次元ベクトル x→=(x1,x2,⋯,xn) および 1≤p<∞ なる p に対して $\sqrt[p]{|x_1|^p+|x_2|^p+\cdots +|x_n|^p}$ を x→ の Lp ノルムと言い，||x||p と書く.

定義

$\lambda$は正則化パラメータ（regularization parameter）

$L2=\lambda ||w||^{2}{2}=\lambda \sum ^{n}{j=1}w^{2}_{j}$ 各成分の自乗の和,　2乗ノルム　　　

　 $L1=\lambda \left| w\right| ^{1}{1}=\lambda \sum ^{n}{j=1}\left| w_{j}\right|$ 各成分の絶対値の和

以上をペナルティ項として加える.

改めてL2正則化,L1正規化正規化とは

正規化したい対象E(w)にペナルティ項λE_1(w)を加えて, E(w)+λE_1(w)を最小化するように最適化問題を解く問題に置き換えることで,過学習を避けること.

グラフで見る

L2ノルム L2 =$\sqrt[2]{|x_1|^2+|x_2|^2+\cdots +|x_n|^2}$ norm f:id:forhighlow:20180611231329j:plain

f:id:forhighlow:20180611231326p:plain 六本木で働くデータサイエンティストのブログより

ペナルティ項を付けておくことでw1,w2の定まり方が変わるというお話です。左側のL1ノルム正則化であれば尖った形の領域に接するようにしなければならないため自ずとw2の軸上に最適点が定まってw1=0となり、右側のL2ノルム正則化であれば円状の領域に接するようにしなければならないためw1,w2ともにnon-zeroな値が入る、という感じになるわけです。

グラフから分かること

重みwは正規化により円状の領域にのみ制限される. よってwを項に含む関数E(D)はある程度制限される. wの値に制約を付け加えることで,意図しない域までパラメータが行くことを防ぐことができる.

制度の比較

図より,学習済みデータとテストデータとの差が狭まっている.つまり過学習が抑制されている.

正規化のないグラフ

正規化したグラフ f:id:forhighlow:20180611231443p:plain

正規化したグラフ

正規化したグラフ f:id:forhighlow:20180611231321p:plain

参考

六本木で働くデータサイエンティストのブログ(https://tjo.hatenablog.com/entry/2015/03/03/190000)

過学習を防ぐ正則化 (https://www.techcrowd.jp/machinelearning/regularization/)

ゼロから作るDeepLearning

pdf埋め込み

2018-01-18

ターミナルのコマンドで消す方法

Tips

ターミナルのコマンドで消す方法

Macの起動音を消す方法にコマンド実行による方法があります。Finderからアプリケーションを選択し、ユーティリティを開き、ターミナルを開きます。ターミナルを開いたら「sudo nvram SystemAudioVolume=%80」と入力します。

そしてパスワードを入力し実行すれば完了です。これでMacの起動音が消音になります。もし、Macの起動音を通常通りに戻したい場合は、同じようにターミナルを開いて「sudo nvram-d SystemAudioVolume」を入力します。

sudo nvram SystemAudioVolume=%80

戻すときは

sudo nvram-d SystemAudioVolume

http://minto.tech/mac-kidouon-kesu/

2017-12-19

統計学全体の目次

機械学習

本を買った
- 重要だと感じたこと
統計学
このように思った理由

本を買った

研究室仮配属したので，興味をそそられて買った．生協10%offで．

書籍詳細 - なぜあなたの研究は進まないのか？ | メディカルレビュー社

重要だと感じたこと

本の中で(全部は読めていないが)重要だと感じたのは,分野全体についての知識だ．

研究分野の全体像を知ること,これを怠れば車輪を二度発明する(すでにあるものを生み出すことに労力を使う)ことになりかねない.

統計学

以下はwikipediaを参照した.

機械学習 - Wikipedia


統計学
標本調査	標本，母集団，無作為抽出，層化抽出法 \|
要約統計学	連続データ \| 位置 \| \multicolumn{1}{c\|}{平均(算術，幾何，調和)，中央値，最頻値，階級値}
	\| 分散 \| 範囲，標準偏差，変動係数，百分率
	\| モーメント \| 分散，歪度，尖度
	カテゴリーデータ \| 頻度,分割表 \| 頻度，分割表
統計的推測	仮説検定 \| 帰無仮説対立仮説有意棄却ノンパラメトリック手法スチューデントのt検定ウェルチのt検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定 F検定 G検定マン・ホイットニーのU検定 Z検定フィッシャーの正確確率検定二項検定尤度比検定マンテル検定コクラン・マンテル・ヘンツェルの統計量ウィルコクソンの符号順位検定アンダーソン–ダーリング検定カイパー検定ジャック–ベラ検定シャピロ–ウィルク検定コルモゴロフ–スミルノフ検定分散分析共分散分析
	区間推定 \| 信頼区間,予測区間
	その他 \| 最尤推定最大事後確率ベイズ推定尤度関数カーネル密度推定最小距離推定メタアナリシス
生存時間分析	生存時間関数カプラン＝マイヤー推定量ログランク検定故障率比例ハザードモデル \|
相関	相関交絡変数ピアソンの積率相関係数順位相関(スピアマンの順位相関係, ケンドールの順位相関係数) \|
モデル	一般線形モデル一般化線形モデル混合モデル一般化線形混合モデル \|
回帰	線形 \| 線形回帰リッジ回帰 Lasso エラスティックネット
	非線形 \| k近傍法回帰木ランダムフォレストニューラルネットワークサポートベクター回帰射影追跡回帰
分類	線形 \| 線形判別分析ロジスティック回帰単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン \|
	二次 \| 二次判別分析
	非線形 \| 非線形k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
	その他 \| 二項分類多クラス分類第一種過誤と第二種過誤
教師なし学習	クラスタリング \| k平均法 (k-means++法)
	その他 \| 主成分分析独立成分分析自己組織化写像(SOM)

このように思った理由

これを読んで, qiita.com ここへ飛んで Deep Learning Monitor - Find new Arxiv papers, tweets and Reddit posts for you あまりにも分野が多岐にわたっていて応用事例だけ追うことも難しいと感じた. (そりゃキュレーション全部英語だよね,,,ともなりました)

これに肉付けして頭を整理していきたい.

MindMapを書くほうが良いかと思ったけれど,先に手を動かしてみた.

2017-12-18

ブログ再開

blogをお休みしていた理由

学校の実験講義が忙しかったため,

やる気を失っていたため，

blogを再開する理由

技術的にいろいろやってはいたけれど，残していないと忘れてしまうため，

やる気を取り戻したため，


統計学
標本調査	標本，母集団，無作為抽出，層化抽出法 \|
要約統計学	連続データ \| 位置 \| \multicolumn{1}{c\|}{平均(算術，幾何，調和)，中央値，最頻値，階級値}
	\| 分散 \| 範囲，標準偏差，変動係数，百分率
	\| モーメント \| 分散，歪度，尖度
	カテゴリーデータ \| 頻度,分割表 \| 頻度，分割表
統計的推測	仮説検定 \| 帰無仮説対立仮説有意棄却ノンパラメトリック手法スチューデントのt検定ウェルチのt検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定 F検定 G検定マン・ホイットニーのU検定 Z検定フィッシャーの正確確率検定二項検定尤度比検定マンテル検定コクラン・マンテル・ヘンツェルの統計量ウィルコクソンの符号順位検定アンダーソン–ダーリング検定カイパー検定ジャック–ベラ検定シャピロ–ウィルク検定コルモゴロフ–スミルノフ検定分散分析共分散分析
	区間推定 \| 信頼区間,予測区間
	その他 \| 最尤推定最大事後確率ベイズ推定尤度関数カーネル密度推定最小距離推定メタアナリシス
生存時間分析	生存時間関数カプラン＝マイヤー推定量ログランク検定故障率比例ハザードモデル \|
相関	相関交絡変数ピアソンの積率相関係数順位相関(スピアマンの順位相関係, ケンドールの順位相関係数) \|
モデル	一般線形モデル一般化線形モデル混合モデル一般化線形混合モデル \|
回帰	線形 \| 線形回帰リッジ回帰 Lasso エラスティックネット
	非線形 \| k近傍法回帰木ランダムフォレストニューラルネットワークサポートベクター回帰射影追跡回帰
分類	線形 \| 線形判別分析ロジスティック回帰単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン \|
	二次 \| 二次判別分析
	非線形 \| 非線形k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
	その他 \| 二項分類多クラス分類第一種過誤と第二種過誤
教師なし学習	クラスタリング \| k平均法 (k-means++法)
	その他 \| 主成分分析独立成分分析自己組織化写像(SOM)

分かち書きまでの手順

1.mecabの公式サイトからダウンロード

2.mecabの公式サイトから辞書をダウンロードしてビルド

3. 拡張版辞書をダウンロード

エラーを吐いたら

Kaggleに挑戦

解説サイト

動画での解説

10%に入った人のブログ

CNNの勉強は一区切りついた.

参考になった文献,サイト,書籍

ニューラルネットワークと深層学習

ゼロから作るDeepLearning

Python機械学習プログラミング

L2正規化

6.4.2 Weight decay

L2正則化,L1正規化とは

ノルムとは

定義

改めてL2正則化,L1正規化正規化とは

グラフで見る

グラフから分かること

制度の比較

正規化のないグラフ

正規化したグラフ

参考

pdf埋め込み

本を買った

重要だと感じたこと

このように思った理由

blogをお休みしていた理由

blogを再開する理由

Python 機械学習プログラミング