wikipediaデータを綺麗にしてからWord2vecやってみた
今更な感じですが色々とあって Word2Vec で類義語分析とか表記ゆれとかできないかと思ってお勉強兼実験しました。 もう一人のボク のためにその時のメモを置いておきます。データ加工してからword2vec使って関連する語出すとこまでです。相変わらずほぼコピペだけどね。そして corpusのつづりを間違えているのはお約束です。へぼすぎだな(笑) ■手順概要 1.ディスク容量拡張 2.関連ライブラリインストール 3. コーパス 準備 ・ Wikipediaの日本語ダンプ をダウンロード(約2時間) ・ダウンロードしたデータから記事本文抽出(約2時間10分) ・抽出した記事本文のクリーニング(約15分) ・記事データを1ファイルにマージ(約5分) ・ 形態素解析 して 分かち書き に変換(約30分) ・ モデル学習 (約2時間) 4.サンプルで遊ぶ ■実際のコマンドやプログラムなど 1.ディスク容量拡張 Hyper-Vのディスク容量が20GB程度しかなくwikipediaのデータが 2GBほどあるとのことなのでディスク容量に余裕を持たせるために ディスクを拡張した。仮想マシンが上がっていない状態で容量拡張 ・Hyper-Vマネージャからディスクの編集で容量を拡張 ・Hype-Vマシンを起動後に以下のコマンドでUbuntu上で拡張 $ sudo fdisk -l $ sudo parted GNU Parted 3.2 /dev/sda を使用 GNU Parted へようこそ! コマンド一覧を見るには 'help' と入力してください。 (parted)print ~中略~ 修正/Fix/無視(I)/Ignore? Fix 番号 開始 終了 サイズ ファイルシステム 名前 フラグ 1 1049kB 538MB 537MB fat32 EFI System Partition boot, esp 2 538MB 21.5GB 20.9GB ext4 ~中略~ (parted) resizepart 2 警告: パーティション /dev/sda2 は使用中です...