wikipediaデータを綺麗にしてからWord2vecやってみた

- 5月 24, 2019

今更な感じですが色々とあってWord2Vecで類義語分析とか表記ゆれとかできないかと思ってお勉強兼実験しました。もう一人のボクのためにその時のメモを置いておきます。データ加工してからword2vec使って関連する語出すとこまでです。相変わらずほぼコピペだけどね。そしてcorpusのつづりを間違えているのはお約束です。へぼすぎだな(笑)

■手順概要

1.ディスク容量拡張

2.関連ライブラリインストール

3.コーパス準備

　・Wikipediaの日本語ダンプをダウンロード(約2時間)

　・ダウンロードしたデータから記事本文抽出(約2時間10分)

　・抽出した記事本文のクリーニング(約15分)

　・記事データを1ファイルにマージ(約5分)

　・形態素解析して分かち書きに変換(約30分)

　・モデル学習(約2時間)

4.サンプルで遊ぶ

■実際のコマンドやプログラムなど

1.ディスク容量拡張

Hyper-Vのディスク容量が20GB程度しかなくwikipediaのデータが

2GBほどあるとのことなのでディスク容量に余裕を持たせるために

ディスクを拡張した。仮想マシンが上がっていない状態で容量拡張

・Hypeｒ－Vマネージャからディスクの編集で容量を拡張

・Hype-Vマシンを起動後に以下のコマンドでUbuntu上で拡張

$ sudo fdisk -l
$ sudo parted
GNU Parted 3.2
/dev/sda を使用
GNU Parted へようこそ！ コマンド一覧を見るには 'help' と入力してください。
(parted)print
～中略～
修正/Fix/無視(I)/Ignore? Fix
番号  開始    終了    サイズ  ファイルシステム  名前                  フラグ
1    1049kB  538MB   537MB   fat32             EFI System Partition  boot, esp
2    538MB   21.5GB  20.9GB  ext4
～中略～
(parted) resizepart 2
警告: パーティション /dev/sda2 は使用中です。それでも実行しますか？
はい(Y)/Yes/いいえ(N)/No?  Y
終了?  [21.5GB]? 50GB
～中略～
(parted) print
～中略～
(parted) quit
$ sudo resize2fs /dev/sda2

2.関連ライブラリインストール

データの前処理で必要となるので追加ライブラリをpipで導入

  $ sudo apt-get -y install nkf
  $ pip3 install scipy
  $ pip3 install gensim
  $ pip3 install wikipedia2vec
  $ pip3 install neologdn
  $ pip3 install emoji

3.コーパス準備
・コーパスを準備するためのコマンド類

#Wikipediaの日本語ダンプをダウンロード
$ mkdir copas
$ cd copas
$ curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2
#ダウンロードしたデータから記事本文抽出
$ git clone https://github.com/attardi/wikiextractor
$ python3 wikiextractor/WikiExtractor.py jawiki-latest-pages-articles.xml.bz2
#抽出した記事本文のクリーニング
$ python3 ../src/datacleaning.py text
#記事データを1ファイルにマージ
$ cat text/*/* > jawiki.txt
#形態素解析して分かち書きに変換
$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd -Owakati jawiki.txt -o data.txt -b 16384
$ nkf -w --overwrite data.txt
#モデル学習
$ python3 ../src/modelmake.py

・データクリーニング用のプログラム(datacleaning.py)

import os
import re
import sys
import time
import traceback

import emoji
import neologdn

def strnormaraizer(str):
    """
    wikipediaデータの日本語を正規化する
    """
    try:
        s = neologdn.normalize(str)
        s = re.sub(
                r'(http|https)://([-\w]+\.)+[-\w]+(/[-\w./?%&=]*)?',
                "",s
              )
        s = re.sub("<.*?>","",s)
        s = re.sub(r'(\d)([,.])(\d+)', r'\1\3', s)
        s = re.sub(r'[!-/:-@[-`{-~]', r' ', s)
        s = re.sub(u'[■-♯]', ' ', s)
        s = re.sub(r'(\d)([,.])(\d+)', r'\1\3', s)
        s = re.sub(r'\d+', '0', s)
        s = ''.join(['' if c in emoji.UNICODE_EMOJI else c for c in s])
        return s
    except Exception as e:
        t, v, tb = sys.exc_info()
        print(traceback.format_exception(t,v,tb))
        print(traceback.format_tb(e.__traceback__))

def main():
    """
    主処理
    第1引数で指定されたディレクトリ配下のファイルをすべて処理する。

    """
    try:
        start_t = time.perf_counter()
        rootdir = sys.argv[1]
        i=0
        for root, dirs, files in os.walk(rootdir):
            i +=1
        j = 0
        for root, dirs, files in os.walk(rootdir):
            if j > 0:
               print('処理ディレクトリ{0}/{1}'.format(j,i-1))
               file_count = len(files)
               print('処理対象ファイル数{0}'.format(file_count))
            j +=1
            for file_ in files:
                input_file = os.path.join(root, file_)
                with open(input_file,'r') as inf:
                     s =inf.read()
                     o = strnormaraizer(s)
                with open(input_file,'w') as outf:
                     outf.write(o)
        end_t = time.perf_counter()
        process_time = end_t - start_t
        print('処理時間は:{0}秒です。'.format(process_time))
    except Exception as e:
        t, v, tb = sys.exc_info()
        print(traceback.format_exception(t,v,tb))
        print(traceback.format_tb(e.__traceback__))

if __name__ == '__main__':
   main()

・モデル生成用プログラム(modelmake.py)

from gensim.models import word2vec
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus('./data.txt')

model = word2vec.Word2Vec(sentences, size=200, min_count=20, window=15)
model.save("./ja_wiki.model")

4.サンプル
・コマンドラインの後ろに調べたい言葉入れると結果が返ってくる。

$ python3 word2vecsample.py 織田信長
('信長', 0.8410834670066833)
('羽柴秀吉', 0.8160404562950134)
('明智光秀', 0.7978937029838562)
('豊臣秀吉', 0.7927731275558472)
('徳川家康', 0.7548580169677734)
('毛利元就', 0.7484856843948364)
('今川義元', 0.7425110936164856)
('浅井長政', 0.7422305345535278)
('織田氏', 0.7414403557777405)
('武田信玄', 0.7356137633323669)

・実験用プログラム(word2vecsample.py)

from gensim.models import word2vec
import sys

word = sys.argv[1]
model = word2vec.Word2Vec.load("../copas/ja_wiki.model")
results = model.wv.most_similar(positive=[word])
for result in results:
    print(result)

数学が赤点な自分には詳しい仕組みはわかりませんが、矢印を2個くっつけてその間にある角度が小さかったら近しいとか、文字に数字をくっつけて座標軸上にそれを置いて計算できるようにしたとかそんな感じらしい。論文あるそうですが英語も赤点だったのでとてもではないですが読めません。興味ある方はどうぞ
https://arxiv.org/abs/1301.3781
https://arxiv.org/abs/1310.4546
https://arxiv.org/abs/1402.3722
https://arxiv.org/abs/1411.2738

他にも文書をエイやっとするdoc2vecなるものもあるらしい。どちらかというとこちらの方が用途的にはより近しいのかもしれないかなぁと思いつつ、まぁ使い方はほぼ同じみたいだが、、、、word2vecとどこがどう違うんだ？とか思いました。

■参考サイト

・Hyper-Vディスク拡張

https://qiita.com/nakat-t/items/87d0ae049a5e0b57e469

https://qiita.com/kyrya/items/30ad6b66a9eab1124cf7

https://qiita.com/makaishi2/items/63b7986f6da93dc55edd

http://hirotaka-hachiya.hatenablog.com/entry/2017/10/12/101858

https://own-search-and-study.xyz/2017/10/08/mecab%E3%81%A8gensim%E3%81%A7word2vec%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92%E5%AD%A6%E7%BF%92%E3%81%99%E3%82%8B/

http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/

http://bondo.hateblo.jp/entry/2018/05/14/085406

https://www.blog.umentu.work/ubuntu-%E3%81%AB-word2vec-%E3%82%92%E5%85%A5%E3%82%8C%E3%82%8B/

https://umiushizn.blogspot.com/2017/09/wikipediaword2vec.html

https://qiita.com/okappy/items/e16639178ba85edfee72

http://ankaji92.hatenablog.com/entry/2016/11/27/212507

https://blog.excite.co.jp/exdev/27327454/

https://medium.com/eureka-engineering/pairs%E3%81%AE%E3%82%B3%E3%83%9F%E3%83%A5%E3%83%8B%E3%83%86%E3%82%A3%E3%82%92word2vec%E3%81%A8svm%E3%81%A7%E5%88%86%E9%A1%9E%E3%81%97%E3%81%A6%E3%81%BF%E3%81%9F-48f4099f0ffc

http://kzkohashi.hatenablog.com/entry/2018/07/22/212913

https://ai-coordinator.jp/wikipedia-word2vec

https://foolean.net/p/1442

https://future-tech-association.org/2018/06/01/humanities_ai_program/

https://www.madopro.net/entry/wikipedia_iterator

http://yaju3d.hatenablog.jp/entry/2016/11/13/221350

http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/

https://ncat.jp/ja/2018/09/30/word2vec-vocab-update/

http://www.ibot.co.jp/wpibot/?p=133

・前処理

https://qiita.com/Hironsan/items/2466fe0f344115aff177

https://qiita.com/kazuhirokomoda/items/9a2ff191ccce46082602

https://qiita.com/hyo_07/items/ba3d53868b2f55ed9941

https://qiita.com/dcm_sawayama/items/406408e8bda0840a8106

https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2

https://qiita.com/chamao/items/7edaba62b120a660657e

https://ohke.hateblo.jp/entry/2019/02/09/141500

https://qiita.com/hasepy/items/8e6a0757da1ce074ce87

http://lightson.dip.jp/zope/ZWiki/145_e3_83_87_e3_82_a3_e3_83_ac_e3_82_af_e3_83_88_e3_83_aa_e5_86_85_e3_81_ae_e3_83_95_e3_82_a1_e3_82_a4_e3_83_ab_e3_82_92_e5_86_8d_e5_b8_b0_e7_9a_84_e3_81_ab_e5_87_a6_e7_90_86

https://robotics4society.com/2017/03/21/python_file_num/

プログラムよりデータ加工の前処理でかなり時間がかかります。
前処理してデータ量減らしておくの大事ですね。
学習済データ込みでAPIになっててるのがGoogleとAmazonのがあるみたいですね。というよりAmazonは日本語対応できていないのか、、、、。MSもやっとるみたいだけど日本語でってなるとGoogleか自前で考えるしかないのが現状の様ですな。

そしてHyper-Vと低スペックPCで実行すると遅いのでとてもじゃないけど実用レベルじゃないです。もっと高スペックなPCで試した方がいいだろうと思った。

このブログを検索

アラフィフおやじログ

wikipediaデータを綺麗にしてからWord2vecやってみた

コメント

このブログの人気の投稿

GASでGoogleDriveのサブフォルダとファイル一覧を出力する

マクロ経済学(IS-LM分析)

証券外務員1種勉強(計算式暗記用メモ)