BIアナリストの雑記ワークダイアリー

20代後半。平日はサラリーマンとして働きながら、週末にビジネス・アナリストとして副業活動してます。お仕事ネタ系、自己啓発系中心ネタを発信しています。

大量の文字から瞬時に特徴を抽出するには、お手軽テキストマイニングが便利。

スポンサーリンク

大量の文字を簡単に分析してくるテキストマイニング

f:id:zakkiworkdiary:20161106223705p:plain

インターネットがなどが発達してきて、日々私たちは大量の情報と触れています。

それがチャートや図式、動画などなら良いのですが、中には未だに大量の文字情報の場合も多いです。

特に図式化出来ないような人間の心や気持ちなどは文字であることが多く、大量にあった場合、なかなかその特徴の本質を短時間で抽出るのは困難です。

そんな時、テキストマイニングがとても役に立ちます。

今では特に難し知識を必要とせずとも、下記のようなコピペだけで本格的なテキストマイニングをやってくるサイトもあり。大変便利です。

textmining.userlocal.jp

本エントリーでは、テキストマイニングの概要と、上記サイトの使用方法、そして仕事に活かせる主なテキストマイニングの活用例をご紹介します。

テキストマイニングとは?

テキストマイニングとは、Wikipediaの定義によると下記のようになっています。

テキストマイニング(text mining)は、文字列を対象としたデータマイニングのことである。 通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。

今流行のデータマイニングの一種で、一言で言ってしまうと大量の文字から特徴を見つけ出すというものです。

理論的には難しく私もよくわかっておりませんが、今まで仕事で分析などを行う時はRなどの特殊なデーテ分析ソフトウェアを使っておりました。

しかし、なんと先ほど紹介した「User Localのテキストマイニング」のページではそれがいとも簡単にコピペで出来てしまうという衝撃。

基本的な機能しか使えませんが、正直簡単なテキストマイニングであればこれで事足ります。(会社の機密データや、個人情報をこのような第3者サービスでやるのはくれぐれも控えましょう。)

User Local テキストマイニングのやり方

f:id:zakkiworkdiary:20161106225701p:plain

やり方は本当に簡単で、まず下記サイトにて、最初のテキストを入れる空欄に分析したい文字、文をコピペします。

textmining.userlocal.jp


例えば今回は私の11月5日現在のブログトップページの全文字をコピペしてみました。(Crt+A)でコピペです。変なスペースとかも気にしません。

f:id:zakkiworkdiary:20161106225940p:plain

するとサイトが瞬時にテキストデータを解析してくれます。

画面左に出ているものが「共起ネットワーク」と言われるもので、

文章中に出現する単語の出現パターンが似たものを線で結んだ図。出現数が多い語ほど大きく、また共起の程度が強いほど太い線で描画されます。

とありますが、要は単語同士の出現パターンつながりを見れるものです。

私のブログでは収益・仕事・新卒は同じような出現の仕方をしているようです。また収益とクラドワークス・ランサーズ・ブログも多いですね笑


そして右にあるのが「ワードクラウド」と言われるおなじみの出現頻度が高い(厳密にはスコア)単語を大きくまとめて表示してくれものです。

私のブログでは「ミラクル・モーニング」ミラクルやエクセル、収益、ブルーライトがやけに多いですね。

動詞が赤色なのですが、動詞は「役立つ」・「上げる」・「辞める」笑


ページ下部に行くと下記のようなリストが出てきます。

f:id:zakkiworkdiary:20161106230743p:plain

左から名詞、動詞、形容詞の順でスコアが高い順に並んできます。そしてその出現頻度です。

スコアとはちょっと定義は難しいですが、「意味がある出現が頻度が多い」程度の解釈でいいかと思います。

出現頻度だけ見てしまうと、「は」とか「です」などが高く出てしまうので、スコアはそれを調節するよなものです。

動詞のトップは私のハンドルネーム「zakkiworkdiary」ですが、2位は「方法」です。役に立つような記事をかけてるのでしょうか笑

また動詞は「できる」や「稼ぐ」など、仕事系の記事が多いからでしょうか。



いかがでしょうか、ぜひともご自身のサイトでも使ってみる事をオススメします。


仕事でどんなときにテキストマイニングをするか

主に大量の文字データを分析するときに使うので、下記のようなときに大変重宝します。

フリーアンケートの集計と分析

アンケートは選択式の場合は数字である程度傾向が見れるのですが、フリーコメントのアンケートはこのようなテキストマイニングツールは大活躍します。


数十人ならまだしも、数千人レベルではとても目を通してられないので、こういったツールを使って大体の特徴をつかむことが多いです。


また、満足度が違う人を別々で分析してみて、スコアの違いなどを分析するもの面白いです。


レビューコメントの分析

上記のアンケートと同様ですが、アプリストアに寄せられたレビューや、あるサービスを検討している時に他の購入者がどういったレビューをしているか分析するときにもおすすめです。

なんとこの「User Local テキストマイニング」では、比較分析も無料で出来てしまいます。

f:id:zakkiworkdiary:20161106232100p:plain

最初のページで、下部にある「2つのテキストを比較解析」を選択すると、テキストを入力する欄が2つ現れます。

こちらに比較したテキストを入力し解析します。


試しに、ディフォルトの「高評価の掃除機レビュー」と「低評価の掃除機レビュー」を解析してみましょう。

f:id:zakkiworkdiary:20161106232335p:plain


以降解析結果です。

ワードクラウドは緑色の形容詞に大きな差が見られます。高評価のほうがポジティブな形容詞が多いです。

f:id:zakkiworkdiary:20161106232438p:plain


文章ごとの出現頻度の分類もしてくれます。低評価は使用感に問題がるようです。

f:id:zakkiworkdiary:20161106232513p:plain


特徴的な言語を比較分類もしてくれます。4象限の下方にあるのが共通する文字で上にあるのが特徴的な文字です。

f:id:zakkiworkdiary:20161106232722p:plain


ネガティブな言語とポジティブな言語ごとに分けてもくれます。やはり低評価の掃除機はネガティブな単語がよってます。

f:id:zakkiworkdiary:20161106232830p:plain


最後に出現比較です。これはあまり直感的にわからないことが多いので、上記の図を見たほうが私はわかりやすいです。

f:id:zakkiworkdiary:20161106232930p:plain


今回は掃除機でしたが、検討してるレストランや、ホテルのレビューの比較などに使って見るものいいかもしれません。

ちなみに私は競合企業のサービス・商品レビュー分析に使っております。


職務経歴書なども色々テキストマイニング

最後に職務経歴書などもテキストマイニングも面白いです。

求職者側も、自身の職務経歴書はどのような単語に隔たっているか、面接官が初見でどのようなイメージを持つかなどもわかります。


また職務経歴書をじっくり見る時間がない人事担当者もテキストマイニングでスクリーニングなどを実施して見るも面白そうです。


他にWebページや、文献、小説など色々試して見るものいいかもしれません。

まとめ

毎日大量の文字や文に追われる作業をされている方、文章を分析したい方には、テキストマイニング大変オススメです!!

上記のようなサービスが全部無料で何回でも出来ます。

特に数学な理論などの予備知識なしでもお手軽に使用出来ます。

※ただデータをネットに乗っけるので、会社勤めの方は個人情報・機密情報だけにはくれぐれも気をつけましょう!!


もっと詳しく知りたい人へオススメ本

経営にテキストマイニングを活かす!

有価証券報告書をテキストマイニングするとは!新しい。。。