いろいろ用事があって遠くに行くことはあるのですが、たいていそういうときは忙しいのでブログが更新できず、このような記事を書こうにもタイミングを失って結局しないと言うことがあるので、今回は滞在先のホテルから更新します。
といっても、滞在先にいるということは全ての日程が終わったわけではないので、今日の範囲だけ。
今日は、ある発表のため、東京都内某所に行ってきました。
そこで、ソーシャルメディアについて発表したのですが、ソーシャルメディアの解析全般について興味を持ってくださった方に詳しく説明するときに、自分のブログを紹介したので、(見てくださっているかもしれないので)こちらでも紹介します。
※こちらのブログでこれまで紹介してきた内容と、実際に発表してきた内容は別の内容です。
※このブログは個人で運営しており、所属組織の見解を表すものではありません。
Twitter のボットの除去
Twitter を対象した解析をする場合、ユーザが投稿したツイートの抽出が重要な課題です。
なぜなら、全てのツイートを対象とした場合、ボットによる投稿が圧倒的に多いからです。
※ボット:ユーザではなくコンピュータが自動的にツイートすること。
本題の解析に集中するため、ボットの除去についてはサクッとやりたいところで、こちらの記事が参考になります。
Twitter の API で取得した場合、クライアント名(source)が得られるので、このよく使われているクライアントのうち、ユーザーが投稿するツイートを選択するのも方法の一つです。
特に、Twitter 公式のクライアントのシェアで4割以上はありますのでそれだけ選ぶと最低限必要なデータが得られるかと思います。
もちろん、このリストには掲載されていないマイナーなクライアントを利用されている方もいると思いますが、それはどこまでデータをとるかよく考えて見るといいかなと思います。
以前は、Twitter の公式サイトから閲覧した際も、クライアント名が表示されていました。
現在は公式クライアントからは確認することができないので、「クライアントで判断可能」ということを知らない人もいるんだなと思います。
形態素解析
ソーシャルメディアを対象とした解析の場合、形態素解析をすることも多いと思います。
形態素解析器として MeCab がよく使われると思いますが、ソーシャルメディアを対象としたツイートの場合は、標準の IPA 辞書以外の他の辞書も検討した方がいいかなと思います。
最近だと、neologd/mecab-ipadic-neologd といった辞書もあります。
Juman は「代表表記」が得られるので(処理時間が無視できるのなら)検討してもいいと思います。
会場では形態素解析の方法もいろいろあるということを簡単に説明しましたが、実際に使ってみて目的に合ったものを見つけてもらうといいと思います。
本題の発表とは直接関係ないのですが、複数の形態素解析エンジンを表示するプログラム(Windows 専用)は需要あるなら公開しますが、需要ないかな。
まとめ
この記事では、今回発表した内容のうちメインになるわけではないけど、考えなければならないことを紹介しました。
このブログで紹介している範囲でしたら、コメントしていただけたら答えられると思います。
P.S.
今回の発表における事例として、下記のニュースを利用しました。タイムリーに話題を提供してくださったN氏に感謝しています。
【野々村元県議、初公判を欠席】詐欺と虚偽有印公文書作成・同行使の罪に問われた元兵庫県議野々村竜太郎被告の初公判で、被告が欠席。この日の公判は中止に。 https://t.co/OU5F9xei0A
— Yahoo!ニュース (@YahooNewsTopics) November 24, 2015