社会情報学環
科目紹介「AIとデータサイエンス入門」(1)
ワードクラウドでテキストデータを可視化
2022年度後期に始まった「AIとデータサイエンス入門」では,毎回講義の後にその内容をより深く理解できるよう,PCを使った実習を行いました.
プログラミング言語は,Wolfram言語です.Wolfram|AlphaやMathematicaなどのアプリケーションのベースであり,数学の計算をしたりグラフを描いたりもできるプログラミング言語ですが,可視化が得意で,とても綺麗なグラフィックスを描くことができます.
今回紹介するのは,「データビジュアライゼーション(データの可視化)」の回で学習した「ワードクラウド」です.
アンケートや文章などのテキストデータから,出現回数の多い単語をより大きく表示することで,どんなワードがよく出てきているのかを,瞬時に認識することができます.
“今日ツイッターでバズったワードは?” や,”アンケートの回答で多く出てきたワードを可視化”など,ニュースや新聞,情報番組などでも見たことがある人も多いと思います.
同じデータでも,形が変わるだけで印象も違いますね.
文学作品のワードクラウドに挑戦
さて,講義も後半になり,Wolfram言語の使い方にも慣れてきた頃,「データビジュアライゼーション(データの可視化)」のレポート課題で文学作品のワードクラウドに挑戦しました.
課題は,「提供された10作品のテキストデータから2作品を選んでワードクラウドを作り,そこからわかることや工夫した点を記述すること」でしたが,2作品以上のワードクラウドに取り組んだり,実習で説明していない複雑な色合いの設定方法をWolframのドキュメントから見つけてやってみたり,さらには,「オリジナルの形にしたいから方法を教えてください」というリクエストまで.リクエストに応え,作り方のテキストを追加で用意したところ,多くの学生さんがチャレンジしてくれました.
作品のイメージに合わせた,とてもバラエティに富んだワードクラウドが集まりましたので,まずはじっくりとご覧ください. ほんとうは全部紹介したいのですが,以下はほんの一部です. これらのワードクラウドから,作品名がわかるでしょうか?
こんな形も作れるの?と驚かれたことと思います.同じ文学作品でも,色や形によって,印象がずいぶん変わりますね.ワードクラウドを見るだけで,作品名や登場人物がわかったり,どんなお話しなのか推測できたり,物語の特徴なども見えてきたりします.
まさに,「データビジュアライゼーション(データの可視化)」の力です.
みなさんも,オリジナルのワードクラウド,作ってみたくなりませんか?(ワードクラウドの作り方と作品名の答えは次回の投稿で.お楽しみに!)