社会情報学環

「AIとデータサイエンス入門」(2)〜Wolfram言語でワードクラウドを作ろう〜

2023-02-06
学科のまなび

今回は,前回紹介したワードクラウドをWolfram言語で作る具体的な手順を紹介します.

本学では,2021年度より情報関連の授業等でWolfram社と協働してきましたが,数理・データサイエンス・AI に関する教育研究の推進・人材育成のため,2022年4月にWolfram社と産学連携協定を結びました.「AIとデータサイエンス入門」では,担当教員がWolfram認定インストラクタということもあり,Wolfram言語を使っています.

実習では「Wolfram Cloud」というWebブラウザ上で使えるWolfram言語を利用していたので,テキストデータファイルのアップロードをしてから,ファイルを読み込み,ワードクラウドを作成,という手順で行いました.

ワードクラウドの作成手順

それでは,具体的に手順をみていきましょう.

(1) 「課題用のテキストファイル」の中から自分が分析したい対象のファイルを選択し,PCにダウンロードしてから,Wolfram Cloudにアップロードする.

(2) SetDirectory関数でファイルのパスを設定し, Import関数でテキストファイルを読み込む.

(3) WordCloud関数で読み込んだテキストのワードクラウドを作成する.

 

いろいろな形のワードクラウド

(4) Wolfram言語のオンラインドキュメントを参考にして,見せ方を工夫する.

数式を使って,形をつくることも.

好きな画像から,形をつくることも.

いかがでしたか?「プログラミング」といっても,Wolfram言語の一つ一つのコードはとても短いです.

ただ,簡単そうに見えて,大文字小文字を間違ったり,カッコの対応が抜けていたり,と,ちょっとしたミスで思ったように動いてくれないのはどの言語でも同じ「プログラミングあるある」です.

前回のワードクラウドの文学作品は…

さて,前回ご紹介したさまざまな文学作品のワードクラウドたち.答えはこちらです.(上から順)

  1. 「ラプンツエル」「ラプンツエル」「みにくいアヒルの子」
  2. 「若草物語」「母を尋ねて三千里」「みにくいアヒルの子」
  3. 「白雪姫」「白雪姫」「白雪姫」
  4. 「源氏物語 桐壺」「みだれ髪」「吾輩は猫である」
  5. 「人間失格」「人間失格」「源氏物語 夕顔」

レポート課題では,これらの文学作品の「文章のテキストデータ」を青空文庫から入手し,さらに「形態素解析(*)したテキストデータ」に変換し,Wolfram言語に読み込んでワードクラウドで可視化しました.

学生さんたちが,苦戦しながらも「自分の理想のワードクラウドを作りたい!」という一心で一生懸命(そして,おそらく楽しみながら)取り組まれたことが,レポートからひしひしと伝わりました.

クラウド版なので,学校がお休みのときに自宅でもできた,ということも,力作が揃った要因の一つかなと思いますが,何においても「やりたい!」という気持ちは大事なモチベーションになりますね.

次回は,この授業でもう一つのレポート課題となった「アートプログラミング」の作品を紹介します.お楽しみに!

形態素解析(*)とは?

形態素解析とは,文章を分かち書きし(単語に分ける),標準形に直す(思って→思う,など)処理です.今回は,形態素解析の結果から,

ストップワード(「を」「は」「です」などの助詞や助動詞)を除去したデータでワードクラウドを作りました.

なお,形態素解析は,PythonのMecabを使いました.

*なお,この授業については,速報として以下のBLOGでも紹介されています.合わせてご覧ください.

「吾輩は猫である」のワードクラウドを猫の形で!

過去のブログサイトはこちら

Scroll up