百人一首から平均的な一首を選択せよ! その1 法性寺入道前関白太政大臣

こんにちは。

先日、twitterで次のようなことをつぶやきました。

小倉百人一首から、もっとも平均的な一首を選出する」という命題を設定したとして、歌そのものの集合のみからでもちょっと考えれば十個くらいは実例つきで挙げられるだろう。こじつければもう十個くらいはなんとか。何人かでアイデア出せばどうか。意味的、歴史的なこじつけも許可してどうだろうか。

・百首全部のひらがな使用ヒストグラムと一首ずつのそれを比較して一番似てるのを選出。・歌の間に距離を定義して他の99首との距離を合計して最小値をとるものを選出。・隣接するひらがなの組み合わせの登場数で重みをつけて一首のなかで合計して最大値をとるものを選出。などなど。

特に反響は無かったのですが、まーとりあえずやってみる動作くらいはしようか、と思ってやってみました。
サンプルはwikipediaから持ってきました。データの正当性とか検証するのも虚しいので、漢字と()を除去したものをそのまま使用します。読み方とか清濁とか、考え始めるといろいろと難しいらしいですね。その辺はさっくり無視の方針で。

では今回は、百人一首全体のひらがな使用傾向と一番似た傾向を持つ一首を選出することを目指します。

まずは全体の文字数をカウントしましょう。こんな。

20180104170201

濁音は少なさそうですよね。
「の」が突出して多い。そりゃそうよねな感じ。
「丸みら時には賀茂氏なの」とかなんとなく意味ありげ。
どうでもいいですけど。



では次は、一首ごとのひらがなの使用傾向をそれぞれ算出し、単純に全体のそれとの二乗距離をとってみることにします。
いいの、そんな処理で?
知らねえよ、んなこと!

20180104170202



んー、突出したなにかがあるわけでもないですがー
とりあえず一列に並んだので今回の結論としましょう。
百人一首の中で一番平均的なのは!
76.法性寺入道前関白太政大臣
わたのはらこぎいでてみればひさかたのくもゐにまがふおきつしらなみ
百人一首の中で一番平均から外れているのは!
28.源宗于朝臣
やまざとはふゆぞさびしさまさりけるひとめもくさもかれぬとおもへば



最後に、この2首のひらがな出現傾向を、グラフとして全体と並べてみましょう

20180104170203



ねえこれ似てるっていうの?
ねえこれ似てないっていうの?
そもそもこの記事なにか面白いの?