トリビアの泉風 2004/3/3 しりとりプログラム考察 番組では15万語で7万5千語だったが もっと効率のいいプログラムがあるんじゃないか? とおもって作ってます。 目標は効率50%以上です。 データ データはcanna の辞書から抽出したのでフリーだと思う。 9万語収録されている。 漢字コードはEUCにしてある。 ※ 「ー」は削除(母音に変換しない) 「じ」=「ぢ」 「づ」=「ず」 のルールにのっとった前処理済みのデータです。
適当プログラム.txt を.cgi とかにして実行する 実行結果 10個いかないもんだなー(笑)
プログラム1「ん」回避 実行結果 65個あ、データのBUG発見(笑) なんじゃ「う”」って しかも「きーす」が2回出て来ている。うみゅ? プログラム2「ん」回避 最終表示あり 実行結果 4535個 実行時間1時間45分 データを整理し、実行したが [る]で終り次が探せなかったようだ。 「るすばん」を入れておくか、、って入っている。んん?BUGみたいだ 適当プログラムではこれが限界か。これから本格的なアルゴリズムを作るぞ。 おれの考え方
2004/3/8 ということで75時間の処理が終ったがちょっとミスした。 その他の語が1ぎょうになってしまった。2回同じしょりをするのは いやなので適当にごまかすとする。 最後が「ん」で終る語句 10711語 1語頭文字=お尻文字 1272語 2語頭文字=お尻文字 29730語(14865組) その他 約50000語
2004/3/9 その他の文字を使って基本となるしりとりをやってみた。 実行結果 ん?なぜか最後に「ん」のつく語で終っている。 ないはずなのにBUGか。くそー それにしても「る」でおわる言葉が多過ぎないか?? ちょっと考えよう 実行結果 少ないねー、45ってなによ!5万語もあるのに。 やっぱり「る」が少ないのに多く出ている。 やはり頭もじとお尻もじの数を数えよう。 頭文字分析結果 「る」が9個!!少ない!「っ」って2個。これは「つ」にしよう。 お尻文字分析結果 「ゑ」とか「を」とか「ゐ」はやめようよ。 「を」=「お」だろう。「ゐ」=「い」ね。 「へ」終りが4語しかない。ふーん。 さてと、このさきのアルゴリズムを考えるか。 おれの考え方2
2004/3/9 さてファイルの分類は 「ん」がさいごにつく 12526 語 1語頭文字=お尻文字 1272 語 2語頭文字=お尻文字 29730 語 そのた 48169 語 合計 91697 語 だ、そのたで「あーわ」で一通りしりとりを作れば頭文字=お尻文字の3万語超は 消化できる。
掲示板 funaにメールをかく