実験・製作関連実験関連

多肉植物用ユーザー辞書(和名・学名変換)が完成【約60000単語】

実験・製作関連
スポンサーリンク

ブログとかSNSとかで、多肉植物の写真や記事を書くときに、その漢字や学名を書くのってめんどいですよね。私はめんどいです!

というわけで、多肉植物の学名・和名のユーザー辞書(PC、スマホ用)を作りました。

 

ちなみにこの話題は、かつて↓の記事でも扱っているのですが、今回はそれの超強化版で、ダウンロードもできるようにしてあります。

和名を入力すると学名に変換される便利辞書データの作成
本記事は「学名・和名からどんな植物かを一発画像検索するアドオンの作成 | スーパーサボテンタイム」に続き、あまりサボテンと関係ありません。 ブログやTwitterなどで学名を書くことは少なくありません。 例えば太平丸。学...

 

できること

  • 日本語の和名を入力すると学名に変換できます(例:すいこうかん -> Gymnocalycium anisitsii)。
  • 日本語の和名を入力すると漢字の和名に変換できます(例:すいこうかん -> 翠晃冠)。
  • 変換単語数はおおよそ60000単語。
和名・学名変換

「すいこうかん」と入力したときの結果

というわけで、これで、「翠晃冠」って打ちたいときにわざわざ「みどり」「こう」「かんむり」って打って、何回もスペースキーを押して変換しなくて済むのです!そして、グーグル先生に、「翠晃冠 学名」とか打たなくて済むわけです!

 

「まんげつ」と入力したときの結果

上の例では「まんげつ」と入力していますが、多肉植物的には、「まんげつ」はハオルチアマミラリア(サボテン)があるらしいので、ふたつ候補が表示されます。

ちなみに変換精度は、”だいたいあってるような気がする”というレベルです(理由は後述の機械的辞書作成法のため)。間違っているものもあるし、足りないものもある。使用される場合はあくまで参考情報としてのご利用をお願いいたします。

 

なお、和名を入力すると学名に変換される便利辞書データの作成では、読み仮名に、EXCELのPHONETIC関数を使用していたため、鬼面角の学名を出すには「きめんかど」と入力する必要がありましたが、今回の辞書では「きめんかく」でいけます。また和名のシノニム(語源・語形が違っていて、同じ意味をもつ語)にも対応しています。

 

辞書作成アルゴリズム

辞書作成アルゴリズムとしては下記の通り。

  1. ブラウザやスクレイピング等でWEBから学名(和名も併記されていればいっしょに)を収集。データを縦持ちでデータベースに格納【python、access】。
  2. 和名の読みがなを書籍、WEB等から収集し追記【python、excel】。
  3. 収集できなかった読み仮名は、私の想像で手動で追記【excel】。
  4. 和名がないものについては、まず数万語の英単語・カタカナ辞書から一致したものを自動でカタカナ変換【python】。
  5. 英単語で一致しなかったものについては、先日作ったラテン語の学名の読み方をカタカナに変換するプログラム完成で、一気にカタカナ変換(慣用読み2)【Javascript】。

スクレイピングのコーディング、いろいろな学名の表記の揺らぎなどの除去、読み仮名手動入力などに異常なほど時間がかかっています。そんで、工程4と5の自動変換は膨大な数があることから、正確性は未確認でかなり微妙です。

 

ダウンロード

辞書ファイルはAとBに分かれていますが、Aは和名がある有名どころのやつ(つまり上記の工程1、2、3まで)で、Bは和名がない(つまり上記の工程4、5=英語・ラテン語のカタカナ自動変換)レアもののやつです。先述の通りBは精度も実に微妙な部分もありますので、一般の方はAだけでいいと思います。必要に応じて、Bも追加する形で。

AもBもインポートして「みにま」を変換した結果

↑のように、Bを入れると当然候補が無駄に増えます。

 

というわけでダウンロードはこちら。PCであれば右クリックから「名前を付けてリンク先を保存」的なやつで保存してご利用ください。

 
フォーマットとしては、タブ区切りの単純テキストで、「読み仮名」「単語」「品詞」「コメント(多肉植物A or 多肉植物B)」となっています。なお、文字コードはSHIFT-JISです。ご利用の環境に合わせて、再エンコードしてください。
 
学名、和名、読み方は、その性質から著作権はないと個人的には考えていますが、万が一何か問題がありましたご連絡宜しくお願い致します。
何度も書いていますが、この辞書はWEBから半自動的に収集したもので、正確性は保証できません。ご利用は自己責任で!あくまで参考で!
 

使い方

Windows10 の Microsoft IMEへの適用

ユーザー辞書にもともとなにか登録されている方は、必ず辞書のバックアップを取ってからインポートしてください。なお、インポートでトラブルが起きましても責任はとれませんので、その点ご理解ください。

タスクバーの右下の「A」か「あ」の部分を右クリック。

 

「単語の追加」をクリック。

 

「ユーザー辞書ツール」をクリック。

 

「テキストファイルからの登録」をクリック。

 

ダウンロードした辞書ファイル(テキストファイル)を選択するとインポートが始まる。

 

完成。

 

上記の例は、Microsoft IMEですが、Google日本語入力でもおおよそ同じような感じで動作を確認しています。

スマホでもこんなかんじ(Google日本語入力)。

 

追記:
スマホの「Google日本語入力」の後継である「Gboard」なるやつでは、UTF-8にエンコード後、zipで圧縮することでインポート自体はうまくいって、単語自体は登録されているようにみえるものの、なんだかわかりませんが、私の環境ではうまく変換されないです。なんでですかね???
 

 

なお、Maciphoneについてはわかりません!

持ってないので!

 

でも、上のテキストファイルを何らかの加工をすれば(もしかしたらしなくても)いけるはず。たぶん(iCloudの関係で、iphoneはMacがないとできないのかな?よくわかりませんが)

 

ちなみに、当初の計画では、シノニムを全部表示してシノニムには「シノニム」って記述をつけたり、例えば昔はネオポルテリア属(Neoporteria)で、今はエリオシケ属(Eriosyce)には、「(旧)Neoporteria」というような表記をつけたりしようかなとも思ったのですが、ここら辺の話は実に流動的で、やはり実装もめんどくさいのでやめました。

というわけでユーザー辞書の話でした。

コメント

  1. うちのPC環境が悪いのか、うまく動作しなかったので
    質問させて下さい。先日、ハオルチア・ピグマエア 雪之禮磨面寿
    とかいうのを購入しましたが、この雪之禮磨面寿の読み方
    わかるでしょうか?

    • 北海道白中斑さま

      こんにちは!書き込みありがとうございます!

      うまく動かずいろいろご不便をおかけしております。
      さて、謎の多肉植物「ハオルチア・ピグマエア 雪之禮磨面寿」ですが、
      おそらく雪之禮磨面寿は和名ではなく、中国名になるかと思われます。

      無理やり読むならば、「ゆきのれい・まめんじゅ」かと思われます。
      なんとなくで画像検索する限りは、Haworthia pygmaea(←辞書がうまく動けば「ぴぐまえあ」で変換できます)の特白タイプ(?)かなにか特選タイプ(?)という感じでしょうか。

      どうぞよろしくおねがいいたします。

タイトルとURLをコピーしました