訳語確定の試行錯誤

中国語のちょっと訳しにくい言葉 vs 私 & AI翻訳

中国語から日本語の翻訳をしています。

英語でもそうですが、辞書で一発で出てこない、ちょっと手を焼く単語は山ほどありますよね。

先日出会った、そんな「ちょっと手を焼く単語」に対して私は画像検索から入ったのですが、あとで検索し直してみたらもっといろんなアプローチの仕方がありました。

 

で、ふと思いました。

AI翻訳は、これをどう処理するのかな、と。

やってみたら、なかなか面白い結果となりました。

どうぞご覧ください。

「ちょっと手を焼く単語」vs  私

これは少し前に中国語の診断書について学習していた時に出くわしたものです。

リンパ球系に異常が見られた患者さんのレポートの中の一文です。

問題なのは、黄色の所の一文です。

上では頭の部分が途切れてしまっていますが、全文はこうです。

局部区域红细胞呈缗线排列。

ざっくりいうと、一部の赤血球は○○の配列をしている、という意味で、○○が上の青文字部分に相当します。

手持ちの電子辞には缗线という言葉は載っていませんでした。

さて、どうしましょうか。

 

当時の私:baidu画像検索から入る

最近、何でも画像検索するのが癖になっている私は、どういう状態か確認するためにまず画像検索してみました。

基本的に、中国語の調べ物はまずbaidu(百度)で検索しています。

Google検索と検索結果が全く異なり、一概には言えませんがbaiduの方が必要な情報にすぐ当たる確率が高いからです。

 

缗线状でbaiduで画像検索をかけてみると・・・

早速それらしい物が出てきました。これらは赤血球の塗抹標本を顕微鏡で見た際の画像です。

なんとなく、赤血球がつながってしまった状態を指している言葉だなというのがわかりました。

そして右下の黄色で囲った部分に大きなヒントがありました。拡大します。

ここで気づきました。

缗线(線)じゃなくて缗钱(銭)と書いてあることに。

画像検索では缗线でもいくつかヒットしているのですが、検索結果は圧倒的に缗钱(銭)の方が多かったので、はじめは「原文の誤植かな?」と思いました(あとでわかったのですが、どちらも使われています)。

ともあれ、「赤血球が連なっている状態」であるのは確かだということがわかりました。

 

ここから、日本語のgoogle検索で当たりをつけてみます。

つながっている状態だから、「連」という字は恐らく入るだろう。

ということで、”連” ”赤血球”で検索するとこうなります。

 

先ほど中国語で検索したのと同じような画像が出てきて、さらに一番初めの画像(黄色丸印部分)には「連銭形成」と出てきます。

中国語側でも「銭」という言葉を使っていましたから、これで間違いないでしょう。

 

テキストに切り替えて確認をすると、wikipediaに下記のような記載がありました。

血管内の低ずり応力領域内では高分子化合物の影響により血液粘度が上昇し、赤血球がコインを積み重ねたような状態(銭形成、rouleau formation)になることがある。

念のため中国語の方で再度、rouleau formationと缗钱を組み合わせて調べてもヒットしました。

これで、「連銭形成」で確定です。

 

別のアプローチ2つ

ここまででそこまでの時間はかかっていなかったのですが、改めて調べ直してみたら、もっと早くたどりつける(かもしれない)アプローチがいくつかありました。

1.Google画像検索を使ってみる

google画像検索で検索した場合、下記のような画面になります。こちらも、それらしき画像が出てきます。

この黄色丸印の画像をクリックすると、とあるスライドの中の画像でした。

画像の中には、英文併記での説明がありました。ここから検索ができますね。

この検索エンジンの違いというのはなかなか面白くて、缗」一字で検索しても、これだけの違いが出てきます。

google画像検索

baidu画像検索

ケースバイケースですが、うまくgoogle検索とbaidu検索で得た結果を組み合わせると、早く得たい結果にたどり着くのではないかと思います。

 

2. 辞書ファースト

実は・・・手持ちの紙の辞書に、「缗钱(銭)は載っていました。

何だよ、辞書引けよ!という話ですね・・・

この当時は画像検索から確定できてしまったので、記憶が曖昧ですがこの辞書を引かなかったと思います。

漢日医学大詞典という医学の専門辞書です。

分厚いですが、こういう時に頼りになります。

それに、その周囲の言葉まで見えるのが紙の辞書の良いところですよね。

今回も「缗钱」(銭)なのか「缗线」(線)なのかで惑わされたところがあるのですが(どちらも使用されています)、やはり「缗钱」(銭)が本来の使い方なんだな、というのもわかります。

 

そして、そもそもですね・・・

「缗」(min2)一語で電子辞書を引くと、「銭通しのひも」「ひもを通した銅銭」と出てくるわけです。

ここからでも推測できたのでは??とも思います。

例えば、「連銭」に至らなくても、「”赤血球” ”銭”」で検索すれば出てきます。

 

中国語は日本語以上に、その「一語」で表現される世界が広いなと感じることがあります。

まずはひとつひとつの言葉にもっと真摯に向き合うこと、その世界観を味わってそこから連想していくことが大事だな、と改めて思いました。

 

「ちょっと手を焼く単語」vs  AI翻訳

さて、「ちょっとまどろっこしい人間の訳語確定」を見たところで、AI翻訳の登場です。

英語では95%の精度で翻訳できるといわれるAI翻訳も、中国語ではどうでしょう。

 

実は中国語についても以前何度か試していて、得られた結論は、「・・・良くて30%くらい?」でした。

ただ、最近「中の人」が変わったというお知らせを頂いたので、さあどうかな?とワクワクしながらやってみました。

 

まずは、本来の使い方ではない(と思われる)「缗线(線)の方から。

結果は・・・

原文:局部区域红细胞呈缗线状排列。

AI翻訳の翻訳結果:局所領域赤血球は、線状に配列されている(xxxx)。

私の訳:一部領域に赤血球の連銭形成を認める。

(xxxx)は実際には数字が入っています。エラーコード?でしょうか(これまで見たことがありませんでした)。

念のためもう一度、ちょっと設定を変えてやってみましたが同じです。

 

これ、AI翻訳の典型的なパターンですね。

「缗」は「なかったこと」にされてます(エラーコード?が「それ」なのかもしれませんが。)

ちなみに、「文脈で判断するから」という言い訳をさせないために、この1文だけではなく、前後で計10文くらい血液関連の用語が入った文章も一緒に翻訳しています。

 

そうか、「缗线」(線)は辞書にも載っていない単語だから認識しないのか。

辞書に載っていた「缗钱」(銭)で再度トライします。

 

原文:局部区域红细胞呈缗钱状排列。

AI翻訳の翻訳結果:局所領域赤血球は、お金状に配列されている。

私の訳:一部領域に赤血球の連銭形成を認める。

 

・・・意味としては、確かにそうですね。うん。

さすがに、「赤血球」「お金」→「連銭」というところにはたどり着かないのでここから先は現状、人間がなんとかせよ、ということでしょうね。

 

ちなみに他の機械翻訳、AI翻訳もいくつか試してみましたが、「連銭」と訳したものはありませんでした。

やはり、「缗线」(線)だと、同じく「缗」が認識されず「線状」と訳されるかトンでもな訳になり、「缗钱」(銭)だと「お金状」になるというのが傾向として見て取れました。

いずれにせよ、「缗」という字は認識されず、「それ以外のわかった言葉」でつなぎ合わせているようですね。

 

とあるAI翻訳ソフトは、「ピンポン状」と訳してきました。

どこからピンポン状が??

同じ音の言葉を引っ張ってきたとか?いろいろ考えましたがわかりません。

この謎、ものすごく解き明かしたいのでわかった方、コメントいただけるとありがたいです(翻訳文全文は、「部分的には赤細胞がピンポン状に並んでいる。」です)。

 

それでも、google様ならやってくれるかもしれない。

そう思って、最後にgoogle翻訳も使ってみました。

結果は・・・

 

「缗线」(線)の場合です。

これもなぜ「波」になったのかわかりませんが、

原文の下に、「もしかして「缗钱」?」と出してくるのはすごいですね。

 

「缗钱」(銭)の場合です。

そうですよね、意味としては間違ってはいないんですけどね・・・

 

正直、googleならもしかしたら、という希望を少し持っていましたが、やはり難しかったようです。

 

おわりに

中国語のAI翻訳の精度について、実際に自分が遭遇した、「少し訳しづらい単語」を元に検証してみました。

中国語のAI翻訳の精度は、以前より確実に上がっています。

それでも、「自然だけど、何かが決定的に違っている」訳出をされることもあります。

 

そのときにどうしたらよいのでしょう。

やはり自分でその違和感を察知して、違和感をひもといて素早く訳語確定できる力を鍛えることが大切だと改めて感じています。

 

そして、AIエンジンがなぜそんな訳を吐き出すのか、これからもいろいろ試してみて、その「思考回路」を少しずつ理解していきたいと思っています。