ツール

治験文書の翻訳にAI翻訳はどこまで使えるのか

治験文書の翻訳学習(英→日)をしています。

この分野も、MTPE(機械翻訳のポストエディット)は今後ますます増えてくるとみています。

一体どのくらいのレベルで機械翻訳がされているのか、気になりました。

逆に自分の翻訳スキームに機械翻訳・AI翻訳を取り入れるのは「あり」なのかどうか。

 

それを確かめるために、自力で翻訳して対訳と比較したものの中で、

自分が間違えたもの、対訳と訳し方が異なったものを中心にいくつか機械翻訳・AI翻訳を使って確かめてみました。

その中での気づきのいくつかを今日はご紹介します。

 

結論:そこそこ使えるけれどそれぞれ要注意ポイントがある

今回、比較したのは下記の3つです。

  • Google翻訳(ニューラル機械翻訳)
  • A社・AI翻訳(ニューラル機械翻訳)
  • B社・機械翻訳

従来の機械翻訳が逐語で訳語をあてているのに対し、ニューラル機械翻訳(NMT)は、ディープラーニングによって翻訳エンジンが学習していき、「より自然な」訳語を生成します。

Google翻訳が突然進化したように感じたのも、NMTを導入してからですね。

 

A社のAI翻訳は、分野を選ぶことでより最適な訳語を生成することが売りです。

機械・化学などのざっくりとした分野ではなく、かなり細かく設定できます。

今回は添付文書の翻訳なので、ズバリ「添付文書」というカテゴリを選択しました。

 

全体的な感想としては、次の通りです。(英文和訳の場合です)

●Google翻訳(ニューラル機械翻訳)

→ そこそこ使えるがA社と比較すると専門用語の訳出は少し甘い(文章によってはA社よりよいものもある)

●A社・AI翻訳(ニューラル機械翻訳)

→ 専門用語もきちんと訳出するものが多いが、文章の組み立てが正しいのか、抜けがないのかを常に確認する必要がある

●B社・機械翻訳 

→ 抜けはないが、これをPEするならはじめから翻訳するほうがよいかも

 

例えば、次のような文章があります(添付文書の臨床成績の項目です)。

(今回引用した全ての文章の原文はこちら、公開訳はこちらから引用しています)

The safety of ELIQUIS was evaluated in the ARISTOTLE and AVERROES studies [see Clinical Studies (14)], including 11,284 patients exposed to ELIQUIS 5 mg twice daily and 602 patients exposed to ELIQUIS 2.5 mg twice daily.

(公開訳)

ARISTOTLE 試験及びAVERROES 試験において本剤の安全性が評価され[臨床成績(14 項)参照]、11,284 に本剤5 mg 1 日2 回、602 例に本剤2.5 mg 1 日2 回が投与された。

これを機械翻訳で翻訳してみます。

 

(google翻訳)

ELIQUISの安全性は、1日2回ELIQUIS 5 mgに暴露した11,284人の患者および1日2回ELIQUIS 2.5 mgに暴露した602人の患者を含むARISTOTLEおよびAVERROES研究で評価されました[臨床研究(14)参照]。

 (A社・AI翻訳)

ARISTOTLEおよびAVERROES試験(臨床試験(14)参照)において、エリキス5mg1日2回投与群11,284、エリキス2.5mg1日2回投与群602例の安全性が評価された。

(B社・機械翻訳)

ELIQUISの安全性はARISTOTLEで評価されて、AVERROESは研究する[Clinical Studies(14)を見る]。そして、1日2回ELIQUIS 5mgにさらされる11,284人の患者および1日2回ELIQUISに2.5mgさらされる602人の患者を含んだ。

 

それぞれの特徴を反映した訳文をつくりだしてきました。

patientsは試験に参加する被験者の意味では通常「人」ではなく「例」とします。

2019/09/05追記:

上記の青字部分は不正確な記述でした。確かに治験文書では慣習的に「例」と使われることが多いのですが、決まりがあるわけではありません。「人」は口語的すぎますが、「名」でも問題ないと思われます。

 

exposed to (薬剤)を、(薬剤)に曝露したとするか投与されたとするかですが、対訳の通り私も当初「投与」としました。

ただ、同じ文脈(ヒトへの薬の投与)で「曝露」としている治験文書も多くみられるので、曝露でも良いのかもしれません。

この部分はもう少し調査します。

 

A社(AI翻訳)の訳でどうしても気になるのが、文章の構成です。

「~試験において、○○投与群の安全性が評価された」という文章になっています。

今回の試験で評価すべき安全性は薬剤の安全性であって、その安全性を確かめることを目的として被験者に薬剤を投与しています。

A社の訳だと、薬剤の安全性というより「その薬剤を投与された被験者」の安全性の評価と読み取れてしまうのではないかと思ったため、気になりました。

ちょっと考えすぎかもしれませんが、文の構造としてはgoogle翻訳のほうが良いのではないかと思いました。

 

従来の機械翻訳(B社)は「訳抜け」がないので、これを元に修正していけば訳抜けは防げると思います。

ただし、やはりかなり完成形の訳からは遠い形をしていることが多いので、実際の所は「これなら一から自分で訳した方がストレスがないな」と感じます。

 

AI翻訳・機械翻訳のPEにあたり注意すべき箇所2つ

今回、いろいろな気づきがあったわけですが、「AI翻訳でもやはり人間のように推論はできないんだな」という当たり前のことを強く感じました。

私たちが翻訳する時は、もちろん文章の意味を考えます。

省略されている箇所を補って読んだり、複数の意味がある単語も文脈の中で自然と適切な訳語を選択しています。

「そのあたりはやっぱり弱いんだなぁ」と思った例を2つご紹介します。

 

1. 省略してある言葉は読み取れない

例文は引き続き添付文書からです。

医師・薬剤師が患者への指導の際に注意すべきことを記載した箇所からの引用です。

(原文)

Advise patients of signs and symptoms of blood loss and to report them immediately or go to an emergency room.

(公開訳)

失血の徴候・症状について患者に知らせ、出血を認めた場合には、直ちに報告するか救急外来を受診するよう指導すること。

使われている言葉はとても平易なのですが、実は翻訳中に少し考えてしまった部分です。

「失血の徴候・症状について患者に知らせる」「それら(them)を直ちに報告するか緊急外来を受診する」の間にいくつか省略されているからですね。

そのため、誰が何を報告するのかがわかりにくいです。

 

文脈から考えても、報告する、または緊急外来を受診するのは患者ですよね。

多少くどくなりますが原文をリライトするならば、こんな感じかと思います(オレンジ部分を追記しました)。

Advise patients of signs and symptoms of blood loss and if they are observed, advise patients to report them immediately or go to an emergency room.

 

もとの文章をそのまま機械翻訳・AI翻訳にかけるとこうなります。

(Google翻訳)

失血の兆候と症状について患者に助言し、すぐに報告するか、緊急治療室に行きます

(A社・AI翻訳)

失血の徴候や症状を患者に知らせ、直ちに報告するか、救急外来に行きましょう。

(B社・機械翻訳)

患者に失血の徴候および症状を知らせて、直ちにそれらを報告するかまたは非常事態へ行くために、泊まる。

やはり、「報告する、または緊急外来を受診」の主語が「失血の徴候や症状を知らせた者」になってしまっています。

先ほどのリライト案のようにしてから機械翻訳にかけるとようやくちゃんとした文章が生成されますが、和訳であれば生成された訳文を訂正する方がやはり早いですよね。

 

2. 文脈から係り受けを判断するのは難しい

こちらは使用上の注意(併用注意)に関する一文です。

(原文)

Coadministration of antiplatelet agents, fibrinolytics, heparin, aspirin, and chronic NSAID use increases the risk of bleeding.

(公開訳)

抗血小板薬、線維素溶解薬、ヘパリン、アスピリンとの併用、及びNSAID の長期使用により、出血リスクが増大する。

NSAIDは非ステロイド系抗炎症剤の略称で、バファリン、ロキソニンなどが有名です。

 

こちらが機械翻訳・AI翻訳の訳です。

(Google翻訳)

抗血小板薬、線維素溶解薬、ヘパリン、アスピリン、および慢性NSAIDの併用は、出血のリスクを高めます。

(A社・AI翻訳)

抗血小板薬、線溶薬、ヘパリン、アスピリン、慢性NSAIDの併用は出血のリスクを増大させる。

(B社・機械翻訳)

抗血小板物質、fibrinolytics、ヘパリン、アスピリンおよび慢性のNSAID使用の同時投与は、放出する危険を増す。

NSAIDというのは、先ほど少しだけ説明したように、ある薬剤の総称です。

「慢性○○薬の併用」って何でしょうね。

NSAIDの長期使用、慢性使用(慢性的使用)とすべき箇所です。

 

そして、「慢性NSAIDの併用」となってしまっているのは、「Coadministration of (~の併用)」が「chronic NSAID use」までかかっていると判断しているからでしょう。

「長期的(慢性的な)NSAIDの使用」という言葉が理解できていれば、このような係り受けの判断は通常はしないと思います。

 

ただ、ちょっと原文がわかりにくいような気もします。

「chronic NSAID use」という言い方もなくはないですが、google検索では「chronic use of NSAID」の使い方の方が圧倒的に多かったです。

次のようにリライトしてもう一度翻訳してみたら、google翻訳はきっちり直してきました(オレンジ部分を、chronic NSAID use から chronic use of NSAID に変更)。

 

(リライト後原文)

Coadministration of antiplatelet agents, fibrinolytics, heparin, aspirin, and chronic use of NSAID increases the risk of bleeding.

(Google翻訳)

抗血小板薬、線維素溶解薬、ヘパリン、アスピリンの同時投与、およびNSAIDの長期使用は出血のリスクを高めます。

(A社・AI翻訳)

抗血小板薬、線溶薬、ヘパリン、アスピリン、およびNSAIDの長期使用の併用は、出血のリスクを増大させる。

(B社・機械翻訳)

NSAIDの抗血小板物質、fibrinolytics、ヘパリン、アスピリンおよび連用の同時投与は、放出する危険を増す。

 

AI翻訳は「慢性NSAIDの使用」から「NSAIDの長期使用」に変わりましたが、文章の切れ目としては変わっていません。

「長期使用の併用」はおかしくない?と言いたいのですが、なかなか伝わらないですね。

このあたりは私たちがAI翻訳のボケにツッコミつつ直す必要がありますね。

 

まとめ

AI翻訳は進化してきたとはいえ、現状はまだまだ「そのまま使えるレベル」ではないです。

特に「文脈で判断する」ということができません。

AI翻訳のポストエディットは本当は上級者でないとできないと言いますが、確かに「それっぽい訳」が出てくるので、なじみのない分野であると間違いに気づかないだろうな、という怖さも感じました。

今後、AI翻訳はさらに進化を遂げていくのは確実ですし、翻訳者としてAI翻訳との関わりは避けられないと思います。

どのように活かしていくべきか、引き続き実際に使用しつつ考えていきたいと思います。