🥼

ビルマ語(ミャンマー)のAI翻訳オープン研究開始

Goal

軍事政権の暴力に苦しむミャンマーの方々を助けるためにも、

現地の情報をリアルタイムに日本語に翻訳したいです。

ただ、現状のビルマ語から日本語への機械翻訳の精度は限定的であり、

翻訳のアウトプットを完全に理解することができません。

協力者募集 : dai@kiara.team までお気軽にお願いします。

Resources 情報ソース

Myanmar language have two fonts - Zawgyi.ttf and Unicode.ttf

Font detector

Researches

Myanmar english dictionary database

Burmese phonology ビルマ語のふりがな

Research Papers 論文集

このペーパーでは、FacebookAIがWAT2019ミャンマー語-英語翻訳タスクに提出したことについて説明します。 当社のベースラインシステムは、BPEベースのトランスモデルです。 単一言語データを活用して、自己トレーニング、逆翻訳、およびそれらの組み合わせを含む一般化を改善する方法を探ります。 ノイズの多いチャネルの再ランク付けとアンサンブルを使用することで、結果をさらに改善します。 これらの手法は、追加の単一言語データでトレーニングされたシステムだけでなく、提供された小さな並列データセットでのみトレーニングされたベースラインシステムでも大幅に改善できることを示しています。 私たちのシステムは、人間の評価とBLEUによると、両方向で1位にランクされており、2番目に優れたシステムを8BLEUポイント以上上回っています。

文字変換は、一般に、さまざまな書記体系にわたる音声ベースの文字起こしです。 これは、さまざまなダウンストリームの自然言語処理アプリケーションにとって重要なタスクです。 ミャンマー(ビルマ語)の言語では、複雑なミャンマーの書記体系とデータの不足のため、借用した英語の単語の堅牢な自動音訳は困難な作業です。 この研究では、8万を超える音訳インスタンスを含むミャンマー英語の名前付きエンティティ辞書を作成しました。 データはCCBY-NC-SAライセンスの下でリリースされています。 準備されたデータに基づいて、統計的およびニューラルネットワークベースのアプローチを使用して自動音訳のパフォーマンスを評価しました。 ニューラルネットワークモデルは、文字レベルでのBLEUスコアの点で統計モデルを大幅に上回りました。 処理のためにミャンマー文字で使用されるさまざまな単位も比較され、議論されました。

このペーパーでは、ビルマ語(ミャンマー)のテキスト正規化を実行するための有限状態トランスデューサー(FST)文法の包括的なセットとともに、オープンソースのクラウドソースのマルチスピーカー音声コーパスを紹介します。また、ビルマ語の書記素から音素(G2P)への変換を実行するためのオープンソースの有限状態文法も紹介します。これらの3つのコンポーネントは、ビルマ語の高品質のテキスト読み上げ(TTS)システムを構築するために必要です(ただし、十分ではありません)。ビルマ語は、シナチベット語族の東南アジアの言語であり、いくつかの言語上の課題があります。コーパス取得プロセスについて説明し、ビルマ語のテキスト正規化とG2Pに対する有限状態ベースのアプローチの詳細を提供します。私たちの実験には、長短期記憶(LSTM)リカレントニューラルネットワーク(RNN)モデルに基づくマルチスピーカーTTSシステムの構築が含まれます。これは、低リソース設定で他の言語に対して良好に機能することが以前に示されていました。私たちの結果は、私たちが発表しているデータと文法が、他のシステムに匹敵する適度に高品質のモデルを構築するのに十分であることを示しています。これらのリソースがビルマ語の音声と言語の研究を促進することを願っています。ビルマ語は、無料の言語データの利用可能性が限られているため、多くの人がリソースが少ないと考えています。

自然言語処理(NLP)は、この分野での幅広い研究とともに登場しました。ミャンマー語とも呼ばれるビルマ語は、リソースが不足していて、音色があり、分析的で、音節のタイミングがあり、主に単音節の言語であり、主語-目的語-動詞(SOV)の順序が付いています。ビルマ語のNLPは、空白や単語の境界がないという事実にも挑戦しています。これらの事実を考慮して、現在の論文は、ビルマ語でNLPタスクに関連する研究成果の参考文献を提示する最初の正式な試みです。現在の作業は、単なるカタログを提示するのではなく、注釈やNLP関連のカテゴリでのNLPタスク研究作業の分類によって具体的に詳しく説明されています。実際、著者の知る限り、これはあらゆる言語で世界で初めての作品です。 25年以上にわたるこの論文では、ビルマ語の単語識別、セグメンテーション、曖昧性解消、照合、意味解析、トークン化、続いて音声部分(POS)タグ付け、機械翻訳システム(MTS)、テキストキーイング/入力について説明しています。 、認識およびテキスト表示方法。ビルマ語のWordNet、検索エンジン、およびビルマ語に対する他の言語の影響についても説明します。

この作品は、ミャンマー(ビルマ語)とラカイン語(ラカイン語)の間のニューラル機械翻訳を調査します。 ラカインはミャンマーに密接に関連する言語であり、しばしば方言と見なされます。 3つの著名なニューラル機械翻訳(NMT)システムを実装しました。リカレントニューラルネットワーク(RNN)、トランスフォーマー、畳み込みニューラルネットワーク(CNN)です。 システムは、私たちが開発したミャンマー-ラカインの対訳コーパスで評価されました。 さらに、単語埋め込みのための2種類の単語セグメンテーションスキームが研究されました:Word-BPEとSyllable-BPEセグメンテーション。 私たちの実験結果は、最高品質のNMTおよび統計的機械翻訳(SMT)のパフォーマンスが、両方のタイプの翻訳のSyllable-BPEセグメンテーションで得られることを明確に示しています。 NMTに焦点を当てると、Word-BPEセグメンテーションを使用したトランスフォーマーは、ミャンマー-ラカインとラカイン-ミャンマーの両方の翻訳でCNNとRNNよりも優れていることがわかります。 ただし、Syllable-BPEセグメンテーションを使用したCNNは、RNNおよびトランスフォーマーよりも高いスコアを取得します。

Conferences 学会等の関連リンク

The search as "myanmar" "machine translation" site:aclweb.org

YouTube 【研究結果】

Researchers

Coming soon

What is Burmese? ビルマ語って?

ビルマ語

ビルマ語(ビルマご; ビルマ語: မြန်မာဘာသာစကား、 ALA-LC翻字法: Mranʻ mā bhāsā ca kā"、 IPA: /mjəmà bàd̪à zəɡá/ ミャマー・バーダーザガー)は、 シナ・チベット語族の チベット・ビルマ語派(チベット・ミャンマー語派)に属し、 ミャンマー連邦共和国の公用語である。ミャンマー連邦の総人口は約4,913万人(1999年の推計)であるが、 ビルマ族のみならず同国内に135いるとされる諸民族の共通語ともなっている。他に バングラデシュ・ マレーシア・ タイなどにも話者がいる。なお現在のところ、日本の 公教育においては 東京外国語大学及び 大阪大学外国語学部で専攻語として開講されているのみで、専門的な学習の機会や場は多くない。 ミャンマー語 と呼ばれることもある。 表記にはビルマ文字が用いられる(参照: #文字)が、文字と実際の発音には様々な隔たりが見られる(参照: #音声 )。 日本語における「 ミャンマー語」と「 ビルマ語 」は、同一の意味を持つ。本項目では説明がない限り「ビルマ語」として名称を統一するものとする。 中華人民共和国南西部ではビルマ語と近縁の 彝語が話されているが、ビルマ語の祖語にあたる言語はそこから南下して紀元後 9世紀までの間に現在のミャンマー(ビルマ)の地にもたらされたと考えられる。そしてその言語がその地に暮らしていた モン族の言語である モン語や パーリ語の 仏典と接触した結果、 チベット・ビルマ諸語の土台に モン・クメール諸語の 基層や表記体系に加えてパーリ語仏典のイデオロギー的な上部構造を兼ね備えた言語が生まれた。表記体系に関しては モン族が使っていた文字が 11世紀後半ごろにビルマ語に使われるようになった( ビルマ文字)。 12世紀前後には仏教徒の功徳を記録した碑文が多数現れるようになる。この時代に書かれたビルマ語を「」( 11世紀 -

ビルマ語