以片語替換為基礎的漢羅轉換、華台翻譯系統 (Proc. of CSMU 2006)


摘要

目前大部分的使用者無法直接閱讀台語羅馬字,為了增加讀者閱讀台語文件的速度,有些前輩開始用漢羅的形式來發表台語文件,以期能加速台語文學的普及。但早期的台語文件多半是以全羅馬拼音的形式保留下來,如何將這些早期的文件改寫成漢羅文件就成了台語界的一個課題。
早期這種漢羅改寫的動作,多半是依靠人工,後來有些人利用Word等文書處理軟體提供的 “Search and Replace” 功能來加速改寫的過程,但終究還是要靠人工來做最後的修正處理,而且每次改寫一篇新的文章,就必須反覆的輸入對應的片語,相當浪費人力。
為了有效解除這些繁複的機械化動作,並且希望將這種自動翻寫的機制分享給有同樣需求的人,我們用Java與PHP語言分別開發了一套離線與網頁兩用的程式,透過由實際翻寫過程中收集的詞庫,將原本人手做的 “Search and Replace” 工作用程式一次執行完成。在離線版本的系統中,我們並提供詞庫的增加與修正功能,以便在實際使用的過程中不斷的提升轉換率與準確率。
漢羅翻寫的系統中有三個片語檔,包括一般片語檔、不應轉換片語檔與專有名詞片語檔,分別控制三種不同情況的轉換方式。為了提升轉換速度,我們將輸入的文章分段切割,一段一段進行轉換,再組合回來。
用同樣的原理,我們另外製作了一套華台自動翻譯系統,將華語的文件自動翻譯為漢羅文件。由於華語和漢羅之間不需要解決大寫的問題,所以僅需要兩個片語檔即可,不需要專有名詞片語檔。
目前漢羅自動翻寫系統,在基督教相關領域的轉換率與正確率已經高達95%以上,未來如果補充更多其他領域的片語,將可進一步提高可用度。華台翻譯系統目前還在持續累積片語之中,正確率在基督教相關領域大約可以到達70%,未來片語數如果更加增多,準確率進一步提高,將可透過華台翻譯的方式快速提升台語文件的數量,也可快速將華語演講稿及新聞稿翻寫台語,提供台語演講者及台語新聞主播方便使用台語稿。相關程式可於http://taigi.fhl.net/hanlo/ 與 http://taigi.fhl.net/ht/ 中下載。

關鍵字:漢羅轉換、華台翻譯

Facebook 留言

廣告

樂樂童鞋