吴语协会

 找回密码
 开只户头

扫一扫,访问微社区

QQ登录

只需一步,快速开始

搜索
查看: 11053|回复: 10

现有沪语(吴语)输入法的缺陷以及可能的解决方案

[复制链接]
发表于 2008-10-26 04:30:05 | 显示全部楼层 |阅读模式
【现有沪语(吴语)输入法的缺陷以及可能的解决方案】:


【一】综述
目前,市面上可以取得的沪语输入法,有两套
(1)钱乃容老师开发的上海话输入法:
http://www.longdang.com/shanghaihua.aspx
(2)吴语越音 开发的第二式输入法
http://www.wuunion.com/bbs/viewthread.php?tid=19&extra=page%3D1


目前两套输入法的使用情况,据我的调查发现,使用率十分低。。别说推广,连绝大多数上海人都根本无法保持长时间使用。。

在我看来,问题主要如下:
【1】拼音方案难以很快接受,尤其是‘浊音’和‘入声’,以及元音的输入等问题,从而造成很多人根本不知道如何上手
【2】就算勉强过了第一关,大量词汇输入法中根本就没有,即使我知道了沪语读音且严格按照输入法进行了输入
【3】由于目前新一代上海人普遍发音不准,造成了大量词汇只知国语发音,而根本不知道沪语发音的情况,这样造成了使用的不便
【4】词库以及智能的问题,新一代输入法(以搜狗为例)最大的特色,就是同步更新词库和高超的智能选择,造成很多新鲜词汇以及很长的句子都可以瞬间并且准确的输入


我目前针对以上问题,提出了可能的解决方案:
====================================

【二】解决方案:

【1】针对第一点,本人从一个实际的使用者的角度来看,认为应该采取第一式和第二式的一种综合;而以第一式为主;从使用的角度来说,本人强调,很多声母可以合并(但是,在具体给出字的时候,标上严格的发音,这点我后面会讨论),例如:

bin   兵
bhin 病
pin   拼

我本人认为,因为受到英语和普通话太多的发音影响(从小的教育),b,p 的发音还是第一式做的好,但是在具体输入的时候,b , bh 可以统一成 b (当然,输 bh 更准),其实在我看来,b和bh 更像声调的不同,前者第一声,后者第三声;

又如:

西 xi
子 zy

在普通话中,西子(xizi)两者的韵母是一个,其实我们都知道,两者发音明显不一致;第一式中将两者区分开是很好的,但是在使用起来会相当的不方便。。所以我的意思是,普通话都可以合并(且并不影响发音的区分),我们上海话输入法也可以合并~~


第三点就是入声了,第一式第二式(包括其他的拼音方案),不是用K就是用H,这当然不错,尤其对于吴语来说,入声是非常宝贵的遗产;但对于实际的使用来说,就相当的麻烦了。。所以,我还是倾向于合并,(即,最后加不加K和H都无所谓,都可以给出所要的汉字)


【总结】综上所述,其实我的观点,就类似与搜狗拼音当中的‘模糊音’,即 zh,ch,shi, 与 z,c,s混合,因为对于不少国人来说(例如,西南官话的使用者),的确相当难区分这些发音,所以我们上海话输入法,同样也可以将清浊混合(当然,这应该作为选项,对于老鸟来说,区分后打的更快更准);另外,就是混合入声,这也做同样的解释
===================================


【2】针对第二点,本人认为,从根本上来说就是词库的问题,这在我看来根本就不是问题,前提是需要了解以下概念:

(1)输入法的核心概念,词库格式:
这其实很简单,看了以下例子就瞬间明白了,

'a 啊
'a 阿
'a'a 啊啊
'a'bian 阿扁
'a'di'da'si 阿迪达斯
'a'duo 阿朵
'a'fu'han 阿富汗
'a'ge 阿哥
'a'gen'ting 阿根廷
'a'ha 啊哈
'a'jie 阿姐
'a'la 阿拉
'a'la'bo 阿拉伯
'a'lan'ruo 阿兰若
'a'li 阿里
'a'li'ba'ba 阿里巴巴
。。。。


这就是搜狗拼音的标准词库,即拼音与汉字的一种对应关系,所以说,如果我们需要一个大一点的字库,只要采用以下措施就可以了:


(2)词库的自动生成方案:
首先,假定我们已经确立了上海话(日后可以是吴语)的一种标准化发音规范,我们首要的处理,其实并不是沪语(吴语)的各种特有词汇以及方言俚语(目前各大吴语论坛最大的问题,就在于疯狂的搜集各种土语),我认为,首要处理的是,目前国语词汇的沪语(吴语)读法~~~~这一点是非常重要的,只有这个抓住了,即任何国语,都基本上可以用沪语(吴语)标准无误的读出来,这样才能慢慢的增强我们吴语使用者的自信,进而使用我们特有的表达方式和语法,甚至是特有的词汇!!!

所以,作为一个可以让沪语(吴语)使用人群普遍接受(而不仅仅是学术研究)的输入法,首先必须建立目前最常见,使用频率很高的国语词汇库,不过音是用沪语(吴语)标注的~~~

现在我来说一下自动方案,其实在了解了以上基本构词法后,是非常容易的:
[1]得到国语词汇库(这个途径太多了。。我相信任何从事语言学研究的学者,都肯定具备大量的语料库)
[2]按照沪语基本的发音,将上述国语词汇库进行注音(这其中,必然会碰到文白异读,特殊读法,不同地区不同读法的问题),将发生问题的词汇,自动剔除做特殊处理
    [2-1]具体方法,因为常用汉字的数目是有限的(初步算5000)
    [2-2]先对上述5000汉字,用沪语(吴语)进行标注,出现多重读音的,抽提出来
    [2-3]对[1]中得到的语料库,进行自动化注音,将绝对无任何多重读音的词汇,标记为正确,出问题
           的,事后可以额外处理
    [2-4]上一步骤中,成功处理的,就是无歧义沪语词库;出现歧义的,其实正好是各种特殊用法,文白
            异读,各种读音的语料,可以进一步分析处理(如果简单的话,就直接标记成两种读音)
[3]上述工作完成后,就可以导入输入法,以后再用沪语(吴语)输入单词时,绝大多数情况,是可以找到读音无误的词的
====================================================


【3】第三点的解决,其实是在第【2】步完成的条件下的;而且也异常的简单明了:
首先举一个最简单的例子,比方说用搜狗输入法,当你输入 mo ban (模板) 的时候,搜狗会自动纠正,应该读 mu ban (写在要输的词‘模板’ 旁边);
我们可以利用这一个特点,来解决【3】的问题,即:

当我们不知道某个特定词汇的沪语(吴语)发音的时候,我们直接输入国语拼音,找到这个词汇的时候,旁边标记着该词汇的沪语(吴语)发音;

做到这点其实也相当简单,理由是:输入法的本质就是一种映射关系,当你得到一个具体的汉字(词)的时候,就可以顺便提取该词的信息的。。我们这里的信息很简单,就是其沪语(吴语)读音而已。。

当然,从实际使用的角度来说,当你输入的就是沪语(吴语)正确的读音时,纠正的发音可以不显示。。只有你输错了(主要针对输国语)的时候,才显示其真正的沪语(吴语)读音。。

要实现这一点也很简单:
[1]首先,我们在所有的国语拼音库的汉字后面,标注上其沪语(吴语)读音;然后在显示的时候,将后面的读音信息显示出来
[2]由于同一个词,我们还用沪语标音,为了实现‘纠错’这一点,我们在沪语库的汉字后面,不标注任何信息就可以了,这样打出来就是‘正确’的。。
[3]对于那些沪语(吴语)特殊用法,文白异读等现象,也采取上述形式进行纠错

======================================================


【4】第四点,其实是最关键和头疼的,因为这牵涉到了大量的技术细节,甚至是不少机器学习的核心算法,这不是一般人可以完成的。。。尤其是智能化问题,细胞词库以及词库智能更新问题都还不是太大。。但是搜狗的核心亮点是首词准确率超高,以及长句子的自动识别等等。。。这些背后的细节不是一句两句话说的清楚的。。。所以,我的观点是,最好采取合作的方式,我们,联合其他的吴语论坛,吴语爱好者,大学教授,吴语区土生土长的资本家,等等等等,以某种方式和搜狗方面进行合作,在下一个版本中,包含我上面提出的【1】-【3】的功能(其实上面三个功能是相当容易实现的);一旦做到这一点,我认为真正沪语(吴语)的输入法,想不普及都难~~~~


=======================================================


【三】结论:
综上所述,目前沪语(吴语)输入法最大的几个问题是,
【1】拼音方案难以很快接受,尤其是‘浊音’和‘入声’,以及元音的输入等问题,从而造成很多人根本不知道如何上手
(解决方案:采取清浊合并,入声合并等等‘模糊音’处理方式,可以大大降低门槛)

【2】就算勉强过了第一关,大量词汇输入法中根本就没有,即使我知道了沪语读音且严格按照输入法进行了输入
(解决方案:以现有的国语词汇库,按照一定方式标注其沪语(吴语)读音,碰到文白异读等特殊情况时,特殊处理)

【3】由于目前新一代上海人普遍发音不准,造成了大量词汇只知国语发音,而根本不知道沪语发音的情况,这样造成了使用的不便
(解决方案:输入法保留国语输入,但在其词汇后面,显示沪语(吴语)读音,就好比‘纠错’)

【4】词库以及智能的问题,新一代输入法(以搜狗为例)最大的特色,就是同步更新词库和高超的智能选择,造成很多新鲜词汇以及很长的句子都可以瞬间并且准确的输入
(解决方案:与目前最好的中文输入法‘搜狗拼音’进行一定程度的合作)


在解决了上述4点,尤其是第【4】点后,沪语(吴语)输入法的普及,想不成功都难,但这必须大家共同的努力才可以,万不可内斗,也不可轻易诋毁别人的辛苦成果;就算其他说普通话的人百般诋毁也没关系,我们吴语人必须团结~~~~~

==========================================================


【四】展望:
我是以‘沪语’的观点,来写这篇文章的,但其实,上述所有方法,都适用于吴语中任何一种方言,因此,我非常希望,在此计划初步实现后,我们吴语区的所有语言的使用者,都有了自己特有的输入法以后,可以心平气和的一起讨论一种吴语共同语,因为我知道,现在用计算机来研究语言学的人很多,在我这个输入法计划实现后,尤其是第【2】个困难的解决,势必会遇到很多国语词汇,在吴语区中,存在‘不同区不同读法’的情况,当然,更包括不同吴语区的各种土语俚语;在实现拼音化后,完全可以用计算机来比较,甚至建立一整套概率模型计算其演化的方式(类似于生物信息学中的系统发生树的构造),因为我们可以根据这种由计算机得到的客观的结果,来分析哪些词汇应该被选为共同语

最后的最后,我以一个上海人,更是一个吴人的身份,衷心的祝愿,我的这个小小的想法,可以得到实现~~~~~
发表于 2008-10-26 10:24:14 | 显示全部楼层

楼主提出的问题其实和salome的类似

 楼主| 发表于 2008-10-26 15:04:08 | 显示全部楼层
我可提出了不止一个问题哦。。。而且我提出了一种解决方案,至于好不好,大家可以拍砖。。
发表于 2008-10-26 16:28:02 | 显示全部楼层
拍砖
发表于 2008-10-26 16:29:25 | 显示全部楼层
总坛有本站的吴语拼音教程和各处的拼音方案,望LSS花稍许时间做一个了解和学习,我不认为你的方案比本坛的好
发表于 2008-10-26 18:45:43 | 显示全部楼层
汉字的吴语念法这种是最初步的工作,早已完成了。。

现在的关键是需要一个类似搜狗的动态词频和词汇联想功能的输入法

全拼类型的输入法是上个世纪的东西。。。
发表于 2008-10-27 13:20:46 | 显示全部楼层
对,我在搞整句输入法,带模糊音设置
 楼主| 发表于 2008-10-28 14:43:24 | 显示全部楼层
汉字的吴语念法这种是最初步的工作,早已完成了。。 现在的关键是需要一个类似搜狗的动态词频和词汇联想功能的输入法 全拼类型的输入法是上个世纪的东西。。。
====================================

请问,有谁能发给我一份??其实就是一张映射表,我知道很简单,可惜网上找不到。。。自己一个个打又太麻烦,呵呵~~
 楼主| 发表于 2008-10-28 14:46:34 | 显示全部楼层
daodaoliang,你说目前正在开发?太好了~~希望早日出来,呵呵~~模糊音还是很重要的,另外就是习惯,我的建议是,本坛推荐的吴语拼音方案当然不错,但是也同时建议保留与汉语拼音类似的读音(可参考钱乃容教授的第一式,可以略作简化),这样保留多种风格,可以照顾到大多数人群~~~

另外就是‘纠错功能’,这个实现起来应该也不难,daodaoliang,建议你使用;这样的话,新上海人(或者对吴语不是十分熟悉的人),也可以对他们推广~~~(纠错功能可以人为关闭与打开)
发表于 2008-10-28 18:28:56 | 显示全部楼层
原帖由 bigws 于 2008-10-28 14:43 发表
汉字的吴语念法这种是最初步的工作,早已完成了。。 现在的关键是需要一个类似搜狗的动态词频和词汇联想功能的输入法 全拼类型的输入法是上个世纪的东西。。。
====================================

请问,有谁能发给 ...

你搜索 上海吴语手册 就能找到了。。。。
发表于 2008-11-1 22:29:58 | 显示全部楼层
我建议在输入法的属性里面能够设定哪些音模糊,比如说不区分清浊韵母,不区分「下」和「无」的韵母(大部分人年轻人都分不清楚了)
还有建议学习一下日语输入法,因为有些字的写法大家不一定很清楚,可以像日语输入法一样在旁边显示注解等等
另外,如果模糊拼音的话,一定要在旁边给出正确的拼音,以便大家学习~~~
最后,希望能够支持长句输入,这点很重要~~
发表于 2008-11-3 19:58:31 | 显示全部楼层
对,楼主的意见很好!拼音的使用习惯是一个很难培养的东西,特别是在现在吴语拼音根本是无本之木的状况。先妥协一些,慢慢引导到正确的轨道倒是一条不错的道路。
头像被屏蔽
发表于 2016-3-8 10:02:57 | 显示全部楼层
真的吗?太好了,非常喜欢
您需要登录后才可以回帖 登录 | 开只户头

本版积分规则

手机版|Archiver|吴语协会 Wu Chinese Society ( 网友言论不代表本站观点 )

GMT+8, 2024-3-29 20:33

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表