新闻动态

  微信为何需要做输入法?如果读懂输入法的前世今生,那也许能理解巨头的想法。

  电子世界是只有1和0的二进制,无论输入或者输出什么汉字,中间都要经过二进制代码转换。

  1980年颁布的GB2312-80《信息交换用汉字编码字符集》,相当于给每个汉字都发放了唯一的“身份证”。而输入法的工作,就是保证用户以最快的方式,记住每一个汉字的ID。

  从此,第三方输入法各显神通,市面上有了五笔、全拼、双拼等各式各样的输入法,传统的单机输入法出现了——

  形码输入法中最有名的当属五笔字型。1983年,中科大教授王永民根据汉字书写特点的发明了五笔字型,并在1989年成立北京王码电脑有限公司,销售“王码五笔输入法”。

  五笔字型解决了PC端汉字输入的问题,新华社称“其意义不亚于活字印刷术”,而王永民也因此成为“当代毕昇”和全国劳动模范[1]。

  但实际上,早在1964年,王永民还是中国科学技术大学的一名本科生时,编译家郑易里就在为邮电科学院设计另一种形码输入法——“四码汉字”,可惜后因不可抗力中断。

  1979年,河南省科委邀请郑易里汉字编码做专题报告。王永民还连夜赶到郑州,向郑易里讨教汉字编码问题。

  直到1989年,郑易里才与女儿郑珑发明出“字型通用码”汉字输入法,也就是后来人们口中的郑码[2]。

  对五笔上有印象的人可能还记得,形码输入法的打字效率虽然高,但要花费大量时间记字根,学习成本非常高。怎么创作一款容易普及的输入法,成了当时开发者面临的问题,而答案则寄托在音码输入法上。

  音码就是一种把汉字转换拼音字母的编码。用户使用音码输入法时,只要输入汉语拼音,就能找到想要的汉字,极大地降低了汉字输入门槛。

  80年代末,哈工大博士王晓龙研发出一款名为InSun的拼音输入法,不仅让PC用户摆脱了复杂的字根,还能支持整句输入,在输入效率和学习门槛中间进行折中。

  不过,这款输入法在当时并没有正真获得广泛关注。90年代中期,InSun被王晓龙以10万美元的价格卖给微软,成为Windows95内置的“微软拼音”[4]。

  被微软收购的还有智能ABC。这款北京大学教授朱守涛在1990年研发出的输入法,结合了音码和形码的功能:用户都能够在拼音输入的基础上,通过该字第一笔的形码进行快读定位。

  虽然更多的人只是把它当作普通的拼音输入法使用,但这丝毫没能影响智能ABC的成功。被收购后,微软将它内置在Windows2000上,成为彼时大陆使用人数最多的输入法。

  智能ABC的成功,带动了更多开发者的参与,国内输入法产业竞争越发激烈。紫光华宇、智能狂拼、黑马神拼、拼音加加等优秀的拼音输入相继面世,也曾分别俘获一批追随者。

  输入法的“混战”一直持续到2005年,直到硕果仅存的四位——智能 ABC、紫光拼音、拼音加加和微软拼音,占据了90%的市场[5]。后来,以搜狗输入法为代表的智能输入法出现,国内的输入法市场又发生了新一轮变化。

  2005年,太原一家国企的应届生马占凯发现,在搜索框里打出“zhoujielun”的拼音时,搜索引擎会提示“您要找的是不是:周杰伦”。这给了他灵感——是不是能够给输入法联网,借助搜索引擎的功能,开发一款能监控时下热词的输入法呢?

  于是马占凯开始向百度发邮件、提建议。多封邮件石沉大海后,马占凯又转投搜狐,光速入职成为一名产品经理,加入王小川组建的团队开发搜狗输入法。直到2006年6月,搜狗输入法正式上线,中文输入法宣告进入“网络时代”。

  与传统输入法相比,自带搜索引擎的智能输入法不仅“猜词”更准,还开创了输入法的账号登录功能,把用户的输入习惯上传至云端,方便用户异地使用输入法和备份个人词库。

  可以说,智能输入法就是一个用户专属的人工智能,用户的每一次打字都是在训练AI,只要用户联网登录自己的账号,就能切换到那个“最懂自己”的输入法。

  互联网的普及印证了马占凯的思路,微软原生输入法和其它传统输入法越发无人问津,其它大厂也推出同种类型的产品。2007~2010年谷歌、腾讯、阿里、百度先后发布同类输入法。不过最早入局的搜狗仍具有不可取代的优势。到2009年6月,搜狗输入法的装机量已超过8000万,占据输入法市场70%的份额。

  作为开创者的搜狗,率先把矛头指向谷歌。2007年,搜狗发布声明称Google输入法盗用搜狗词库,此事最终以谷歌公开道歉、删除争议词库结束。随后,国内网络公司开始相互扯皮。

  2009年6月23日,搜狗以不正当竞争和侵犯知识产权为由起诉腾讯,索赔2000万元。不过腾讯没怂,反而在同年11月4日向法院起诉搜狗虚假宣传,索赔金额同样为2000万元。

  腾讯甚至还为此在腾讯网开辟了“搜狗拼音输入法不正当竞争”专页。页内不仅整理了最新报道、专家观点、两家产品功能对比,还专门介绍了搜狐官司缠身的诸多新闻,和QQ拼音的60项专利[6]。这个具有“纪念性的网页”直到今天——腾讯与搜狗完成合并已近一年,仍未被下线。

  《北京青年报》曾发文称,搜狗输入法与QQ拼音之争,表明拼音输入法的市场之间的竞争开始步入了白热化的阶段[7]。此后,输入法圈也有过数起纠纷,如2015年搜狗和百度相互起诉对方的输入法专利侵权[8][9]、2019年百度和360等公司联合起诉搜狗输入法流量劫持[10]等。

  一方面,互联网大公司在为智能输入法专利吵得不可开交;另一方面,第三方输入法的广告问题让令用户不胜其扰。

  日渐式微的微软输入法突然把握机会,在2010年宣布将加大更新力度,并在Windows10上针对性对中文输入法的使用体验进行改善[11]。新版微软输入法在延续原生输入法纯净无广告特点的基础上,对功能进行了大量优化升级——

  微软的输入法体验是慢慢的变好了,但它的奋发图强还是迟了一步。这时的互联网大公司,早已把业务重点转向了移动端。

  早在那个万能充还随处可见的2008年,搜狗已经初涉移动业务,盯上了用户的智能手机。只不过,那时谷歌刚推出第一部安卓手机,因此搜狗在移动端的试水选择了彼时更成熟的塞班系统。

  输入法的战线从PC端来到手机端,小公司们也冒出头跟大厂争夺市场,出现了触宝、A4、点讯梅花等一批专注于手机输入法的产品。

  到2009年,LG、索尼爱立信等厂商退出塞班生态。输入法厂商见风使舵,开始推出安卓版App。2011年,安卓手机在智能手机中的市场占有率跃升至48%,挤掉诺基亚变成全球第一大智能系统[12]。

  塞班大势已去,手机输入法纷纷转战安卓。2014年,仅支持原生输入法的苹果在iOS 8首次开放第三方输入法,各公司又纷纷宣布登陆App Store,双线发展。

  不过,后来的事实上,即便是在移动端这样的新兴平台上,输入法想要起量,也得“抱大腿”。上述三家公司中,A4和点讯梅花在2019年分别被腾讯和百度收购,推出了QQ手机输入法和百度手机输入法。

  到2017年,各类手机输入法中只有搜狗、讯飞、百度三家头部公司MAU超过百万。在这之中,搜狗输入法又占据非常大的优势,其MAU是讯飞和百度两家产品MAU之和的两倍[13]。易观数据的报告数据显示,到2020年11月,搜狗、讯飞、百度三家的去重用户渗透率超过95%,而搜狗独占58.4%[14]。

  另外,至今仍是“自由身”的触宝虽然已经上市,但也在国内失去了生存空间,全面转战海外,变成一款付费使用的产品。

  输入法有成为“大生意”的潜力。与社交、游戏等类别的App相比,工具类的输入法天生具有极高的用户粘性和渗透率。据CNNIC的数据,到2020年12月我国有9.86亿手机网民[15],而在QuestMobile的2020年中国移动互联网年度大报告里,输入法App的活跃用户规模已达8.82亿,渗透率高达89.5%[16]。

  纵使输入法行业在中国发展了近30年,仍有诸多问题未能解决,最大的问题是难以商业化。

  一方面,技术的进步给输入法行业带来了新的转变,游戏规则对小公司越发的不友好。

  十年前的输入法更关注如何让打字更快更准。有些公司开发出双拼输入、滑动输入和T+1键盘,优化文字输入体验,有些则在选词上下功夫,推出地域词库、专业词库和通讯录词库等个性化词库。

  随着人工智能技术的进步,用户不再满足于中规中矩的传统输入法。语音输入、翻译输入、表情包斗图等功能,更讨用户喜欢。

  根据易观数据2019年的调研,在选择第三方输入法时,有47.5%的用户会考虑语音输入是否好用,有46.6%的用户考虑斗图表情是否合意[17]。另外,智能助手、语音变声、AI写作助手和OCR扫描输入等智能功能,也成为Z世代用户高频使用功能[14]。

  搜狗、百度、讯飞三家输入法巨头中,百度和搜狗是国内较早涉足人工智能搜索引擎的公司,讯飞则起家于语音识别和语义识别技术,实力过硬。

  在PC端,输入法一直是款“基本上不赚钱”的免费产品,其盈利模式除了偶有的弹窗广告外,就没有付费功能。背靠两大互联网巨头的QQ和百度输入法过得滋润,但小公司们要么择木而栖,被大公司收购,要么直接倒闭停运。

  王小川的“三级火箭”模式曾被输入法行业寄予厚望,他发现输入法虽不能直接赚钱,却可当作一个流量入口,为其它盈利业务输血。

  于是,搜狗在2008年又推出浏览器,建立了一个基于“输入法-浏览器-搜索引擎”的产品体系——利用搜狗输入法(一级火箭)带动搜狗浏览器(二级火箭)安装量,再通过浏览器给(三级火箭)带量。

  搜狗的“三级火箭”模式,到2012年前后基本成型。这一年,近半流量来源于搜狗浏览器[18];这一年,搜狗营收1.31亿美元,较2011年增长108%[19]。

  但归根结底,三级火箭的模式只是一个导流手段,盈利压力全指望的广告。后来,国内搜索引擎业务逐渐被百度垄断,的市场占有率慢慢的变少,这一模式也随之失灵。

  这几年搜狗一直在吃搜索业务的老本,财报显示,2019年搜狗总营收11.7亿美元,其中搜索广告业务贡献率超过91.5%[20]。

  搜狗曾与小米、OPPO、vivo三家手机生产厂商达成合作,在部分机型上内置深度定制的搜狗输入法。百度也不甘示弱,除上述三家厂商外,还曾与华为达成独家合作,后者全机型使用定制版百度输入法。

  一方面,与手机公司合作虽然能快速带来活跃用户,但并没解决输入法本身的盈利困境。另一方面,输入法公司们还得随时提防手机生产厂商带着自研输入法杀回来。2021年11月,华为推出了自研的“小艺输入法”;而vivo自研的“Jovi输入法”也在持续更新,应用市场就是输入法的前车之鉴。

  为了商业化,部分输入法暗地里开始做起“倒卖数据”的生意,这又给输入法行业带来了隐私保护问题。

  2021年1月19日,张小龙在“微信之夜”上表示,因为用户频繁投诉自己的聊天记录被窃取,出于保护用户隐私的目的,才决定自研并推出输入法。

  用户数据一直是输入法行业里“隐秘的角落”。即便输入法公司一遍遍地向用户声明“我们将妥善处置用户数据,保护用户隐私”,用户依然对输入法心存芥蒂。

  作为用户手机中最大的信息集散地,输入法与广告商、分析服务商等建立了数据合作伙伴关系,你打开任意一款输入法App的隐私政策,都能清楚看到类似“会将用户部分信息共享给合作伙伴”的描述。

  所谓的“部分信息”不是用户的敏感数据,而是“用户画像”“用户标签”等脱敏形式,用于推荐个性化广告[21]。

  比如,京东曾在2017年与搜狗签下名为“京搜计划”的合作框架。京东彼时便表示,与搜狗合作将获得更加多流量入口,能提升投放的精准性[22]。

  正因如此,很多用户跟朋友聊天时说了什么,就会在电商App接收到相关的产品推荐。

  2019年12月30日,国家网信办、工信部等四部门联合发布《App违法违规收集使用个人隐私信息行为认定方法》,提到App不得“违反必要原则,收集与其提供的服务无关的个人隐私信息。”[23]

  2021年初,工信部对输入法行业“格外关心”,一下子公布了26款侵害用户权益的App。其中,QQ输入法、快输入、手心输入法、微商输入法四款输入法均因违规手机用户个人隐私信息,被下架整改[24]。

  2021年4月26日,工信部发布《移动互联网应用程序个人隐私信息保护管理暂行规定(征求意见稿)》,其中第七条规定“从事App个人信息处理活动的,应当具有明确、合理的目的,并遵循最小必要原则,不可以从事超出用户同意范围或者与服务场景无关的个人隐私信息处理活动。”[25]

  5天后,国家互联网信息办公室发布了“关于输入法等33款App违法违规收集使用个人隐私信息情况的通报”,其中15款输入法App存在非法获取、超范围收集个人隐私信息的现象。搜狗、讯飞、百度、QQ等主流输入法App无一幸免[26]。

  监管趋严的结果是,输入法的数据管理越来越规范。搜狗输入法2022年4月更新的《收集个人信息明示清单》和《第三方信息共享清单》里,已经看不到可用于个性化广告的信息共享。

  自此,输入法的数据生意结束,正式成为互联网巨头的公益产品,最多为自家产品导导流——2022年9月,在微信键盘最近一次的灰度测试中,已经有了智能荐书和小程序、公众号分享等功能。

  中国最大社会化媒体、月活超12亿的微信,掌握着几乎全中国网民的隐私数据。这是社交产品难以企及的成就,同时也是块“烫手山芋”。

  而聊天打字用的输入法,是除了微信以外,聊天信息的唯一出口。国家对用户隐私的管理日益严格,微信有必要与这些“风险”切割,而自研输入法就是最好的方法。

  一来目前微信App上已经包括了语音输入、语音转写、文字翻译、表情包搜索等功能,与一款完整的输入法比起来只差一个键盘;二来腾讯已经收购搜狗,无论是搜狗输入法还是QQ输入法的团队,都有现成的技术和经验供微信团队借鉴。

  微信也不必考虑开发输入法的投入回报比,毕竟隐私面前无小事。至于怎么盈利,那是信息流广告该考虑的问题。

  2021年,苹果在iOS 14.5中限制了App的广告追踪功能,砸了谷歌、亚马逊以及彼时Facebook饭碗。虽然同行怨声载道,甚至宣布起诉苹果,但用户一片叫好。

  如今,不过是事件的主角换成了微信、战场变成了输入法,但手机行业依旧是那个隐私与盈利的名利场。

  [10] 因“流量劫持”被360及百度等公司起诉,搜索候选功能被判不正当竞争 搜狗输入法之劫 2019.7.13

  [16] QuestMobile2020 中国移动互联网年度大报告·上:变局孕育新生,新“消费者触达矩阵”掀起销售、营销变革 2021.1.26

  [22] 京东联合搜狗推京搜计划 全面开放企业核心能力 2017.10.20

  [23] 关于印发《App违法违规收集使用个人隐私信息行为认定方法》的通知 2010.12.30

  [24] 关于违规调用麦克风、通讯录、相册等权限侵害用户权益行为的APP通报(2021年第2批,总第11批) 2021.2.5

  [25] 公开征求对《移动互联网应用程序个人隐私信息保护管理暂行规定(征求意见稿)》的意见 2021.4.26

  [26] 关于输入法等33款App违法违规收集使用个人隐私信息情况的通报 2021.5.1

  本文来自微信公众号“果壳硬科技”(ID:guokr233),作者:杨景诒,编辑:李拓,36氪经授权发布。

  刘晓明大使用西方人听得到、听得懂、听得进的国际语言,讲好中国故事,让世界了解中国,发挥了很好的作用,可以让我们学习和借鉴。