导读:目前,AI技术引起了各大手机和智能设备应用厂商的广泛关注,尤其是基于深度学习的自然语言处理(NLP),带动了大量快速增长的应用,如机器翻译、搜索推荐、问答系统、聊天机

AI手机产品化实践与思考

导读:目前,AI技术引起了各大手机和智能设备应用厂商的广泛关注,尤其是基于深度学习的自然语言处理(NLP),带动了大量快速增长的应用,如机器翻译、搜索推荐、问答系统、聊天机器人等。如何将自然语言处理技术应用于不同的任务场景,成为人工智能从业者非常关注的问题,也引发了众多工程师的探索性实践。今天和大家分享一些关于落地AI产品的具体想法。

今天的演讲将集中在以下三点:

当前AI的发展情况NLP和语音助手的发展情况怎样做好一款AI产品

01当前AI的发展。

技术思维和产品思维是兼容互补的。例如,如果程序员开发一个关于手势交互的深度学习算法,在实验标准数据集上,该算法的准确率可以提高5%,然后利用GPU推理将速度降低到200毫秒。自然会被认为是与电视厂商合作的好机会,利用手势交互实现换台、开关机、调节电视台音量的功能。但这里有几个问题。接下来,我将告诉你技术人员最常见和最容易犯的四个错误。

首先是志存高远。我们经常会做一些科技无法满足人类期待的事情,比如如何识别猫狗的语言,聊天机器人和人类如何自然交谈。有了技术天花板,就不可能在产品上有非常好的表现。

第二,有些算法无法满足手机上的实际需求。比如手机的端侧GPU推理必然会导致功耗增加。如何重构端侧算法也是需要考虑的问题。

第三,得不偿失,意味着成本控制不好。上面提到的手势交互算法需要投入大量的成本去购买数据,然后需要投入大量的人力去清洗算法和数据。产品方法论中有一个非常经典的公式,就是“新体验-旧体验-更换成本> 0”。在上面的例子中,替换成本从遥控器的使用习惯转移到使用手势交互控制电视的使用习惯。公式值远小于零,因此该算法很难在实践中落地。

最后一个问题是算法人员往往没有关注到用户最本质的需求,导致用户需求和技术的差距。

举个简单的例子,最近很多新手机都搭载了新一代骁龙888芯片。如果技术人员用技术语言来描述这样的手机产品,会是什么样子?可能有以下文案:这款手机搭载最新一代骁龙888芯片,最新一代LPDDR5内存,USS3.0高速存储,120 Hz刷新率,全Wi-Fi6适配,超级VC液冷。但是用户关心这样的数字吗?在购买手机的商业场景中,除了那些极客用户,真正的用户在购买手机时并不注重数字,但是手机可以给他们带来实际的体验。如果用面向用户的语言来描述同一段文字,应该是“看我的新手机,玩游戏不是很热,一点也不卡,可以袖手旁观一整天,看视频很流畅,上网刷剧也很快,手机十分钟能充一半电,半小时能充满电”。在这种情况下,你实际上是在用面向用户的语言描述产品,所以这个例子实际上是想说明技术人员非常需要关注用户。

人工智能的进展和趋势。

Gartner每年都会发布人工智能的成熟度曲线。在今年的成熟曲线中,我们发现有几个明显的变化,首先是机器学习、深度学习、计算机视觉、FPGA和聊天机器人,这些都已经进入了成熟阶段,也就是说两到五年后会达到平台阶段。至于自然语言处理、自动驾驶、通用人工智能,还需要很长时间才能达到成熟。从自然语言处理的角度来看,突破时间要比计算机视觉晚得多。一个原因是没有特别好的方式来表达自然语言。2017年transformer的出现给自然语言处理领域带来了新的突破,2020年底的GPT-3再次刷新了人们的认知。

有句话说,判断一项AI技术是否达到了它的平台,要看这个技术领域有没有人获得过图灵奖。我们欣喜地发现,2018年,深度学习三大公牛获得图灵奖,标志着深度学习已经从巅峰走向成熟,接下来的深度学习应用基本都是围绕工业应用展开的。

近两年来,AI的发展实际上呈现出平静的趋势,很多明星企业面临着衰落和破产。包括Anki Vector Robot、新芯片之星Wave computing、吴恩达夫妇投资的drive.ai,以及一大批自动驾驶、头戴式VR眼镜和聊天机器人公司,都在上市前跌下了路。从AI投资的角度来看,过去几年投资者主要关注团队是否有明星科学家,比如有没有图灵奖获得者,有没有大牛,然后更多关注算法是否国际领先。接下来的两年,人们更加关注有没有落地案例,有没有客户,公司收入如何。

02 02NLP和语音助手的开发。

我们可以看到,从2018年开始,全球人工智能领域的融资额下降了65%左右,整个AI行业实际上处于寒冬天气。但是我们还是可以看到很多AI产品登陆手机。

例如,以下两个例子:

计算摄影:

使用手机拍照时,手机会自动帮助我们进行一些修正或增强图片。事实上,使用的是计算机摄影技术。计算摄影用数字计算代替硬件实现高清图像捕捉技术,最早是谷歌在pixel1手机上提出的。经过多年的进化,到了iPhone A13和A14芯片的时候,整个计算摄影技术基本可以和谷歌的技术相媲美。当我们用手机拍照时,我们用50倍的放大率拍摄月球,这意味着我们使用计算摄影技术。

语音助手:

其实语音助手是结合了语音、自然语言处理、知识图谱和多模态交互技术的大师,核心技术还是自然语言处理。

iPhone的Siri、vivo的Jovi、小米的萧艾、三星的Bixby、华为的Xiaoyi、oppo的Breeno、谷歌的Google assistant都是各大厂商语音助手的相关产品,但实际上这些语音助手的性能还是达不到人类的预期。原因之一是技术的天花板限制,无法达到与人自然互动的水平。在人与人的交往过程中,会基于情境、说话对象、时间和地点,以及我们所拥有的许多生活经验和知识储备。目前语音助手还达不到这样的水平。2017年第二代预训练语言模型出现后,自然语言处理技术得到了突飞猛进的发展,但即便如此,我们也会发现很多底层技术都在冰山之下,因此NLP、自然语言理解技术和知识图谱等基础技术,以及我们的阅读理解和观点挖掘都在地平线之下。

GPT-3最近的出现带来了惊人的结果。但是它需要非常高的训练成本,而GPT-3实际上是一个概率模型。在语音助手这样的互动产品上,我们不能保证GPT-3的所有答案都是准确的。这就带来了一个问题。我们希望手机上每一款产品的效果都是确定的,所以AI一个非常大的特点就是它的不确定性。在技术链中,我们不敢尽可能地使用它,或者不倾向于使用这样的深度学习技术,因为使用这样的黑箱技术很可能带来不可控的结果。

如果把语音技术助手这样的产品比作木桶,这种技术有其自身的缺点,不仅包括自然语言处理,还包括语音唤醒和语音识别,比如降噪技术中的鸡尾酒会效应,以及如何在非常嘈杂的环境中达到语音识别的准确性,这些都是我们目前技术无法突破的缺点。

所以在技术缺点的限制下,我们在前景中能感知到的产品形态其实是非常有限的,包括刚才提到的语音助手、搜索引擎、输入法等一些技术,可能都属于我们能看到的自然语言处理表示技术。除了不断提高技术上限,通过产品手段尽可能弥补技术上的不足也是非常重要的。

03如何做一款AI产品?

所谓,技术不够,产品齐来,那就谈谈如何通过一些产品来弥补一项技术的局限性。

首先,我们可以尽量降低用户的期望值,不要让用户认为语音助手可以回答任何问题,说任何话。另外,我们可以从声音交互或者视觉交互的角度给用户不同的惊喜体验,让这款产品的表现力和产品效果变得更好。比如我们可以用一些情感化的语音合成,让用户觉得这个产品有生活感。再比如iOS14,对Siri进行了大改版,我们可以看到它的图标非常聪明。从交互形式的变化来看,用户体验可以得到很大的提升。

然后我们来关注一下如何做一个AI产品。

首先,对于技术人员来说,要思考三个问题。第一个问题是我的用户是谁,第二个问题是我的用户想要什么,第三个问题是我想做什么样的产品。

当我们能够准确定位目标用户时,就要开始关注手机用户的四大需求:连接他人——用户与他人的沟通渠道,包括电话、微信;连接到这台机器-用户可以在手机上获得各种体验,如看视频、听音乐、拍照、工作等。外部服务——用户通过手机连接外部世界,如外卖、出租车等。,并连接设备;用户通过手机与其他设备连接,如设备互联、电子车钥匙、屏幕投影等。我们需要考虑我们的产品满足什么样的需求。

手机产品也分为工具产品、交易产品、内容产品和游戏产品。工具产品可以解决用户的一些特定问题,这些问题可能是一次性的。我们可以扩展它的一些产品扩展,让用户保留它。游戏产品更注重用户的娱乐体验。在确定了要制造的产品类型后,下一步是确定产品的核心目标。

但需要注意的是,工具产品的核心指标是用户体验。事实上,算法工程师有一个很大的困惑,如何用数据来衡量用户体验的虚拟目标。最常用的指标之一是用户的净推荐值,具体来说,就是问用户“你愿意向你的朋友或同事推荐这款产品吗?”。再者,我们可以设置一个北极星指标,比如产品的日常活动,然后结合各个模块进行详细拆分。我们可能需要关注每天新增的用户,今天核心用户的贡献值,开工率,使用频率,目标达成率,分享率等等。当我们真正理解了这些核心目标,我们就有了主要的指标,那就是我们应该如何做好这个产品。

还有一个很好的产品方法论叫做RFM模型,通过RFM的三个要素把整个用户分为八种类型,包括用户最后一次使用的时间,使用的频率,用户为产品贡献了多少钱。但是,当我们在制作语音助手这样的工具时,钱其实是不存在的,因为它不是以收益为导向的产品,所以钱可以转化为使用时长或者使用功能号。

当我们发现拥有高RFM的群体时,他们是我们目标的核心用户。寻找核心用户的下一步,其实就是对核心用户进行分组和拆解。核心用户仍需进一步拆分。我们将它们从特征维度、行为维度、需求维度三个维度进行拆分,如性别、年龄、消费行为、使用行为、潜在需求,从而准确把握我们的核心用户是谁。

当我们验证核心用户有效时,我们会使用TGI指数来发现核心用户的需求。

寻找Tik Tok 00后的需求,比如在Tik Tok观众的人群画像中,假设所有00后人群中有15%喜欢看游戏视频,有10%的大规模用户喜欢看游戏视频,那么15%↓10%就是1.5,1.5乘以100就是150,那么我们最终计算出00后游戏的TGI指数为150。

我们也可以用DAU预测如何计算产品的上限。在自然增长的情况下,第n天的日活动理论上等于当天新增的用户数,加上前一天每一天新增的用户数就保留在当天。

DAU(n)= A(n)+A(n-1)R(1)+A(n-2)R(2)+......+A(1)R(n-1)

假设每天的新用户a是相同的,

DAU(n)=A(1+R(1)+......+ R(n-1))

DAU(t)是第天的日常活动,A(t)是第天的新用户,R(t)是第天之后新用户的留存。

在实施过程中,一定要利用好AB测试。这是判断功能上线后是否有效果的一个非常有效的手段。在实施的过程中,我们也需要遵循一定的标准。谷歌、苹果、华为、阿里都有具体的设计标准辅助产品落地。

最后,在产品生命周期中,每个产品都会有不同的开发阶段。以微信为例,已经发展多年的微信本应处于下行趋势,但通过产品延伸和生态建设,已经超越下行阶段,达到了新的高度。

在落地的过程中,一个优秀的产品需要整个团队的配合。这时候我们就把指标拆分成各个子团队,也就是说当我的产品定位在日常活动指标后面的时候,技术、算法、测量、研究、运营都必须把指标拆分出来,明确到各个子模块,这样才能更好的向前推进,实现整个团队的整体目标。

最后分享一下看Apple Watch发布会的一些感受。他们通过大量普通人的例子来描述Apple Watch让他们的生活变得更加高效、安全、健康、便捷和快乐。这就是我们需要做的关于如何关注用户最本质的需求。

今天的分享就到这里,谢谢。

共享客人:

少昊博士

vivo算法专家少昊,日本九州大学工学博士。他现在在vivo工作,负责AI技术的产品化。曾任狗尾草智能科技有限公司人工智能研究院院长,带领团队打造聊天机器人产品“公子小白”和ai虚拟生活产品“琥珀虚拟脸”的交互引擎。曾任上海对外经济贸易大学副教授、硕士生导师。上海市静安区首批优秀人才、上海市人才发展基金获得者、杭州市高层次人才。现为中国信息学会青年工作委员会委员、语言与知识计算委员会委员、中国计算机联合会语音对话与听力专业组委员、中国信息技术委员会委员。发表论文50余篇,专利10余项。曾担任AAAI、IJCAI等国际会议委员会委员,出版行业内首部聊天机器人著作,主持多项国家级、省级项目,并在联合国、WTO、亚利桑那州立大学、香港城市大学担任访问学者。

分享嘉宾:vivo算法专家少昊博士。

编辑:魏昱

制作人:DataFunTalk。

上一篇:AI手机简史    下一篇:AI教程派    

Powered by 国产一这里只有精品 @2018 RSS地图 HTML地图

2013-2021 版权所有