INDUSTRIAL

图像传感器

从人物、背景到姿势皆能准确捕捉的移动设备用Time of Flight(ToF)方式距离图像传感器,为以智能手机为代表的娱乐元素带来变革

February 22, 2022

Time of Flight方式距离图像传感器(以下简称“ToF方式距离图像传感器”)可在照射激光后,准确测量与对象物之间的距离。现已被搭载于高端移动终端上,在拍照时的自动对焦和背景虚化等功能中发挥着重要作用。移动设备用ToF方式距离图像传感器能够准确捕捉面容、背景以及手和身体的动作等,但是始终未能大范围地被大众机型所采用。
因此,索尼半导体解决方案集团(以下简称“本集团”)选择的解决方法就是开发利用全新移动设备用ToF方式距离图像传感器的应用程序。为此,日本以及中国上海、北京、深圳、成都这5个据点首次联合建立了开发项目。而此次,我们将去了解这个大项目的目标,探寻这款全新应用程序是如何跨越千山万水诞生的。

H.Kamano

Sony Semiconductor Solutions Corporation
Mobile Sensing Business Division

H.Doi

Sony Semiconductor Solutions Corporation
System Solutions Business Division

Ivy Yu

Sony Semiconductor Solutions(Shanghai)Limited
Business Development Division

Pop Zhang

Sony(China)Limited
Creative Design Team 2

从人物、背景到姿势,皆能准确识别, 有望在各领域发挥重要作用的ToF方式距离图像传感器

―― ToF方式距离图像传感器究竟是什么?

Kamano:ToF是Time of Flight的缩写,它是一项能够高精度地感知人物、物品的距离信息的技术。它的特点是将激光与传感器结合在一起,有多种类型。
其中iToF是Indirect ToF的缩写,这种传感器可在照射到对象物上的激光经反射返回传感器时,利用对象物的距离所决定的照射光与反射光的相位差计算距离。

下文中出现的ToF方式距离图像传感器就是指iToF方式距离图像传感器。

―― ToF方式距离图像传感器被用于哪些用途?

Kamano:它在智能手机等移动设备以及车载、无人机等用途发挥着重要作用。
并且,它并非单纯地测定距离,还能够清晰拍摄空间与对象物,因此,在电子商务、AR效果等各种场景中也开始得到广泛应用。
具体来说,在智能手机上,它被用于相机拍摄时的背景虚化功能和自动对焦功能,而在车载用途,则被用于手势的识别。

Doi:ToF方式距离图像传感器的手部识别能力非常强大,因此在车载用途,可以实现各种手势操作,例如“手向右转提高音量”、“手向左转降低音量”。

―― 擅长识别对象物的ToF方式距离图像传感器,在过去存在哪些课题?

Kamano:虽然它的应用场景在逐步增加,但是目前还没有一款吸引众多用户使用的杀手级应用程序,这导致了“智能手机制造商因为缺少杀手级应用程序而难以将ToF方式距离图像传感器搭载于智能手机上”,“应用程序开发商则因为智能手机上没有搭载这种传感器而缺少开发积极性”的问题,这种先有鸡还是先有蛋的状况持续了很长时间。
所以,我们考虑自主开发使用ToF方式距离图像传感器的应用程序,并向智能手机制造商与应用程序开发商两者进行宣传。

Doi:从开发角度来说,因为要照射激光,所以它比一般相机更加耗电。另外,因为要计算深度(距离信息),所以这方面也会消耗电量。从智能手机制造商的角度来说,因为要增加一个传感器,所以还必须保证一定的空间。当然,ToF方式距离图像传感器有其独特的附加值,但这种附加值还不足以让人想要把它搭载到所有智能手机上,所以现在,一些高端机型搭载了这种传感器,而低端机型尚未搭载。
例如,虽然都称为自动对焦和背景虚化功能,但是其中有的使用ToF方式距离图像传感器实现,也有的利用其它方式实现。不使用这种传感器的,采用的方法是通过计算图像的对比度进行对焦,或者通过AI处理从RGB图像中强行将人物与背景分离,从而营造虚化效果。很多人认为利用这种AI技术就能达到足够的效果,这也成为了阻碍ToF方式距离图像传感器普及的一个因素。

Kamano:但是有智能手机的制造商提出“如果有有趣的应用程序,我们愿意搭载ToF方式距离图像传感器”,所以我们想要尝试推倒多米诺骨牌的第一块,从而建立和扩大这类应用程序的市场,于是挑战了此次的应用程序开发。

―― 智能手机制造商和应用程序开发商都认为凭借图像的AI处理已经能达到足够的效果了吗?

Doi:我并不认为对于ToF方式距离图像传感器都抱着消极的想法。我们的某个客户认识到深度的价值,很早就在他们的智能手机上搭载了ToF方式距离图像传感器,还提供了开发使用这个传感器的应用程序所需的SDK(Software Development Kit)*1。但是,因为现在搭载ToF方式距离图像传感器的智能手机终端还很少,因此应用程序的开发始终未能取得进展。因为这个经历,客户也改变了态度,现在他们利用一般的相机与AI处理来实现各种效果。另一方面,也有其他客户在产品上搭载了ToF方式距离图像传感器,然后以垂直统合的方式,进行从终端到应用程序的一条龙开发,因此,要在相机和传感器上搭载什么、要提供怎样的应用程序来使用这些技术,全部自行决定,所以,这些客户在通过行动努力发挥ToF方式距离图像传感器的价值。
在AI处理中,深度信息的优势是切实存在的,因此,重要的是我们必须继续宣传它的这种价值,增加技术经验与开发者。

*1:软件开发包

只有ToF方式距离图像传感器才能实现的、带来愉快使用体验的应用程序的开发

―― 你们在开发的应用程序中,重点开展了哪些工作?

Ivy:在应用程序的开发中,本集团负责企划、创意设计与SDK开发,而应用程序开发合作伙伴负责发布工作等。一开始我们就认识到,为了让大家都愿意使用ToF方式距离图像传感器,必须开发能让用户体验到乐趣的产品。
因此,向土井先生与中国方面的技术人员学习了一些技术知识,了解了“这款传感器能提供哪些体验”。然后,还进行了TikTok等平台的用户调查,深入调查了当前的流行趋势和用户感兴趣的内容。

Pop:作为设计团队,一开始也投入了大量时间,去研究ToF方式距离图像传感器能够提供哪些体验。特别是我们认为必须了解发挥这款传感器独特优势的最佳方法,然后在熟知这一点的基础上开发应用程序。
还有一点我们认为很重要的是要了解目标用户。要让应用程序被目标用户所接受,必须了解他们喜欢什么样的应用程序以及他们如何体验这些应用程序带来的乐趣。
幸运的是,中国据点的设计中心具备开发需要的最基本条件,我们在这里通过不断摸索尽可能排除技术课题,并尝试创造前所未有的独特应用程序。

―― 此次的项目横跨日本和中国,具体是如何推进的?

Kamano:此次我们作为主要目标用户的智能手机制造商多是中国企业,因此以Ivy和Pop等中国本地人员为中心推进讨论。特别是在效果呈现方面,土井先生与中国那边的开发人员密切地进行了交流。

Doi:我们日本的开发团队提供将应用程序开发所需的程序打包的SDK。而中国有实际负责开发应用程序的企业。受到时局限制,所有交流都必须在线进行,所以,我知道很难对中国本地企业提供直接的技术支持。因此,我们选出了技术人员,由我给这些成员办技术讲座,然后让他们对上海设计中心的成员提供技术支持。关于整体进度,我们使用了日程管理的应用程序,在厚木对开发进度进行确认,如果发生了他们难以解决的课题,就由我直接提供技术支持等,总而言之,我们竭尽全力减轻中国当地的开发团队在时间上和距离上产生的压力。

―― 在一次也不曾亲临开发现场、全部工作都在线推进的情况下,遇到过困难吗?

Doi:是的。不知道为什么,Ivy很怕我(笑)我只是在技术方面提出了一些批评,例如“这里这样不行”“这里必须再改进”,但是Ivy好像觉得我是在发火。在线交流有个缺点就是很难传达现场的气氛,从而造成一些误解,而这些问题往往是实际面对面交流时不会发生的。

Ivy:土井先生,真是不好意思(笑)
我对技术并不是很了解,所以经常难以理解土井先生的话,如果不能正确理解土井先生的话,就无法帮助中国方面的成员解决课题,所以在技术理解上遇到了很多困难。
另外,正如土井先生所说,此次是上海、深圳、北京、成都、厚木5个据点联合推进的开发项目,所以我觉得避免在线会议时的交流偏差也是一个大难题。

Kamano:因为效果都是视频形式的,所以在实际样本出来前,我们都是只能通过静态的图
像进行共享的。静态图像会怎样变化,这其中有一些部分需要各成员利用想象进行补充,所以无论如何都难以避免想象的偏差。
如果有样本视频,大家会对细节提出各种意见,例如“这里还是这样比较好”,从而推进讨论,但是在看到视频之前,大家是按照各自的想象进行交流的,因此经常会出现无法深入细节的情况。

Pop:我是第一次经历这样的项目,所以一开始召集了工种、专业领域等背景截然不同的人召开了工作坊。在工作坊中,我展示了一张参考图,上面简单明了地表现了ToF方式距离图像传感器能够提供的体验,然后大家基于参考图对开发概念进行了各种设想。
我基于大家设想的概念描绘草图,以意象板的形式提出了方案。之后,为了更好地想象具体的动态效果,又用Photoshop创建了故事板。
为了避免完成的样本“与想象的不一样”,每1张故事板我们都制作得非常具体细致。
另外,在交流上主要有两个难点。
一个是语言问题。即使是同一场会议,也会用到中文、日语、英语3种语言进行交流,因此容易发生交流上的偏差。
另一个是TikTok等应用程序上流行的词汇和段子,因为地区和文化的差异,中文中流行的词汇很难转换成日语或英语,有时难以将其中包含的笑点转达给成员。

―― 请介绍一下此次应用程序开发中遭遇的难题

Pop:我遇到的最大难题就是对技术的理解。虽然土井先生提供了很多资料,但是即使看着这些资料,也很难想象实际可能会呈现怎样的效果,另外,我也不清楚从技术角度来说,能达到哪种程度,所以经历了大量反复试错的过程。
另一个难题就是清楚区分ToF方式距离图像传感器能实现的效果与RGB(图像)能实现的效果。我希望实现发挥这款传感器优势的效果,但是实际达到的效果经常是RGB也能实现的,土井先生也曾多次指出这个问题,他说“这样的效果依靠RGB的色彩识别与AI处理也能实现”。“能够正确测量与被摄体之间的距离”、“能够利用3维坐标捕捉对象物”,我希望我们的企划能够发挥ToF方式距离图像传感器的这些独特性能,呈现有趣的效果,为此投入了很多心血。

Doi:如果我们开发的应用程序不能发挥ToF方式距离图像传感器的特性,我们的开发工作就没有意义,所以,对于这部分,我从企划阶段开始就严格把关。但是,如果对技术不熟悉就很难找到“依靠RGB的色彩识别和AI处理就能实现的效果”与“只有用这款传感器才能实现的效果”之间的区别,所以,我想在技术理解方面,中国设计中心的成员们一定经历了很多磨难。

Ivy:设计中心为了理解技术,花了3个月的时间进行学习。我想正因为如此,我们才能开发出发挥ToF方式距离图像传感器特性的应用程序。

―― 除了技术理解,此次是否有趣也是开发的一个重要标准吧。

Doi:设计中心的成员们提出的企划,基本上每一个都是有趣的创意。所以,“是否发挥了ToF方式距离图像传感器特性”的部分就成了重要判断依据。

Pop:我们提出了30多个企划创意。其中实际罗列到故事板上的大约有25个方案。而这其中,有5个方案最终作为应用程序进行了公开。

―― 像这样,根据创意进行开发的工作进展得顺利吗?

Doi:在程序开发的部分,我们有一个应用程序,只需要打个响指,ToF方式距离图像传感器就能识别手部动作,切换背景,但是最初的内测版本无法顺利识别。实际上,对打响指这个行为的定义,本身就很暧昧。对于这个手部动作的识别,是通过大量拍摄打响指的状态,让AI学习“当手摆出这样的姿势时表示正在打响指”来实现的。
这项AI学习的训练最初是我一个人实施的,一开始没有注意每个人之间打响指的方法存在差异和个人习惯。我是手掌朝上,中指和食指向上,通过拇指和中指的摩擦来打响指的,但是不同人有不同的方法。有些人弯着食指打响指,也有一些人是手掌朝下打响指的。在开发最初的版本时,正好我和身边的人打响指的方法一样,所以识别很顺利,但是让中国团队试用后我才发现原来有各种打响指的方法。
因此,为了让AI学习各种打响指的方法,我以各种角度、各种手指造型打响指,尝试了数千次,简直要得腱鞘炎了。

随着越来越多的创作者能够利用深度信息,ToF方式距离图像传感器的可能性将不断扩大,不仅是照片和视频,还有望用于音乐、情感表现等广泛领域

―― 今后,ToF方式距离图像传感器有望在哪些场景得到应用?

Kamano:“连接现实世界与虚拟世界”,我想这将成为关键词。今天的采访,我和土井先生聚集到同一个场所,而我们相聚于此的原因在于实际面对面对话,能传达更多信息量,例如对项目的热情、我们的语气。如果在线上也能传达这些信息,那么跨越时空交流的可能性就有望进一步扩大。为此,我认为从立体而非平面角度识别事物非常重要,而ToF方式距离图像传感器将在这方面发挥重要作用。

Doi:现在我正在参与开发VTuber用的应用程序。现有的VTuber用的应用程序,通过脸部识别,赋予人物角色各种动作。而我们现在开发的应用程序,不仅能识别脸部,还能识别手部动作,因此,增加了姿势的多样性,情感表现也将变得更为丰富。我认为对于手部、身体等的识别越多,情感表现也会变得越丰富,我希望在情感表现方面,ToF方式距离图像传感器能发挥一定作用。

Ivy:现在,利用元宇宙*2这个虚拟空间开展的交流与经济活动正在中国流行,我认为在这方面,ToF方式距离图像传感器的技术也能大显身手。如果用户能够利用AR等进行互动交流,这款传感器的附加值将进一步提升。

*2:线上构建的不同于现实世界的3维虚拟空间及其服务。

Pop:过去,ToF方式距离图像传感器深度信息的运用主要是反映到视觉上,今后如果能应用到声音和情感表现上,就能实现前所未有的表现效果,或许会有更多用户想要利用这款传感器进行自我表现。
实际上,有很多艺术家都希望利用深度信息,例如声音AR、把声音配置在哪里才能获得更好的声场等,所以我想今后这方面的需求将不断增加。

―― 请介绍未来要挑战的目标

Kamano:我想如果能够识别人、物体、空间的细节信息,并有效利用这些信息,我们就能打造一个更加便利的世界。我希望参与更多活动,不仅限于ToF方式距离图像传感器,而是组合索尼所拥有的各种图像传感器技术、平台和内容,让人们的生活更加精彩的活动。
客户经常问我们,索尼拥有各种技术,“能不能组合这些技术,开发出更有趣的产品”。客户对我们的期待如此之高,如果能将我们拥有的技术与全世界的创作者联系起来,或许能创造出完全意想不到的东西。

Doi:我认为让更多人接触技术,激发各种想象非常重要。创建并公开更好用的SDK,将促成开发者与技术信息在线上的积累,为开发利用深度信息的应用程序创造一个生态系统。
智能手机的应用程序一开始也是小规模的,通过完善开发环境,就有了大量企业和创作者开始开发、发布应用程序。在AI方面,SDK的开放也促使AI的开发与使用得到迅猛发展。同样的,我希望通过开放便于在智能手机上使用深度信息的SDK,吸引更多人使用深度信息。

Ivy:我非常理解土井先生所说的,我也希望创建一个关于深度的社区。现在很多艺术家都对深度的可能性抱有浓厚兴趣,所以我希望扩大这个群体,让深度带来更多可能性。

Pop:我希望更进一步地发挥ToF方式距离图像传感器的优势,除了移动设备,还希望能把这款传感器应用于其他设备。例如,现在中国很流行智能电视,如果能在电视机中安装ToF方式距离图像传感器,就能实现更多功能,我希望能参与这样的研发活动。

相关内容