人工智能语音合成技术（TTS）相关著作权问题研究_李洪江律师

http://blog.sina.com.cn/u/1412229207

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

人工智能语音合成技术（TTS）相关著作权问题研究

(2019-12-26 11:29:10)

标签：

人工智能

著作权

tts

语音合成

分类：媒体关系

人工智能语音合成技术（TTS）相关著作权问题研究

观韬中茂北京办公室李洪江武森胡杨

摘要：进入数字时代，文字作品的电子化已成为不可逆转的趋势，人工智能语音合成技术（TTS）代表了未来电子阅读的发展方向，其语音效果的日臻完善也日益威胁到传统版权市场。及时厘清人工智能语音合成技术（TTS）在我国的著作权侵权问题实属必要。本文将从什么是人工智能语音合成技术（TTS）、人工智能语音合成技术（TTS）的工作原理、以及其可能构成著作权侵权的角度入手，结合世界各国著作权法在以上三个方面的差异，探讨人工智能语音合成技术（TTS）在中国著作权法框架下的生存空间。

一、 什么是人工智能语音合成技术（TTS）？

TTS技术为英文“Text-to-Speech”的缩写，中文译为文本转语音，是一种语音合成技术。即“从文本到语音”，是人机对话的一部分，让机器能够说话。

TTS是语音合成应用的一种，它可将作品、网页链接，甚至微信公众号等文字内容转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。

目前市面上有很多TTS产品，包括讯飞有声、语音合成助手、PDF Markup Cloud、PDF大师、Read Please 2000、Proverbe Speech Unit、以及Next Up Technology的TextAloud等。

二、 人工智能语音合成技术（TTS）的工作原理是怎样的？

以“语音合成助手”APP为例，语音合成技术（TTS）的工作原理如下：

（1）用户在“对话框”输入相应文本内容；及

（2）用户点击 “收听”功能按钮后，人工智能软件在手机端利用在线TTS引擎，由手机客户端执行实时TTS命令，完成朗读功能。

简而言之，人工智能软件每次基于用户需求，执行用户指令，在手机端实时完成语音合成。

三、 人工智能语音合成技术（TTS）可能涉及哪些著作权问题？

（一） 关于复制权以及表演权 [1]

复制权，是指将作品制作一份或多份的权利。对著作权人来说，复制权是至关重要的基础性权利，著作权的发展史很大一部分就是复制权随技术发展的扩张史。

著作权法意义上的复制包括狭义的复制和广义的复制。狭义的复制仅指在不改变原作品表达方式或载体形式的基础上再现作品的行为，如复印书籍、刻录光盘等行为；广义上的复制不仅包括狭义的复制还包括不同于作品原来载体和表现形式的再现作品的行为，即异形复制。如《伯尔尼保护文学和艺术作品公约》第九条对复制权的定义即是“以任何方式和采取任何形式复制这些作品的专有权利”。而我国著作权法第十条规定，“复制权，即以印刷、复印、拓印、录音、录像、翻录、翻拍等方式将作品制作一份或者多份的权利”，虽然我国著作权法没有像《伯尔尼公约》那样对复制权提出一个抽象的、广义的定义，但是这也并不意味着只有上述几种情形才属于我国著作权法意义上的复制。复制权范围的界定关系着著作权人与社会公众的利益平衡，因此复制权的内涵随着技术的发展进步而处于不断的调整过程中，而不是一成不变的。例如随着著作权进入数字时代，数字形态的复制亦应当受到著作权人的控制。

目前来看“朗读”有两种类型：我们常说的“朗读”一般是指“人的朗读”，如果有人在家里朗读了一部小说，把朗读的声音录下来，然后上传至APP等网络上传播；第二种是新出现的实时“语音合成（TTS）”技术。

1、人工智能语音合成技术（TTS）是否涉嫌侵犯著作权法意义上的表演权？

表演权，即公开表演作品，以及用各种手段公开播送作品的表演的权利；主要包括两个方面，即“现场表演”和“机械表演”。“公开表演作品”指“活表演”，或称“现场表演”，具体为演员直接或者借助技术设备以动作、声音、表情公开再现作品或者演奏作品。“用各种手段公开播送作品的表演”指的是“机械表演”，具体为借助录音机、录像机等技术设备将前述表演公开传播，即以机械的方式传播作品的表演。

此处涉及两个问题：一是表演的“艺术性要求”：根据《罗马公约》第2条，表演者包括表演文学艺术作品的一切演员、歌唱家、演奏家、舞蹈者等，故表演者都应当是“艺术”表演者。《法国知识产权法》更是明确将表演者称为“表演艺术家”；因此“按照《著作权法》第37条以及以下各条，无论如何都要求对被演出的作品的阐述必须达到某种最低标准，因此那些新闻播音员并不能看作属于《著作权法》第37条意义上的表演者。”总的来看，表演通常是把文学作品转化为表演的艺术；相关公约及世界各国的著作权法、相关学者均对表演、表演者的定义表明，著作权法所保护的表演是一种与艺术相关联的活动，应当是一种“艺术活动”。

第二个问题是表演的主体是“自然人”：《著作权法》第37条明确规定，使用他人作品，表演者（演员、演出单位）应当取得著作权人的许可，并支付报酬。《著作权法实施条例》第5条第6项明确规定，表演者是指演员、演出单位或者其他表演文学、艺术作品的人。表演即“把情节或者技艺表现出来”，或者“做示范性的动作”。表演作品需要，需要表演者对作品进行理解和阐释，需要通过表演活动将表演者对作品内在的理解外化出来。演奏乐曲、上演剧本、朗诵诗词，只能由自然人进行，法人或者机器目前来看不可能具有这种判断、理解和表达能力。因此如同创作作品的只能是自然人一样，表演作品的也只能是自然人。《罗马公约》、《世界知识产权组织表演和录音制品条约》及绝大多数国家的著作权法都规定表演者是自然人。

据此我们理解人工智能软件人工智能语音合成（TTS技术）行为并不属于著作权法意义上的表演权规制的范畴。

2、 “语音合成（TTS）”技术是否构成对复制权的侵犯？

对于复制权，在世界范围内存在对复制权的不同理解：在美国，复制权所涵盖的范围较广，对于临时复制也有所保护。而在欧盟虽然将临时复制纳入复制权的控制范围，但规定了必须实施的例外，如果临时复制是短暂的或附带性的、构成技术过程中内在及必要的组成部分，且其唯一目的在于：（1）使作品或其他客体在网络中通过中间服务商在第三方之间传输成为可能，或（2）使对作品或其他客体的合法使用成为可能，而且其没有独立的经济价值，则不构成对复制权的侵犯。这也与美国和欧盟在内容生产方面的差异有关。美国在信息网络时代发展领先，是主要的内容生产商及文化出口方，那么其对内容的保护自然更为严格。

我国著作权法中未对“临时复制”作出规定，而将复制权描述为以印刷、复印、拓印、录音、录像、翻录、翻拍等方式将作品制作一份或者多份的权利。然而，我国经济发展阶段决定了作为发展中国家，我国没有必要对“临时复制”采用更加严格的标准。我们认为中国著作权法中复制权所规制的权利包括两个方面，一是不仅仅要有“复制”行为，二是要有“复制”效果。复制效果要求该行为已经形成完整的、固定于一定载体形式的作品的复制件。就著作权法意义上的复制行为的构成要素应当包括以下三点：

（1）是复制行为所得的复制件应能够基本“再现”原件所能呈现的内容；

（2）是复制件所能“再现”的原件中的内容与新增表达内容能有效区别开来，这也正是复制行为与演绎行为区别的关键，即单纯的复制行为不会使复制结果具有独创性，而演绎行为则会增加新的独创性表达；及

（3）是复制件不是转瞬即逝的，而应当具有相对的稳定性。

随后，我们对于人工智能语音合成（TTS）技术的行为进行了具体分析，文本到语音的行为并未对内容产生任何改变，属于立体复制的表现形式之一，符合复制行为的要件。对于复制效果，人工智能语音合成（TTS）技术在服务器中仅根据用户的要求而合成各个片段，这种“跑马灯式”或“沙漏式”的临时复制并不能形成完整作品。其次，人工智能软件并未事先存储音频文件而是实时语音合成，那么这种行为样态导致的音频流并未固定在有形物质载体上。因此人工智能语音合成（TTS）技术并不侵犯我国著作权法所规定的复制权。

（二） 关于信息网络传播权 [2]

1、信网权的立法目的

国务院法制办负责人在回答《信息网络传播权保护条例》记者提问时提到：针对网络环境的特点，在总体思路上制定《条例》时把握了以下几点：一是与互联网条约的规定相一致，不能低于其最低要求。二是有利于创新，发挥网络传播作品的潜能；有利于满足人民群众使用作品的要求，保持权利人、网络服务提供者、作品使用者的利益平衡。但也有一些意见，经过慎重考虑后认为目前还没有可行性，未予采纳。有人提出，《条例》应当对临时复制作出规定。我们会同国务院有关部门反复研究后认为，禁止临时复制的症结是制止终端用户在线使用作品，而禁止终端用户非营业性使用作品不具有可行性；国际上对禁止临时复制有很大争议，在互联网条约制定过程中，包括我国在内的发展中国家明确反对禁止临时复制，由于各方争执不下，互联网条约没有规定禁止临时复制；而且，作为授权立法，《条例》也不宜对著作权法未授权的临时复制作出规定。因此，《条例》对临时复制未作规定。

2、过错责任原则

网络服务提供者包括网络信息服务提供者和网络接入服务提供者，是权利人和作品使用者之间的桥梁。为了促进网络产业发展，有必要降低网络服务提供者通过信息网络提供作品的成本和风险。而且，网络服务提供者对服务对象提供侵权作品的行为，往往不具有主观过错。

最高人民法院知识产权庭负责人就信息网络传播权司法解释答记者问时也提到：著作权是私权，同时由于网络技术发展的基本目标和价值趋向是便于信息的交流与传播，网络服务提供者对网络上的海量信息是否侵害权利人信息网络传播权没有主动监控的义务，已经成为国际上普遍的认识和做法。例如欧盟电子商务指令中规定了“成员国不得规定网络服务提供者负有监视其传输或存储信息的义务，以及积极发现相关侵权事实的义务。”美国司法实践也持这种态度。

据此，按照《信网权司法解释》第六条的规定：原告有初步证据证明网络服务提供者提供了相关作品、表演、录音录像制品，但网络服务提供者能够证明其仅提供网络服务，且无过错的，人民法院不应认定为构成侵权。本案中被告人工智能软件应网络用户的请求，对作品进行无差别的人工智能语音合成（TTS技术）行为并没有主观过错，也没有主动监控网络用户的义务，因此并不侵权。

3、直接侵权与间接侵权

l 直接侵权：

对于信息网络传播权，虽然学术界对于其认定标准具有不同声音，但在司法实践中普遍认可“服务器标准”，即只有将作品上传至向公众开放的服务器的行为，才是受信息网络传播权控制的“网络传播行为”，也才有可能构成对信息网络传播权的直接侵权。

根据WCT第8条和我国著作权法对“向公众提供”“信息网络传播权”的定义，“提供作品”应当是能够导致作品可为公众在其个人选定的时间和地点获得。从“提供”的英文原文“making available”来看，它特指能够导致作品处于可为公众所获得的状态的行为。将作品上传至向公众开放的服务器，当然能够导致作品处于可为公众所获得的状态。设链行为只可能使用户通过点击链接获得他们原本就可以通过直接登录该服务器获得的作品。无论有多少人是通过点击链接获得作品的，他们利用的始终是作品在该服务器中所处的“为公众所获得的状态”。如果该服务器被关闭，或该作品从该服务器中被删除，则该作品就不可能处于“为公众所获得的状态”。此时，即使链接仍然存在，也不能使作品保持“为公众所获得的状态”。因此，作品“为公众所获得的状态”并非由设链行为形成，而仅由上传或其他使作品在服务器向公众传播的行为导致。也就是说，能够使作品处于“为公众所获得的状态”的只能是向服务器上传的“服务器标准”。

l 间接侵权：

（1）将信息网络传播行为区分为作品提供行为和网络服务提供行为，对于构建网络环境下著作权保护的责任体系具有基础性意义。在这种区分的基础之上，产生了直接侵权责任与间接侵权责任的区分，直接侵权责任对应作品提供行为，而间接侵权责任对应网络服务提供行为。

是否构成间接侵权我们认为有两个层次，一是作品是否构成直接侵权；二是人工智能软件本身是否构成直接侵权。

第一个层面：由于间接侵权以直接侵权为前提条件，如果作者拥有文章的著作权；人工智能软件通过链接展示该涉案文章的标题，其被链接网站并不存在直接侵权的可能性，因此人工智能软件公司不存在间接侵权的可能性。

第二个层面：人工智能软件是否构成直接侵权的认定标准，即人工智能软件是否存储了作品的文字或者合成后的语音。考虑到本意见上述“复制权”所涉及的“固定有形载体”的部分已有论述，此处再详细分析人工智能软件的实时“语音合成”工作机制如下：

人工智能软件应用户指令将搜索结果呈现给用户，并在用户点击标题后展示被链接作品文字内容

当人工智能软件得到用户点击“朗读”的指令要求，人工智能软件客户端将发送文本内容至人工智能软件服务器“二进制机器码语言”，人工智能软件服务器将上述“二进制机器码语言”根据一定的算法进行匹配后输出至人工智能软件客户端语音，人工智能软件客户端用户讲收听到合成语音；

人工智能软件的语音合成基于客户端用户的指令完成，不同用户对同一作品的“朗读”指令基于“客户端”的不同而单独完成。

我们据此得出结论：上述人工智能软件实时语音合成技术的应用属于“跑马灯式”或“沙漏式”的方式，其不能形成完整作品；实时合成的音频流也并未固定在有形物质载体上；另外“信息网络传播权”的侵犯要求“使公众可以在其个人选定的时间和地点获得作品”，而人工智能软件仅仅是对不同客户端用户这一个体语音合成需求的信息通道而已；不同的个体不会调用其他用户与人工智能软件交互的作品。

（2）根据一般实践操作，在作品文本链接已经删除的情况下，人工智能软件中也已经无法访问，即人工智能软件仅提供搜索链接技术服务。

结合人工智能软件中可以输入任意链接地址，机器朗读该页面内容的事实，既然人工智能软件能够实时获取网页内容，进行语音合成，那么其在服务器中预先存储作品文本内容也属于多此一举，与常理相悖。如果任何页面都是预先存储的，显然“人工智能软件服务器”不可能把整个互联网的内容均存储下来。

据此我们认为：人工智能软件客户端缓存仅仅是停留在人工智能软件客户端，并不是在人工智能软件服务器端；该缓存内容仅能够供单独的控制该客户端的用户获得；而不能满足“使公众可以在其个人选定的时间和地点获得作品”这一条件。

因此，我们认为人工智能软件未侵犯作者的信息网络传播权。

四、技术进步与知识产权保护的正当性探讨

从著作权制度的演进历程来看，著作权制度从一开始便是在不断地迎接新技术的挑战中发展和变化的；从为保护出版者利益而诞生的《安娜女王法令》，到保护广播、摄影技术出现的广播权、摄制权的诞生；再到今天为了规制网络技术发展而设置的“信息网络传播权”，无不反映了著作权制度自“印刷版权——广播版权——网络版权”的版权载体发展与版权保护创新的过程。

从司法实践的历史来看，著作权制度的司法实践也是与新技术的发展相辅相成的。因此，面对实时语音合成技术（TTS），也是一次对著作权制度的新挑战，包括知识产权学者、司法从业人员都应该正视这种新技术的出现。

分析一项新技术的著作权合法性/正当性，一般的需要从三个方面来分析：

1、人工智能语音合成技术（TTS）的发展是否会产生新的作品类型；

网页浏览器（web browser），常被简称为浏览器，是一种用于检索并展示万维网信息资源的应用程序；其利用计算机程序通过复杂的运算将作者的作品内容从文字转换成以“01”为代表的机器码，进而展示给用户“能够肉眼识别的文字”呈现给读者；但是网页浏览器并不构成信息网络传播权侵权，原因是网页浏览器并不是公共服务器；网页浏览器也不构成复制权侵权，原因是网页浏览器仅仅是临时复制，没有形成固定的有形物质载体；

实时语音合成技术（TTS）如同网页浏览器，其仅是将作者的作品内容从文字转换成以“01”为特点的机器码，进而展示给用户“能够耳朵识别的语音”呈现出来；

因此实时语音合成技术（TTS）并没有产生新的作品类型，著作权人控制的作品内容并没有发生变化。

从著作权的客体来分析，著作权保护的是思想的表达，与这种表达依赖的形式和承载的载体无涉，也就是说无论什么技术形式作为载体，都应该一视同仁地得到著作权法的保护。因此无论是以计算机语言二进制机器码“01”为代表的作品表现形式；还是以人类肉眼能够识别的“文字”为代表的作品表现形式；还是以人类耳朵能够识别的“语音”为代表的作品表现形式，都是著作权人的权益范围；但二进制机器码、网页浏览器（web browser）、实时语音合成技术/行为（TTS）是否构成著作权侵权却不尽然。

2、人工智能语音合成技术（TTS）是否会增加或者减损作品著作权人的传播利益；

网页浏览器（web browser）的发明为互联网的诞生提供了动力，并且成为互联网世界促进作品传播的典范，也是确保信息能够自由无障碍地流通传输这一互联网伦理价值的基石。

由于网页浏览器或者实时语音合成技术（TTS）均是对著作权人控制的作品的机器码转换，因此并没有增加作品类型；而考虑到实时语音合成技术（TTS）增加了人类使用“耳朵接收作品”的途径，因此反而增加了著作权人作品的传播利益；

就像网页浏览器的诞生增加了当时著作权人作品除了依靠图书出版这种形式之外的新的传播形式一样。

3、从立法角度对该技术的著作权合法性分析；

如何评判该技术的著作权合法性，我们认为需要从三个方面来展开，一是法律角度、二是利益角度，三是分析方法。

从法律角度来分析，由于实时语音合成技术（TTS）本身具有的浏览器属性，其不构成对著作权人复制权、信网权、改编权、表演权的侵犯，在此不作赘述；

从利益角度分析，由于实时语音合成技术（TTS）提供公司并未将作品的文字、语音存储并上传至面向公众的服务器，而是通过表层链接呈现被链接网站的原作品内容，因此考虑到实时语音合成技术（TTS）增加了人类使用“耳朵接收作品”的途径，因此反而增加了著作权人作品的传播利益；

依据立法目的分析法考量被控侵权行为是否具有合法性，如果允许或者禁止该技术/行为的发生，会产生什么样的结果，是否符合《著作权法》的立法目的和价值取向，是否有利于整体社会福利的增加。

就像网页浏览器的出现不仅没有减少著作权人控制的作品的传播速度和广度，反而增加了；但是对于当时的出版者（同为作品传播的邻接权人）而言，简直是灭顶之灾，因为网页浏览器的普及导致传统纸质出版者的利益大幅度受损，但这并不是著作权法所考虑和担心的，反而是优胜劣汰机制的自我更新和升华的体现。

实时语音合成技术（TTS）不但没有减少著作权人控制的作品的传播速度和广度，反而增加了；同时对于目前传统的网页浏览器技术服务提供商而言，其利益也不必然受损；人工智能软件公司通过表层链接方式呈现被链接网站的作品内容，将流量留在传统网页浏览器一方；如果司法实践认定人工智能软件实时语音合成技术（TTS）构成侵权，那么人工智能软件公司摒弃“表层链接著作权人控制原始网站”，而是直接将实时语音合成技术（TTS）开发成“语音合成浏览器”本身，那将才是传统网页浏览器服务提供商的灭顶之灾。

五、综述

2017年，“人工智能”被写入十九大报告，其中指出“将推动互联网、大数据、人工智能和实体经济深度融合”。在《中华人民共和国国民经济和社会发展第十三个五年规划纲要》中“人工智能”被写入“十三五纲要”，其中指出“加快信息网络新技术开发应用，重要突破大数据和云技术关键技术，自主可操控系统、新兴领域人工智能技术”。在《促进新一代人工智能产业发展三年行动计划（2018-2020年）》中指出“从推动产业发展角度出发，结合“中国制造2025”，应以新一代人工智能技术的产业化和集成应用为重点，推动人工智能和实体经济的深度融合”。

落实到知识产权实践领域中，结合利益平衡原则，我们一方面要最大程度地为创造者提供激励，另一方面又要使知识通过各种途径尽可能造福于社会公众。而人工智能实时语音合成技术（TTS）在不违反著作权法的规定情况下，既符合国家政策和科技进步的时代潮流，也给公众带来了阅读的新体验。我们作为法律从业者理应对此加以鼓励和推动，做好人工智能时代的参与者和监督者。

[1] 《著作权法》第十条关于复制权和表演权的规定如下：

（五）复制权，即以印刷、复印、拓印、录音、录像、翻录、翻拍等方式将作品制作一份或者多份的权利；

（九）表演权，即公开表演作品，以及用各种手段公开播送作品的表演的权利；

（十四）改编权，即改变作品，创作出具有独创性的新作品的权利。

[2] 《著作权法》第十条关于信息网络传播权的规定如下：

（十二）信息网络传播权，即以有线或者无线方式向公众提供作品，使公众可以在其个人选定的时间和地点获得作品的权利。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：“一事不再理原则”的适用问题

后一篇：浅谈“一事不再理”原则在商标确权案件中的理解和适用

新浪BLOG意见反馈留言板　欢迎批评指正