之间网

【声音】基金公司大数据应用中的算法伦理与社会风险分析——专题征文之三

今日更新
导读 小枫来为解答以上问题。【声音】基金公司大数据应用中的算法伦理与社会风险分析——专题征文之三,这个很多人还不知道,现在让我们一起来看...

小枫来为解答以上问题。【声音】基金公司大数据应用中的算法伦理与社会风险分析——专题征文之三,这个很多人还不知道,现在让我们一起来看看吧~.~!

  【编者按】随着以计算机、互联网为核心的第三次工业革命落幕,以大数据和人工智能为核心技术特征的第四次工业革命已对人们的生产生活方式产生深刻影响。如今,互联网已经成为人们日常生产生活中不可或缺的要素。在此过程中,数据井喷式增长、算力资源的不断投入、算法的迭代优化、政府对信息化产业的扶持加快了社会智能化进程,同时也引发了大数据应用过程中算法伦理问题,给我国产业发展层面与投资者微观层面带来社会风险。本文围绕着基金公司两条业务主线,即“投研”与“营销服务”,阐述大数据在基金公司的应用场景。围绕算法模型应用链路,分析了基金公司在这两类核心业务场景中会涉及的算法伦理与道德风险。最后,从政府监管者、公司自身、第三方组织的角度,对与算法伦理相关的法治治理与风险防范提出思考和建议。

  一、基金公司大数据应用业务场景分析

  大数据如今在各行业领域中发挥着巨大的作用。众所周知,它正在改变商业格局,并且成为企业业务增长的关键因素。银行、证券、保险等金融行业都在不断尝试挖掘大数据应用场景以助力于自身业务的发展。基金公司也在自己的业务场景中不断深化大数据应用。

  基金公司最主要的两条业务线是投研风控和营销服务,因此大部分基金公司在数据架构上都会规划投研数据中心和营销数据中心,并以此为基础搭建相关业务系统。

  在投研风控领域,基金公司都有一套相对标准的交易流程。一般由研究员负责对宏观经济、具体的行业板块和上市公司进行调研分析,选择具有投资价值的公司推荐给基金经理;基金经理根据所管理基金的特点以及研究员的推荐选择上市公司;交易员择时择机交易;最后由风险管理部门进行绩效和风险评估;合规和风控则贯穿投资的前、中、后。在此流程中,研究员可以利用市场资讯、社会热点、上市公司披露信息与展业信息、资本市场交易估值信息、高管社交媒体等更有效率地初步筛选上市公司,预测其未来的发展趋势。日益复杂的交易算法利用交易市场的实时数据与市场反应,有助于降低交易中的冲击成本,提高交易执行效率,如MVWAP策略、IS策略等。合规通过对员工投资行为、交易流水、员工社会关系等数据的分析,更高效地落实公司的内控制度。通过分析信用评级信息、挖掘舆情信息、同行业绩等数据,风控部门可以更及时地管控投资交易风险,更客观地评估基金业绩。

  在营销服务领域,基础数据一般分为三类,一是投资者基础信息,例如性别、年龄、学历、爱好、地址等,二是基金证券、信用、银行等投资信息,三是交易记录、持仓、基金APP操作行为记录等投资偏好信息。基于以上三类,基金公司通过绘制投资者个人画像和企业客户画像,开展精准营销,包括实时营销(根据用户最近一次的基金购买行为推荐同类产品)、个性化推荐(智能投顾根据风险偏好和交易行为,为投资者提供满足客户风险承受能力和合理投资预期的个性化财富管理方案)、社交型的客户生命周期管理。上述活动的数据与反馈又会反作用于基金公司的产品与服务迭代。

  二、算法伦理与社会风险分析

  综上,在基金公司投研领域和业务领域的大数据应用场景中,出现的大数据算法模型主要分为时间序列、神经网络、深度学习、强化学习、分类与聚类模型等。这些算法在应用过程中都会涉及到数据收集与清洗、特征构造、模型选择、模型调参这些步骤。下文将分别从投研领域和营销服务领域两个维度出发,分析大数据应用过程中产生的算法伦理问题以及对产业和投资者个人带来的社会风险。

  (一)投研领域

  1.数据收集与清洗

  (1)数据霸权问题

  数据霸权是指拥有数据量话语权的企业更容易获得投资。由于行业信息化建设以及行业属性的差异,导致数据信息的易得性不一致。例如,农林牧渔、制造等传统行业,相较于金融、文娱等行业,前者数字化转型的进程相对落后,社会大众对于这些产业的关注度相对较少,多数企业对营销能力的重视不如后者,由营销带来的投入产出比受制于行业属性的原因也会低于后者。因此,在投研数据中,传统行业的数据会相对较少、数据获得难度高,造成数据模型决策更偏向于此类行业的结果,即有数据量话语权优势的行业更容易获得资本的青睐。同样,信息的易得性差异也表现在不同的公司规模之间、不同地域之间。大型企业由于对信息化投入、网络营销的投入资源相较中小型公司存在明显优势[1],欠发达地区的网络基础设施、人才资源、政策环境等因素与发达地区存在差距[2]。这些数字化程度的差距导致在数据收集时出现样本量来源不均甚至缺失,以致于数据模型会更多地对发达地区、大企业数据进行学习,对欠发达地区、中小企业的学习认知不足,其产生的算法模型结果会出现行业倾向、地域倾向、企业规模倾向,进一步扩大行业间、行业内及地域发展不均衡的风险。

  (2)数据清洗不当会减少真正有价值的企业获得投资的机会

  在数据的清洗阶段,算法工程师会对获得的样本数据进行清洗,例如对缺失值、异常值、数据噪声的处理。如果因为企业的某些特征值缺失而选择过滤掉这些企业的数据样本,使得企业获得融资的价值标准受到一定挑战,即获得投资更大程度上依赖数据披露的全面性,而不是企业的内在价值。在噪声方面,如果模型不能有效识别真实的消息来源、过滤虚假消息、去同质信息,会导致金融资源流向弄虚作假、过度营销的企业。

  2.模型构建与训练

  (1)“高效”的数据标签可能与社会利益相悖

  在监督型学习模型中,数据工程师会给样本值做数据标签。如果一味把财务目标,如投资回报率高,经营利润高作为有价值企业筛选的标准,这种筛选标准固然高效,但可能忽视企业本身对社会、环境、公司治理的贡献价值,会造成模型构建的片面性。算法模型按照设定的“好公司”的标准,输出他们对企业的投资价值的结论,使得金融资源会更多地流向经济利益高的企业,那些重视社会利益,积极承担社会责任的企业融资成本、融资难度会增加。长此以往,企业就会失去承担社会责任的经济能力和内在驱动力,这与可持续发展与ESG的理念背道而驰。

  (2)算法模型自身的“短视”缺陷

  在训练模型时,算法模型需要学习历史数据,由于新兴行业,尤其是创新孵化企业没有足够的历史数据可供模型学习,这类企业不会被算法模型所选择。而那些处于成熟阶段的企业,由于有着稳定的客户群体、稳定的分红而更容易被算法所选择,这种分配结果将会阻碍产业的创新与变革。颠覆性技术创新是人类社会发展进步的关键动力以及建设创新型国家的必然要求[3]。历史和现实中已有许多“颠覆”案例:出租车的网约模式取代传统出租车街招模式、今日头条取代传统新闻网站,因此每一次“颠覆”都带来了行业的变革、生活的便利、巨大的商业价值。然而,对初创型创新企业来说,最大的问题就是成本、资金[4]。对于有些生命周期较长的科研行业,例如材料、医药行业,这些行业在产品研发过程中存在投入高、研究与验证周期长的特点,需要较长时间来获得经济利益回报,因此算法模型在短期内会降低对其的价值评价。故算法模型的“短视”会造成一段时间内初创企业、科研企业的融资难度和融资成本增高,减缓科研创新产业(300832)的孵化与成长的步伐,一定程度上会阻碍产业变革的速度,最终对社会变革产生不利影响。

  (二)营销服务领域

  1.数据的采集与储存

  (1)数据样本的偏差

  基金公司进行数据采集工作时,数据收集的偏差会导致很多投资者被忽视。例如,经常使用智能手机的投资者可能会比那些不经常使用智能手机的人群(如老年人)获得更广泛且更优质的服务。由于数据收集的偏差,基金公司会重视这部分人群的意见,推出的产品和服务可能会偏向此类人群,而忽视其他人群,导致服务不公平。因此,对于不同人群的数据赋予相对合理的权重,可以在一定程度上平滑此类问题的尖锐程度。

  (2)数据采集的真实性与可靠性

  数据的质量如果难以进行严格的把控,会给投资者带来投资风险。例如在对投资者风险承受能力进行评级时,相较于线下有工作人员的引导以及对于各项条款解释的服务,线上填写信息进行评级所得到的结果会与真实情况存在更为显著的偏差。在这种情况下,超出投资者风险承受能力的产品将有可能被推荐,从而导致投资者的投资风险。

  (3)隐私数据采集与使用的知情权

  基金公司在采集投资者个人信息数据时应尽充分告知的义务。若未能够尽此义务,并非所有投资者都知道他们正在填写的数据会被用于怎样的用途,意味着投资者对个人数据的自主权失去了控制。因此,投资机构应该在早期就如何使用数据问题进行沟通,并向投资者充分请求相关数据的权限授予以及保障投资者对于该权限的回收权利。当公司未能向投资者解释这些数据的用途且与第三方共享时,人们可能会发现他们的个人信息被泄露并以意想不到的方式被使用,这严重侵害了投资者的合法权益。同时,在采集个人信息数据时,也应当严格控制数据采集范围,尽量不对多余信息进行采集,减少不必要的信息泄露风险。由于基金公司的客户资料会涉及非常敏感的个人信息、金融信息,所以对于数据隐私与投资者个人数据的保护尤为重要。

  (4)数据存储的安全性以及数据权限

  投资机构收集用于营销端的投资者个人信息数据,应当有完全不输投资交易持仓数据的数据保护机制。同时做到,数据访问时的状态监控以及数据查询用户的监控。若不慎由于内控原因造成数据外泄与丢失,将会造成极其严重的后果,如:投资者个人隐私的泄露,相关数据会被人刻意搜集,并用以进行违法犯罪活动。除此之外,也会影响到公司乃至整个行业的声誉。因此,投资者个人的隐私数据,应当有极高的数据安全保密制度,并设立极其严格的数据访问权限管控机制。

  2.模型构建与训练

  (1)算法工程师的个人偏见

  算法工程师从头到尾参与了整个系统,包括:模型目标设定、数据的预处理、模型选型、特征选取(数据标签)。在算法模型中,很可能会注入算法工程师的主观价值判断,这一点在数据标签阶段尤为明显。例如对投资者的投资偏好进行判别时,工程师如果为算法设置“年龄”“性别”“教育水平”等标签,算法就会识别其中的这一部分特定属性,并以此为核心构建模型。当工程师认为“性别”是一个重要的考量标准时,会影响到模型对输出结果的判定。例如,系统给女性推荐的金融产品相对更稳健,给男性推荐的金融产品风险收益更高。

  (2)误导的标签和针对投资者的不公平服务

  在营销领域,数据分析师会通过投资者的一些特征进行市场细分,给投资者贴标签。如果投资者的交易记录金额低,频率低,可能会被贴上“低价值”的标签。针对低价值投资者,因此会受到来自投资机构的“不公平”的投资顾问服务,这也挑战了金融业公平对待每一位投资者的道德准则。

  此外,当这些客户画像与客户分类在的公司之间共享时,可能会产生误导并最终损害这些目标群体。例如,银行获得了“低价值”的标签,对此类人群放贷的可能性会减少,贷款利率会更高。

  (3)有偏见的算法削弱批判性思维能力

  传统信息时代,个人在进行物质消费、文化消费、信息消费时,有一个探索、学习和交流的过程。但是到了智能时代,人们更依赖算法对大多数事务作出决策。当个人将自主作判断的权力让渡给了算法,在很大程度上会失去批判性思考的能力和自主解决问题的机会。久而久之,个人在享受算法个性化服务时,将逐渐失去个人主体性的思辨能力、判断能力以及选择能力[5]。当投资者点击了某一类产品时,系统会推荐类似的产品,通过猜测投资者的偏好,从而使投资者失去接受其他不同信息的机会。著名功利主义哲学家约翰.斯图尔特.密尔(John Stuart Mill,1806-1873)有一个观点:如果一种观点不受到挑战,它就可能成为教条。如果这种有偏见的个性化推荐算法被广泛应用,何尝不是另一种数据霸权的表现。由此引发的个人信息视野狭窄以及观点、立场固化和智能鸿沟问题需要我们高度警惕。

  (4)易受到攻击的算法模型

  易受攻击的算法是指算法容易受到“恶意输入数据”的影响,这在强化学习算法中表现尤其明显。现在,很多基金公司在营业点都推出了智能投顾机器人。如果工程师算法的鲁棒性设计有不足,机器人容易被恶意地“教坏”。那么在给投资者提供服务时,那些被输入的“恶意价值观”就会暴露,可能出现性别歧视,违反投资适当性等问题,例如将高风险产品提供给低风险承受能力的投资者。

  三、大数据算法伦理的应对与反思

  作为一项技术,算法是没有“原罪”的。它作为一种技术权力,通过与金融业场景的结合,一定程度上引导着金融资源的配置,影响着投资者以及潜在投资者的生活。如果出现缺乏监管、过度资本化、算法“黑箱”等情况,算法权力极易被滥用,并异化为算法霸权,扰乱金融市场秩序。

  (一)法律规章与算法法治协同,引导科技向善

  加强与隐私保护、数据真实方面相关的法治治理。近年来,随着涉及算法治理的规范性文件和法律法规的陆续出台,例如《中华人民共和国数据安全法》的正式实施(2021年9月1日),《互联网信息服务算法推荐管理规定》正式施行(2022年3月1日),标志着我国在算法系统性治理方面步入新阶段。既有法可依,则有法必依。在大数据时代,隐私保护、数据真实等已经成为最低限度的伦理要求[6]。因此,政府需在实践中不断积累治理经验,不断细化规章尚未完善之处,形成统一算法治理标准,加强对个人隐私数据保护、数据真实性的法治执行力。

  算法应用需做好备案登记。政府监管者要构建完善的算法监管体系,促进“算法法治”[7]。可以根据算法应用的系统、影响的受众范围,区分算法模型在金融领域的应用场景,建立不同级别的备案登记准则,使得金融领域算法的输入特征数据、影响因子、决策机制、输出等纳入监管之下。

  普及大数据隐私保护教育,增强群众的自我保护和数据隐私意识。

  (二)基金公司从算法应用链路加强算法内控,主动承担社会责任

  基金公司在算法应用链路中,首先要加强对员工的道德培训,与算法工程师等可以接触到用户数据的相关人员签订保密协议,切实保护投资者隐私以及分析数据不外泄。

  其次,需要将自然科学与社会科学进行融合。基金公司选择有复合背景的员工或是自然科学人员和社会科学人员协作完成。在数据的收集和清洗阶段,社会科学人员可以评估数据来源的合法性与样本数据的代表性,在模型的构建与训练阶段,社会科学通过对算法操纵,算法价值导向、社会风险等方面进行评估,来降低算法工程师和分析师的个人道德判断带来的风险。通过算法应用链路的方式,对算法带来的风险进行预防与化解,将算法模型植入“人权、社会公平正义、可持续”的价值理念,将算法训练优化成“用户为本,科技向善”(借用腾讯的使用愿景)。在此过程中,由于传统机器学习的可解释性较强,但是效果不如解释性差的神经网络模型。因此,数据工程师要权衡模型的可解释性和准确度,否则,社会科学对此类“黑箱”的社会风险会难以评估。

  (三)第三方组织的监督

  可以由社会科学专家、媒体人士以及自然科学专家组成的非营利性组织,用以对算法运用全过程进行动态监测和评估,借力第三方独立组织的力量来强化算法治理效果。例如,德国的科技伦理审查委员会。

  发挥社会媒体对于算法伦理与消费者隐私保护的监督作用。

  四、结语

  大数据作为新型生产要素,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。基金公司在充分利用大数据开展投研与营销业务,追求经济利益的同时,也需要注重不损害个人利益的技术之善,注重群体价值与可持续发展的社会之善。基金公司应将数据法治、算法合规与符合伦理贯彻到数据应用业务场景中。

以上就是关于【【声音】基金公司大数据应用中的算法伦理与社会风险分析——专题征文之三】的相关内容,希望对大家有帮助!

来源:中国证券投资基金业协会

标签: