- N +

experience,秀儿-ope中国官网_ope体育app_ope官网app

原标题:experience,秀儿-ope中国官网_ope体育app_ope官网app

导读:

原创成为0.01%!利用TensorFlow.js和深度学习,轻松阅读古草体文字...

文章目录 [+]

大数据文摘出品

编译:李欣月、刘俊寰

古文字辨认才能是从事前史研讨的学者的必备技能,关于日本的前史研讨学者而言,他们的应战则来自于“古草体”文字,这种文字是古日本运用频率最高的文字之一,也将是他们科研道路上遇到的第一道关卡。

2足球宝贝彩绘0世纪之后现代日语逐步遍及,“古草体”因不便在现代印刷体系里运用,逐步被人们忘记,导致现在即便保存有数万份古草体书写的书本,能够阅览的人experience,秀儿-ope我国官网_ope体育app_ope官网app也是寥寥。可是关于现代的研讨者们而言,就算只阅览一篇古亦城科技中心文材料,也必然会和“古草体”文字“大眼瞪小眼”——遇到“言语障碍”。

“古草体”与现代日文

因而,阅览“古草体”文字的才能就显得分外重要,而现在能够无障碍阅览“古草体”文字的人只占了日本全国人数的0.01%,这对日本的前史研讨适当晦气。

但也不要过分忧虑!最近,在谷歌东京事务所的发布会上,就有这么一个神器露脸,它能帮忙你快速辨认“古草体”文字,阅览“古草体”书本也彻底不在话下!

汤沪平 方钊

数据化处理远远不够,能阅览才是底子

在本次主题为“Solve....with AI”的太平洋区域记者发布会上,身为人文敞开数据联合运用中心与国家信息学研讨孕夫回农家所研讨员的塔琳・卡拉梅特女士展现了能够将阜宁焦爱芹古日本常用的“古草体”翻译(正确的说法应该是“翻刻”)为现代文字的OCR(KuroNet),并说明晰该体系是怎样辨认“古草体”的。

塔琳女士手拿“古草体”文本。本次项目由信息与体系研讨机构和数据科学研讨(ROIS-DS)、人文敞开数据联合运用中心协作完结。

  • 声明:本项AI的开发运用了谷歌技能,或许会让咱们误以为是谷歌开发的,实践否则,在李建海迁安此指出并修订。别的,精确地说,项意图操作内容不是“翻译”而是“翻刻”。特此声明。

将明治年代的“古草体”转换为现代日语

塔琳女士还介绍了进行本次项意图原因:“东京神保町的二手书店里面有数千本古籍在售卖,很简单就能买到。这些文本或许会在海啸或许地震时受损,所以咱们对其进行数据化处理,可是数据化之后假如无法阅览也毫无意义,因而就有了运用AI来处理这个问题的想法。”

东京神保町的二手书店里有数千本古籍在售卖

AI不能解读的当地被做了符号

    experience,秀儿-ope我国官网_ope体育app_ope官网app
  • 声明:尽管该项目是“谷歌协作开发”,可是谷歌仅仅本次活动哪个vpn好用的主办方,没有帮忙此次项雷克雅未克气候目开发。特此声明。

运用深度学习和TensorFlow.js,开发名为“KuroNet”的东西

依据塔琳女士的介绍,同先生和团队制作了这个名为“KuroNet”的人工神经网络模型。该体系运用深度学习(U-Net)来学习国家文献研讨博物馆所具有的“古草体”的数据,然后金宝成将“古草体”翻刻为现代日语。

名为KuroNet的“古草体”OCR,以及将它应用于TensorFlow.js进行特征辨认

  • 声明:开端时用的是“国立信息学研讨所具有的数据”,但正确的应该是“国家文献研讨博物馆所具有的数据”。特此声明。

别的此次是运用谷歌供给的TensorFlow.js(在Web浏览器上面就能实施的机器学习库)在Web上面褚字怎样读进行逐字辨认。

把KuroNet类比为谷歌翻译更简单了解。谷歌翻译APP有一个功用是把图片里OCR辨认到的文字转换为其他言语,KuroNet与此相似,把古文本的相片进行OCR辨认,转换为现代日语,一冯巩老婆艾慧去世页只需2余秀菁秒,十分敏捷,翻刻一本“古草体”书本大约需求1个小时。水树奈奈子

experience,秀儿-ope我国官网_ope体育app_ope官网app

KuroNet2秒就“翻译”完一页

“翻译”一本古文需求一个小时,正确率为85%

这样进行“翻译”的话正确率为85%。塔琳女士提到,“在‘翻译’16本书本的基础上得出85%这个数据,将来跟着数据量增多,学习才能增强,正确性还会进步。”

别的,在TensorFlow.js供给的Web程序上,能够在线上欲海医心第二季对“古草体experience,秀儿-ope我国官网_ope体育app_ope官网app”文字逐字辨认。这个东西的敞开源码是对大众敞开的,往后民间研讨者能够运用这个东西阅览“古草体”文字的书本。阅览“古草体”文字书本的人增多少年的溺爱了,就能推动日本前史的研讨进程。

TensorFlow.js供给的Web程序

敞开源码供给

在Kaggle上举办竞赛征集进步OCR辨认率的办法

依据塔琳女士的介新我国奇疑要案20例绍,信息与体系研讨机构和数据科学研讨(ROIS-DS)、人文敞开数据联合运用中心、国立情报学研讨所(NII)、人类文明研讨机构、国家文献研讨博物馆等主办的名为“辨认古草体——揭开日本千年之前的面纱”的竞赛正在Kagg管文清le上举办,竞赛的意图是为在全球范围内募experience,秀儿-ope我国官网_ope体育app_ope官网app集进步OCR辨认率的办法。

参赛链接:

https://www.niexperience,秀儿-ope我国官网_ope体育app_ope官网appi.草鞋蚧ac.jp/news/release/2019/0710.html

Kaggle上举办的竞赛

竞赛从7月中旬开端,到10月截止,现在已有129支部队报名参加。估计11月11日在东京举行的研讨会“日本文明和AI”上将给第一名颁奖,获奖者还将取得奖金$15000。

experience,秀儿-ope我国官网_ope体育app_ope官网app

有好的文章希望我们帮助分享和推广,猛戳这里我要投稿

返回列表
上一篇:
下一篇:

  一套房子从挂牌带看,到三方签约,再到终究完opposite,福特福睿斯-ope中国官网_ope体育app_ope官网app

  • 地塞米松磷酸钠,众里寻他千百度-ope中国官网_ope体育app_ope官网app地塞米松磷酸钠,众里寻他千百度-ope中国官网_ope体育app_ope官网app