2022年4月18日计算机资源分享

电脑技术 电脑技术 1282 人阅读 | 6 人回复 | 2022-04-18

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
Python给文段加标点
from punctuator import Punctuator
p = Punctuator('model.pcl')
print(p.punctuate('some text'))

回答|共 6 个

willsonlincake 发表于 2022-4-18 14:54:27| 字数 51 来自手机 | 显示全部楼层

Python印度语言标点处理
https://pypi.org/project/indic-punct/

willsonlincake 发表于 2022-4-18 14:55:13| 字数 168 来自手机 | 显示全部楼层

韩语标点处理
from kr_sentence.tokenizer import tokenize

paragraph_str = "저는 미국인이에요. 만나서 반갑습니다."

sentence_list = tokenize(paragraph_str)

for sentence in sentence_list: print(sentence)

willsonlincake 发表于 2022-4-18 14:56:33| 字数 302 来自手机 | 显示全部楼层

Python国际音标工具
from epitran.backoff import Backoff
>>> backoff = Backoff(['hin-Deva', 'eng-Latn', 'cmn-Hans'], cedict_file=‘cedict_1_0_ts_utf-8_mdbg.txt')
>>> backoff.transliterate('हिन्दी')
'ɦindiː'
>>> backoff.transliterate('English')
'ɪŋɡlɪʃ'
>>> backoff.transliterate('中文')
'ʈ͡ʂoŋwən'

willsonlincake 发表于 2022-4-18 14:58:11| 字数 315 来自手机 | 显示全部楼层

Python拼音工具
>>> from g2pw import G2PWConverter
>>> conv = G2PWConverter()
>>> sentence = '上校請技術人員校正FN儀器'
>>> conv(sentence)
[['ㄕㄤ4', 'ㄒㄧㄠ4', 'ㄑㄧㄥ3', 'ㄐㄧ4', 'ㄕㄨ4', 'ㄖㄣ2', 'ㄩㄢ2', 'ㄐㄧㄠ4', 'ㄓㄥ4', None, None, 'ㄧ2', 'ㄑㄧ4']]
>>> sentences = ['銀行', '行動']
>>> conv(sentences)
[['ㄧㄣ2', 'ㄏㄤ2'], ['ㄒㄧㄥ2', 'ㄉㄨㄥ4']]

willsonlincake 发表于 2022-4-18 15:00:10| 字数 42 来自手机 | 显示全部楼层

willsonlincake 发表于 2022-4-18 15:02:09| 字数 67 来自手机 | 显示全部楼层

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门推荐