首页
中文文本摘要提取
TF-IDF在线关键词提取
下拉框关键词分析
运行状态
提取关键词以及摘要 - 基于TextRank算法自动分析中文文本
人类健全而复杂的理解认知能力能够高度概括整篇文章的中心大意,机器自动摘要的主要方法是通过算法模拟人类的理解,针对文本里的句子设计的权重算法,即拟定一个权重的评分标准,给每个句子打分,然后给出排名靠前的几个句子做出类似文章摘要的效果。 TextRank算法是基于词图模型的关键词抽取算法,来源自PageRank的矩阵迭代收敛思想,把关键词抽取问题看作是构成文档词语的重要性排序问题,这里应用于文本提取关键字以及生成文章摘要。 关键词是表达一个文档核心意义的最小单元,人工抽取关键词耗时费力,结果因人而异,因此,实现自动抽取具有意义。 句子的信息量用"关键词"来衡量。如果包含的关键词越多,就说明这个句子越重要。 自动摘要的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组,抽取方法既可以通过训练语料构建模型实现,也可以借助于词语之间的关系直接从文本本身抽取,自动摘要算法,常见的并且最易实现的当属TF-IDF,不过TF-IDF算法的简单结构并不能有效地反映网页各个标签中单词的重要程度和特征词的分布情况,无法很好地完成对权值调整的功能,所以TF-IDF算法的精度并不是很高。TextRank算法无需学习训练过程,实例应用更为准确方便。 文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。"摘要"就是要找出那些包含文章主旨大意的信息最多的句子。 许多网站都需要它,比如论文网站、新闻网站、搜索引擎等等。计算机自动地从原始文献中提取文章摘要,文章摘要是全面准确地反映某一文献中心内容地简单连贯的短句。如果能从3000字的文章,提炼出150字的导读摘要,可以为读者节省大量阅读/理解文章的时间。
提取摘要的句数:
其它在线关键词研究辅助工具
TF-IDF提取关键词
中文文本摘要提取
下拉框相关需求分析