网上流传的TXT格式电子书最初是从哪里流出的?

2011-12-17 09:05 楼主
现阶段网上流传的中医电子书,有很大一部分是TXT格式的,而且基本格式一致,比如下面这样。
这个应该是从某个数据库中导出的,所以格式才能一致。 我留意这东西很久了,但是似乎没见到哪里有这个数据库。
所以非常疑问。 哪位高人知道?

这个电子书库大概有六七百本电子书,说明当初还是有人花了力气建立这个数据库。怎么没见中医论坛说这事呢?


<篇名>明医杂着
书名:明医杂着
作者:王纶
朝代:明
年份:公元1502年-1549年

<目录>
<篇名>注序
[阅读:] [回帖] [编辑] [删除] [举报]
2011-12-17 09:34 2楼
据我留意, 曾经把中医古籍建档数据库的人,还真有那么几个人。 比如:

1) 国内某中医研究所的

这个建档不太好,它基本是基于前面700本电子书来搞的,错别相当多,它的文本文件的格式都用h1, h2, h3俩表示。 总之数据不太好,是在别人的基础上建档的。

========================
唐•孙思邈撰••备急千金要方
建档:中国医药学院中医研究所 张鸿所长
========================

2) 陈擎文

这个台湾人也搞了很多中医古籍整理,是繁体。对汉字编码的处理比较好,尤其是一些偏僻古字。
但不知道它的数据来源是什么,我看过一些流出的电子文档(WORD格式),内容基本正确,这点来说还是不错的。

但是有个缺点是段落排版不好,除了章节分了之外,细节就给忽略了。严重怀疑数据库本身是有具体分段的,流出的文档没有分段。如果是这样,还是做了共享保留。
2011-12-17 09:50 3楼
多半是存为纯文本后,丢了格式.很久以前我就有中医古籍650部简体文本了。忘记是从那里下的了。
2011-12-17 11:13 4楼
刘军 说:
多半是存为纯文本后,丢了格式.很久以前我就有中医古籍650部简体文本了。忘记是从那里下的了。

所谓的格式, 要具体对象具体描述。

TXT文件中,格式也就是回车换行,我前面所说的TXT文件中,目录还是基本存在的,只不过它是隐藏在正文中。

数据库中,要看存储的内容是什么格式,比如是否是纯文本,还是RTF格式? 还是其他非纯文本格式,某些TXT格式电子书中,存在着图片的描述,所以不太可能是纯文本格式。

650本电子书的数据库本身的内容还是比较丰富的。只是见不到真身。资源浪费啊。
2011-12-17 11:37 5楼
是丰富,不过其中的书我看的也不多。时间太少,把四大经典读精已经很不错了。
2011-12-17 22:20 6楼
其实都是从超星里OCR出来的
2011-12-17 23:27 7楼
我也曾怀疑是从图片文档中OCR出来的,比如某些文档明显缺少某些字,有可能不能识别。
但是是OCR的话,有问题解释不了。例如,文档中都有隐藏的目录,比如<目录> <篇名>注序,等等。
这些东西如果也是OCR的话,就有点说不清楚了。 因为650本电子书的底本都是OCR的话, 那么其底本也是个数据库。

还有,假如空格代表了不能识别的汉字(藁本的藁全是空格),那么象“浓朴”,“香港脚”, “毒瓦斯”这些明显是文字处理的结果,OCR也解释不了。

这个数据库,有可能和某个出版社有关系。只是怀疑。
2011-12-18 17:10 8楼
不知道是谁整理的,不过有些书还是很好的
⬅ 武当中医药网推荐——陈正祥老中医治疑难杂症医案精选 老茶馆 内科医案 原发性血小板减少性紫癜 尹锡风医案 ➡