User talk:維基小霸王

維基文庫,自由的圖書館
跳转到导航 跳转到搜索

Page:吟邊燕語 - Tales from Shakespeare by William Shakespeare[编辑]

你好,看到你加進文庫的Page:吟邊燕語 - Tales from Shakespeare by William Shakespeare,有一個疑問︰所上載的書本影印本圖像會不會有版權問題呢?-- Hin 2011年11月20日 (日) 08:43 (UTC)[回复]

據我所知書影是1980年左右中國大陸所刊行的版本,我不贊成公開列出書影。但是基於校對等問題,我們自己要保存這本書的djvu稿。--Zhxy 519 2011年11月20日 (日) 15:03 (UTC)[回复]
书中只是简化字、加了标点和页码,应该没有版权吧。--王小朋友 2011年11月27日 (日) 02:49 (UTC)[回复]

格式[编辑]

拜託你不要只是copy & paste, 你上傳的東西根本沒法看。--Zhxy 519 2012年1月27日 (五) 11:25 (UTC)[回复]

自己先做做看[编辑]

不要導入目錄,導入一個章節來給我們看看,如果格式不行,你就是白寫。--Zhxy 519讨论2012年11月10日 (六) 14:09 (UTC)[回复]

RE:[编辑]

世上没有甚麼名叫註釋版的史記,想做就要先拿一個適當的名字來,隨便的名字就是糊弄。何況史記的注解是好幾份資料,你還沒有搞清每份不同的資料各建一個,還是籠統塞到一起?最後不要拿鳥甲來壓人,而且你半途而廢的前科太多,如果你再半途而廢,我就不給你機會。--Zhxy 519讨论2012年11月25日 (日) 13:22 (UTC)[回复]

沒有適當名字和恒心就不要動。--Zhxy 519讨论2012年11月25日 (日) 14:33 (UTC)[回复]
現有版本,名為《史記三家註》。弄去吧。--Zhxy 519讨论2012年11月26日 (一) 10:02 (UTC)[回复]

Notepad[编辑]

I first use window notepad or word to save a copy in my drive, complete the editing and save. The next step is to cut and paste to wiki. It is not too bad. Thank you.Seccom88讨论2013年1月22日 (二) 14:33 (UTC)[回复]

錄入康熙字典的初衷[编辑]

其實孔夫子說的對,名不正則言不順,言不順則事難成。試想在錄入古文的時候遇到相當生辟的漢字不會打,是很彆扭的事情。尤其看這篇文章的人是位處女座的呢。

而這部康熙字典卻幫了大忙,所以我才要錄入。至於內容中考證、箋、傳、按、注等內容,我感覺不像是成書后就有的東西,可能是以后再版時,那些文官大學士們后加的內容。在我看來這些不過是修正了原文中的錯誤,或者擴展閱讀,反而不如原文中內容重要,所以不應該和原文內容放在一起,尤其是考證的內容。多數都是僅按原文改什麼什麼的或者增減什麼什麼的。

給那些所引用的書籍加鏈接是很麻煩,但我考慮到兩點,一點是閱讀者疲勞的問題,因爲長期看單一的黑白兩色容易疲勞。加了鏈接,也就加了紅藍兩色,權當點綴吧。第二是爲了方便查閱,如果引的內容存在就查閱,如果不存在就該錄入,也好豐富這個文庫的內容。因爲現在的這裏文章多半還是孤立的,彼此連上也沒什麼不好Thering29 2014年10月5日 (日) 22:29 (UTC)Thering29

字典說到底隻是工具,圖片應該不如文字更方便查閱吧。而且你上傳圖片,肯定會有版權的審核。如此在效率上也低。而且我也很少看到影印作品Thering29 2014年10月6日 (一) 02:26 (UTC)Thering29
@Thering29:圖片確實查閱不方便,因此文字不僅錄入在page裡,還在頁面內加入<pages index="Kangxi Dictionary - Huiyao Edition - volume 02.djvu" from=6 to=11 fromsection="二" tosection="二"/>像現在一樣在一頁裡顯示內容。但是這就大大方便校對了。
版權在中國大陸和台灣有50年的保護期,50年之前出版的內容是沒有版權的。圖片是掃描自古書,完全沒有版權問題。上傳的書籍是djvu或者pdf格式,一個文件裡會包括一或多卷的圖片,因此效率很高。--維基小霸王讨论2014年10月6日 (一) 02:42 (UTC)[回复]
你提的這個事情我確實不懂,但我剛才看了一下,根本不支持編輯。所以我真看不出來到底哪裏方便了。請儘快恢復吧,否則我只能認爲你在搞破壞了

请去英文维基编辑吧,我想这里并不适合你

也许你需要把某些东西换成lua。这方面我不擅长,你需要请其他人来帮忙。 --达师 - 334 - 554 2016年10月4日 (二) 16:00 (UTC)[回复]

谢谢提醒,我来看看。--維基小霸王讨论2016年10月4日 (二) 16:32 (UTC)[回复]
谢谢你的帮助!--維基小霸王讨论2016年10月5日 (三) 00:52 (UTC)[回复]

關於四庫全書的編輯[编辑]

四庫全書有太多上傳版本,例如「影像版」、「原本文字版」、「標點版」等等,建議另開頁面,並注明所用版本。。--User:Veritashero

同意。可创立标点为“_(四库全书标点本)”或是什么。--維基小霸王讨论2016年10月15日 (六) 13:40 (UTC)[回复]

缺卷一百五十五 --达师 - 334 - 554 2016年10月29日 (六) 10:47 (UTC)[回复]

内容在卷一百五十四里。过些时候一并修复。--維基小霸王讨论2016年10月29日 (六) 12:46 (UTC)[回复]

四库全书中以前创建的无标点页面[编辑]

您在Wikisource:删除投票#2016年10月提议删除“四库全书中以前创建的无标点页面”,并说要提供页面列表。至今已过去数月,无人反对。如果您方便的话,希望能够提供这些页面的列表,以便结案。 --达师 - 345 - 574 2017年2月9日 (四) 07:20 (UTC)[回复]

欽定古今圖書集成[编辑]

1.您的來源中部分文字圖片(如2990號『炁』字炁)早已存在Unicode編碼,而且該字位於基本多文種平面内,不會出現缺字現象,因此建議將這些文字改回非圖片表示。您的文字圖片沒有設置alt屬性,當圖片尚未載入時,會使人產生誤會。 2.本人發現欽定古今圖書集成/博物彙編/神異典/第294卷竟沒有來自欽定古今圖書集成/博物彙編/神異典的鏈入頁面,可能是您編纂目録時存在缺漏。 3.您的文本來源中每行之間存在換行,這樣會在最終正文之中行間多出一個空格,使文本不便使用。我建議刪除行間換行,但是保留段間雙換行。 --Midleading讨论2017年2月19日 (日) 01:58 (UTC)[回复]

@Midleading:我的文本来源中没有使用文本表示一些文字,这样的文字数量高达三万,是本人无法自行识别的。只能以后拜托各位贡献者逐个识别、替换(没准可以开发一个机器人)。2.刚才注意到这个问题,我会修正的。3.删除换行是英文维基文库的规定,但是本人认为,如果有换行可以方便校对,所以反对删除换行。至于空格的问题,我想等到以后向mediawiki报告,增加删除空格的功能。--維基小霸王讨论2017年2月19日 (日) 02:26 (UTC)[回复]
@維基小霸王:對問題1,我已經建立一個頁面來收集已經識別出的字。這個頁面格式很單一,便於機器人使用。其中,加感嘆號的字不在基本多文種平面内,可以不修改,其它的則建議修改。等您有空了,可以根據該頁面去除文字圖片。--Midleading讨论2017年2月19日 (日) 03:17 (UTC)[回复]

您好,您導入《欽定古今圖書集成》的速度較慢,請問您是否需要協助?另外,您是否有在維基共享資源上傳的機器人,可以上傳大量文件?—Midleading讨论2018年2月13日 (二) 11:53 (UTC)[回复]

回覆:這種情況其實很常見,我在導入《四部叢刊》時就有人提出了問題。後來爲了解決這個問題我設計了一個程式,從維基共享資源獲取書的第一頁、中部一頁與最後一頁,並與文字一同顯示,這樣就會發現闕頁了。不知您是否也要考慮編寫這一功能?—Midleading讨论2018年2月18日 (日) 05:34 (UTC)[回复]

現在新建的頁面(如Page:Gujin Tushu Jicheng, Volume 113 (1700-1725).djvu/80‎Page:Gujin Tushu Jicheng, Volume 123 (1700-1725).djvu/83)又是錯誤的了。--Midleading讨论2018年2月19日 (一) 09:34 (UTC)[回复]

刪除此頁即可。晚些時候再改。--維基小霸王讨论2018年2月19日 (一) 09:49 (UTC)[回复]

現在新建的頁面全是錯誤的。--Midleading讨论2019年8月2日 (五) 01:34 (UTC)[回复]

@Midleading:一般来说是扫描版的错误,我看看。--維基小霸王讨论2019年8月2日 (五) 01:36 (UTC)[回复]
确实是扫描版的错误,我找找有没有别的扫描版重新上传。--維基小霸王讨论2019年8月2日 (五) 01:39 (UTC)[回复]
@Midleading:已上传正确的版本。以后再有错误请告知,我用这里的文件替换就行了。--維基小霸王讨论2019年8月2日 (五) 02:09 (UTC)[回复]

機器人申請[编辑]

雖然我不參與維基文庫,但是看到您的申請之後認為可以直接拒絕您的申請,因為您未能說清楚您準備修改什麼內容以及如何修改,也沒有給出詳細的操作計劃。如果再次申請,請給機器人換一個一眼能看出是機器人的用戶名,例如「小霸王Bot」或「小霸王機器人」等。--逆襲的天邪鬼讨论2017年3月18日 (六) 11:06 (UTC)[回复]

剛剛準備上傳《七夕 (呂巖)》的時候發現您錄入的《御定全唐詩 (四庫全書本)/卷858》裡面的詩序和作品未分開,導致我差點認為這本書錄入有誤。這裡提出一個建議,雖然詩的序已經與詩的內容分開(單獨列入了一列),但是還是請問是否可以將詩序用<small>的標籤縮小?或者用“{{*|”使其在顏色上區分開來?--Horizon Sunset讨论2017年11月11日 (六) 13:59 (UTC)[回复]

竖排滚动[编辑]

目前在firefox下竖排字变成上下滚动(即overflow-y:scroll)了。第一页自右向左排满之后,第二页接在第一页下方而非左方。不知道这样描述是否清楚。

及,欽定日下舊聞考_(四庫全書本)中出现了“︵字位過密 無法显示︶”之字样,请予修复。 --达师 - 345 - 574 2017年11月30日 (四) 15:38 (UTC)[回复]

請記得在留言時署名[编辑]

您好,当您在所有讨论页或开头是“Wikipedia:”的页面中参与讨论时,請記得在您的留言结尾加入四个波浪号标记(~~~~,可使用按鈕)来签名,使系统自动将您的用户名或IP地址以及发表评论的时间加入到页面中。这些信息在参与讨论时对其他人將很有用。可能需要簽名的頁面例如 Talk:欽定古今圖書集成。謝謝您的參與。 --Cewbot讨论2018年2月19日 (一) 08:52 (UTC)[回复]

未來將全文導入《文淵閣四庫全書》[编辑]

本人現在正在維基共享資源上傳《文淵閣四庫全書》,現在已上傳12049 MB,但是因為文件太多,學校又按上網流量收費,不久後將停止上傳。一段時間後,可能會開始導入《文淵閣四庫全書》。請閣下討論文淵閣四庫全書全文的導入方法。目前有幾點需要研究:

  • Page頁面带來大量格式問題,例如空格問題、豎排文本中如何顯示Page頁碼。
  • Page頁面導入後,維基文庫編者對主命名空間的編輯將丢失。
  • Page、Index頁面與主命名空間的四庫全書本頁面的對應關係無機器可讀說明文件,需要人工整理。
  • 全覽頁面的節點數更加緊張。
  • 來源沒有SKAnchor標記,維基文庫編者的編輯丢失後不知如何添加SKAnchor。

——Midleading讨论2018年3月1日 (四) 03:33 (UTC)[回复]

我在维基共享资源有机器人账号,我可以用家用电脑上传。
  • Page頁面带來大量格式問題,例如空格問題、豎排文本中如何顯示Page頁碼。
    空格问题、竖排页码与导入无关,而是维基文库系统的问题。建议导入即可,导入后再去向上反映,或者本地解决即可。
  • Page頁面導入後,維基文庫編者對主命名空間的編輯將丢失。
    之前的四库全书是我在一年前导入维基文库的,用户编辑十分有限。阁下是否方便写程序,检查有哪些页面被编辑过,检查之后人工合并至page页面。即日起,便可禁止编辑相关页面,请在MediaWiki:Titleblacklist加入相关的正则表达式,使用方法见[1]
  • Page、Index頁面與主命名空間的四庫全書本頁面的對應關係無機器可讀說明文件,需要人工整理。
    我使用原文对文本进行分割的。由于四库全书格式比较规范,程序应该可以对应多数内容。这一步可以导入文本后再进行。
    如果阁下的程序有机读的分页标题,建议发上来,我想尝试对应一下。
  • 全覽頁面的節點數更加緊張。
    我不知道如何处理,可提请社群是否删除。
  • 來源沒有SKAnchor標記,維基文庫編者的編輯丢失後不知如何添加SKAnchor。
    以前我是把所有字数小于一定的行都加上SKAnchor,阁下可以用{{Visible anchor}}代替。維基文庫編者的編輯数量还不大,可以人工补上。
  • 其它问题:
    @Kanashimi:编写的年號紀年的小工具比{{YL}}准确。建议使用该校工具的数据进行类似的年代标注。如果认为这样的程序过于复杂暂无法写出,建议暂停纪年标注,待以后有机器人创建再行标注。

--維基小霸王讨论2018年3月1日 (四) 04:18 (UTC)[回复]

目前我會首先為《四部叢刊》新建主命名空間頁。——Midleading讨论2018年3月1日 (四) 03:41 (UTC)[回复]

建议先建几个示例页面,供社群讨论修改样式,之后再广泛创建。--維基小霸王讨论2018年3月1日 (四) 04:19 (UTC)[回复]
由于先前xml导入的不少页面未被计算进页面数,而机器人创建的条目则会。估计所有工作完成后维基文库页面数可翻1~2倍。--維基小霸王讨论2018年3月1日 (四) 04:24 (UTC)[回复]

導入計劃仍無确定實施日期,目前不宜保護所有四庫全書本頁面,等到全部導入後準備以Page方式替換現有頁面時再確定下一步方案。——Midleading讨论2018年3月1日 (四) 13:00 (UTC)[回复]

至少那个故宫的图片是有版权的,我会移除前3页、最后一页之后再上传。--維基小霸王讨论2018年3月1日 (四) 15:29 (UTC)[回复]
我同意這樣做,現在這樣的做法僅僅是因為沒有辦法將這麼多文件的前3頁都去掉。維基媒體的服務現在不穩定,剛剛的上傳都因為<?xml version="1.0"?><api servedby="mw1234"><error code="internal_api_error_UploadChunkFileException" info="[WpgTzQpAMEUAAFnHQ7EAAABE] Exception caught: Error storing file in '/tmp/WFqLvD': backend-fail-internal; local-swift-codfw" /></api>出錯了,還有11部沒有上傳,明日繼續。請上傳前檢查維基共享資源是否已經存在該文件。目前維基文庫有很多更重要的事需要機器人做,例如清理Category:包含Unicode私有区字符的條目、為《四部叢刊》建立主頁面、清理{{PD-old}}等,至少需要幾個月後才會開始導入。——Midleading讨论2018年3月1日 (四) 15:39 (UTC)[回复]
建议暂停上传。我认为可以按这里的数据分割并且命名,再上传。
好的,不过我现在光是列出机器人工作队列都已经忙不过来了,我没有软件和带宽来分割这么多文件,如果你可以帮助一下更好。文件上传暂时停止。感谢你的支持。--Midleading讨论2018年3月1日 (四) 15:58 (UTC)[回复]
对,维基文库还有很多别的工作。


最近我比较忙,先记录一下怎么做:

https://pulsearch.princeton.edu/catalog?f1=in_series&format=atom&page=(1到35)&per_page=100&q1=景印文淵閣四庫全書+%3B&search_field=advanced&sort=cataloged_tdt+desc%2C+pub_date_start_sort+desc%2C+title_sort+asc

找到编号,在

https://pulsearch.princeton.edu/catalog/3909751.ris

下载

英文名:TI - Zhou yi ji jie : [17 juan] / (Tang) Li Dingzuo zhuan.

中文名、作者:T2 - 周易集解 : [17卷] / (唐) 李鼎祚撰.

页数N2 - p. 603-892 ; 28 cm.

册数T3 - 景印文淵閣四庫全書 ; 第7册

之后再用页数和册数提取djuv文件,同时建立说明文件。--維基小霸王讨论2018年3月1日 (四) 15:59 (UTC)[回复]

关于Year link模板的使用:Kanashimi开发的小工具需要访问 https://kanashimi.github.io ,这并不符合隐私方针,所以不会被默认启用。这样,Year link模版仍有其价值。—Midleading讨论2018年3月3日 (六) 05:02 (UTC)[回复]

@Midleading:我是想說,此小工具中使用的標記年代的技術較為先進,可根據前文推斷朝代,而且可轉換年月日而不僅僅是年。因此,可用Kanashimi的技術建立機器人,繼續通過Year link模板進行標記。Year link模板可同時修改升級為Date link模板。--維基小霸王讨论2018年3月3日 (六) 05:07 (UTC)[回复]
@Midleading[2]包含一些书目的页码信息,我从程序中解压到的DDE文件夹可能包含数据,但不知道如何打开文件。请问如何打开?--維基小霸王讨论2018年3月4日 (日) 04:41 (UTC)[回复]
我最近要参加研究生招生考试,没有时间完成这种复杂操作。建议阁下有时间时先将《古今图书集成》完成,维基文库还亟需录入新文章,还有很多散落在个人网站的没有收入大型丛书的文章需要人工录入。到时候我会将有关资料保存到维基文库的。—Midleading讨论2018年3月4日 (日) 05:28 (UTC)[回复]
其实我也挺忙的,由于相同的原因。😁--維基小霸王讨论2018年3月4日 (日) 05:45 (UTC)[回复]
應該建議維基技術團隊開發新的校對方法,目前這種將文字檔和影印檔綁在一起的校對方式,需要切割文字檔來搭配影印檔,過程太過繁瑣。有標題頁及影印檔的書籍,在標題頁新增數個[校對]按鈕,做些設定連接二者,即可開始校對,不需要切割文字檔來搭配影印檔,是比較簡單的方法。--Lonicear讨论2018年3月19日 (一) 16:43 (UTC)[回复]
现行的方法需要分页编辑,确实有些繁琐。在同一页就能校对可能更好。不过,只要有显示图像的“校对”按钮,就需要页码和图像的对应信息,因此本人认为应该保留page页面,同时可以开发在同一个页面就能编辑多个page页面的方法。--維基小霸王讨论2018年3月19日 (一) 17:04 (UTC)[回复]

使用Lua重写SKchar后,节点数超出限制的问题得到解决,可以保留全览页面。--Midleading讨论2018年4月10日 (二) 16:07 (UTC)[回复]

胡适文集[编辑]

您好!谢谢合作。我手头也有胡适文集12卷的PDF,我是按照这个文本来OCR和校对的。如果根据您的胡适文存,可能内容以及版式等会有所出入。 Hamham讨论2018年3月2日 (五) 00:16 (UTC)[回复]

胡适文集是1998年出版的,有版权.还是1930年代出版的<胡适文存>更符合维基文库的版权规定.--維基小霸王讨论2018年3月2日 (五) 03:23 (UTC)[回复]
其实胡适这类非编辑类作品的版权保护期是根据作者去世年份来起算的,跟文集的出版时间是无关的。因为这类编辑并没有改变作品本身的表现形式。当然,Zhxy兄提到的美国著作权法下,胡适作品仍然没有进入公共领域,这是个大麻烦。无论是30年代出版的文存还是98年出版的文集,目前在美国法看来都不能自由上传。所以我暂时会停下来,可能得转移到加拿大网站去。谢谢!--Hamham讨论2018年3月2日 (五) 07:56 (UTC)[回复]
经过您这一解释,我理解“消极容忍”的真正含义了。哈哈哈,那我就继续放心地帮助他人了。多谢多谢!关于胡适文集的PDF如何上传,我再想想办法。--Hamham讨论2018年3月2日 (五) 10:46 (UTC)[回复]
您好。感谢您的建议。但说实话,胡适文存的PDF扫描版质量比较差,文字辨认难度有点大。而且我本身上传的文字稿已经是根据《胡适文集》(北大版)做了相当细致的校对的(光是《胡适文集》第12集就耗费了我大半年的时间来校对),所以恕我暂时无法将这些文字上传到文存的对应页面去了。不过今后如果有力气,我可能会将胡适文集全文的PDF上传到网上,这个应该也是不侵犯版权的(起码属于消极容忍,哈哈)。--Hamham讨论2018年3月5日 (一) 02:44 (UTC)[回复]
排版是有版权的,维基共享资源应该不能消极容忍。--維基小霸王讨论2018年3月5日 (一) 02:55 (UTC)[回复]

繁体版《胡适文集》[编辑]

您好,我注意到已经有一个机器人帮我移动了条目。非常感谢这位机器人的工作。下一步我设立新条目时会注意直接改为繁体。但文章正文我还是用简体录入/校对,这个转换工作只能交由繁简转换工具去完成了。有点小任性,求谅解。--Hamham讨论2018年3月7日 (三) 08:05 (UTC)[回复]

回覆[编辑]

我的观点也是目前不要拆分。个人认为人工拆分大量djvu文件是一件费力不讨好的事,既使有手动拆分方法,也不如将这时间用于做其他更有意义的事,等日后有工具可以从工作列表自动拆分大量djvu文件时再拆分会更好。维基媒体目前允许公有领域的文件中含有少量非自由内容,不过仍难以评价法律风险,特别是国内有将公有领域资源过度版权化的倾向,很多国家强制性标准、古籍、司法文献都被用版权保护措施保护了,或者商业出版了。——Midleading讨论2018年3月9日 (五) 03:19 (UTC)[回复]

導入《四部叢刊》目錄的任務已經結束,現在任何人都可以編輯這些目錄。更改SK list的任務沒有導入《四部叢刊》正文重要,何況由於影印本錯誤百出,導入正文都需要一卷一卷地人工核對。 Midleading讨论2018年4月4日 (三) 05:12 (UTC)[回复]

增凉水河通南海子乃所以宣洩海子所出之水大興縣志臣等謹按良鄉縣南亦有凉水河水經謂之樂水與都城外之凉水河異派此河源出右安門外西南鳳泉東流經萬泉寺分為二支一南經草橋一北經廣恩寺俱東注永勝橋復合為一東南流至小紅門之西入

这里的“臣”原书是否另起一行? --达师 - 370 - 608 2018年9月10日 (一) 14:18 (UTC)[回复]

是。影印卷九十 頁四。 --Liouxiao讨论2018年9月10日 (一) 14:26 (UTC)[回复]

中华人民共和国条约数据库[编辑]

[3]。这个东西处理得不错,有几千个条约,而且保持了当时的繁简用字(以及过渡期的混用)。如有可能的话希望能够导入。 --达师 - 370 - 608 2019年1月3日 (四) 03:34 (UTC)[回复]

请问如何访问文本版?--維基小霸王讨论2019年7月12日 (五) 16:03 (UTC)[回复]

邀請參與討論[编辑]

寫字間上有關於匯入者權限改為跨維基匯入者的討論,這影響了您目前的權限,因此邀請前來發表意見。--Jusjih讨论2019年10月10日 (四) 02:44 (UTC)[回复]

遺憾。因爲支持力道不足,所以才建議以不通過結案。請問仍要異議,像是延長投票嗎?--Jusjih讨论2020年5月3日 (日) 23:06 (UTC)[回复]

看来只能结案了。为维基文库贡献了这么多,却不能选上管理员,真失望。 維基小霸王讨论2020年5月4日 (一) 00:06 (UTC)[回复]

別失望。贡献多不自動能选上管理员,在英文維基百科更常見。請問Zhxy 519質疑的“早年間大量上傳的機器轉換文獻至今爛尾”是何文?再加强仍有機會的。--Jusjih讨论2020年5月5日 (二) 01:34 (UTC)[回复]

如何在Template:SKchar/字符表中查找相應的的字符圖片?[编辑]

此頁面擁有四千多字,請問是否可以迅速查找需要的字符?--Horizon Sunset讨论2020年5月18日 (一) 01:44 (UTC)[回复]

明白了,謝謝。本人在校對文本來源的時候發現了一些異體字,想將這些字符圖片插入文本來源,不知是否合適?--Horizon Sunset讨论2020年5月18日 (一) 02:24 (UTC)[回复]

页面:Sibu Congkan0074-徐鍇-説文解字繫傳-8-5.djvu/139中有一字為上龜下火,請您看一下。--Horizon Sunset讨论2020年5月18日 (一) 02:42 (UTC)[回复]

維基數據[编辑]

您好,我有個小工具能查詢出維基百科頁面對應的維基數據號碼,這個工具其實很簡單,就是先查一遍繁體,查不到再機器轉換成簡體再查一遍。這個小工具目前僅以源代碼方式存在,用於構建維基數據機器人。您如果需要的話我們再討論討論具體怎樣編譯成獨立版,不過也有個更好的方式,就是先把需要的維基百科數據項先全加上zh-hans/zh-hant標籤,這樣不用專用工具也能查出來了。--Midleading讨论2020年7月18日 (六) 12:37 (UTC)[回复]

但是这样没法查重定向,如谷歌重定向到google。用谷歌就查不着google的维基数据编号。--維基小霸王讨论2020年7月18日 (六) 13:03 (UTC)[回复]
用wbSearchEntity或者SPARQL都能查出別名,別名的數據一般是從重定向導入的,能查出來。問題不在於查不出來,而是查出一大堆不相干的東西,例如維基文庫中的一首詩或者維基百科一個同名的明朝人物,還要加篩選條件。--Midleading讨论2020年7月18日 (六) 14:54 (UTC)[回复]

另外我打算给每一本书不管有没有维基文库页面都新建一个维基数据项,可以暂时先链接到维基共享资源分类,这样日后(马上)可以把作者等信息加进去,不知道您有没有兴趣?--Midleading讨论2020年7月18日 (六) 15:07 (UTC)[回复]

我正有此意。我想从二十四史开始,除了作者,还将每卷提到的人物都导入wikidata。之后可以让wp、ws相互显示链接,用户以后直接在wikidata添加别的链接,两站也能自动更新。
不过在此之前,我还是想先彻底解决标点问题。台湾明确说古文的后加标点不受著作权保护,大陆也曾经这么说过。但最稳妥的办法还是用人工智能标点,之后由志愿者修正。目前《古今图书集成》的标点已经彻底使用人工智能标点。虽然在引号方面有较多错误,但在断句方面很棒。我希望人工智能标点作者帮忙标点其他著作,但是他没有收到回应。我决定自己使用google的深度学习工具BERT标点,但苦于没有古代汉语的预训练模型(需要使用大量无标点文本进行预训练,再进行训练)。这需要大量的计算资源,我正在尝试解决。--維基小霸王讨论2020年7月18日 (六) 15:26 (UTC)[回复]

您找不到閩南語維基文庫麼?[编辑]

我發現閣下在寫字間的一個質疑「[mnp]閩北、[nan]閩南、[cdo]閩東?」感到非常詫異,閩南語維基文庫已經建站多年了吧。--Liuxinyu970226讨论2020年7月24日 (五) 23:32 (UTC)[回复]

我送的意思是说连福建一地的方言代码就有三种至多,难道一地就要建立三种方言站吗?我对于中文分家的观点已经多次陈述,此处不再重复。--維基小霸王讨论2020年7月25日 (六) 00:30 (UTC)[回复]

错误[编辑]

陜西通志[编辑]

陜西通志 (四庫全書本),應該是「」而不是「」。本頁面及所有子頁面皆有此錯誤。--- Peacearth討論2020年12月1日 (二) 17:14 (UTC)[回复]

[4]更像是“陜”。--維基小霸王讨论2020年12月2日 (三) 05:22 (UTC)[回复]

古籍 繁体 竖排文字OCR识别求助[编辑]

你好,NB的 维基人,请教一下,对于竖排的繁体文字,有什么好的OCR工具可以推荐吗?多谢 --Bangbang.S讨论2021年3月15日 (一) 01:44 (UTC)[回复]

https://ocr.gj.cool/ 維基小霸王留言2023年6月16日 (五) 07:16 (UTC)[回复]

全唐文页面嵌入消歧义页[编辑]

全唐文/卷0137为例,该页面嵌入了议沙门不应拜俗状,为消歧义页。另见Category:消歧义,可以看到多个全唐文或全唐诗页面。 曾晋哲讨论2021年4月9日 (五) 01:04 (UTC)[回复]

我了解到这个问题了。--維基小霸王讨论2021年4月9日 (五) 01:52 (UTC)[回复]

已發送電郵[编辑]

已發送電郵 Midleading留言2022年5月18日 (三) 04:15 (UTC)[回复]

@Midleading已回复。--維基小霸王留言2022年5月18日 (三) 06:34 (UTC)[回复]

图书馆备份项目的韓國古文圖書館[编辑]

Blahhmosh留言2022年7月1日 (五) 21:04 (UTC)[回复]

谢谢! 維基小霸王留言2022年7月2日 (六) 02:51 (UTC)[回复]

韓國獨立紀念館所藏書籍:https://search.i815.or.kr/main.do Blahhmosh留言2022年7月4日 (一) 23:51 (UTC)[回复]
記錄遺產之古圖書:https://book.ugyo.net/ Blahhmosh留言2022年7月7日 (四) 21:44 (UTC)[回复]
高麗大學海外韓國學資料中心:http://kostma.korea.ac.kr/ Blahhmosh留言2022年7月8日 (五) 00:09 (UTC)[回复]
韓國的知識内容:https://www.krpia.co.kr/ Blahhmosh留言2022年7月10日 (日) 22:25 (UTC)[回复]
韓國佛教全書:https://kabc.dongguk.edu/index Blahhmosh留言2023年7月31日 (一) 01:05 (UTC)[回复]
國史編纂委員會圖書館:https://library.history.go.kr/ Blahhmosh留言2023年8月30日 (三) 19:23 (UTC)[回复]
谢谢。希望有一天可以通通转载过来。 維基小霸王留言2023年8月31日 (四) 12:11 (UTC)[回复]
http://db.hiks.or.kr Blahhmosh留言2024年3月1日 (五) 16:56 (UTC)[回复]

欽定古今圖書集成含有大量錯誤Annotation使用[编辑]

搜寻“Annotation intitle:欽定古今圖書集成”可以发现有很多页面的Annotation超过了一行,导致模板缺少结束标签。 Midleading留言2023年6月15日 (四) 14:54 (UTC)[回复]

应该不是换行,而是开始和结束位于前后两个page页面导致的。 維基小霸王留言2023年6月16日 (五) 07:15 (UTC)[回复]

Re:界面编辑请求[编辑]

搬了英文版的小工具过来,现在页码已经可以正常显示了。但是小工具似乎并不完全起作用,因此没有设置默认启用。请暂时在Special:Preferences中设置启用。 达师 - 370 - 608 2023年6月18日 (日) 04:01 (UTC)[回复]

《侠义佳人》的几个版权疑问 和 先以简体字录入[编辑]

我看到您提到的扫描原件初集中集页面下面有许可协议,说是属于公有领域。不知道上传文本是否也能按这个协议“法人的作品首次发表50年后或自创作之日起50年未发表,进入公有领域”?我不清楚算不算法人。

另外,我依据的是百花洲文艺出版社1993年出版《中国近代小说大系》中收录的标点符号、分段、校点等,有没有这书的版权问题?

能用简体字写入吗?以我有的百花洲文艺出版社1993年出版《中国近代小说大系》纸质书,我使用扫描的方式得到简体版本。直接转换成繁体字我不晓得会不会存在偏误,因为不精通繁体字。以我的能力,只能首先用简体字文本,如果有想转换繁体字及对照扫描原件的人,后续再完善,是否可行? 0epvurf留言2023年8月12日 (六) 01:37 (UTC)[回复]

您好 您可以先用简体字录入 原文的标点符号都是句号 您可以先使用记事本把逗号替换成句号 这样跟原文就差不多了 文本如果有后人写的注释 录入前请删除 維基小霸王留言2023年8月12日 (六) 02:42 (UTC)[回复]
谢谢回复 0epvurf留言2023年8月12日 (六) 04:31 (UTC)[回复]

已向你发送邮件[编辑]

已向你发送邮件,请注意查收。 Midleading留言2024年1月4日 (四) 15:44 (UTC)[回复]

已向你发送邮件,请注意查收。 Midleading留言2024年1月6日 (六) 04:29 (UTC)[回复]
已向你发送邮件,请注意查收。 Midleading留言2024年1月6日 (六) 09:34 (UTC)[回复]

Wikimedia OCR現在沒有"We can not access the URL currently"錯誤了[编辑]

我刚才看了一下,这个问题确实解决了,现在可以重新讨论是否需要大量OCR。 Midleading留言2024年1月14日 (日) 03:04 (UTC)[回复]

好 不过请注意我提了https://phabricator.wikimedia.org/T352503 GOOGLE不能识别竖排线外标点 --維基小霸王留言2024年1月14日 (日) 04:00 (UTC)[回复]

Google的产品问题只有Google员工可以解决,在这里提没有用。需要假定这个问题有直到更新的OCR出现前永远不会被解决的可能。 Midleading留言2024年1月14日 (日) 04:20 (UTC)[回复]
有道理 維基小霸王留言2024年1月14日 (日) 06:04 (UTC)[回复]
请稍等,我去提。 維基小霸王留言2024年1月14日 (日) 06:11 (UTC)[回复]

新春快乐[编辑]

祝现实安好。

如果别人打你,在保证自己安全的情况下还手。这是最基本的道理

新春快乐! Assifbus留言2024年1月23日 (二) 03:54 (UTC)[回复]