跳转到内容

维基文库:投票

維基文庫,自由的圖書館
维基文库与维基教科书 投票 版权信息
请添加建议和投票。傀儡投票無效。IP用戶可發言,不可投票。
維基文庫項目
维基文库是什么
维基文库与维基教科书
写字间
投票
版权信息
版權討論
删除讨论
移動請求
保護請求
請求管理員幫助

各式投票資格

[编辑]

依據社群共識,本站編者參加人事任免等各式投票資格如下:

條件一:投票程序開始前7天已註冊;
條件二:投票程序開始前已至少有50次正文編輯,或曾錄入1篇完整、信而有徵作品。

前述投票資格,除此頁面所列投票外,參考維基百科「投票不能代替討論」論述,也適用機器人申請導入者申請管理人員申請等另頁表決,但不適用於版權討論删除讨论更改用戶名等其他非投票提案。

正在进行的投票

[编辑]

導入者申請

[编辑]

机器人提议

[编辑]

如果您希望那些功能机器人的实现会对维基文庫有助,可以在下面提出,大家也可以讨论是否支持这种机器人的出现,机器人的制造者们也有可能会考虑去实现您的设想。



机器人注册

[编辑]

請注意Wikisource:投票#各式投票資格。IP用戶可發言,不可投票。

#{{支持}}~~~~     #{{中立}}~~~~     #{{反对}}~~~~

用于导入公有领域文本。目前计划有《人民日报》(至1973年)。--虹易留言2023年5月13日 (六) 13:17 (UTC)[回复]

请先导入3篇以便评价。 Midleading留言2023年5月13日 (六) 16:11 (UTC)[回复]
@Midleading方才已上传三篇,请见贡献。原本计划一个文章对应一个页面,再通过嵌套/包含的方式创建每日、每月或更大范围的总览。但是考虑到此种方式会产生约数十万页面(文库总内容页面不过数百万),所以目前计划按一日对应一个页面。另外,每月、每年生成一个标题列表作为独立页面。再生成一个日期列表置入报纸主页。不知是否有更合适的方式。若有各方面建议,敬请不吝赐教。--虹易留言2023年5月17日 (三) 14:31 (UTC)[回复]
维基文库目前的做法是一个文章对应一个页面。目前维基文库已经有相当多的人民日报文章被录入了,如果按一个文章对应一个页面的方法录入,可能需要检查是否与现有文章重复。现在整体录入的方式也存在没有明确版权信息、没有标注作者等等问题。 Midleading留言2023年5月17日 (三) 14:58 (UTC)[回复]
@Midleading凡是有署名的文章,作者都已一并加入页面头部。关于版权问题,计划是一律使用{{PD-China-Organization}}。请问是否可行?--虹易留言2023年5月18日 (四) 01:22 (UTC)[回复]
有署名的文章一般不能适用{{PD-China-Organization}}。每篇文章的署名作者标注样式建议使用模板,如{{署名}}等。Midleading留言2023年5月23日 (二) 06:31 (UTC)[回复]
注意:现行著作权法规定报社工作人员创作的职务作品,作者仅享有署名权,其余权利归报社所有。 曾晋哲留言2024年12月4日 (三) 18:53 (UTC)[回复]
报纸刊登的文章不都是报社工作人员创作的作品,也有很多投稿作品和领导人个人作品和讲话。 Midleading留言2025年5月20日 (二) 15:42 (UTC)[回复]
  1.  支持--維基小霸王留言2024年1月20日 (六) 01:00 (UTC)[回复]
  2.  支持,不過應先整理本站收錄該報既有內容。—— Eric Liu留言 2024年2月5日 (一) 18:18 (UTC)[回复]

@虹易Midleading維基小霸王似乎已有共識?—— Eric Liu留言 2025年4月28日 (一) 18:43 (UTC)[回复]

@Ericliu1912我不知道以何种形式组织为好。如果一篇文章对应一个页面,大概会产生约数十万页面。是否合适?另外,如Midleading所说,与现有文章的重复如何处理也是问题。--虹易留言2025年4月29日 (二) 10:53 (UTC)[回复]
@虹易中文文本的豐富,我們理當歡迎。我想社群最關心的,還是基礎分類及格式維基化事宜能否做好。或許您可以先選擇現有資料匱乏的幾年或幾個月測試,再不然就嘗試產生個預備清單讓社群檢視似乎也行?—— Eric Liu留言 2025年4月29日 (二) 12:16 (UTC)[回复]
單篇文章對應單個子頁(即如人民日报/1946年/05月/15日/文章名)有利於長期維護。如按日期合并,每日頁面如一時不能全錄入(版權等理由),會長期(以十年計)處於未完成、可添加内容的狀態,不利校對,保護,也容易品質劣化Andayunxiao留言2025年5月1日 (四) 08:14 (UTC)[回复]

Wikisource:写字间#建议文库也导入网页存档机器人phab:T371655. -- 2024年8月2日 (五) 02:29 (UTC)[回复]

  1.  支持。—— Eric Liu留言 2024年8月9日 (五) 15:24 (UTC)[回复]
    @沈澄心這個好像沒啥進度。—— Eric Liu留言 2025年12月5日 (五) 12:11 (UTC)[回复]
  2. (+)强烈支持。——内存溢出的猫留言2025年12月6日 (六) 09:41 (UTC)[回复]
  3.  支持,雖然沒什麼用——IABot 那邊已經沒人在管了。——SuperGrey留言2025年12月6日 (六) 09:54 (UTC)[回复]

申請註冊機械人,用於全自動匯入中國裁判文書網文書。此次,caseopen.org 維護者向維基文庫捐贈了 2013 年–2024 年 10 月間以 HTML 格式存儲的全量文書檔(向其表示衷心的感謝),內容爬取自中國裁判文書網 HTML 原始碼。這些 HTML 檔完整地保留了中國裁判文書網文書(「上網稿」)的形態(包括 OCR 錯字😄),不須人工處理,故此次申請批准機械人註冊,用於全自動、高速匯入這些文書到本站。機械人配置原始碼位於此倉庫

預覽檔3篇:Special:Permalink/2628206Special:Permalink/2628207Special:Permalink/2628208,已由本人帳戶匯入。

批次方案:

  • 機械人運行測試1:2024 年 10 月前 50 篇判決書(10 秒/篇)
  • 機械人運行測試2:2024 年 10 月前 51~200 篇判決書(10 秒/篇)
  • 第一批次:2024 年 10 月共 269052 篇判決書。(3 秒/篇,預計 10 天)
  • 第二批次:2024 年預計 250 萬篇判決書。(1 秒/篇,預計 1 個月;或基於實際速率限制調整)
  • 第三批次:其餘判決書預計 3 千萬篇。(1 秒/篇,預計 1 年;或基於實際速率限制調整)
  • 其餘文書(如裁定書、通知書等,佔 2/3)是否匯入,尚待評估。

就此方案申請社群批准。

此外,文檔格式(包括 {{header}}{{签名}}{{}} 等)亦提請社群討論,現在還可以隨便改,第一批次開始運行後就不好改了😂。會在文檔格式討論完畢後再開始測試。--SuperGrey留言2025年12月5日 (五) 02:29 (UTC)[回复]

  1.  支持:同时是否考虑按照如【北京市朝阳区人民法院(2025)京0105民初12345号民事判决书】的格式创建重定向?Teetrition留言2025年12月5日 (五) 02:34 (UTC)[回复]
    好啊。如果社群希望建立這些重定向,我就建立。 SuperGrey留言2025年12月5日 (五) 02:41 (UTC)[回复]
    反对建立这样的重新转向,而是过去此类标题应按照新标题模式进行重新转向。一是过去的标题模式完全看不出案件是个什么东西,二是无论是裁判文书网官网,还是北大法宝,还是哪怕由 Springer 代为出版的最高法选定的那些参考判决书,都是能够从标题中看出案件内容的。如果再补充一点私人材料的话,我们十几年前给 LexisNexis 整理判决书的时候也是用的类似的标题(既:刑事类:张三、李四甲罪名、乙罪名一审/二审判决/裁定书;民事类:张三、李四诉王五、赵六甲纠纷、乙纠纷一审/二审判决/裁定书这样)。法院+文书编号的方式其实非常不利于检索,没有人能从法院+文书编号作为标题的一堆列表中找到需要的文书。因此建议将旧格式向如今的格式进行重新转向。Boreas Sawada 2025年12月5日 (五) 05:11 (UTC)[回复]
    我只是提议案号格式仅仅作为重定向(标题仍为阁下提议的格式),这能够帮助用户直接按照案号检索到内容,很多时候也确实有这种需求,而且这种格式是唯一的。反倒是用当事人+案由+审级+文书类型的格式反而不唯一,很可能根据脱敏与否、脱敏程度与否产生变化,比如一个人引注写李小明,一个人写李某明,一个人写李某某,裁判文书网又写李某。 Teetrition留言2025年12月5日 (五) 05:24 (UTC)[回复]
    那我 OK 啊。针对您举例的情形,那么,既然是从裁判文书网往这边传,那就裁判文书网写什么我们就怎么写就好了嘛。作为一个曾经常年整理这东西的人来说,我也知道您说的那种情况,有很多在裁判文书网上都前后不一致,甚至标题与正文都不一致,这种情形的确存在很多。Boreas Sawada 2025年12月5日 (五) 05:28 (UTC)[回复]
一個小細節:大陸地區法院中的「裁定書」其實很多也很重要的,因為如果二審不開庭審理的話,就是一紙裁定書了事。而且有些案子的一審判決書已經消亡了,但是二審裁定書卻得以保存,因此二審裁定書成了瞭解該案的唯一途徑。
至於是否應傳至維基文庫,我持中立態度。因為那個庫我碰巧知道它真的是真的,連當初那些在裁判文書網上只有案號卻沒有內容(「人民法院認為不宜在網際網路公開的其他情形」云云)的案子都能查得到。而且它也有提供原始連結的 docId (並且都是對的, 包括「不宜在網際網路公開」的空白 docId 都能對得上), 因此真實性是無疑的。
但問題是,你知道它是真的,我知道它是真的,可是沒有人能夠證明它是真的。如果有人發起「無可靠來源」挑戰的話,是很容易集體 strike 掉的。
Boreas Sawada 2025年12月5日 (五) 05:24 (UTC)[回复]
行,那我把「裁定書」也加入上傳,不過批次可能排在第三批次後面。
至於已下架文書,我尊重 caseopen.org 提供的 HTML 資料的完整性(在 HTML 層面,亦有多重跡象證明其真實性),會一併上傳。如果有人要來挑戰,那我相信社群給出的判斷也會是保留。 SuperGrey留言2025年12月5日 (五) 05:56 (UTC)[回复]
沒問題,我整體上當然是傾向支持的。只是預先擔心起了這麼大的工程最後被人給幹掉了會難免讓人不甘心。(我知道那個庫超級大~)另外標題部分還請您以及社群考量我在下方提出的建議,以抓取裁判文書網本身提供的當事人加案由部分作為標題前半,然後補充案號來防止重複,最後補上文書類型來構成完整標題的形式。(既然您會寫機器人,那麼大抵電腦技術很是了得,因此做起來應該不難,民事類就切到最後一個「糾紛」,刑事類就切到最後一個「案」/「一案」或者「罪」;或者如果覺得把案號加在中間太過麻煩,也可以考慮直接用裁判文書網給的標題然後綴上案號即可。不綴案號的話會有大量的重複,是沒法用做標題的。)
另外我有留意到您一開始說「︎(包括 OCR 錯字😄︎︎)」……其實……那不是 OCR 錯字,那就是……原始文書上的錯字。大陸地區的裁判文書其實非常不嚴謹,別字很常見,有的時候一份判決書裡別字實在太多,會後續給你換一份(但是「改正版」裡可能仍有別字!),但大多數時候別字就那麼放著,不改了。有的別字可能是從最初的提請批捕書(刑事案件)裡一路複製黏貼到最後的判決書~然後還有各種病句、語焉不詳的句子、錯誤的事實細節、錯誤的法條引用(引用到完全不存在的法條或者牛頭不對馬嘴的法條)等等,這些不是「上網版」才有的問題,而是正式版裡就有的問題。Boreas Sawada 2025年12月5日 (五) 06:41 (UTC)[回复]
此外關於文檔格式部分,我覺得目前的 header 很好,摒棄了很久之前在 header 裡搞排版(甚至是拿空格來搞)的陋習。
對於「印」,我個人傾向於不加。因為我們的來源上是沒有印的。是的,在真正列印出來的裁判文書上肯定是有印的,但是我們的來源,裁判文書網上的頁面上,是沒有印的,那麼既然我們的來源是裁判文書網,因此也不應該加上那個「印」。在我既往的人工錄入中,我也是這麼做的,凡是來源是裁判文書網的,就不加印。凡是有照片照到實物的,我才會畫一個印上去,並且會努力做到畫得跟原印相像,包括外圈的圓環粗細、內字的粗細、字寬、字間距以及旋轉的角度等都會努力模仿。
至於「簽名」那裡,其實真實的判決書上並非是整塊在右邊然後文字自行居中對齊,而是……我也不好描述,就是那種公文的樣式,左邊一列兩邊對齊,右邊一列兩邊對齊那樣,這一點裁判文書網上也大多予以了維持,因此如果一定要模仿到位的話,可以試著專門做一個用於文書的模板。
當然,一切的一切都基於一個難點就是:如果有人讓你證明來源為甚麼可靠,那要怎麼辦。 Boreas Sawada 2025年12月5日 (五) 05:41 (UTC)[回复]
簽名或許還是專門做一個模板比較好,方便機械人填寫。印章也可以去掉。
我3篇預覽檔的編輯摘要寫得不好。可以從 wsKey 中推出原始連結,在前面加上 https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId= 即可。所以對於絕大多數文書,通過此連結可以查看原文(少數如您所言,可能下架了)。我之後會在編輯摘要裡標出連結。 SuperGrey留言2025年12月5日 (五) 06:01 (UTC)[回复]
是的,這就是我所說的那個庫絕對可信的原因之一,它連很多下架乃至從來沒有公開過全文的 docId 都是對得上的。我對那個庫是沒有任何疑慮的,只是擔心有人會發起可靠來源挑戰,耽誤了大家的一片功夫。
這個連結放到編輯摘要,或者文書篇目的討論頁,或者直接註在文書篇目的最後,我覺得都可以。不過儘管如此,還是可能會有人發起可靠來源挑戰。因為裁判文書網在 2021 年發生過大滅絕事件,有很多敏感罪目的文書是整個分類整個分類地移除——這本身就是那個庫存在的原因,然而估計也會是那些預備發起挑戰之人的內心理由。Boreas Sawada 2025年12月5日 (五) 06:18 (UTC)[回复]
如果一手來源「裁判文書網」沒有印章,那麽無須包括。如果需要可以另製印章模板以錄入印章的文本。現有的{{}} 其實效果不佳,也需要維護(如,去掉繁複的分類功能)。 Andayunxiao留言2025年12月5日 (五) 08:40 (UTC)[回复]
應該用編號為標題,俗稱為重新導向吧?—— Eric Liu留言 2025年12月5日 (五) 05:42 (UTC)[回复]
強烈反對。理由請見前述。此外,大陸地區的裁判文書網自己就是這麼命名的,請參見這些當年直接從裁判文書網上列印下來的 PDF 檔:例一例二例三例四例五等等。 Boreas Sawada 2025年12月5日 (五) 05:52 (UTC)[回复]
阁下说的“俗称”也就是我说的“当事人+案由+审级+文书类型的格式”不适合作重定向,理由亦见上述(李小明、李某明、李某某、李某),几乎难以有人能精准按本站收录的“俗称”直接打出来,进而重定向几乎失去了意义。 Teetrition留言2025年12月5日 (五) 06:09 (UTC)[回复]
搜尋引擎能搜到就好。這種類型的文獻,用什麼標題都不可能輕易打出來,所以不是正當理由。況且既然都打不出來,那當然應該選用結構較嚴密的編號格式。—— Eric Liu留言 2025年12月5日 (五) 07:10 (UTC)[回复]
我考虑的是作为一般读者会更喜欢哪种——比如,在百科使用模板链入原始文献时,可能当事人+案由更有助于一般读者。尚不清楚是否有律师等群体会对编号更感兴趣 内存溢出的猫留言2025年12月6日 (六) 09:39 (UTC)[回复]
非常抱歉,剛才沒有認真看 ︎SuperGrey 給出的標題格式。
不得不說,現今的標題格式是不行的,會有大量重複。因此建議採用「當事人+案由+案號+文書類型」的形式。
我強烈反對以法院全名+案號+文書類型的方式命名,不僅是因為一、不便於檢索;二、原始來源便已有當事人+案由的標題;以及還有一點是因為:三、案號本身即可看出法院全名、法院級別+審級,因此在標題中加入法院全名完全沒有必要。
諸位試看,
  • 張三訴李四民間借貸糾紛 (2020) 蘇 0102 民初 1688 號民事判決書;
  • 張三搶劫、強姦、故意殺人案 (2020) 粵刑終 21 號刑事判決書。
這樣的標題不是能以更短的長度交代更多的細節並且不會重複嗎。 Boreas Sawada 2025年12月5日 (五) 06:09 (UTC)[回复]
標題不能原創研究。如果社群同意,我不反對用別稱(即不用編號),但起碼必須是(一)有司法機關文書正式使用,(二)格式儘量統一,(三)歧義儘可能少。—— Eric Liu留言 2025年12月5日 (五) 07:09 (UTC)[回复]
沒有原創研究呀。「張三訴李四民間借貸糾紛」、「︎張三搶劫、強姦、故意殺人案」這類的字眼本來就是來源的標題,是裁判文書網的「正式使用」;我只是提議將案號放入標題,以避免重複——同時,加入案號後不就避免了歧異了嗎。如果您認為一點操作都不能動,那我上面也說了,直接用裁判文書網的標題然後在尾部綴上案號,也即構成「張三訴李四民間借貸糾紛一審民事判決書 (2020) 蘇 0102 民初 1688 號」、「︎張三搶劫、強姦、故意殺人案二審刑事判決書 (2020) 粵刑終 21 號」的形式。Boreas Sawada 2025年12月5日 (五) 07:19 (UTC)[回复]
那本身不構成任何文獻的正式標題,至多是消歧義。我想了半天,也沒想到你這種消歧義方式應該用在哪裡。—— Eric Liu留言 2025年12月5日 (五) 07:23 (UTC)[回复]
任何判決書的字號組合都是唯一,相當容易導航。你這樣組合標題,實際上讀者在網上搜尋效果跟直接用別稱重新導向差不多。在本站,消歧義組合可以有兩種理解,一種是針對同一案件,一種是針對同一法院;前者就如「孙晓龙寻衅滋事刑事判决书」,用字號或級審消歧義,後者就是正規的法院編號方式。—— Eric Liu留言 2025年12月5日 (五) 07:26 (UTC)[回复]
> 任何判決書的字號組合都是唯一
對於大陸地區的裁判文書來說,這不盡然。2016 年之前的編號系統挺亂的,是從 2016 年起才改用現行的制度(儘管如此,仍舊存在一號多書的情況,但,那就屬於在理論之外的錯誤情況,2016 年以後理論上案號已經是唯一的了)。 Boreas Sawada 2025年12月5日 (五) 07:32 (UTC)[回复]
> 你這樣組合標題,實際上讀者在網上搜尋效果跟直接用別稱重新導向差不多。
但是你沒有考量到使用者在本站直接透過分類進行檢索的情況。如果按照您的命名方式,在比如檢索指定年分、檢索指定地區時,看到的就是一堆法院全名+案號,就會造成實際上完全沒有可讀性。我們不能只考量使用者針對特定已知案件透過外部搜尋引擎或者內部搜尋功能搜尋的情況,也要考量直接檢索分類的情況。而就如我所說,只要在標題中綴上案號,那麼即使在分類檢索時,仍舊能夠得知地區、法院、法院層級,並不耽誤獲知法院資訊。換句話說,我提議的命名方式並不耽誤使用者獲知法院資訊,同時還有當事人及案由。您提議的方式等同於把地區、法院、法院層級以不同的方式重複說了兩遍,並且此外再無交代任何其他資訊。 Boreas Sawada 2025年12月5日 (五) 07:43 (UTC)[回复]
暈……
> ︎我不反對用別稱(即不用編號)
我也沒說不用編號啊,我的提議不正是在現有的標題上加上案號嗎?我只是不建議使用「法院+案號」,而是採用「當事人與案由(也即現有標題、來源本來標題)+案號」。「法院+案號]不僅會造成大量的相似標題,而且「法院+案號」的寫法本來就是重複的(案號已含有法院資訊)。 Boreas Sawada 2025年12月5日 (五) 07:51 (UTC)[回复]
就拿你上面的例一來說,該文獻的性質是「沈阳市沈北新区人民法院刑事判决书」,編號「(2019)辽0113刑初350号」,那標題就是「沈阳市沈北新区人民法院(2019)辽0113刑初350号刑事判决书」。網站提到的「孙晓龙寻衅滋事一审刑事判决书」可設為重新導向。如此,文章頁面的Header也方便一一對應,title是沈阳市沈北新区人民法院刑事判决书,發布字號是(2019)辽0113刑初350号,alias是孙晓龙寻衅滋事一审刑事判决书。—— Eric Liu留言 2025年12月5日 (五) 07:17 (UTC)[回复]
對於這種命名方式,我個人絕對無法接受(冗餘[之前提過,案號已經包含了地區、法院、法院層級,因此無須再把地區、法院、法院層級再寫一遍]、不便於分類檢索,且這才是妥妥的原創研究,明明是原始文獻都沒有採用的模式)。之前已經解釋過了,不想多說了。看看別人的意見罷。 Boreas Sawada 2025年12月5日 (五) 07:24 (UTC)[回复]
其實這種命名方式並非原創研究,例如最高人民法院发布2021年中国法院10大知识产权案件和50件典型知识产权案例也是這樣來稱呼這些文書。 SuperGrey留言2025年12月5日 (五) 08:01 (UTC)[回复]
我一開始就說了,這就是大陸地區的司法體系推薦的命名方式,Eric 看到的亂象只是地方法院的文員亂填。正確的命名方式本來就是要以當事人+案由起,那個裁判文書網本來就是大陸的最高法搞的,會亂起名?大陸的最高法向海外發布的由 Springer 出版的參考案例集(分卷出版的實體書)也是用的類似的方式。因此我再說一遍,法院+案號+文書類型才是原創研究,當事人+案由+案號是有多處可查證的傳統。我實在無法理解 Eric 在此事上為甚麼如此拼命反對並堅持非要使用法院+案號的形式。 Boreas Sawada 2025年12月5日 (五) 08:34 (UTC)[回复]
呃呃,您看了我貼的連結嗎?「法院+案號+文書類型」是最高人民法院的寫法,所以不是原創研究。還是討論哪個標題名稱更好吧,不要扯太遠了。 SuperGrey留言2025年12月5日 (五) 08:37 (UTC)[回复]
> ︎title是沈阳市沈北新区人民法院刑事判决书,發布字號是(2019)辽0113刑初350号
對於這一點我必須聲明最最最強烈的反對(而且是我一直以來都強烈反對的),這會造成維基文庫存在成千上萬份 title 為「沈阳市沈北新区人民法院刑事判决书」的文檔,導致這樣的 metadata 完全失去了意義,無法有效檢索。像這樣去填 header, 還有甚麼意義呢? Boreas Sawada 2025年12月5日 (五) 07:27 (UTC)[回复]
維基文庫就是照樣收錄文獻,這本身就是意義。為了方便搜尋自創組合更糟糕。如果堅持不用編號,我看現在SuperGrey錄入的格式,如「严乾能、黄文祥民间借贷纠纷一审民事判决书」,能夠對應來源,倒也顯得妥當,那剩下的就是建立法院編號格式的重新導向,就如Teetrition的提議,以及確認header參數填寫。@Teetrition抱歉有些誤解,我在這方面沒有什麼問題了。—— Eric Liu留言 2025年12月5日 (五) 07:31 (UTC)[回复]
但我還是覺得應該用編號,不僅格式統一、歧義明顯更少,尤其SuperGrey說這樣可以大幅減省他操作的技術成本。—— Eric Liu留言 2025年12月5日 (五) 07:44 (UTC)[回复]
另外你舉出的某些例子固然都有特徵,但其他不少案件俗稱相當普通,用來命名怕是更加糟糕。考慮命名一致原則,統一用法院編號優勢明顯。—— Eric Liu留言 2025年12月5日 (五) 07:48 (UTC)[回复]
不是,您是不是太累了需要休息?我到底甚麼時候反對過填加案號了?我不是一直反對讓法院作為標題的一部份或者讓法院+文書類型作為 metadata 中 title 項的全部內容嗎?
我從頭到尾不都是在說以現有的標題形式填加案號嗎? Boreas Sawada 2025年12月5日 (五) 07:56 (UTC)[回复]
那為什麼不直接用編號形式命名?—— Eric Liu留言 2025年12月5日 (五) 08:01 (UTC)[回复]
header 我贊成認真填寫,裁判文書網原標題要給出,不過放alias也行。至於其他參數要如何填寫,我暫無想法。 SuperGrey留言2025年12月5日 (五) 07:55 (UTC)[回复]
@SuperGrey是否可加from參數?—— Eric Liu留言 2025年12月5日 (五) 07:14 (UTC)[回复]
不要把docId放进from参数,from参数只用于填写文库已有页面的名称,填docId是误用。建议写在notes里,并且可以建立一个模板以便日后调整来源显示的格式。 Midleading留言2025年12月5日 (五) 07:23 (UTC)[回复]
確實,這樣比較妥當。 SuperGrey留言2025年12月5日 (五) 07:30 (UTC)[回复]
對對對,我說的就是notes,抱歉腦袋打結啦。—— Eric Liu留言 2025年12月5日 (五) 07:31 (UTC)[回复]
填入對應的裁判文書網連結? SuperGrey留言2025年12月5日 (五) 07:24 (UTC)[回复]
用一個模板打包生成裁判文書網連結,連結文本寫上裁判文書網網頁的原始標題,網站(裁判文書網),以及訪問日期(如有),參考維基百科的URL引用格式,避免直接暴露URL到頁面中。 Midleading留言2025年12月5日 (五) 07:49 (UTC)[回复]
 支持 此樣式。連結請明示是外部連結,避免誤會是内部跳轉。 Andayunxiao留言2025年12月5日 (五) 08:36 (UTC)[回复]
一般外部連結會有個↗️小箭頭圖標。 SuperGrey留言2025年12月5日 (五) 08:38 (UTC)[回复]
我是指這樣的效果:維基文庫。其他同Midleading所言。 Andayunxiao留言2025年12月5日 (五) 08:43 (UTC)[回复]
是的,就是這個效果。 SuperGrey留言2025年12月5日 (五) 08:51 (UTC)[回复]
我舉一個錄入Header的例子:上海市宝山区人民法院(2021)沪0113民初22405号民事判决书,title「上海市宝山区人民法院民事判决书」,author「上海市宝山区人民法院」(要不要改用noauthor可以討論),type「中华人民共和国民事判决书」,(年月日略),发文字号「(2021)沪0113民初22405号」,alias「民间借贷纠纷一审判决书」。—— Eric Liu留言 2025年12月5日 (五) 08:01 (UTC)[回复]
另外順便看了下,各法院案件別稱命名格式相當不一致啊,目前就至少看到「二审判决书」、「二审民事判决书」、「民事二审案件民事判决书」三種,看著挺不舒服的。—— Eric Liu留言 2025年12月5日 (五) 08:07 (UTC)[回复]
確實。另有一點值得注意 ⚠️:部分法院提供的標題過於糟糕,這些標題如果我們選擇性地不要,需要一個個手動找出來。對於3000篇可能可以找出來一個個改,對於3千萬篇就不好找了。 SuperGrey留言2025年12月5日 (五) 08:10 (UTC)[回复]
一樣,繼續支持統一用法院編號格式。—— Eric Liu留言 2025年12月5日 (五) 08:19 (UTC)[回复]
具體來說:
{{Header
| title = 上海市宝山区人民法院民事判决书
| alias = 民间借贷纠纷一审判决书
| author = 上海市宝山区人民法院
| year = 2021
| month = 10
| day = 9
| location = 上海市
| previous = (前一審,如有)
| next = (後一審,如有)
| type = 中华人民共和国民事判决书
| notes = 自[(網址)中国裁判文书网]錄入
| edition = yes
}}
前後審跟edition看你有沒有辦法填。—— Eric Liu留言 2025年12月5日 (五) 08:19 (UTC)[回复]
@SuperGrey另注意到header模板其實有「案号」參數,但目前顯示效果似乎有問題。—— Eric Liu留言 2025年12月5日 (五) 11:19 (UTC)[回复]
您真的覺得文庫中存在成千上萬份 title 為「上海市宝山区人民法院民事判决书」的文檔沒有任何問題嗎?
至於條目標題部分,如果您覺得「朱建岗诉黄晔玮民间借贷纠纷 (2021) 沪 0113 民初 22405 号民事判决书」過於「原創」,那麼起碼「︎民间借贷纠纷一审判决书 (2021) 沪 0113 民初 22405 号」(也即來源原始標題+案號)要優於「︎上海市宝山区人民法院 (2021) 沪 0113 民初 22405 号民事判决书」(這才是真正的原創標題,[法院名稱+案號+文書類型]的樣式也沒見以標題的形式出現在原始來源中啊)吧? Boreas Sawada 2025年12月5日 (五) 08:25 (UTC)[回复]
看這條:Wikisource:机器人#c-SuperGrey-20251205080100-Chu_Tse-tien-20251205072400,「法院名稱+案號+文書類型」是最高人民法院使用的命名格式。 SuperGrey留言2025年12月5日 (五) 08:26 (UTC)[回复]
就收錄條目標題以及 header 部分的 title 問題我想再次重申一下我的看法:
1. 我從始至終都沒有反對填加案號,恰恰相反,我主張的就是需要往條目標題中填加案號以避免重複
2. 我反對的是將條目標題都寫成「︎瀋陽市瀋北新區人民法院 (2019) 遼 0113 刑初 350 號刑事判決書」的樣式,而是主張寫成「孫曉龍尋釁滋事案 (2019) 遼 0113 刑初 350 號刑事判決書」,後者並非是「原創標題」,而是向出處所給的標題填加案號後形成的。如果認為將案號插在中間不妥(實際上「︎瀋陽市瀋北新區人民法院 (2019) 遼 0113 刑初 350 號刑事判決書」也是將案號插在了中間),我也接受完全使用原始標題,之後綴上案號,也即形成「孫曉龍尋釁滋事一審刑事判決書 (2019) 遼 0113 刑初 350 號」的樣子。
這樣使用者在檢索「一審判決書」「一審刑事判決書」「遼寧判決書」「瀋陽判決書」「瀋楊瀋北新區刑事判決書」「2019 年刑事一審判決書」「遼寧省尋釁滋事案」「2019 年尋釁滋事案」「尋釁滋事案一審判決書」等等的各種分類下,看到的是諸如「孫曉龍尋釁滋事一審刑事判決書 (2019) 遼 0113 刑初 350 號」的標題,而非形如「︎瀋陽市瀋北新區人民法院 (2019) 遼 0113 刑初 350 號刑事判決書」的標題。形如後者的標題讓分類檢索直接失去了意義。而且「︎瀋陽市瀋北新區人民法院」不過是將案號中的「遼 0113」重新說了一遍,沒有提供任何其他資訊。
看到此處,也還請諸位切勿忘記,「孫曉龍尋釁滋事一審刑事判決書」不是「原創標題」,而是「原始標題」,是裁判文書網上使用的標題。因此整個過程不存在任何個人從文書中提取資訊的部分。
3. 我強烈反對將 header 部分的 title 填為「瀋陽市瀋北新區人民法院刑事判決書」,甚至更惡劣的,之前還有人在 header 部分進行格式化排版、寫入格式化原始嗎、加入空格等。header 部分應該填入的是這份文檔的 metadata, 它應當是純文字的,不帶有格式的,這是第一;第二,如果將 header 部分的 title 按照「瀋陽市瀋北新區人民法院刑事判決書」的樣式去填寫,那麼勢必會造成整個文庫中存在有成千上萬份 header 中 title 一欄為一模一樣的「瀋陽市瀋北新區人民法院刑事判決書」的文檔,這就失去了 header 作為 metadata 的意義了。Boreas Sawada 2025年12月5日 (五) 08:16 (UTC)[回复]
最後一點,因為那文獻本來的標題就是「瀋陽市瀋北新區人民法院刑事判決書」,應該照實錄入。編號跟別稱已另有欄位,都不應該填在那裡。一個法院出了很多判決書,並按年編號,是司法運作現實,而維基文庫要反映現實;這並不是什麼「失去意義」,因為其本身就是意義。沒錯,一模一樣的「瀋陽市瀋北新區人民法院刑事判決書」的文檔會很多,但那是因為現實中一模一樣的「瀋陽市瀋北新區人民法院刑事判決書」的文檔就很多(所以予以編號、別稱等,本站亦將照實錄入;標題則以法院使用的正規編號格式整齊命名),反過來說這沒有意義,那是非常無稽。至於有人抓本站頁面的metadata,竟然抓了title而不抓發文字號等其他資訊而導致誤解,那就更是因為他自己不熟悉本站header正確填寫結構的問題,而不是我們維基文庫的問題。當然,如果有不是用「某法院某性質判決書」正式命名的法院文書,那另當別論,但不是這裡討論的重點。—— Eric Liu留言 2025年12月5日 (五) 08:20 (UTC)[回复]
(!)意見 來源的問題,如Chu Tse-tien閣下所言,如果和裁判文書網的公開文本按 docId 抽樣對應良好,則可以假定存檔來源可信。
盡管如此,文庫對來源的要求,實際只是限於「特定版本的作品是否存在」。儘管編者討論常擔憂原始文本被篡改或流傳中變形,但文庫對編者從來沒有不出錯的要求:維基文庫的「維基」部分,即是人人參與校對,而不是一人錄入,無人可以校對。
另外,文庫不是網路存檔,儘管這是很多編者參與文庫的目的。我支持編者以各種動力參與,但是文庫自己的結構和使命決定我們不能成爲網路存檔。數字文本極易修改,這不是新聞。無論人類還是機械人錄入本站,都無法證明作品原貌如此。因此個人認爲文庫編者不要「自證可靠」,想要可信存檔的編者,應轉用其他專案。 Andayunxiao留言2025年12月5日 (五) 09:28 (UTC)[回复]
我建議SuperGrey可以先做個調查,看看使用【裁判文書網原始標題】,或者【裁判文書網原始標題 (年份)】,或者【裁判文書網原始標題 (年份+法院名稱)】這樣的保留裁判文書網原始標題 (維基文庫消歧義風格)的命名方法(在該全量文書檔中)會有多少重複,如果重複數量不太多,完全可以建立消歧義頁例外處理,如果【裁判文書網原始標題 (年份+法院名稱)】、【裁判文書網原始標題 (年月+法院名稱)】已經是唯一的,直接使用亦無不可。 Midleading留言2025年12月6日 (六) 03:43 (UTC)[回复]
從先前匯入的文書來看,目前比率是相當小的,我也確實建立了版本頁(類似 消歧義頁?)來例外處理。
至於 @Ericliu1912提出的直接以文書編號作為標題,您覺得不必考慮了? SuperGrey留言2025年12月6日 (六) 07:23 (UTC)[回复]
我認為裁判文書網原始標題似乎更適合作為標題,而且法院並未把文書編號看做判決書的標題,只是判決書的編號。至於是不是可以完全排除文書編號作為標題,我尊重上傳者的決定。 Midleading留言2025年12月6日 (六) 08:28 (UTC)[回复]
消歧義來說,應該用日期甚至月份就足夠。不過還要考慮人物全名是否曾被改動的問題。—— Eric Liu留言 2025年12月6日 (六) 08:15 (UTC)[回复]

簽名模板

[编辑]

可製作簽名模板以簡化機械人錄入。因閣下來源是HTML,應盡量考慮貼近來源的結構,避免產生錯誤。用例:{{判決書簽名|title1=|name1=|title2=|name2|date1=|title3=|name3=}},用位置參數亦可。Andayunxiao留言2025年12月5日 (五) 08:50 (UTC)[回复]

不要用帶名字的參數了,就序號1、2、3接下去就好。{{裁判文書簽名|審判長|某某某|審判員|某某某|審判員|某某某|書記員|某某某}}
不過還要考慮日期要插入在哪裡。或許還是不要規定格式比較好。
{{裁判文書簽名|
審判長:某某某
審判員:某某某
審判員:某某某
日期
書記員:某某某
}}

然後讓 Lua 模組來處理格式? SuperGrey留言2025年12月5日 (五) 08:52 (UTC)[回复]
是的,我不瞭解裁判文書的格式,日期如果不是固定為倒數第二項,仍需指定位置。可選效果如|padding=允許人名兩段對齊。如閣下所聲請,應先確定參數,避免遺漏例外。後續再調整樣式。可協助開發。 Andayunxiao留言2025年12月5日 (五) 08:56 (UTC)[回复]
感謝您。您做的印章{{seal}}模板很精美 👍。 SuperGrey留言2025年12月5日 (五) 09:01 (UTC)[回复]
日期不一定是倒數第二項,也有可能是倒數第三項(書記員有兩人的情況)、出現「法官助理」落下的情況等等。理論上倒數第四項說不定都是可能的。
另外前面也不是固定三個,且也不一定是審判長、審判員、審判員;可能是審判長、人民陪審員、人民陪審員;審判長、審判員、人民陪審員;審判長、審判員、審判員,人民陪審員、人民陪審員(也即多於三人的情況,這種非常少見);也有少於三人的情況(簡易或速裁程序)。
(此外速裁程序的判決書好像還有那種一張表格的格式(整張判決書是一張畫有輪廓的表格,我只有在看守所裡有過一面之緣,記不清了),總之如果真處理起來可能例外超多的。) Boreas Sawada 2025年12月5日 (五) 09:05 (UTC)[回复]
有的,部分法院有這樣的文書。我之前半自動上傳了6000篇文書(用的是別處的品質較差的數據),有遇到3篇這樣的。 SuperGrey留言2025年12月5日 (五) 09:08 (UTC)[回复]
是吧,哈哈,速裁的真的超級少見。簡易已經很不容易了。速裁只有那種非常小額的竊盜案件(比如在商場裡偷了一件衣服)才有可能。當時在監室裡看到獄友拿回來一張表,超稀奇的。 Boreas Sawada 2025年12月5日 (五) 09:18 (UTC)[回复]
可以就判決書、裁定書等不同體系單獨開發多個模板——文庫并未限制——如果參數位置不統一的話:只要機械人前期能判別即可。這是申請機器人需要的準備工作,畢竟沒有人希望機械人出錯。 Andayunxiao留言2025年12月5日 (五) 09:09 (UTC)[回复]
沒必要開發多個模板。格式還是比較固定的。位置不統一應該可以用 Lua 模組來解決。 SuperGrey留言2025年12月5日 (五) 09:12 (UTC)[回复]
翻了一下保存的一些判決書,像是簡易程序、獨任審判的就可見如下這般的:
審判員 XXX
日期
書記員 XXX
---
審判員 XXX
日期
法官助理 XXX
書記員 XXX
其他的案子則大抵有類似:
審判長 XXX
審判員 XXX
審判員 XXX
日期
法官助理 XXX
書記員 XXX
---
審判長 XXX
人民陪審員 XXX
人民陪審員 XXX
日期
法官助理 XXX
書記員 XXX
空空空 XXX
---
審判長 XXX
審判員 XXX
人民陪審員 XXX
日期
書記員 XXX
書記員 XXX
請注意像是兩個書記員的情況時,有時第二個書記員名字前面是空白,它跟上一個書記員對齊。
再就是法官助理(對應的在起訴書裡還有「檢察官助理」)在以前叫做「助理 XX」(助理審判員、助理檢察官),那時候他們在日期上面。 Boreas Sawada 2025年12月5日 (五) 09:16 (UTC)[回复]
技術上,一般需要兩端對齊,不對齊反而比較少見。日期可以出現在簽名中的任何位置,也可以不出現。左側的職位名兩段對齊,右側的人名也兩端對齊。有的文書會把第二個審判員的職務略去(留空),故也要支援職務留空的情況。 SuperGrey留言2025年12月5日 (五) 09:06 (UTC)[回复]
應該是直接用「|審判長=某某某|書記員=某某某」這樣?還是說這樣會增加錄入成本?—— Eric Liu留言 2025年12月5日 (五) 09:43 (UTC)[回复]
技術上,可見文本一般不要作爲參數名:模板不能得知自己的參數名,要顯示審判長文本,仍要在模板内硬寫入{{#if {{{審判長1}}} | 審判長 {{{審判長1}}} | }}。也就説,參數名用什麽都是等效的。 Andayunxiao留言2025年12月5日 (五) 10:01 (UTC)[回复]
而且原文本不一定會把審判長放在審判員前面(只是打個比方)。還是不設順序為好。 SuperGrey留言2025年12月5日 (五) 10:09 (UTC)[回复]
我覺得讓錄入者自己決定就好了,其他人只是提一些建議,並沒有涉及是否要批准這個機器人申請。 Midleading留言2025年12月5日 (五) 10:01 (UTC)[回复]
錄入時要不要subst?還是把模板留在頁面中?—— Eric Liu留言 2025年12月5日 (五) 09:41 (UTC)[回复]
可能不 subst 是恰當的,因爲這樣允許錄入後再改變樣式。 Andayunxiao留言2025年12月5日 (五) 10:04 (UTC)[回复]

分類問題

[编辑]

分類如何錄入需要商榷。過度分類(尤其是結合年份)可能導致分類無端以千萬甚至億計,而且逐年增加,難以長期維護(參見此處範例)。必須減少性質(年、層級、法院、領域、文書性質)交叉分類,並儘可能將年份向上推。—— Eric Liu留言 2025年12月5日 (五) 09:45 (UTC)[回复]

分類遵循現有Header模板的自動分類即可,如果需要討論也應該是討論Header模板如何自動分類。三千萬篇文章理應有數十萬個或更多分類。 Midleading留言2025年12月5日 (五) 09:59 (UTC)[回复]
我剛剛琢磨了一下,錄入時用「|type = 中华人民共和国民事判决书」、「|theme = 广东省深圳市中级人民法院民事判决书」怎麼樣,這樣把年份層級往上提。其他分類再看。—— Eric Liu留言 2025年12月5日 (五) 10:26 (UTC)[回复]
可以考虑同步创建Wikidata项目? dringsim 2025年12月5日 (五) 11:21 (UTC)[回复]
3千萬個頁面,佔Wikidata當前總頁面數的 25%。 SuperGrey留言2025年12月5日 (五) 11:27 (UTC)[回复]
只要符合任何维基项目收录方针收录到主命名空间的页面,都可以收录到维基数据,所以只把已经收录到维基文库的页面收录维基数据就行。 Midleading留言2025年12月5日 (五) 12:01 (UTC)[回复]
我打算先把XsLiDian在文庫跟共享資源濫建的分類清理完以後再來考慮。—— Eric Liu留言 2025年12月5日 (五) 12:10 (UTC)[回复]

既有的判决书

[编辑]

目前维基文库已经有超过5000篇判决书,一是命名没有统一,目前有的命名格式是:

刑事判决书也有几种格式:

加粗的几种格式比较常见。如果确定了文章如何命名应该考虑把所有已有文章名称都统一成一种格式。

另外有不少文章在header的“案号”字段填了文书编号,这个是否需要使用?--GZWDer留言2025年12月6日 (六) 05:59 (UTC)[回复]

我上傳的基本以文書網檔案標題為條目名,故:並非命名格式有差異,而是各法院本就沒有統一的命名格式。
header 中如果填文書編號,則title也要改成兩行形式以「模仿文書原格式」。而如果title使用文書網檔案標題,則不宜再填文書編號,除非將這一欄位隱藏。 SuperGrey留言2025年12月6日 (六) 07:27 (UTC)[回复]
我依然認為錄入格式應該如此@SuperGreyHeader純粹是提供資訊,不需要「模仿文書原格式」,因為從你實際錄入的格式來看,本文開頭已經照錄。現在有些頁面直接在Header排版(比方說GZWDer提到的第一例),那並不好。—— Eric Liu留言 2025年12月6日 (六) 08:09 (UTC)[回复]
统一命名格式时还需考虑并非来自裁判文书网的文书,例如:
dringsim 2025年12月6日 (六) 09:11 (UTC)[回复]

錄入規模

[编辑]

此機械人請求在一年内建立 3 千萬新作品頁面,這個規模和速度對文庫合適嗎?文庫歷20年,不過才不足50萬作品頁面,所有頁面僅不足117萬。

根據元維基資訊:按大小排名的維基媒體,和 wmcloud.org 上的 統計, 3 千萬作品頁的規模,超過英文維基詞典和英文維基百科,沒有哪個分語言維基專案可與比肩。

事實上,此文書庫的 GitHub 頁面標明,全部文書(8.5千萬)的壓縮檔達 102 GB,如取一半,也有超過50GB。作爲比較,英文維基百科最近的作品頁 data dump 僅 24.0 GB,全部頁面的最後版本也才 41.9 GB [1],而中文維基文庫的這兩種 data dump 僅 2.4 GB [2]。從作品頁數和壓縮檔大小比較,都可以估計此裁判文書庫( 3 千萬)的容量是維基文庫的20-60倍。

進一步,就編輯次數而言,本地月均編輯 10 千,英文維基百科月均 5百萬 [3],此機械人請求1次/秒,則月均2.59百萬次,約相當於英文維基百科的一半編輯次數。

我認爲顯然的是,文庫沒有能力接收這樣一份厚禮。本地社群不足維護20-60倍的頁面擴充。如此擴充,將永久改變中文維基文庫的專案使命,讓本地事實上成爲裁判文書網的鏡像站。讀者、社群、大語言模型訓練者,都將不得不學會如何識別、分離本地的非文書内容和文書内容。不僅各語言維基文庫沒有類似的機械人批量錄入(例如,英文文庫沒有自動導入聯合國公有文件,公有領域的紐約時報,以及PACER 資料庫,後者的資料檔只會更大) ,各個維基媒體也沒有這種以單一貢獻者產生95%以上新頁面,以致規模超過同期所有語言專案的紀錄。

如此大規模、大比例擴充的不可取消的自動錄入,需要社群充分討論和更廣的共識,甚至投票。Andayunxiao留言2025年12月6日 (六) 08:08 (UTC)[回复]

是否可能先選出重要裁判,斟酌錄入?—— Eric Liu留言 2025年12月6日 (六) 08:10 (UTC)[回复]
編者適量地自行篩選錄入,勝過包括全部或隨機亂數選擇,因爲含有人的因素的篩選和偏好是有意義的:這對應著百科所謂的 Notability。本地對人類編者不要求 Notability,我以爲,是認爲人類編者選擇錄入的作品都自動滿足Notability 要求。 Andayunxiao留言2025年12月6日 (六) 08:20 (UTC)[回复]
我认为所有裁判文书都当然地符合收录标准dringsim 2025年12月6日 (六) 09:14 (UTC)[回复]
贊同。當前的收錄標準沒有對錄入的數量做限制。不過數量過大,我還是期待社群能夠明確恰當的格式和錄入範圍(如,依我提出的範圍,只錄入「判決書」),我再開始。這樣不至於以後難以維護。 SuperGrey留言2025年12月6日 (六) 10:10 (UTC)[回复]
例如,英文文库没有自动导入联合国公有文件,公有领域的纽约时报,以及PACER 资料库,后者的资料档只会更大我想这可能只是单纯缺人做而已。 dringsim 2025年12月6日 (六) 09:16 (UTC)[回复]
“公有领域的纽约时报”——最大的问题是95年前的文档大部分都只有扫描版,需要手工proofread。 GZWDer留言2025年12月6日 (六) 09:23 (UTC)[回复]
不反对进一步投票甚至请示WMF,但维基文库这种纯粹收集整理自由文本(——尤其是考虑到上面对于忠于来源格式的讨论)的使命与镜像站又有多少差异呢? 内存溢出的猫留言2025年12月6日 (六) 09:35 (UTC)[回复]
而且比镜像站好的地方是这些东西能被内部搜索引擎和Google搜索到,相比之下裁判文书网和caseopen.org之类地方的内容是不会被搜索引擎索引的(随便一个Google例子,用相同的关键词你用百度或者搜狗也搜不到文书)。 GZWDer留言2025年12月6日 (六) 09:48 (UTC)[回复]
不急,我會等到社群充分討論、達成共識後再開始正式錄入。 SuperGrey留言2025年12月6日 (六) 10:06 (UTC)[回复]

管理员提名

[编辑]

管理員解任投票

[编辑]

其他投票

[编辑]