维基文库:机器人
| 本页是中文维基文庫的方针,經社群商議並採納。 本方针为维基编者广泛接受,是所有人应該遵从的标准。欲修改本页面,请务必确认您的修改反映共识。 如果不确定,请先在本页的讨论页或寫字間發起讨论。 |
| ←Wikisource:投票 | 机器人 | /存档→ |
- en: Requests for the bot flag should be made on this page. This wiki uses the standard bot policy, and allows global bots and automatic approval of certain types of bots. Other bots should apply here below. This site has no bureaucrat, so please ask stewards to approve bots.
目前共有23隻機器人。
机器人提议
[编辑]如果您希望那些功能机器人的实现会对维基文庫有助,可以在下面提出,大家也可以讨论是否支持这种机器人的出现,机器人的制造者们也有可能会考虑去实现您的设想。
- 有关分类:全国人民代表大会常务委员会的决定,目前这些文献基本上挂的都是{{中华人民共和国法律}}。但依据《全国人民代表大会常务委员会关于修改《中华人民共和国义务教育法》等五部法律的决定》,全国人大常委会的决定是“有关法律问题的决定”而并非法律,申请将这些使用了{{中华人民共和国法律}}的文献更换为{{PD-PRC-exempt}}。——红渡厨(留言) 2022年12月21日 (三) 06:03 (UTC)
- (:)回應已就此问题在写字间新开话题,欢迎各位到维基文库:写字间#有关分类:全国人民代表大会常务委员会的决定的版权模板修改进行讨论。——红渡厨(留言) 2023年1月6日 (五) 15:21 (UTC)
- Index:SSID-14623716 正音咀華.pdf(File:SSID-14623716 正音咀華.pdf)因爲文件刪除已損壞,內容需要移動到Index:SSID-14623716 正音咀華 正音咀華續編.pdf(File:SSID-14623716 正音咀華 正音咀華續編.pdf)。Fish bowl(留言) 2024年1月31日 (三) 03:15 (UTC)
- @Fish bowl:已經移動。—— Eric Liu(留言) 2025年4月28日 (一) 18:41 (UTC)
- 謝謝,但還有Page:的內容呢……Fish bowl(留言) 2025年4月28日 (一) 23:55 (UTC)
- 也移了。—— Eric Liu(留言) 2025年5月22日 (四) 12:21 (UTC)
- 新頁碼有偏移,页面:SSID-14623716 正音咀華 正音咀華續編.pdf/151應該是页面:SSID-14623716 正音咀華 正音咀華續編.pdf/1…………Fish bowl(留言) 2025年5月23日 (五) 05:34 (UTC)
- 那頁原本就是第151頁(請見編輯歷史),我沒有改動。若確有頁面需要改動,請整理後一併告知。—— Eric Liu(留言) 2025年5月23日 (五) 17:01 (UTC)
- 「那頁原本就是第151頁」是呢,這就是我爲什麼來「機器人」頁拜託………… Fish bowl(留言) 2025年5月23日 (五) 19:49 (UTC)
- 新影印文件去掉了原文件的前150頁,見commons上的刪除討論,故和原錄入page頁面不合。可查證如原375頁錄入文字對應現225頁影印内容。按Fish bowl 閣下請求,可將已建的校對頁中的第x頁移到第x-150頁。 Andayunxiao(留言) 2025年5月24日 (六) 04:31 (UTC)
- @Andayunxiao:那我晚點看看。不過這應該是可以提前告知的⋯⋯🥹 —— Eric Liu(留言) 2025年5月24日 (六) 12:42 (UTC)
- @Fish bowl、Andayunxiao:好啦(雖然全都要手動移動,還剛好碰上管理員續任申請,花了不少精力XD),請再幫忙看看有沒有手滑的地方。—— Eric Liu(留言) 2025年6月18日 (三) 01:12 (UTC)
- 辛苦了,謝謝。🙇Fish bowl(留言) 2025年6月21日 (六) 22:57 (UTC)
- :) —— Eric Liu(留言) 2025年6月22日 (日) 10:32 (UTC)
- 辛苦了,謝謝。🙇Fish bowl(留言) 2025年6月21日 (六) 22:57 (UTC)
- 那頁原本就是第151頁(請見編輯歷史),我沒有改動。若確有頁面需要改動,請整理後一併告知。—— Eric Liu(留言) 2025年5月23日 (五) 17:01 (UTC)
- 新頁碼有偏移,页面:SSID-14623716 正音咀華 正音咀華續編.pdf/151應該是页面:SSID-14623716 正音咀華 正音咀華續編.pdf/1…………Fish bowl(留言) 2025年5月23日 (五) 05:34 (UTC)
- @Fish bowl:已經移動。—— Eric Liu(留言) 2025年4月28日 (一) 18:41 (UTC)
机器人注册
[编辑]請注意Wikisource:投票#各式投票資格。IP用戶可發言,不可投票。
#{{支持}}~~~~ #{{中立}}~~~~ #{{反对}}~~~~
用于导入公有领域文本。目前计划有《人民日报》(至1973年)。--虹易(留言) 2023年5月13日 (六) 13:17 (UTC)
- 请先导入3篇以便评价。 Midleading(留言) 2023年5月13日 (六) 16:11 (UTC)
- @Midleading:方才已上传三篇,请见贡献。原本计划一个文章对应一个页面,再通过嵌套/包含的方式创建每日、每月或更大范围的总览。但是考虑到此种方式会产生约数十万页面(文库总内容页面不过数百万),所以目前计划按一日对应一个页面。另外,每月、每年生成一个标题列表作为独立页面。再生成一个日期列表置入报纸主页。不知是否有更合适的方式。若有各方面建议,敬请不吝赐教。--虹易(留言) 2023年5月17日 (三) 14:31 (UTC)
- 维基文库目前的做法是一个文章对应一个页面。目前维基文库已经有相当多的人民日报文章被录入了,如果按一个文章对应一个页面的方法录入,可能需要检查是否与现有文章重复。现在整体录入的方式也存在没有明确版权信息、没有标注作者等等问题。 Midleading(留言) 2023年5月17日 (三) 14:58 (UTC)
- @Midleading:凡是有署名的文章,作者都已一并加入页面头部。关于版权问题,计划是一律使用{{PD-China-Organization}}。请问是否可行?--虹易(留言) 2023年5月18日 (四) 01:22 (UTC)
- 有署名的文章一般不能适用{{PD-China-Organization}}。每篇文章的署名作者标注样式建议使用模板,如{{署名}}等。Midleading(留言) 2023年5月23日 (二) 06:31 (UTC)
- 注意:现行著作权法规定报社工作人员创作的职务作品,作者仅享有署名权,其余权利归报社所有。 曾晋哲(留言) 2024年12月4日 (三) 18:53 (UTC)
- 报纸刊登的文章不都是报社工作人员创作的作品,也有很多投稿作品和领导人个人作品和讲话。 Midleading(留言) 2025年5月20日 (二) 15:42 (UTC)
- 注意:现行著作权法规定报社工作人员创作的职务作品,作者仅享有署名权,其余权利归报社所有。 曾晋哲(留言) 2024年12月4日 (三) 18:53 (UTC)
- 有署名的文章一般不能适用{{PD-China-Organization}}。每篇文章的署名作者标注样式建议使用模板,如{{署名}}等。Midleading(留言) 2023年5月23日 (二) 06:31 (UTC)
- @Midleading:凡是有署名的文章,作者都已一并加入页面头部。关于版权问题,计划是一律使用{{PD-China-Organization}}。请问是否可行?--虹易(留言) 2023年5月18日 (四) 01:22 (UTC)
- 维基文库目前的做法是一个文章对应一个页面。目前维基文库已经有相当多的人民日报文章被录入了,如果按一个文章对应一个页面的方法录入,可能需要检查是否与现有文章重复。现在整体录入的方式也存在没有明确版权信息、没有标注作者等等问题。 Midleading(留言) 2023年5月17日 (三) 14:58 (UTC)
支持--維基小霸王(留言) 2024年1月20日 (六) 01:00 (UTC)
支持,不過應先整理本站收錄該報既有內容。—— Eric Liu(留言) 2024年2月5日 (一) 18:18 (UTC)
@虹易、Midleading、維基小霸王:似乎已有共識?—— Eric Liu(留言) 2025年4月28日 (一) 18:43 (UTC)
- @Ericliu1912:我不知道以何种形式组织为好。如果一篇文章对应一个页面,大概会产生约数十万页面。是否合适?另外,如Midleading所说,与现有文章的重复如何处理也是问题。--虹易(留言) 2025年4月29日 (二) 10:53 (UTC)
- @虹易:中文文本的豐富,我們理當歡迎。我想社群最關心的,還是基礎分類及格式維基化事宜能否做好。或許您可以先選擇現有資料匱乏的幾年或幾個月測試,再不然就嘗試產生個預備清單讓社群檢視似乎也行?—— Eric Liu(留言) 2025年4月29日 (二) 12:16 (UTC)
- 單篇文章對應單個子頁(即如
人民日报/1946年/05月/15日/文章名)有利於長期維護。如按日期合并,每日頁面如一時不能全錄入(版權等理由),會長期(以十年計)處於未完成、可添加内容的狀態,不利校對,保護,也容易品質劣化。 Andayunxiao(留言) 2025年5月1日 (四) 08:14 (UTC)
见Wikisource:写字间#建议文库也导入网页存档机器人和phab:T371655. --沈澄心✉ 2024年8月2日 (五) 02:29 (UTC)
支持。—— Eric Liu(留言) 2024年8月9日 (五) 15:24 (UTC)
- @沈澄心:這個好像沒啥進度。—— Eric Liu(留言) 2025年12月5日 (五) 12:11 (UTC)
- (+)强烈支持。——内存溢出的猫(留言) 2025年12月6日 (六) 09:41 (UTC)
支持,雖然沒什麼用——IABot 那邊已經沒人在管了。——SuperGrey(留言) 2025年12月6日 (六) 09:54 (UTC)
申請註冊機械人,用於全自動匯入中國裁判文書網文書。此次,caseopen.org 維護者向維基文庫捐贈了 2013 年–2024 年 10 月間以 HTML 格式存儲的全量文書檔(向其表示衷心的感謝),內容爬取自中國裁判文書網 HTML 原始碼。這些 HTML 檔完整地保留了中國裁判文書網文書(「上網稿」)的形態(包括 OCR 錯字😄),不須人工處理,故此次申請批准機械人註冊,用於全自動、高速匯入這些文書到本站。機械人配置原始碼位於此倉庫。
預覽檔3篇:Special:Permalink/2628206、Special:Permalink/2628207、Special:Permalink/2628208,已由本人帳戶匯入。
批次方案:
- 機械人運行測試1:2024 年 10 月前 50 篇判決書(10 秒/篇)
- 機械人運行測試2:2024 年 10 月前 51~200 篇判決書(10 秒/篇)
- 第一批次:2024 年 10 月共 269052 篇判決書。(3 秒/篇,預計 10 天)
- 第二批次:2024 年預計 250 萬篇判決書。(1 秒/篇,預計 1 個月;或基於實際速率限制調整)
- 第三批次:其餘判決書預計 3 千萬篇。(1 秒/篇,預計 1 年;或基於實際速率限制調整)
- 其餘文書(如裁定書、通知書等,佔 2/3)是否匯入,尚待評估。
就此方案申請社群批准。
此外,文檔格式(包括 {{header}}、{{签名}}、{{印}} 等)亦提請社群討論,現在還可以隨便改,第一批次開始運行後就不好改了😂。會在文檔格式討論完畢後再開始測試。--SuperGrey(留言) 2025年12月5日 (五) 02:29 (UTC)
支持:同时是否考虑按照如【北京市朝阳区人民法院(2025)京0105民初12345号民事判决书】的格式创建重定向?Teetrition(留言) 2025年12月5日 (五) 02:34 (UTC)
- 好啊。如果社群希望建立這些重定向,我就建立。 SuperGrey(留言) 2025年12月5日 (五) 02:41 (UTC)
- 反对建立这样的重新转向,而是过去此类标题应按照新标题模式进行重新转向。一是过去的标题模式完全看不出案件是个什么东西,二是无论是裁判文书网官网,还是北大法宝,还是哪怕由 Springer 代为出版的最高法选定的那些参考判决书,都是能够从标题中看出案件内容的。如果再补充一点私人材料的话,我们十几年前给 LexisNexis 整理判决书的时候也是用的类似的标题(既:刑事类:张三、李四甲罪名、乙罪名一审/二审判决/裁定书;民事类:张三、李四诉王五、赵六甲纠纷、乙纠纷一审/二审判决/裁定书这样)。法院+文书编号的方式其实非常不利于检索,没有人能从法院+文书编号作为标题的一堆列表中找到需要的文书。因此建议将旧格式向如今的格式进行重新转向。Boreas Sawada 2025年12月5日 (五) 05:11 (UTC)
- 我只是提议案号格式仅仅作为重定向(标题仍为阁下提议的格式),这能够帮助用户直接按照案号检索到内容,很多时候也确实有这种需求,而且这种格式是唯一的。反倒是用当事人+案由+审级+文书类型的格式反而不唯一,很可能根据脱敏与否、脱敏程度与否产生变化,比如一个人引注写李小明,一个人写李某明,一个人写李某某,裁判文书网又写李某。 Teetrition(留言) 2025年12月5日 (五) 05:24 (UTC)
- 那我 OK 啊。针对您举例的情形,那么,既然是从裁判文书网往这边传,那就裁判文书网写什么我们就怎么写就好了嘛。作为一个曾经常年整理这东西的人来说,我也知道您说的那种情况,有很多在裁判文书网上都前后不一致,甚至标题与正文都不一致,这种情形的确存在很多。Boreas Sawada 2025年12月5日 (五) 05:28 (UTC)
- 我只是提议案号格式仅仅作为重定向(标题仍为阁下提议的格式),这能够帮助用户直接按照案号检索到内容,很多时候也确实有这种需求,而且这种格式是唯一的。反倒是用当事人+案由+审级+文书类型的格式反而不唯一,很可能根据脱敏与否、脱敏程度与否产生变化,比如一个人引注写李小明,一个人写李某明,一个人写李某某,裁判文书网又写李某。 Teetrition(留言) 2025年12月5日 (五) 05:24 (UTC)
一般討論
[编辑]一個小細節:大陸地區法院中的「裁定書」其實很多也很重要的,因為如果二審不開庭審理的話,就是一紙裁定書了事。而且有些案子的一審判決書已經消亡了,但是二審裁定書卻得以保存,因此二審裁定書成了瞭解該案的唯一途徑。
至於是否應傳至維基文庫,我持中立態度。因為那個庫我碰巧知道它真的是真的,連當初那些在裁判文書網上只有案號卻沒有內容(「人民法院認為不宜在網際網路公開的其他情形」云云)的案子都能查得到。而且它也有提供原始連結的 docId (並且都是對的, 包括「不宜在網際網路公開」的空白 docId 都能對得上), 因此真實性是無疑的。
但問題是,你知道它是真的,我知道它是真的,可是沒有人能夠證明它是真的。如果有人發起「無可靠來源」挑戰的話,是很容易集體 strike 掉的。
Boreas Sawada 2025年12月5日 (五) 05:24 (UTC)
- 行,那我把「裁定書」也加入上傳,不過批次可能排在第三批次後面。
至於已下架文書,我尊重 caseopen.org 提供的 HTML 資料的完整性(在 HTML 層面,亦有多重跡象證明其真實性),會一併上傳。如果有人要來挑戰,那我相信社群給出的判斷也會是保留。 SuperGrey(留言) 2025年12月5日 (五) 05:56 (UTC)- 沒問題,我整體上當然是傾向支持的。只是預先擔心起了這麼大的工程最後被人給幹掉了會難免讓人不甘心。(我知道那個庫超級大~)另外標題部分還請您以及社群考量我在下方提出的建議,以抓取裁判文書網本身提供的當事人加案由部分作為標題前半,然後補充案號來防止重複,最後補上文書類型來構成完整標題的形式。(既然您會寫機器人,那麼大抵電腦技術很是了得,因此做起來應該不難,民事類就切到最後一個「糾紛」,刑事類就切到最後一個「案」/「一案」或者「罪」;或者如果覺得把案號加在中間太過麻煩,也可以考慮直接用裁判文書網給的標題然後綴上案號即可。不綴案號的話會有大量的重複,是沒法用做標題的。)
- 另外我有留意到您一開始說「︎(包括 OCR 錯字😄︎︎)」……其實……那不是 OCR 錯字,那就是……原始文書上的錯字。大陸地區的裁判文書其實非常不嚴謹,別字很常見,有的時候一份判決書裡別字實在太多,會後續給你換一份(但是「改正版」裡可能仍有別字!),但大多數時候別字就那麼放著,不改了。有的別字可能是從最初的提請批捕書(刑事案件)裡一路複製黏貼到最後的判決書~然後還有各種病句、語焉不詳的句子、錯誤的事實細節、錯誤的法條引用(引用到完全不存在的法條或者牛頭不對馬嘴的法條)等等,這些不是「上網版」才有的問題,而是正式版裡就有的問題。Boreas Sawada 2025年12月5日 (五) 06:41 (UTC)
- 此外關於文檔格式部分,我覺得目前的 header 很好,摒棄了很久之前在 header 裡搞排版(甚至是拿空格來搞)的陋習。
- 對於「印」,我個人傾向於不加。因為我們的來源上是沒有印的。是的,在真正列印出來的裁判文書上肯定是有印的,但是我們的來源,裁判文書網上的頁面上,是沒有印的,那麼既然我們的來源是裁判文書網,因此也不應該加上那個「印」。在我既往的人工錄入中,我也是這麼做的,凡是來源是裁判文書網的,就不加印。凡是有照片照到實物的,我才會畫一個印上去,並且會努力做到畫得跟原印相像,包括外圈的圓環粗細、內字的粗細、字寬、字間距以及旋轉的角度等都會努力模仿。
- 至於「簽名」那裡,其實真實的判決書上並非是整塊在右邊然後文字自行居中對齊,而是……我也不好描述,就是那種公文的樣式,左邊一列兩邊對齊,右邊一列兩邊對齊那樣,這一點裁判文書網上也大多予以了維持,因此如果一定要模仿到位的話,可以試著專門做一個用於文書的模板。
- 當然,一切的一切都基於一個難點就是:如果有人讓你證明來源為甚麼可靠,那要怎麼辦。 Boreas Sawada 2025年12月5日 (五) 05:41 (UTC)
- 簽名或許還是專門做一個模板比較好,方便機械人填寫。印章也可以去掉。
我3篇預覽檔的編輯摘要寫得不好。可以從 wsKey 中推出原始連結,在前面加上https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=即可。所以對於絕大多數文書,通過此連結可以查看原文(少數如您所言,可能下架了)。我之後會在編輯摘要裡標出連結。 SuperGrey(留言) 2025年12月5日 (五) 06:01 (UTC)- 是的,這就是我所說的那個庫絕對可信的原因之一,它連很多下架乃至從來沒有公開過全文的 docId 都是對得上的。我對那個庫是沒有任何疑慮的,只是擔心有人會發起可靠來源挑戰,耽誤了大家的一片功夫。
- 這個連結放到編輯摘要,或者文書篇目的討論頁,或者直接註在文書篇目的最後,我覺得都可以。不過儘管如此,還是可能會有人發起可靠來源挑戰。因為裁判文書網在 2021 年發生過大滅絕事件,有很多敏感罪目的文書是整個分類整個分類地移除——這本身就是那個庫存在的原因,然而估計也會是那些預備發起挑戰之人的內心理由。Boreas Sawada 2025年12月5日 (五) 06:18 (UTC)
- 如果一手來源「裁判文書網」沒有印章,那麽無須包括。如果需要可以另製印章模板以錄入印章的文本。現有的{{印}} 其實效果不佳,也需要維護(如,去掉繁複的分類功能)。 Andayunxiao(留言) 2025年12月5日 (五) 08:40 (UTC)
- 簽名或許還是專門做一個模板比較好,方便機械人填寫。印章也可以去掉。
- 應該用編號為標題,俗稱為重新導向吧?—— Eric Liu(留言) 2025年12月5日 (五) 05:42 (UTC)
- 強烈反對。理由請見前述。此外,大陸地區的裁判文書網自己就是這麼命名的,請參見這些當年直接從裁判文書網上列印下來的 PDF 檔:例一、例二、例三、例四、例五等等。 Boreas Sawada 2025年12月5日 (五) 05:52 (UTC)
- 阁下说的“俗称”也就是我说的“当事人+案由+审级+文书类型的格式”不适合作重定向,理由亦见上述(李小明、李某明、李某某、李某),几乎难以有人能精准按本站收录的“俗称”直接打出来,进而重定向几乎失去了意义。 Teetrition(留言) 2025年12月5日 (五) 06:09 (UTC)
- 搜尋引擎能搜到就好。這種類型的文獻,用什麼標題都不可能輕易打出來,所以不是正當理由。況且既然都打不出來,那當然應該選用結構較嚴密的編號格式。—— Eric Liu(留言) 2025年12月5日 (五) 07:10 (UTC)
- 我考虑的是作为一般读者会更喜欢哪种——比如,在百科使用模板链入原始文献时,可能当事人+案由更有助于一般读者。尚不清楚是否有律师等群体会对编号更感兴趣 内存溢出的猫(留言) 2025年12月6日 (六) 09:39 (UTC)
- 非常抱歉,剛才沒有認真看 ︎SuperGrey 給出的標題格式。
- 不得不說,現今的標題格式是不行的,會有大量重複。因此建議採用「當事人+案由+案號+文書類型」的形式。
- 我強烈反對以法院全名+案號+文書類型的方式命名,不僅是因為一、不便於檢索;二、原始來源便已有當事人+案由的標題;以及還有一點是因為:三、案號本身即可看出法院全名、法院級別+審級,因此在標題中加入法院全名完全沒有必要。
- 諸位試看,
- 張三訴李四民間借貸糾紛 (2020) 蘇 0102 民初 1688 號民事判決書;
- 張三搶劫、強姦、故意殺人案 (2020) 粵刑終 21 號刑事判決書。
- 這樣的標題不是能以更短的長度交代更多的細節並且不會重複嗎。 Boreas Sawada 2025年12月5日 (五) 06:09 (UTC)
- 標題不能原創研究。如果社群同意,我不反對用別稱(即不用編號),但起碼必須是(一)有司法機關文書正式使用,(二)格式儘量統一,(三)歧義儘可能少。—— Eric Liu(留言) 2025年12月5日 (五) 07:09 (UTC)
- 沒有原創研究呀。「張三訴李四民間借貸糾紛」、「︎張三搶劫、強姦、故意殺人案」這類的字眼本來就是來源的標題,是裁判文書網的「正式使用」;我只是提議將案號放入標題,以避免重複——同時,加入案號後不就避免了歧異了嗎。如果您認為一點操作都不能動,那我上面也說了,直接用裁判文書網的標題然後在尾部綴上案號,也即構成「張三訴李四民間借貸糾紛一審民事判決書 (2020) 蘇 0102 民初 1688 號」、「︎張三搶劫、強姦、故意殺人案二審刑事判決書 (2020) 粵刑終 21 號」的形式。Boreas Sawada 2025年12月5日 (五) 07:19 (UTC)
- 那本身不構成任何文獻的正式標題,至多是消歧義。我想了半天,也沒想到你這種消歧義方式應該用在哪裡。—— Eric Liu(留言) 2025年12月5日 (五) 07:23 (UTC)
- 任何判決書的字號組合都是唯一,相當容易導航。你這樣組合標題,實際上讀者在網上搜尋效果跟直接用別稱重新導向差不多。在本站,消歧義組合可以有兩種理解,一種是針對同一案件,一種是針對同一法院;前者就如「孙晓龙寻衅滋事刑事判决书」,用字號或級審消歧義,後者就是正規的法院編號方式。—— Eric Liu(留言) 2025年12月5日 (五) 07:26 (UTC)
- > 任何判決書的字號組合都是唯一
- 對於大陸地區的裁判文書來說,這不盡然。2016 年之前的編號系統挺亂的,是從 2016 年起才改用現行的制度(儘管如此,仍舊存在一號多書的情況,但,那就屬於在理論之外的錯誤情況,2016 年以後理論上案號已經是唯一的了)。 Boreas Sawada 2025年12月5日 (五) 07:32 (UTC)
- > 你這樣組合標題,實際上讀者在網上搜尋效果跟直接用別稱重新導向差不多。
- 但是你沒有考量到使用者在本站直接透過分類進行檢索的情況。如果按照您的命名方式,在比如檢索指定年分、檢索指定地區時,看到的就是一堆法院全名+案號,就會造成實際上完全沒有可讀性。我們不能只考量使用者針對特定已知案件透過外部搜尋引擎或者內部搜尋功能搜尋的情況,也要考量直接檢索分類的情況。而就如我所說,只要在標題中綴上案號,那麼即使在分類檢索時,仍舊能夠得知地區、法院、法院層級,並不耽誤獲知法院資訊。換句話說,我提議的命名方式並不耽誤使用者獲知法院資訊,同時還有當事人及案由。您提議的方式等同於把地區、法院、法院層級以不同的方式重複說了兩遍,並且此外再無交代任何其他資訊。 Boreas Sawada 2025年12月5日 (五) 07:43 (UTC)
- 暈……
- > ︎我不反對用別稱(即不用編號)
- 我也沒說不用編號啊,我的提議不正是在現有的標題上加上案號嗎?我只是不建議使用「法院+案號」,而是採用「當事人與案由(也即現有標題、來源本來標題)+案號」。「法院+案號]不僅會造成大量的相似標題,而且「法院+案號」的寫法本來就是重複的(案號已含有法院資訊)。 Boreas Sawada 2025年12月5日 (五) 07:51 (UTC)
- 沒有原創研究呀。「張三訴李四民間借貸糾紛」、「︎張三搶劫、強姦、故意殺人案」這類的字眼本來就是來源的標題,是裁判文書網的「正式使用」;我只是提議將案號放入標題,以避免重複——同時,加入案號後不就避免了歧異了嗎。如果您認為一點操作都不能動,那我上面也說了,直接用裁判文書網的標題然後在尾部綴上案號,也即構成「張三訴李四民間借貸糾紛一審民事判決書 (2020) 蘇 0102 民初 1688 號」、「︎張三搶劫、強姦、故意殺人案二審刑事判決書 (2020) 粵刑終 21 號」的形式。Boreas Sawada 2025年12月5日 (五) 07:19 (UTC)
- 就拿你上面的例一來說,該文獻的性質是「沈阳市沈北新区人民法院刑事判决书」,編號「(2019)辽0113刑初350号」,那標題就是「沈阳市沈北新区人民法院(2019)辽0113刑初350号刑事判决书」。網站提到的「孙晓龙寻衅滋事一审刑事判决书」可設為重新導向。如此,文章頁面的Header也方便一一對應,title是沈阳市沈北新区人民法院刑事判决书,發布字號是(2019)辽0113刑初350号,alias是孙晓龙寻衅滋事一审刑事判决书。—— Eric Liu(留言) 2025年12月5日 (五) 07:17 (UTC)
- 對於這種命名方式,我個人絕對無法接受(冗餘[之前提過,案號已經包含了地區、法院、法院層級,因此無須再把地區、法院、法院層級再寫一遍]、不便於分類檢索,且這才是妥妥的原創研究,明明是原始文獻都沒有採用的模式)。之前已經解釋過了,不想多說了。看看別人的意見罷。 Boreas Sawada 2025年12月5日 (五) 07:24 (UTC)
- 其實這種命名方式並非原創研究,例如最高人民法院发布2021年中国法院10大知识产权案件和50件典型知识产权案例也是這樣來稱呼這些文書。 SuperGrey(留言) 2025年12月5日 (五) 08:01 (UTC)
- 我一開始就說了,這就是大陸地區的司法體系推薦的命名方式,Eric 看到的亂象只是地方法院的文員亂填。正確的命名方式本來就是要以當事人+案由起,那個裁判文書網本來就是大陸的最高法搞的,會亂起名?大陸的最高法向海外發布的由 Springer 出版的參考案例集(分卷出版的實體書)也是用的類似的方式。因此我再說一遍,法院+案號+文書類型才是原創研究,當事人+案由+案號是有多處可查證的傳統。我實在無法理解 Eric 在此事上為甚麼如此拼命反對並堅持非要使用法院+案號的形式。 Boreas Sawada 2025年12月5日 (五) 08:34 (UTC)
- 呃呃,您看了我貼的連結嗎?「法院+案號+文書類型」是最高人民法院的寫法,所以不是原創研究。還是討論哪個標題名稱更好吧,不要扯太遠了。 SuperGrey(留言) 2025年12月5日 (五) 08:37 (UTC)
- 我一開始就說了,這就是大陸地區的司法體系推薦的命名方式,Eric 看到的亂象只是地方法院的文員亂填。正確的命名方式本來就是要以當事人+案由起,那個裁判文書網本來就是大陸的最高法搞的,會亂起名?大陸的最高法向海外發布的由 Springer 出版的參考案例集(分卷出版的實體書)也是用的類似的方式。因此我再說一遍,法院+案號+文書類型才是原創研究,當事人+案由+案號是有多處可查證的傳統。我實在無法理解 Eric 在此事上為甚麼如此拼命反對並堅持非要使用法院+案號的形式。 Boreas Sawada 2025年12月5日 (五) 08:34 (UTC)
- 其實這種命名方式並非原創研究,例如最高人民法院发布2021年中国法院10大知识产权案件和50件典型知识产权案例也是這樣來稱呼這些文書。 SuperGrey(留言) 2025年12月5日 (五) 08:01 (UTC)
- > ︎title是沈阳市沈北新区人民法院刑事判决书,發布字號是(2019)辽0113刑初350号
- 對於這一點我必須聲明最最最強烈的反對(而且是我一直以來都強烈反對的),這會造成維基文庫存在成千上萬份 title 為「沈阳市沈北新区人民法院刑事判决书」的文檔,導致這樣的 metadata 完全失去了意義,無法有效檢索。像這樣去填 header, 還有甚麼意義呢? Boreas Sawada 2025年12月5日 (五) 07:27 (UTC)
- 維基文庫就是照樣收錄文獻,這本身就是意義。為了方便搜尋自創組合更糟糕。如果堅持不用編號,我看現在SuperGrey錄入的格式,如「严乾能、黄文祥民间借贷纠纷一审民事判决书」,能夠對應來源,倒也顯得妥當,那剩下的就是建立法院編號格式的重新導向,就如Teetrition的提議,以及確認header參數填寫。@Teetrition:抱歉有些誤解,我在這方面沒有什麼問題了。—— Eric Liu(留言) 2025年12月5日 (五) 07:31 (UTC)
- 但我還是覺得應該用編號,不僅格式統一、歧義明顯更少,尤其SuperGrey說這樣可以大幅減省他操作的技術成本。—— Eric Liu(留言) 2025年12月5日 (五) 07:44 (UTC)
- 另外你舉出的某些例子固然都有特徵,但其他不少案件俗稱相當普通,用來命名怕是更加糟糕。考慮命名一致原則,統一用法院編號優勢明顯。—— Eric Liu(留言) 2025年12月5日 (五) 07:48 (UTC)
- 不是,您是不是太累了需要休息?我到底甚麼時候反對過填加案號了?我不是一直反對讓法院作為標題的一部份或者讓法院+文書類型作為 metadata 中 title 項的全部內容嗎?
- 我從頭到尾不都是在說以現有的標題形式填加案號嗎? Boreas Sawada 2025年12月5日 (五) 07:56 (UTC)
- 那為什麼不直接用編號形式命名?—— Eric Liu(留言) 2025年12月5日 (五) 08:01 (UTC)
- header 我贊成認真填寫,裁判文書網原標題要給出,不過放alias也行。至於其他參數要如何填寫,我暫無想法。 SuperGrey(留言) 2025年12月5日 (五) 07:55 (UTC)
- 對於這種命名方式,我個人絕對無法接受(冗餘[之前提過,案號已經包含了地區、法院、法院層級,因此無須再把地區、法院、法院層級再寫一遍]、不便於分類檢索,且這才是妥妥的原創研究,明明是原始文獻都沒有採用的模式)。之前已經解釋過了,不想多說了。看看別人的意見罷。 Boreas Sawada 2025年12月5日 (五) 07:24 (UTC)
- 標題不能原創研究。如果社群同意,我不反對用別稱(即不用編號),但起碼必須是(一)有司法機關文書正式使用,(二)格式儘量統一,(三)歧義儘可能少。—— Eric Liu(留言) 2025年12月5日 (五) 07:09 (UTC)
- @SuperGrey:是否可加from參數?—— Eric Liu(留言) 2025年12月5日 (五) 07:14 (UTC)
- 不要把docId放进from参数,from参数只用于填写文库已有页面的名称,填docId是误用。建议写在notes里,并且可以建立一个模板以便日后调整来源显示的格式。 Midleading(留言) 2025年12月5日 (五) 07:23 (UTC)
- 確實,這樣比較妥當。 SuperGrey(留言) 2025年12月5日 (五) 07:30 (UTC)
- 對對對,我說的就是notes,抱歉腦袋打結啦。—— Eric Liu(留言) 2025年12月5日 (五) 07:31 (UTC)
- 填入對應的裁判文書網連結? SuperGrey(留言) 2025年12月5日 (五) 07:24 (UTC)
- 用一個模板打包生成裁判文書網連結,連結文本寫上裁判文書網網頁的原始標題,網站(裁判文書網),以及訪問日期(如有),參考維基百科的URL引用格式,避免直接暴露URL到頁面中。 Midleading(留言) 2025年12月5日 (五) 07:49 (UTC)
支持 此樣式。連結請明示是外部連結,避免誤會是内部跳轉。 Andayunxiao(留言) 2025年12月5日 (五) 08:36 (UTC)
- 一般外部連結會有個↗️小箭頭圖標。 SuperGrey(留言) 2025年12月5日 (五) 08:38 (UTC)
- 我是指這樣的效果:維基文庫。其他同Midleading所言。 Andayunxiao(留言) 2025年12月5日 (五) 08:43 (UTC)
- 是的,就是這個效果。 SuperGrey(留言) 2025年12月5日 (五) 08:51 (UTC)
- 我是指這樣的效果:維基文庫。其他同Midleading所言。 Andayunxiao(留言) 2025年12月5日 (五) 08:43 (UTC)
- 一般外部連結會有個↗️小箭頭圖標。 SuperGrey(留言) 2025年12月5日 (五) 08:38 (UTC)
- 用一個模板打包生成裁判文書網連結,連結文本寫上裁判文書網網頁的原始標題,網站(裁判文書網),以及訪問日期(如有),參考維基百科的URL引用格式,避免直接暴露URL到頁面中。 Midleading(留言) 2025年12月5日 (五) 07:49 (UTC)
- 不要把docId放进from参数,from参数只用于填写文库已有页面的名称,填docId是误用。建议写在notes里,并且可以建立一个模板以便日后调整来源显示的格式。 Midleading(留言) 2025年12月5日 (五) 07:23 (UTC)
- 我舉一個錄入Header的例子:上海市宝山区人民法院(2021)沪0113民初22405号民事判决书,title「上海市宝山区人民法院民事判决书」,author「上海市宝山区人民法院」(要不要改用noauthor可以討論),type「中华人民共和国民事判决书」,(年月日略),发文字号「(2021)沪0113民初22405号」,alias「民间借贷纠纷一审判决书」。—— Eric Liu(留言) 2025年12月5日 (五) 08:01 (UTC)
- 另外順便看了下,各法院案件別稱命名格式相當不一致啊,目前就至少看到「二审判决书」、「二审民事判决书」、「民事二审案件民事判决书」三種,看著挺不舒服的。—— Eric Liu(留言) 2025年12月5日 (五) 08:07 (UTC)
- 確實。另有一點值得注意 ⚠️:部分法院提供的標題過於糟糕,這些標題如果我們選擇性地不要,需要一個個手動找出來。對於3000篇可能可以找出來一個個改,對於3千萬篇就不好找了。 SuperGrey(留言) 2025年12月5日 (五) 08:10 (UTC)
- 一樣,繼續支持統一用法院編號格式。—— Eric Liu(留言) 2025年12月5日 (五) 08:19 (UTC)
- 確實。另有一點值得注意 ⚠️:部分法院提供的標題過於糟糕,這些標題如果我們選擇性地不要,需要一個個手動找出來。對於3000篇可能可以找出來一個個改,對於3千萬篇就不好找了。 SuperGrey(留言) 2025年12月5日 (五) 08:10 (UTC)
- 具體來說:
- 另外順便看了下,各法院案件別稱命名格式相當不一致啊,目前就至少看到「二审判决书」、「二审民事判决书」、「民事二审案件民事判决书」三種,看著挺不舒服的。—— Eric Liu(留言) 2025年12月5日 (五) 08:07 (UTC)
{{Header
| title = 上海市宝山区人民法院民事判决书
| alias = 民间借贷纠纷一审判决书
| author = 上海市宝山区人民法院
| year = 2021
| month = 10
| day = 9
| location = 上海市
| previous = (前一審,如有)
| next = (後一審,如有)
| type = 中华人民共和国民事判决书
| notes = 自[(網址)中国裁判文书网]錄入
| edition = yes
}}
- 前後審跟edition看你有沒有辦法填。—— Eric Liu(留言) 2025年12月5日 (五) 08:19 (UTC)
- @SuperGrey:另注意到header模板其實有「案号」參數,但目前顯示效果似乎有問題。—— Eric Liu(留言) 2025年12月5日 (五) 11:19 (UTC)
- 您真的覺得文庫中存在成千上萬份 title 為「上海市宝山区人民法院民事判决书」的文檔沒有任何問題嗎?
- 至於條目標題部分,如果您覺得「朱建岗诉黄晔玮民间借贷纠纷 (2021) 沪 0113 民初 22405 号民事判决书」過於「原創」,那麼起碼「︎民间借贷纠纷一审判决书 (2021) 沪 0113 民初 22405 号」(也即來源原始標題+案號)要優於「︎上海市宝山区人民法院 (2021) 沪 0113 民初 22405 号民事判决书」(這才是真正的原創標題,[法院名稱+案號+文書類型]的樣式也沒見以標題的形式出現在原始來源中啊)吧? Boreas Sawada 2025年12月5日 (五) 08:25 (UTC)
- 看這條:Wikisource:机器人#c-SuperGrey-20251205080100-Chu_Tse-tien-20251205072400,「法院名稱+案號+文書類型」是最高人民法院使用的命名格式。 SuperGrey(留言) 2025年12月5日 (五) 08:26 (UTC)
- 前後審跟edition看你有沒有辦法填。—— Eric Liu(留言) 2025年12月5日 (五) 08:19 (UTC)
- 就收錄條目標題以及 header 部分的 title 問題我想再次重申一下我的看法:
- 1. 我從始至終都沒有反對填加案號,恰恰相反,我主張的就是需要往條目標題中填加案號以避免重複;
- 2. 我反對的是將條目標題都寫成「︎瀋陽市瀋北新區人民法院 (2019) 遼 0113 刑初 350 號刑事判決書」的樣式,而是主張寫成「孫曉龍尋釁滋事案 (2019) 遼 0113 刑初 350 號刑事判決書」,後者並非是「原創標題」,而是向出處所給的標題填加案號後形成的。如果認為將案號插在中間不妥(實際上「︎瀋陽市瀋北新區人民法院 (2019) 遼 0113 刑初 350 號刑事判決書」也是將案號插在了中間),我也接受完全使用原始標題,之後綴上案號,也即形成「孫曉龍尋釁滋事一審刑事判決書 (2019) 遼 0113 刑初 350 號」的樣子。
- 這樣使用者在檢索「一審判決書」「一審刑事判決書」「遼寧判決書」「瀋陽判決書」「瀋楊瀋北新區刑事判決書」「2019 年刑事一審判決書」「遼寧省尋釁滋事案」「2019 年尋釁滋事案」「尋釁滋事案一審判決書」等等的各種分類下,看到的是諸如「孫曉龍尋釁滋事一審刑事判決書 (2019) 遼 0113 刑初 350 號」的標題,而非形如「︎瀋陽市瀋北新區人民法院 (2019) 遼 0113 刑初 350 號刑事判決書」的標題。形如後者的標題讓分類檢索直接失去了意義。而且「︎瀋陽市瀋北新區人民法院」不過是將案號中的「遼 0113」重新說了一遍,沒有提供任何其他資訊。
- 看到此處,也還請諸位切勿忘記,「孫曉龍尋釁滋事一審刑事判決書」不是「原創標題」,而是「原始標題」,是裁判文書網上使用的標題。因此整個過程不存在任何個人從文書中提取資訊的部分。
- 3. 我強烈反對將 header 部分的 title 填為「瀋陽市瀋北新區人民法院刑事判決書」,甚至更惡劣的,之前還有人在 header 部分進行格式化排版、寫入格式化原始嗎、加入空格等。header 部分應該填入的是這份文檔的 metadata, 它應當是純文字的,不帶有格式的,這是第一;第二,如果將 header 部分的 title 按照「瀋陽市瀋北新區人民法院刑事判決書」的樣式去填寫,那麼勢必會造成整個文庫中存在有成千上萬份 header 中 title 一欄為一模一樣的「瀋陽市瀋北新區人民法院刑事判決書」的文檔,這就失去了 header 作為 metadata 的意義了。Boreas Sawada 2025年12月5日 (五) 08:16 (UTC)
- 最後一點,因為那文獻本來的標題就是「瀋陽市瀋北新區人民法院刑事判決書」,應該照實錄入。編號跟別稱已另有欄位,都不應該填在那裡。一個法院出了很多判決書,並按年編號,是司法運作現實,而維基文庫要反映現實;這並不是什麼「失去意義」,因為其本身就是意義。沒錯,一模一樣的「瀋陽市瀋北新區人民法院刑事判決書」的文檔會很多,但那是因為現實中一模一樣的「瀋陽市瀋北新區人民法院刑事判決書」的文檔就很多(所以予以編號、別稱等,本站亦將照實錄入;標題則以法院使用的正規編號格式整齊命名),反過來說這沒有意義,那是非常無稽。至於有人抓本站頁面的metadata,竟然抓了title而不抓發文字號等其他資訊而導致誤解,那就更是因為他自己不熟悉本站header正確填寫結構的問題,而不是我們維基文庫的問題。當然,如果有不是用「某法院某性質判決書」正式命名的法院文書,那另當別論,但不是這裡討論的重點。—— Eric Liu(留言) 2025年12月5日 (五) 08:20 (UTC)
- (!)意見 來源的問題,如Chu Tse-tien閣下所言,如果和裁判文書網的公開文本按 docId 抽樣對應良好,則可以假定存檔來源可信。
- 盡管如此,文庫對來源的要求,實際只是限於「特定版本的作品是否存在」。儘管編者討論常擔憂原始文本被篡改或流傳中變形,但文庫對編者從來沒有不出錯的要求:維基文庫的「維基」部分,即是人人參與校對,而不是一人錄入,無人可以校對。
- 另外,文庫不是網路存檔,儘管這是很多編者參與文庫的目的。我支持編者以各種動力參與,但是文庫自己的結構和使命決定我們不能成爲網路存檔。數字文本極易修改,這不是新聞。無論人類還是機械人錄入本站,都無法證明作品原貌如此。因此個人認爲文庫編者不要「自證可靠」,想要可信存檔的編者,應轉用其他專案。 Andayunxiao(留言) 2025年12月5日 (五) 09:28 (UTC)
- 我建議SuperGrey可以先做個調查,看看使用【裁判文書網原始標題】,或者【裁判文書網原始標題 (年份)】,或者【裁判文書網原始標題 (年份+法院名稱)】這樣的保留裁判文書網原始標題 (維基文庫消歧義風格)的命名方法(在該全量文書檔中)會有多少重複,如果重複數量不太多,完全可以建立消歧義頁例外處理,如果【裁判文書網原始標題 (年份+法院名稱)】、【裁判文書網原始標題 (年月+法院名稱)】已經是唯一的,直接使用亦無不可。 Midleading(留言) 2025年12月6日 (六) 03:43 (UTC)
- 從先前匯入的文書來看,目前比率是相當小的,我也確實建立了版本頁(類似 消歧義頁?)來例外處理。
至於 @Ericliu1912提出的直接以文書編號作為標題,您覺得不必考慮了? SuperGrey(留言) 2025年12月6日 (六) 07:23 (UTC)- 我認為裁判文書網原始標題似乎更適合作為標題,而且法院並未把文書編號看做判決書的標題,只是判決書的編號。至於是不是可以完全排除文書編號作為標題,我尊重上傳者的決定。 Midleading(留言) 2025年12月6日 (六) 08:28 (UTC)
- 這樣講就不對了,正式政府公文書都使用編號命名,所謂「裁判文書網原始標題」不過是俗稱。—— Eric Liu(留言) 2025年12月8日 (一) 17:09 (UTC)
- 我認為裁判文書網原始標題似乎更適合作為標題,而且法院並未把文書編號看做判決書的標題,只是判決書的編號。至於是不是可以完全排除文書編號作為標題,我尊重上傳者的決定。 Midleading(留言) 2025年12月6日 (六) 08:28 (UTC)
- 消歧義來說,應該用日期甚至月份就足夠。不過還要考慮人物全名是否曾被改動的問題。—— Eric Liu(留言) 2025年12月6日 (六) 08:15 (UTC)
- 從先前匯入的文書來看,目前比率是相當小的,我也確實建立了版本頁(類似 消歧義頁?)來例外處理。
簽名模板
[编辑]可製作簽名模板以簡化機械人錄入。因閣下來源是HTML,應盡量考慮貼近來源的結構,避免產生錯誤。用例:{{判決書簽名|title1=|name1=|title2=|name2|date1=|title3=|name3=}},用位置參數亦可。Andayunxiao(留言) 2025年12月5日 (五) 08:50 (UTC)
- 不要用帶名字的參數了,就序號1、2、3接下去就好。
{{裁判文書簽名|審判長|某某某|審判員|某某某|審判員|某某某|書記員|某某某}}
不過還要考慮日期要插入在哪裡。或許還是不要規定格式比較好。{{裁判文書簽名| 審判長:某某某 審判員:某某某 審判員:某某某 日期 書記員:某某某 }}
然後讓 Lua 模組來處理格式? SuperGrey(留言) 2025年12月5日 (五) 08:52 (UTC)- 是的,我不瞭解裁判文書的格式,日期如果不是固定為倒數第二項,仍需指定位置。可選效果如
|padding=允許人名兩段對齊。如閣下所聲請,應先確定參數,避免遺漏例外。後續再調整樣式。可協助開發。 Andayunxiao(留言) 2025年12月5日 (五) 08:56 (UTC)- 感謝您。您做的印章{{seal}}模板很精美 👍。 SuperGrey(留言) 2025年12月5日 (五) 09:01 (UTC)
- 日期不一定是倒數第二項,也有可能是倒數第三項(書記員有兩人的情況)、出現「法官助理」落下的情況等等。理論上倒數第四項說不定都是可能的。
- 另外前面也不是固定三個,且也不一定是審判長、審判員、審判員;可能是審判長、人民陪審員、人民陪審員;審判長、審判員、人民陪審員;審判長、審判員、審判員,人民陪審員、人民陪審員(也即多於三人的情況,這種非常少見);也有少於三人的情況(簡易或速裁程序)。
- (此外速裁程序的判決書好像還有那種一張表格的格式(整張判決書是一張畫有輪廓的表格,我只有在看守所裡有過一面之緣,記不清了),總之如果真處理起來可能例外超多的。) Boreas Sawada 2025年12月5日 (五) 09:05 (UTC)
- 有的,部分法院有這樣的文書。我之前半自動上傳了6000篇文書(用的是別處的品質較差的數據),有遇到3篇這樣的。 SuperGrey(留言) 2025年12月5日 (五) 09:08 (UTC)
- 是吧,哈哈,速裁的真的超級少見。簡易已經很不容易了。速裁只有那種非常小額的竊盜案件(比如在商場裡偷了一件衣服)才有可能。當時在監室裡看到獄友拿回來一張表,超稀奇的。 Boreas Sawada 2025年12月5日 (五) 09:18 (UTC)
- 可以就判決書、裁定書等不同體系單獨開發多個模板——文庫并未限制——如果參數位置不統一的話:只要機械人前期能判別即可。這是申請機器人需要的準備工作,畢竟沒有人希望機械人出錯。 Andayunxiao(留言) 2025年12月5日 (五) 09:09 (UTC)
- 沒必要開發多個模板。格式還是比較固定的。位置不統一應該可以用 Lua 模組來解決。 SuperGrey(留言) 2025年12月5日 (五) 09:12 (UTC)
- 翻了一下保存的一些判決書,像是簡易程序、獨任審判的就可見如下這般的:
- 審判員 XXX
- 日期
- 書記員 XXX
- ---
- 審判員 XXX
- 日期
- 法官助理 XXX
- 書記員 XXX
- 其他的案子則大抵有類似:
- 審判長 XXX
- 審判員 XXX
- 審判員 XXX
- 日期
- 法官助理 XXX
- 書記員 XXX
- ---
- 審判長 XXX
- 人民陪審員 XXX
- 人民陪審員 XXX
- 日期
- 法官助理 XXX
- 書記員 XXX
- 空空空 XXX
- ---
- 審判長 XXX
- 審判員 XXX
- 人民陪審員 XXX
- 日期
- 書記員 XXX
- 書記員 XXX
- 請注意像是兩個書記員的情況時,有時第二個書記員名字前面是空白,它跟上一個書記員對齊。
- 再就是法官助理(對應的在起訴書裡還有「檢察官助理」)在以前叫做「助理 XX」(助理審判員、助理檢察官),那時候他們在日期上面。 Boreas Sawada 2025年12月5日 (五) 09:16 (UTC)
- 有的,部分法院有這樣的文書。我之前半自動上傳了6000篇文書(用的是別處的品質較差的數據),有遇到3篇這樣的。 SuperGrey(留言) 2025年12月5日 (五) 09:08 (UTC)
- 技術上,一般需要兩端對齊,不對齊反而比較少見。日期可以出現在簽名中的任何位置,也可以不出現。左側的職位名兩段對齊,右側的人名也兩端對齊。有的文書會把第二個審判員的職務略去(留空),故也要支援職務留空的情況。 SuperGrey(留言) 2025年12月5日 (五) 09:06 (UTC)
- 應該是直接用「|審判長=某某某|書記員=某某某」這樣?還是說這樣會增加錄入成本?—— Eric Liu(留言) 2025年12月5日 (五) 09:43 (UTC)
- 技術上,可見文本一般不要作爲參數名:模板不能得知自己的參數名,要顯示
審判長文本,仍要在模板内硬寫入{{#if {{{審判長1}}} | 審判長 {{{審判長1}}} | }}。也就説,參數名用什麽都是等效的。 Andayunxiao(留言) 2025年12月5日 (五) 10:01 (UTC)- 而且原文本不一定會把審判長放在審判員前面(只是打個比方)。還是不設順序為好。 SuperGrey(留言) 2025年12月5日 (五) 10:09 (UTC)
- 我覺得讓錄入者自己決定就好了,其他人只是提一些建議,並沒有涉及是否要批准這個機器人申請。 Midleading(留言) 2025年12月5日 (五) 10:01 (UTC)
- 技術上,可見文本一般不要作爲參數名:模板不能得知自己的參數名,要顯示
- 是的,我不瞭解裁判文書的格式,日期如果不是固定為倒數第二項,仍需指定位置。可選效果如
- 錄入時要不要subst?還是把模板留在頁面中?—— Eric Liu(留言) 2025年12月5日 (五) 09:41 (UTC)
- 可能不 subst 是恰當的,因爲這樣允許錄入後再改變樣式。 Andayunxiao(留言) 2025年12月5日 (五) 10:04 (UTC)
分類問題
[编辑]分類如何錄入需要商榷。過度分類(尤其是結合年份)可能導致分類無端以千萬甚至億計,而且逐年增加,難以長期維護(參見此處範例)。必須減少性質(年、層級、法院、領域、文書性質)交叉分類,並儘可能將年份向上推。—— Eric Liu(留言) 2025年12月5日 (五) 09:45 (UTC)
- 分類遵循現有Header模板的自動分類即可,如果需要討論也應該是討論Header模板如何自動分類。三千萬篇文章理應有數十萬個或更多分類。 Midleading(留言) 2025年12月5日 (五) 09:59 (UTC)
- 我剛剛琢磨了一下,錄入時用「|type = 中华人民共和国民事判决书」、「|theme = 广东省深圳市中级人民法院民事判决书」怎麼樣,這樣把年份層級往上提。其他分類再看。—— Eric Liu(留言) 2025年12月5日 (五) 10:26 (UTC)
- 可以考虑同步创建Wikidata项目? dringsim 2025年12月5日 (五) 11:21 (UTC)
- 3千萬個頁面,佔Wikidata當前總頁面數的 25%。 SuperGrey(留言) 2025年12月5日 (五) 11:27 (UTC)
- 只要符合任何维基项目收录方针收录到主命名空间的页面,都可以收录到维基数据,所以只把已经收录到维基文库的页面收录维基数据就行。 Midleading(留言) 2025年12月5日 (五) 12:01 (UTC)
- 我打算先把XsLiDian在文庫跟共享資源濫建的分類清理完以後再來考慮。—— Eric Liu(留言) 2025年12月5日 (五) 12:10 (UTC)
- 3千萬個頁面,佔Wikidata當前總頁面數的 25%。 SuperGrey(留言) 2025年12月5日 (五) 11:27 (UTC)
既有的判决书
[编辑]目前维基文库已经有超过5000篇判决书,一是命名没有统一,目前有的命名格式是:
- 北京市第二中级人民法院(2003)二中民初字第08814号民事判决书
- 加多宝(中国)饮料有限公司等与广州医药集团有限公司等虚假宣传纠纷二审民事判决书
- 黃靜案一審判決書
- 李桂琴等与人民网股份有限公司著作权权属、侵权纠纷上诉案
- 时大控股集团有限公司、卢友法民间借贷纠纷一审民事令
刑事判决书也有几种格式:
- 北京市第一中级人民法院(2009)一中刑初字第3901号刑事判决书
- 林森浩故意杀人案一审刑事判决书
- 王小宁案刑事判决书
- 张子强等非法买卖、运输爆炸物、抢劫、绑架、走私武器、弹药、非法买卖、运输枪支、弹药、私藏枪支、弹药上诉案
- 蔡卓華自印聖經而獲刑案判決書(这个案件名称不是官方名称)
加粗的几种格式比较常见。如果确定了文章如何命名应该考虑把所有已有文章名称都统一成一种格式。
另外有不少文章在header的“案号”字段填了文书编号,这个是否需要使用?--GZWDer(留言) 2025年12月6日 (六) 05:59 (UTC)
- 我上傳的基本以文書網檔案標題為條目名,故:並非命名格式有差異,而是各法院本就沒有統一的命名格式。
header 中如果填文書編號,則title也要改成兩行形式以「模仿文書原格式」。而如果title使用文書網檔案標題,則不宜再填文書編號,除非將這一欄位隱藏。 SuperGrey(留言) 2025年12月6日 (六) 07:27 (UTC) - 我依然認為錄入格式應該如此。@SuperGrey:Header純粹是提供資訊,不需要「模仿文書原格式」,因為從你實際錄入的格式來看,本文開頭已經照錄。現在有些頁面直接在Header排版(比方說GZWDer提到的第一例),那並不好。—— Eric Liu(留言) 2025年12月6日 (六) 08:09 (UTC)
- 统一命名格式时还需考虑并非来自裁判文书网的文书,例如:
- dringsim 2025年12月6日 (六) 09:11 (UTC)
- 第二個應該直接移動到正規編號標題。另外不應該添加空格,因為很有可能是排版對齊需求而伸長,並非原文。—— Eric Liu(留言) 2025年12月7日 (日) 14:23 (UTC)
- 另外「最高人民法院」文書是使用「中华人民共和国最高人民法院」還是「最高人民法院」?—— Eric Liu(留言) 2025年12月7日 (日) 14:35 (UTC)
- “中华人民共和国最高人民法院”应该是全名。文书内也是如此使用。--虹易(留言) 2025年12月8日 (一) 03:22 (UTC)
- 建议以印章为准,即最高法按“中华人民共和国最高人民法院”。另参考,其他下级法院印章上基本不带“中华人民共和国”,但文书标题的法院名称中可能带PRC,带的情况下基本是涉外案件,法院内部惯例(或者甚至可以猜想到是要求)如此(涉外则带PRC,不涉外正常写)。 Teetrition(留言) 2025年12月8日 (一) 10:29 (UTC)
- “中华人民共和国最高人民法院”应该是全名。文书内也是如此使用。--虹易(留言) 2025年12月8日 (一) 03:22 (UTC)
錄入規模
[编辑]此機械人請求在一年内建立 3 千萬新作品頁面,這個規模和速度對文庫合適嗎?文庫歷20年,不過才不足50萬作品頁面,所有頁面僅不足117萬。
根據元維基資訊:按大小排名的維基媒體,和 wmcloud.org 上的 統計, 3 千萬作品頁的規模,超過英文維基詞典和英文維基百科,沒有哪個分語言維基專案可與比肩。
事實上,此文書庫的 GitHub 頁面標明,全部文書(8.5千萬)的壓縮檔達 102 GB,如取一半,也有超過50GB。作爲比較,英文維基百科最近的作品頁 data dump 僅 24.0 GB,全部頁面的最後版本也才 41.9 GB [1],而中文維基文庫的這兩種 data dump 僅 2.4 GB [2]。從作品頁數和壓縮檔大小比較,都可以估計此裁判文書庫( 3 千萬)的容量是維基文庫的20-60倍。
進一步,就編輯次數而言,本地月均編輯 10 千,英文維基百科月均 5百萬 [3],此機械人請求1次/秒,則月均2.59百萬次,約相當於英文維基百科的一半編輯次數。
我認爲顯然的是,文庫沒有能力接收這樣一份厚禮。本地社群不足維護20-60倍的頁面擴充。如此擴充,將永久改變中文維基文庫的專案使命,讓本地事實上成爲裁判文書網的鏡像站。讀者、社群、大語言模型訓練者,都將不得不學會如何識別、分離本地的非文書内容和文書内容。不僅各語言維基文庫沒有類似的機械人批量錄入(例如,英文文庫沒有自動導入聯合國公有文件,公有領域的紐約時報,以及PACER 資料庫,後者的資料檔只會更大) ,各個維基媒體也沒有這種以單一貢獻者產生95%以上新頁面,以致規模超過同期所有語言專案的紀錄。
如此大規模、大比例擴充的不可取消的自動錄入,需要社群充分討論和更廣的共識,甚至投票。Andayunxiao(留言) 2025年12月6日 (六) 08:08 (UTC)
- 是否可能先選出重要裁判,斟酌錄入?—— Eric Liu(留言) 2025年12月6日 (六) 08:10 (UTC)
- 編者適量地自行篩選錄入,勝過包括全部或隨機亂數選擇,因爲含有人的因素的篩選和偏好是有意義的:這對應著百科所謂的 Notability。本地對人類編者不要求 Notability,我以爲,是認爲人類編者選擇錄入的作品都自動滿足Notability 要求。 Andayunxiao(留言) 2025年12月6日 (六) 08:20 (UTC)
- 我认为所有裁判文书都当然地符合收录标准。 dringsim 2025年12月6日 (六) 09:14 (UTC)
- 贊同。當前的收錄標準沒有對錄入的數量做限制。不過數量過大,我還是期待社群能夠明確恰當的格式和錄入範圍(如,依我提出的範圍,只錄入「判決書」),我再開始。這樣不至於以後難以維護。 SuperGrey(留言) 2025年12月6日 (六) 10:10 (UTC)
- 「裁定書」的意義很多時候是完全不輸於判決書的,就比如這篇,就是一篇裁定書,然而它是躲過了大清洗後的唯一一篇針對該案有案情描述的文書了。大陸地區的刑事二審很多都以裁定書收場(法院會以「上訴期間沒有提交新證據」為由直接不開庭審理,然後發給一紙裁定書,然而刑事案件上訴方又能提交什麼証據呢?!),私以為至少應當納入刑事案件的二審裁定。 Boreas Sawada 2025年12月6日 (六) 11:36 (UTC)
- 也可以考慮從最高或高級法院裁判開始錄入,數量應該會比較可以控制。—— Eric Liu(留言) 2025年12月7日 (日) 14:18 (UTC)
- 或者可否先排除民事案件,民事案件中絕大多數都是 1. 民間借貸;以及 2. 機動車道路交通事故責任;這兩類基本上非常安全,裁判文書網大抵也不會下架它們;除此之外像是「生命權、身體權、健康權」與「人格權」兩類的糾紛,又大抵會遭到像武大圖書館案之相關文書那樣的「隱私爭議」之疑慮。而刑事、行政訴訟案件往往是「下架」重災區。
- 當然,從最高法院往下走也是一個很好的主意。 Boreas Sawada 2025年12月8日 (一) 00:24 (UTC)
- 既然本身是曾经上架过裁判文书网的文书,那就代表它们基本是脱敏的,如果不宜公开那么就不会发表在裁判文书网上(cf. 最高人民法院关于人民法院在互联网公布裁判文书的规定 (2016年)第四条)(不排除少数工作人员失误上传了未脱敏的文书)。是否可能先统计一下本次导入来源中各个案由的比例,再进一步判断? Teetrition(留言) 2025年12月8日 (一) 11:54 (UTC)
- 遗憾的是,我暂时没有那么多硬盘空间能够做这件事。 Teetrition(留言) 2025年12月8日 (一) 11:54 (UTC)
- 也可以考慮從最高或高級法院裁判開始錄入,數量應該會比較可以控制。—— Eric Liu(留言) 2025年12月7日 (日) 14:18 (UTC)
- 「裁定書」的意義很多時候是完全不輸於判決書的,就比如這篇,就是一篇裁定書,然而它是躲過了大清洗後的唯一一篇針對該案有案情描述的文書了。大陸地區的刑事二審很多都以裁定書收場(法院會以「上訴期間沒有提交新證據」為由直接不開庭審理,然後發給一紙裁定書,然而刑事案件上訴方又能提交什麼証據呢?!),私以為至少應當納入刑事案件的二審裁定。 Boreas Sawada 2025年12月6日 (六) 11:36 (UTC)
- 贊同。當前的收錄標準沒有對錄入的數量做限制。不過數量過大,我還是期待社群能夠明確恰當的格式和錄入範圍(如,依我提出的範圍,只錄入「判決書」),我再開始。這樣不至於以後難以維護。 SuperGrey(留言) 2025年12月6日 (六) 10:10 (UTC)
- 我认为所有裁判文书都当然地符合收录标准。 dringsim 2025年12月6日 (六) 09:14 (UTC)
- 比如,大陸「裁判文書網」有選出「百篇优秀裁判文书」,資訊齊全,也方便核對,可以先錄入。可惜前幾屆的不見得有。—— Eric Liu(留言) 2025年12月7日 (日) 15:04 (UTC)
- 編者適量地自行篩選錄入,勝過包括全部或隨機亂數選擇,因爲含有人的因素的篩選和偏好是有意義的:這對應著百科所謂的 Notability。本地對人類編者不要求 Notability,我以爲,是認爲人類編者選擇錄入的作品都自動滿足Notability 要求。 Andayunxiao(留言) 2025年12月6日 (六) 08:20 (UTC)
例如,英文文库没有自动导入联合国公有文件,公有领域的纽约时报,以及PACER 资料库,后者的资料档只会更大
我想这可能只是单纯缺人做而已。 dringsim 2025年12月6日 (六) 09:16 (UTC)- “公有领域的纽约时报”——最大的问题是95年前的文档大部分都只有扫描版,需要手工proofread。 GZWDer(留言) 2025年12月6日 (六) 09:23 (UTC)
- 不反对进一步投票甚至请示WMF,但维基文库这种纯粹收集整理自由文本(——尤其是考虑到上面对于忠于来源格式的讨论)的使命与镜像站又有多少差异呢? 内存溢出的猫(留言) 2025年12月6日 (六) 09:35 (UTC)
- 而且比镜像站好的地方是这些东西能被内部搜索引擎和Google搜索到,相比之下裁判文书网和caseopen.org之类地方的内容是不会被搜索引擎索引的(随便一个Google例子,用相同的关键词你用百度或者搜狗也搜不到文书)。 GZWDer(留言) 2025年12月6日 (六) 09:48 (UTC)
- 中文維基文庫想要超越維基百科之前估計需要先通知WMF(或者需要捐贈😄),因為英文維基百科已經需要設立獨立的伺服器維持正常運作,而中文維基文庫目前用的是幾百個小維基共享的伺服器。 Midleading(留言) 2025年12月6日 (六) 10:32 (UTC)
- 有道理。我先發了封電子郵件到 Wikisource-l,看看國際社群和 WMF 的意見。 SuperGrey(留言) 2025年12月6日 (六) 11:39 (UTC)
- 很好的想法,可順帶一提大陸地區官方清洗文書的事情,從而強調在維基文庫予以備份的重要意義。這些事情國際媒體上都有報導過,可參考這一小節所用到的引用來源。 Boreas Sawada 2025年12月6日 (六) 11:47 (UTC)
- 感謝,這一小節寫得很清楚。不過我已經寄信了。 SuperGrey(留言) 2025年12月6日 (六) 12:16 (UTC)
- 很好的想法,可順帶一提大陸地區官方清洗文書的事情,從而強調在維基文庫予以備份的重要意義。這些事情國際媒體上都有報導過,可參考這一小節所用到的引用來源。 Boreas Sawada 2025年12月6日 (六) 11:47 (UTC)
- 有道理。我先發了封電子郵件到 Wikisource-l,看看國際社群和 WMF 的意見。 SuperGrey(留言) 2025年12月6日 (六) 11:39 (UTC)
- 不急,我會等到社群充分討論、達成共識後再開始正式錄入。 SuperGrey(留言) 2025年12月6日 (六) 10:06 (UTC)
- 哈哈,其實我昨天就預料到會有這樣的「疑慮」,奈何太睏了就沒有說。如果更進一步的話,還可能會有這樣立場的挑戰——
- 中國大陸地區並非普通法國家,而即使是在普通法國家(比如英美),其所對應的語種的維基文庫也鮮有收錄未報告 (unreported) 裁決文書的先例,一些普通法國家的權威的第三方機構,比如 bailii.org, 也不收入未報告裁決文書,儘管未報告裁決文書也是公開且可查詢的。中國大陸地區的現行司法制度中,與普通法國家的「報告」制度比較對應的就是其最高法所選定的「指導案例」。而裁判文書網上的文書,除了與「指導案例」相重疊的之外,全都屬於「未報告裁判文書」。持有這種立場的人會提出,如此大規模地錄入「未報告裁判文書」是沒有意義的,也無其他語種的維基文庫的先例可循。
- ——這當然並非我的立場,我個人是非常樂見維基文庫能夠全面收錄所有可尋得的裁判文書的,那個 GitHub 上的庫雖然全面,但其保存機制遠不及放在維基文庫上安全。然而如果面臨對於收錄之意義、比例、先例等的挑戰時,也還請諸位有意者多多陳詞維護。 Boreas Sawada 2025年12月6日 (六) 11:30 (UTC)
- 不同的國家,對於己國法律文書是否具有版權有不同認識,故單從先例來討論意義有限。
例如,法國的法律文書就是受版權保護的。
此外,掃描檔和文本檔在收錄的難度上亦有不同。 SuperGrey(留言) 2025年12月6日 (六) 11:34 (UTC)- 不是,我的意思是,倘若對方以旁例佐證說「不應該」錄入這些未報告文書,對於這樣的挑戰社群應該想好應對策略。
- 我個人當然是不反對錄入的,並且很希望這些「流浪文書」能有個棲身之所。(故預先祝願你的錄入工程順利!) Boreas Sawada 2025年12月6日 (六) 11:43 (UTC)
- 唉,幸好目前的討論,總體來看社群還是比較支持錄入的😂。不過也要看 WMF 的意見。 SuperGrey(留言) 2025年12月6日 (六) 11:46 (UTC)
- 这么多页面录入,会影响其它文献的检索。提议归入子页面,例如“中国大陆裁判文书/某某法院某某判决”。这样如果不需要检索,可以准确排除。--虹易(留言) 2025年12月8日 (一) 02:59 (UTC)
- 不宜,裁判文書並非連續出版品(期刊)或書籍章節,且非文獻原始名稱。—— Eric Liu(留言) 2025年12月8日 (一) 10:42 (UTC)
- @虹易:想排除文书可以用“-intitle:判决书”。 GZWDer(留言) 2025年12月8日 (一) 13:41 (UTC)
- @GZWDer:裁判分“裁定书”和“判决书”。可能还有其它类型。--虹易(留言) 2025年12月9日 (二) 02:34 (UTC)
- 關鍵字可以疊加,所以不想搜什麼就剔除什麼,問題沒那麼大吧?—— Eric Liu(留言) 2025年12月9日 (二) 04:00 (UTC)
- 还可以用-hastemplate和-incategory。 GZWDer(留言) 2025年12月9日 (二) 15:12 (UTC)
- 關鍵字可以疊加,所以不想搜什麼就剔除什麼,問題沒那麼大吧?—— Eric Liu(留言) 2025年12月9日 (二) 04:00 (UTC)
- @GZWDer:裁判分“裁定书”和“判决书”。可能还有其它类型。--虹易(留言) 2025年12月9日 (二) 02:34 (UTC)
- @虹易:想排除文书可以用“-intitle:判决书”。 GZWDer(留言) 2025年12月8日 (一) 13:41 (UTC)
- 不宜,裁判文書並非連續出版品(期刊)或書籍章節,且非文獻原始名稱。—— Eric Liu(留言) 2025年12月8日 (一) 10:42 (UTC)
- 不同的國家,對於己國法律文書是否具有版權有不同認識,故單從先例來討論意義有限。
目前本地讨论基本一致通过,但是国际社群仍然表示反对,特别是有很多不了解中国裁判文书的具体情况的国际用户表示反对(建议回信澄清)。目前只适合导入部分文书,而且要注意个人隐私披露可能导致的法律风险。在获得国际社群或基金会同意之前,不建议全部导入。 Midleading(留言) 2026年1月9日 (五) 16:50 (UTC)
- 前幾天過年有點忙,就一直拖著。今天我寫一個提案給Meta-Wiki看看。 SuperGrey(留言) 2026年1月12日 (一) 06:23 (UTC)
參見
[编辑]- 元維基上的機器人相關頁面
- meta:bot - 機器人
- meta:Bot policy - 機器人方針
- meta:Countervandalism Network/Bots - 反破壞機器人
| |||||||||||||||||||||||||||||