2018年中國科學院繼續教育網科研人員在線學習數據集
2018年中國科學院繼續教育網科研人員在線學習數據集 作者:趙以霞 金昆 鄭曉歡 孔麗華 2019年9月26日 |
|
摘要&關鍵詞
[編輯]摘要:為更好地面向科研人員提供學習服務,促進科技創新發展,中國科學院繼續教育網為科研人員提供在線學習服務,科研人員自主選學課程。2018年1月1日至2018年12月31日,共積累219472條學習數據,學習時長為212382.74小時。初步數據分析結果顯示,10–12時和14–18時是學習行為產生的高峰期,但晚上18–24時也有相當數量的學習行為,不可忽視。每次學習時長與性別年齡無顯著相關,科研人員最感興趣的學習內容更多聚焦在人工智能和大數據方面。通過數據集,可以分析不同專業技術職稱、不同年齡、不同性別、不同工作年限科研人員的在線學習時間點傾向、學習內容傾向和學習時長傾向,為精準服務科研人員在線學習奠定基礎。
關鍵詞:科研人員;在線學習;繼續教育網;學習分析
Abstract & Keywords
[編輯]Abstract: In order to promote scientific and technological innovation and development, the Continuing Education Network of the Chinese Academy of Sciences (CASMOOC) provides online learning services where researchers choose courses independently. This study examines a time period from January 1, 2018 to December 31, 2018, through which 219,472 data entries were accumulated, amounting to a total learning time of 21,282.74 hours. It shows that online learning behavior arrives at its peak at 10am to 12am and 14pm to 18pm while we should not ignore that considerable learning behaviors occur at 18pm to 24pm. There is no significant correlation exists among learning duration, gender and age, and artificial intelligence and big data are on the highest demand. The data set provides a locus for analyzing the tendencies of researchers』 online learning time, content and duration across a variety of professional and technical titles, ages, genders and working years, which lays a precise foundation for online curriculum design of scientific researchers.
Keywords: scientific researchers; online learning; CASMOOC; learning analysis
數據庫(集)基本信息簡介
[編輯]數據庫(集)名稱 | 2018年中國科學院繼續教育網科研人員在線學習數據集 |
數據作者 | 趙以霞、金昆、鄭曉歡、孔麗華 |
數據通信作者 | 趙以霞(zyx@cnic.cn) |
數據時間範圍 | 2018年 |
調查範圍 | 中國科學院129個機構科研職工 |
數據量 | 42299 KB,219472條 |
數據格式 | *.xlsx |
數據服務系統網址 | http://www.sciencedb.cn/dataSet/handle/752 |
基金項目 | 中國科學院「十三五」信息化建設子課題「服務人才高地建設的智慧終身學習平台」(2017-2018)。 |
數據庫(集)組成 | 數據集由3個數據表單組成:「所有選學數據」「僅選學未學」和「選學且學習」。「所有選學數據」表單包括219472條數據;「僅選學未學」表單包括12716條數據;「選學且學習」表單包括206756條數據。「所有選學數據」表單和「僅選學未學」表單的樣本數據共有11個字段,其中基本信息有5個字段;「選學且學習」表單的樣本數據共有12個字段,基本信息有5個字段。 |
Dataset Profile
[編輯]Title | Online learning data set for scientists on CASMOOC in 2018 |
Data corresponding author | Zhao Yixia (zyx@cnic.cn) |
Data authors | Zhao Yixia, Jin Kun, Zheng Xiaohuan, Kong Lihua |
Time range | 2018 |
Survey scope | Research Staff of 129 Institutions of Chinese Academy of Sciences |
Data volume | 42,299 KB, 219,472 entries |
Data format | *.xlsx |
Data service system | <http://www.sciencedb.cn/dataSet/handle/752> |
Source of funding | E-learning System Project of the 13th Five-Year Informatization Program of the Chinese Academy of Sciences (2017-2018). |
Dataset composition | The data set consists of three data sheets, namely, 「All Selected Courses」, 「Selected but not Attended」 and 「Selected and Attended」. 「All Selected Courses」 includes 219 472 pieces of data; 「Selected but not Attended」 includes 12,716 pieces of data; and 「Selected and Attended」 includes 206,756 pieces of data. Each entry of 「All Selected Courses」 and 「Selected but not Attended」 have 11 data fields, of which 5 fields account for basic information, while 「Selected and Attended」 has 12 fields, of which 5 fields account for basic information. |
引 言
[編輯]2011年,新媒體聯盟(New Media Consortium,NMC)發布《地平線報告(高教版)》,預測學習分析技術將在4–5年內應用起來,並將學習分析定義為大範圍收集學生的學習數據並加以分析,從而評價學生的學習進度、預測其未來的學習表現,並查找潛在的問題[1]。2011–2019年,旨在促進個性化學習的學習分析技術與自適應學習一直是新媒體聯盟地平線報告所預測的技術趨勢。隨着MOOC(Massive Open Online Courses,大規模開放在線課程)的發展,在線學習數據迅速積累起來,進一步推動了基於在線學習數據開展用戶分析。2014年6月,哈佛大學和麻省理工學院聯合發布了經過整理的2012–2013學年edX平台(麻省理工和哈佛大學於2012年4月聯手創建的大規模開放在線課堂平台,網址www.edx.org/course)16門課程開放數據供全球研究者使用[2]。2014年,羅切斯特大學計算機科學副教授菲利普·郭,針對edX數學和科學課程的862個視頻課程,基於12.8萬人的690萬條視頻在線觀看記錄數據,開展分析,研究受歡迎的課程媒體形式[3]。為提升專業技術人員能力,我國人力資源和社會保障部發布2015年《專業技術人員繼續教育規定》,對專業技術人員的學習時間提出要求,並明確參加遠程教育是有效的繼續教育學習方式之一。不同於其他專業技術人員,國家相關行業會提出明確的公需課和專業課學習要求,並組織實施,自然科學研究人員的學習具有更強的自主性。為此,中國科學院專門建設中國科學院繼續教育網,為科研人員提供自主學習服務,促進知識更新。本數據集是基於2018年中國科學院科研人員的學習習慣建立的學習數據,通過分析不同專業技術職稱、不同年齡、不同性別、不同工作年限科研人員的在線學習時間點傾向、學習內容傾向和學習時長傾向,可以為精準服務科研人員在線學習奠定基礎。
1 數據採集和處理方法
[編輯]為獲得科研人員學習數據,本研究構建起科研人員專屬的在線學習平台,匯聚各類課程資源,進而記錄科研人員在線選學課程和學習時長。
1.1 學習平台開發設計
[編輯]為面向中國科學院100多個科研機構的科研人員提供有針對性的學習服務,研發中國科學院繼續教育網,支持各院屬機構組織管理培訓,發布資源,管理人員,進行統計分析。科研人員登陸中國科學院繼續教育網可以自主選學課件,報名培訓班,並圍繞課件、培訓班等資源進行交流互動[4]。
1.2 建設和匯聚在線學習資源
[編輯]MOOC的發展,為用戶帶來了大規模學習資源的同時,也會帶來信息過載問題。中國科學院繼續教育網實現了自主研發資源和匯聚外部資源功能,主要由各科研院所自主上傳和匯聚。截至2018年底,共積累3062個課件資源,包括三分屏課件、視頻課件、微課件、單一文檔(PPT、PDF、WORD等),以及外部優質資源鏈接。
1.3 在線學習數據記錄收集與清洗
[編輯](1)數據收集:中科院繼續教育網用戶信息由各研究院所維護,本研究利用中科院繼續教育網的職工在線學習統計功能,直接獲得2018年1月1日至2018年12月31日科研人員在線學習數據。
(2)數據清洗:結合本研究目的,剔除管理人員、支撐人員、工人等人群的學習數據,最終得到科研人員在線學習數據集。由於部分院屬單位對於人員的標識不完整,科研人員屬性值缺失,本文僅保留具有明確的科研人員屬性值且標識專業技術職稱的學習數據。
(3)數據處理:由於涉及科研人員的個人信息,為保護隱私數據,本文採用編號標識科研人員唯一性,並將出生年月和入所工作時間進行計算,轉換為年齡和工作年限予以標識。為進一步分析學習時間段特點,將數據集劃分為12個時間段,即每2小時為1個時間段,從0–2時開始,至22–24時。
1.4 樣本數據人口統計特徵
[編輯]本文最終得到219472條學習數據,來自10360名科研人員,其中選學並學習為206756條,僅選學並未學習有12716條。206756條學習數據由10245位科研人員產生,學時合計為212382.74小時。針對重點分析學習行為,本文重點統計10245人的基本信息,其人口統計特徵如下(詳見數據集性別、年齡、工作年限、職稱)。10245名科研人員中,有6846位男性科研工作者,占比66.82%,3399名女性科研工作者,占比33.18%。在線學習科研人員年齡方面,31~50歲的科研人員占比78.87%;從事工作年限方面,集中在三個區域「1~5年」「6~10年」「11~20年」,共占比89.71%;受訪者專業技術職稱方面,初級占比7.67%,中級占比41.03%,副高級占比35.93%;正高級占比15.36%(詳細見表1)。
表1 樣本人口統計基本特徵描述
序號 | 樣本特徵 | 具體統計 | 樣本數 | 百分比 |
1 | 年齡 | 30歲以下31~40歲41~50歲51~60歲61歲以上 | 109858872193102839 | 10.72%57.46%21.41%10.03%0.38% |
2 | 性別 | 男女 | 68463399 | 66.82%33.18% |
3 | 工作年限 | 1年以下1~5年6~10年11~20年20~30年30年以上 | 3212335413527637414 | 0.03%20.72%34.56%34.43%6.22%4.04% |
4 | 職稱 | 初級專業技術人員 | 786 | 7.67% |
中級專業技術人員 | 4204 | 41.04% | ||
副高級專業技術人員 | 3681 | 35.93% | ||
正高級專業技術人員 | 1574 | 15.36% | ||
5 | 合計 | 10245 | 100% |
2 數據樣本描述
[編輯]本數據集的數據存儲於Excel文件的3個數據表單中,「所有選學數據」表單存放10360名科研人員2018年課件選學和學習相關數據,共有219472條學習記錄;「僅選學未學」表單存放具有選學行為、但未開始學習的12716條數據記錄;「選學且學習」表單存放選學且有學習行為的206756條學習記錄。這3個數據表單所包含的具體字段名稱、類型及示例見表2。關於課程時長字段數值,取值範圍在0.05~48之間,平均值為1.27小時。
表2 所有選學數據內容
字段名稱 | 數據類型 | 示例 | |
1 | 人員ID | 字符型 | 53143 |
2 | 性別 | 布爾型 | 男 |
3 | 年齡(歲) | 數值型 | 47 |
4 | 工作年限(年) | 數值型 | 5 |
5 | 職級 | 字符型 | 正高級 |
6 | 課程ID | 字符型 | 1493371795041 |
7 | 課程名稱 | 字符型 | 微積分:8分鐘白話(中文) |
8 | 課程時長(小時) | 數值型 | 0.2 |
9 | 學習日期 | 日期型 | 2018/1/1 |
10 | 學習時間 | 時間型 | 9:10:16 |
11 | 學習時長(小時) | 數值型 | 0.13 |
3 數據質量控制和評估
[編輯]3.1 質量控制
[編輯]數據集質量主要通過系統限定實現,以人工干預為輔。在設計在線學習功能時,實現20分鐘內需要答題繼續記錄學時,否則中斷記錄;在線學習統計功能,實現同一課件跨年度重新選學,課件學習時長小於課件時長記錄,限制用戶多個瀏覽器終端或瀏覽器同時學習,並實現課件繼續學習功能,支持斷點續學。
人工干預方面,主要是對最終收集的數據進行轉換,剔除人員敏感信息,結合本文研究目的,分離僅選學未有學習行為和有學習行為的數據。雖然沒有學習行為,但選學課程到個人學習空間,也代表用戶的一種興趣和需求,因此,本文將此類數據保留到了數據集中。
3.2 質量評估
[編輯]本文提供的2018年科研人員在線學習數據集,通過研究院所維護保障人員信息的真實性,並通過設定系列學時計算規則控制數據質量,保障數據的可用性和真實性,可以基於此學習數據集開展系列學習分析工作。
(1)學習行為與選學行為比例分析
學習率在選學中達到94%,選學某個課件但從未點擊開始學習的比例為6%,轉化率較好,這為在線資源開發和推送提供依據(圖1)。
圖1 選學轉化率
(2)不同職稱男女學習比例分析
根據中國科學院統計年鑑,中科院科研人員專業技術崗位的男女比例約為2.2∶1。本數據集中,具有學習行為的男女科研人員比例為2∶1,說明女性在線學習積極度略高於男性科研人員。在副高級選學人數中,男女選學比例與實際人員數據男女統計比例基本一致;而在初級、中級和正高級的科研人員選學男女比例中,均顯示女性科研人員在線選學比男性科研人員更積極一些(圖2)。
圖2 不同性別和職稱學習數據對比
(3)不同職稱不同性別人均年累計學習時長分析
對不同職稱級別的男性和女性科研人員的年累計學習時長分別求平均值,可以看出男性科研人員的年累計學習時長均高於女性,在正高級科研人員中,尤為突出。而隨着職稱的提升,科研人員的人均年累計學習數據有較為明顯的下降,女性科研人員人均年累計學時從23小時降低到16小時,而男性科研人員人均年累計學時從23小時降低到19小時(圖3)。
圖3 不同性別和職稱人均學習時長對比
(4)學習時間段規律
初級、中級、副高級和正高級人員的學習時間段呈現較為一致的趨勢,主要集中在上午10–12時、14–18時,而18–24時也是不可忽視的學習時間段,這為後續精準推送學習資源的時間提供了參考,使得資源能夠更有效地為科研人員學習(圖4)。
圖4 不同職稱人員學習時間段對比
(5)不同年齡每次學習時長特點
利用學習時長數據除以學習記錄數據,得到平均每次學習時長,該學習時長與課件時長有較強相關性。結合不同年齡和性別進行分析,可以看出每次學習時長數和年齡、性別無明顯相關,基本都在1小時左右(圖5)。對數據進行深入分析,可得到更多學習規律。
圖5 不同年齡和性別每次學習時長對比
(6)已學習課程與未學習課程分析
共匯聚3062個課件資源,1915個課程被選學,選學率僅達到63%,還有1147個課件從未被選學。通過分析1915個課程的特點,為後續研發課件資源提供支持。
(7)最受歡迎課程分析
按照選學人次對課程進行排序,選課人數在1000人以上的課程,共有11個,集中在大數據、人工智能、信息技術等方面,如表3所示。
表3 選學最多的課程排名
序號 | 課程名稱 | 選學人數 |
1 | 大數據與數據智能 | 1587 |
2 | 人工智能:天使還是惡魔? | 1477 |
3 | 深度學習研究進展與現狀 | 1403 |
4 | 信息技術發展趨勢 | 1373 |
5 | 核化學與放射化學基礎知識 | 1333 |
6 | 鍶原子光晶格鍾 | 1188 |
7 | 用心陪伴我們的孩子 | 1120 |
8 | 天旋、歲差與中西之爭:清代思想史的故事 | 1077 |
9 | 天工論壇第19期-太陽能人工光合成 | 1074 |
10 | 以現代化經濟體系支撐「兩個一百年」的宏偉藍圖 | 1044 |
11 | 新量子革命:從量子物理基礎檢測到量子信息技術 | 1021 |
4 數據使用方法和建議
[編輯]2018年中國科學院繼續教育網科研人員在線學習數據集以EXCEL存儲,使用者可以通過EXCEL工具或轉換格式導入到數據庫進行查看、檢索、分析、數據挖掘等操作。可以通過關聯規則挖掘課程之間的關係,構建推薦系統,在基於學習行為分析的個性推薦方面開展深入研究和應用,進一步提升中科院繼續教育網的智能化水平。
致 謝
[編輯]感謝在中國科學院繼續教育網開發及資源研發中貢獻智慧的專家和研發人員。
參考文獻
[編輯]- ↑ New Media Consortium. 2011 Horizon Report[EB/OL]. (2011-02-08) [2019-09-23]. https://library.educause.edu/resources/2011/2/2011-horizon-report.
- ↑ MITx and HarvardX. HarvardX-MITx Person-Course Academic Year 2013 De-Identified dataset, version 2.0[EB/OL]. (2014-06-09) [2019-09-23]. http://thedata.harvard.edu/dvn/dv/mxhx.
- ↑ HAZLETT C. How MOOC Video Production Affects Student Engagement[EB/OL]. (2014-03-12) [2019-09-23]. https://blog.edx.org/how-mooc-video-production-affects.
- ↑ 趙以霞, 金昆, 金瑛. 網絡環境下科研人員繼續教育內容研究——以中國科學院繼續教育網資源為例[J]. 科研信息化技術與應用, 2018, 9(06): 31-38.
數據引用格式
[編輯]趙以霞, 金昆, 鄭曉歡, 孔麗華. 2018年中國科學院繼續教育網科研人員在線學習數據集[DB/OL]. Science Data Bank, 2019. (2019-04-14). DOI: 10.11922/sciencedb.752.