add readme
This commit is contained in:
parent
1e634065ff
commit
9e02795464
133
README.md
133
README.md
|
@ -1,2 +1,133 @@
|
|||
# new_pullreq_dataset
|
||||
# pull-based开发模式相关数据集
|
||||
|
||||
## 各字段含义如下
|
||||
|
||||
### 每一行对应一条pull request记录
|
||||
|
||||
- project_id:GHTorrent projects表的id
|
||||
- github_id:GitHub中项目的第X个pull request
|
||||
- pull_request_id:GHTorrent pull_requests表的id
|
||||
- ownername:项目创建者login
|
||||
- reponame:项目名称
|
||||
- merged_or_not:PR被合并还是拒绝了
|
||||
- lifetime_minutes:PR open的时间
|
||||
- mergetime_minutes:PR被合并花费的时间
|
||||
- num_commits:PR关闭时包含的commit数量
|
||||
- src_churn:PR关闭时修改的源代码行数
|
||||
- test_churn:PR关闭时修改的测试代码行数
|
||||
- filed_added:PR关闭时添加的文件数量
|
||||
- files_deleted:PR关闭时删除的文件数量
|
||||
- files_modified:PR关闭时修改的文件数量
|
||||
- files_changed:PR关闭时变更的文件数量
|
||||
- src_files:PR关闭时修改的源代码文件数量
|
||||
- doc_files:PR关闭时修改的文档数量
|
||||
- other_files:PR关闭时修改的其他文件数量
|
||||
- num_commits_comments:代码行评论数量
|
||||
- num_issue_comments:页面中PR描述下的评论数量
|
||||
- num_comments:评论数量
|
||||
- num_participants:参与评论者数量
|
||||
- sloc:提交PR时,项目中源代码行数
|
||||
- team_size:提交PR时,项目核心开发者数量
|
||||
- perc_external_contribs:提交PR时,项目外围贡献者占比
|
||||
- commits_on_files_touched:提交PR时,修改的热门文件数量
|
||||
- test_lines_per_kloc:提交PR时,项目中包含的测试代码数量
|
||||
- test_cases_per_kloc:提交PR时,项目中包含的测试用例数量
|
||||
- asserts_per_kloc:提交PR时,项目中包含的断言语句数量
|
||||
- watchers:提交PR时,项目的star数量
|
||||
- prev_pullreqs:贡献者之前在项目中提交的PR数量
|
||||
- requester_succ_rate:贡献者PR合并成功率
|
||||
- followers:贡献者被关注的人数
|
||||
- churn_addition:提交PR时,添加的代码行数
|
||||
- churn_deletion:提交PR时,删除的代码行数
|
||||
- pr_comment_num:review形式提交的评论数量
|
||||
- perc_neg_emotion:评论中消极情绪占比
|
||||
- perc_pos_emotion:评论中积极情绪占比
|
||||
- perc_neu_emotion:评论中中立情绪占比
|
||||
- part_num_issue:参与PR描述下评论的人数
|
||||
- part_num_commit:参与代码行评论的人数
|
||||
- part_num_pr:参与review评论的人数
|
||||
- part_num_code:参与代码级别评论的人数(commit/pr评论参与人数总和)
|
||||
- comment_conflict:PR是否包含"conflict"关键词评论
|
||||
- hash_tag:PR是否包含"#"
|
||||
- at_tag:PR是否包含"@"
|
||||
- test_inclusion:PR是否包含测试代码
|
||||
- description_length:PR描述长度
|
||||
- bug_fix:PR是否修复了bug
|
||||
- ci_exists:PR是否使用了CI工具
|
||||
- ci_latency:CI构建延迟(s)
|
||||
- ci_build_num:CI构建次数
|
||||
- ci_test_passed:CI是否通过了测试
|
||||
- ci_failed_perc:CI构建失败次数
|
||||
- ci_first_build_status:CI首次构建结果
|
||||
- ci_last_build_status:CI最后一次构建结果
|
||||
- language:项目使用的主要编程语言
|
||||
- fork_num:提交PR时,项目被fork数量
|
||||
- project_age:提交PR时,项目年龄
|
||||
- open_issue_num:提交PR时,项目中处于open状态的issue数量
|
||||
- pr_succ_rate:项目PR合并成功率
|
||||
- open_pr_num:提交PR时,项目中处于open状态的PR数量
|
||||
- first_response_time:PR首次被回复的时间间隔
|
||||
- pushed_delta:距离上次PR提交的时间间隔
|
||||
- acc_commit_num:贡献者被合并的commit数量
|
||||
- first_pr:是否是贡献者的首个PR
|
||||
- account_creation_days:贡献者账号首次创建时间
|
||||
- core_member:贡献者是否为核心开发者
|
||||
- contrib_gender:贡献者性别
|
||||
- contrib_country:贡献者所属国家
|
||||
- contrib_affiliation:贡献者所属机构
|
||||
- contrib_open/cons/extra/agree/neur:贡献者五人格得分
|
||||
- perc_contrib_neg_emo:贡献者评论中消极情绪占比
|
||||
- perc_contrib_pos_emo:贡献者评论中积极情绪占比
|
||||
- perc_contrib_neu_emo:贡献者评论中中立情绪占比
|
||||
- contrib_first_emo:贡献者首次评论的情绪
|
||||
- prior_review_num:贡献者之前审查的PR数量
|
||||
- inte_country:合并者所属国家
|
||||
- inte_affiliation:合并者所属组织
|
||||
- inte_open/cons/extra/agree/neur:合并者五人格得分
|
||||
- perc_inte_neg_emo:合并者评论中消极情绪占比
|
||||
- perc_inte_pos_emo:合并者评论中积极情绪占比
|
||||
- perc_inte_neu_emo:合并者评论中中立情绪占比
|
||||
- inte_first_emo:合并者首次评论的情绪
|
||||
- contrib_follow_integrator:贡献者是否关注了审查者
|
||||
- prior_interaction:贡献者与项目之前的交互情况
|
||||
- social_strength:贡献者与项目的社交相关性
|
||||
- same_country:贡献者与合并者是否来自同一个国家
|
||||
- same_affiliation:贡献者与合并者是否来自同一个组织
|
||||
- open/cons/extra/agree/neur_diff:贡献者与合并者无人格差异
|
||||
- has_comments:PR是否包含评论信息
|
||||
- has_participants:PR是否有评论者
|
||||
- has_exchange:PR中是否有贡献者与审查者的交流
|
||||
- contrib_comment:PR中是否包含贡献者的评论
|
||||
- inte_comment:PR中是否包含合并者的评论
|
||||
- reviewer_comment:PR中是否包含审查者的评论
|
||||
- other_comment:PR中是否包含除了贡献者和审查者之外的人的评论
|
||||
- num_comments_con:PR中贡献者评论数量
|
||||
- num_code_comments:PR中代码相关评论数量
|
||||
- num_code_comments_con:PR中贡献者对代码评论的数量
|
||||
- integrator_availability:活跃的贡献者多久之后有时间审阅
|
||||
- friday_effect:PR是否是周五提交的
|
||||
- contrib_rate_author:PR贡献者项目中代码贡献占比
|
||||
- reopen_or_not:PR是否重启过
|
||||
- first_close_minutes:PR首次被关闭的时间间隔
|
||||
- reopen_num:PR重启次数
|
||||
- last_close_time:PR最后一次被关闭的时间
|
||||
- creator_id:PR创建者的id(对应GHTorrent users表的id)
|
||||
- first_closer_id:PR首次关闭者的id(对应GHTorrent users表的id)
|
||||
- last_closer_id:PR最后一次关闭者的id(对应GHTorrent users表的id)
|
||||
- num_commits_open:提交PR时包含的commit数量
|
||||
- same_user:贡献者与合并者是否为同一个人
|
||||
- files_added_open:提交PR时添加的文件数量
|
||||
- files_deleted_open:提交PR时删除的文件数量
|
||||
- files_modified_open:提交PR时修改的文件数量
|
||||
- files_changed_open:提交PR时修改的文件数量
|
||||
- src_files_open:提交PR时修改的源代码文件数量
|
||||
- doc_files_open:提交PR时修改的文档文件数量
|
||||
- other_files_open:提交PR时修改的其他文件数量
|
||||
- src_churn_open:提交PR时修改的源代码行数
|
||||
- test_churn_open:提交PR时修改的测试代码行数
|
||||
- code_churn_open:提交PR时修改的代码行数
|
||||
- churn_addition_open:提交PR时增加的行数
|
||||
- churn_deletion_open:提交PR时删除的行数
|
||||
- code_chunk_num_open:提交PR时修改的代码块数量
|
||||
- commits_on_files_touched_close:PR关闭时修改的热门文件数量
|
||||
- test_inclusion_open:提交PR时是否包含测试代码
|
Loading…
Reference in New Issue